Statistika

Pengantar Deskriptip Teori Peluang Variabel Random Diskrit Variabel Random Kontinyu Teori Sampling Estimasi Uji Hipotesis Regresi Linear Sederhana Model Linear Umum Analisis Varian Tes Formatif

Regresi Linear Sederhana

Di dalam bidang ilmu pengetahuan dan teknologi, sering dijumpai hubungan antara dua variabel.

Sebagai contoh, "hubungan antara besarnya penghasilan dengan besarnya pengeluaran".

Dalam contoh ini hal ini, variabel pengeluaran tergantung pada variabel penghasilan. Oleh karena itu

Untuk selanjutnya,

Contoh

Misalnya dilakukan observasi terhadap 12 orang untuk mendapatkan data penghasilan dan pengeluaran. Hasil observasi dinyatakan dalam tabel berikut (dalam jutaan rupiah).
Penghasilan ($X$)5.57.54.39.48.56.09.27.25.54.26.58.3
Pengeluaran ($Y$)4.56.04.78.06.25.77.56.55.04.05.87.5
Berdasarkan data tersebut akan dipelajari bagaimana hubungan antara penghasilan ($X$) dan pengeluaran ($Y$). Cara yang cukup mudah untuk melihat hubungan kedua variabel adalah dengan menggambarkan titik-titik yang merupakan pasangan $X$ dan $Y$ untuk setiap orang pada bidang-$xy$. Gambar demikian dinamakan diagram pencar (scatter diagram). Dari diagram ini bisa dipelajari pola hubungan kedua variabel. Dari gambar tersebut nampak bahwa semakin besar penghasilan, semakin besar pula pengeluaran.
scatter
Selanjutnya kita bisa mencoba menggambarkan garis yang menjelaskan pola titik-titik pada diagram pencar tersebut. Garis demikian secara matematis berbentuk persamaan linear dan sering disebut persamaan regresi. Karena hanya terdiri atas satu variabel bebas, maka persamaan ini dinamakan regresi linear sederhana.
regresi
Bentuk umum persamaan regregresi linear sederhana adalah \[ Y_i = \alpha +\beta X_i +\varepsilon_i\] dimana:

Estimasi $\alpha$ dan $\beta$

Untuk memprediksi nilai $\alpha$ dan $\beta$ pada persamaan regresi tersebut, perlu dilakukan observasi sehingga diperoleh data berpasangan \[ (X_1,Y_1), (X_2, Y_2), \cdots, (X_n,Y_n).\] Tentu kita menghendaki agar suku kesalahan $\epsilon_i$ pada persaman regresi dibuat sekecil mungkin. Ada suatu metoda di dalam matematika untuk mencari parameter ini sehingga jumlah kuadrat kesalan randomnya adalah minimal, yaitu least square method (metode kuadrat terkecil). Dengan menggunakan metode ini, dapat ditunjukkan bahwa nilai parameter $\alpha$ dan $\beta$ dapat diestimasi dengan menggunakan rumus:

\[ \hat{\beta}=\frac{\sum_{i=1}^nX_iY_i-\overline{X}\sum_{i=1}^nY_i}{\sum_{i=1}^nX_i^2-n\overline{X}^2} \] dan \[ \hat{\alpha}= \overline{Y}-\hat{\beta}\overline{X} .\]

Contoh

Berikut ini contoh untuk mencari persamaan regresi untuk menjelaskan hubungan antara penghasilan ($X$) dan pengeluaran ($Y$) pada contoh di atas.

Untuk memudahkan prediksi paramater $\alpha$ dan $\beta$ tersebut, perhitungan dilakukan dengan bantuan tabel berikut:

Observasi ke $i$ $X$ $Y$ $XY$ $X^2$
1 5.5 4.5 24.75 30.25
2 7.5 6 45 56.25
3 4.3 4 17.2 18.49
4 9.4 8 75.2 88.36
5 8.5 6.2 52.7 72.25
6 6 5.7 34.2 36
7 9.2 7.5 69 84.64
8 7.2 6.5 46.8 51.84
9 5.5 5 27.5 30.25
10 4.2 4 16.8 17.64
11 6.5 5.8 37.7 42.25
12 8.3 7.5 62.25 68.89
Jumlah82.170.7509.1597.11
    Dari baris terakhir tabel tersebut diperoleh:
  • $\sum_{i=1}^{12}X_i = 82.1$
  • $\sum_{i=1}^{12}Y_i =70.7$
  • $\sum_{i=1}^{12}X_iY_i =509.1$
  • $\sum_{i=1}^{12}X^2_i =597.11$
  • $n = 12$
  • $\overline{X}=82.1/12=6.84$
  • $\overline{Y}=70.7/12=5.89$

Oleh karena itu \[ \hat{\beta}=\frac{\sum_{i=1}^nX_iY_i-\overline{X}\sum_{i=1}^nY_i}{\sum_{i=1}^nX_i^2-n\overline{X}^2}= \frac{509.1-(6.84)\cdot (70.7)}{597.11-(12)\cdot (6.84)^2}=0.7150,\] \[\hat{\alpha}= \overline{Y}-\hat{\beta}\overline{X}= 5.89-(0.7150)\cdot 6.84 = 0.9994.\]

Dengan demikian estimasi persamaan regresinya adalah \[ \hat{Y} = 0.9994 + 0.7150 X.\]

Manfaat persamaan ini diantaranya untuk memprediksi pengeluaran untuk pendapatan tertentu. Misalnya untuk penghasilan $10$ juta, nilai prediksi pengeluarannya adalah \[ \hat{Y}= 0.9994 + (0.7150)\cdot(10)= 8.15 \; juta\; rupiah.\]

Nilai $\hat{Y}_i = \hat{\alpha} + \hat{\beta} X_i$, dinamakan fitted value, menyatakan nilai prediksi $Y$ untuk setiap nilai variabel bebas $X_i$. Selisih antara $\hat{Y}_i$ dan nilai observasi $Y_i$ dinamakan residual $e_i$, yakni \[ e_i = Y_i - \hat{Y}_i.\] Dengan demikian $e_i$ merupakan besarnya deviasi (penyimpangan) nilai observasi terhadap nilai prediksi. Jumlah kuadrat dari $Y_i - \hat{Y}_i$ dinamakan jumlah kuadrat kesalahan (SSE = sum square of error), yaitu \[ SSE = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2.\] Jika semua nilai observasi berada pada garis regresi maka $Y_i = \hat{Y}_i$ sehingga $SEE=0$. Besarnya nilai $SSE$ menggambarkan seberapa jauh nilai observasi terhadap garis regresi. Untuk contoh di atas residual setiap observasi secara visual disajukan pada gambar residual. Dengan menggunakan rumus $e_i$, nilai residual untuk contoh tersebut disajikan pada tabel.
Obervasi kePendapatan ($X_i$)Nilai observasi ($Y_i$)Nilai prediksi ($\hat{Y}_i$)Residual ($e_i$)
1 5.5 4.5 4.895 -0.395
2 7.5 6 6.315 -0.315
3 4.3 4 4.043 -0.043
4 9.4 8 7.664 0.336
5 8.5 6.2 7.025 -0.825
6 6 5.7 5.25 0.45
7 9.2 7.5 7.522 -0.022
8 7.2 6.5 6.102 0.398
9 5.5 5 4.895 0.105
10 4.2 4 3.972 0.028
11 6.5 5.8 5.605 0.195
12 8.3 7.5 6.883 0.617

residual

Deviasi nilai obvervasi terhadap rata-rata observasi adalah \[Y_i - \bar{Y}\] Jumlah kuadrat dari deviasi ini dinamakan jumlah kuadrat total (SST=total sum of square), yakni \[ SST = \sum_{i=1}^n (Y_i - \bar{Y})^2.\] Kuantitas $SST$ ini menggambarkan variasi antara nilai observasi $Y_i$. Semakin besar nilai $SST$ berarti semakin bervariari nilai $Y_i$.

Nilai $SST$ dapat dipartisi menjadi dua bagian sebagai berikut. \begin{eqnarray} SST &=& \sum_{i=1}^n (Y_i - \bar{Y})^2\\ &=& \sum_{i=1}^n [(Y_i - \hat{Y})+(\hat{Y}-\bar{Y})]^2\\ &=& \sum_{i=1}^n (Y_i - \hat{Y})^2+\sum_{i=1}^n(\hat{Y}-\bar{Y})^2+2\sum_{i=1}^n(Y_i - \hat{Y})(\hat{Y}-\bar{Y})\\ &=& \sum_{i=1}^n (Y_i - \hat{Y})^2+\sum_{i=1}^n(\hat{Y}-\bar{Y})^2\\ &=& SSE + SSR \end{eqnarray} dimana $SSR=\sum_{i=1}^n(\hat{Y}-\bar{Y})^2$ dinamakan jumlah kuadrat regresi (regression sum of square).

Mean square error (MSE) didefinisikan \[ MSE = \frac{SSE}{n-2},\] $n-2$ dinamakan derajat bebas.

Sifat estimator $\hat{\beta}$ dan $\hat{\alpha}$

Dapat ditunjukkan bahwa nilai harapan dari $\hat{\beta}$ dan $\hat{\alpha}$ berturut-turut adalah \begin{eqnarray*} E(\hat{\beta}) = \beta \\ E(\hat{\alpha})=\alpha \end{eqnarray*} Dengan demikian $\hat{\beta}$ dan $\hat{\alpha}$ masing-masing merupakan estimator tak bias untuk parameter $\beta$ dan $\alpha$. Untuk mengetahui variabilitas kedua estimator, dapat dipelajari melalui varian kedua estimator. Varian $\hat{\beta}$ dan $\hat{\alpha}$ adalah \begin{eqnarray*} Var(\hat{\beta}) = \frac{\sigma^2}{\sum x_i^2 -n\bar{x}^2} \\ Var(\hat{\alpha})=\frac{\sigma^2 \sum x_i^2}{n(\sum x_i^2-n\bar{x}^2)} \end{eqnarray*} Selisih antara nilai respon $Y_i$ dengan nilai prediksi $\hat{Y_i}$ dinamakan residual, \[\text{residual}=Y_i-\hat{\alpha}-\hat{\beta} x_i \] Untuk mengukur seberapa besar penyimpangan nilai respon terhadap prediksi diambil jumlah kuadrat residual. Jumlah kuadrat residual, ditulis $SSR$ adalah \[SSR = \sum \left(Y_i-\hat{\alpha} - \hat{\beta} x_i \right)^2 \] Dapat dibuktikan bahwa \[\frac{SSR}{\sigma^2} \] berdistribusi chi-square dengan derajat bebas $n-2$. Oleh karena itu nilai harapan $SSR/(n-2)$ adalah \[ E\left( \frac{SSR}{(n-2)} \right) = \sigma^2\] yang berarti $\frac{SSR}{(n-2)}$ merupakan estimator tak bias untuk parameter $\sigma^2$.

Untuk pembahasan selanjutnya, akan digunakan notasi berikut: \begin{eqnarray*} S_{xx}&= \sum_{i=1}^n (x_i-\bar{x})^2=\sum_{i=1}^n x^2_i -n\bar{x}^2 \\ S_{yy}&= \sum_{i=1}^n (y_i-\bar{y})^2=\sum_{i=1}^n y^2_i -n\bar{y}^2 \\ S_{xy}&= \sum_{i=1}^n (x_i-\bar{x}) (y_i-\bar{y})=\sum_{i=1}^n x_iy_i -n\bar{x}\bar{y}\\ \end{eqnarray*}

Inferensi tentang parameter $\beta$ dan $\alpha$

Karena $\hat{\beta}$ merupakan estimator, maka bisa dibentuk interval kepercayaan parameter $\beta$. Interval kepercayaan $100(1-\alpha)$ persen untuk $\beta$ diberikan oleh \[ \left( \hat{\beta}-t_{\alpha/2,n-2} \sqrt{\frac{SSR}{(n-2)S_{xx}}},\: \hat{\beta}+t_{\alpha/2,n-2} \sqrt{\frac{SSR}{(n-2)S_{xx}}} \right) \] Di dalam persamaan regresi \[y=\alpha+\beta x + e \] penting untuk menguji hipotesis apakah $\beta$ sama dengan $0$, yaitu \[H_0: \beta=0 \quad \textnormal{melawan} \quad H_1:\beta \neq 0 \] pada tingkat signifikansi $\alpha$. Untuk menguji $H_0$ pada tingkat signifikansi $\alpha$ digunakan statistik penguji \[t=\sqrt{\frac{(n-2)S_{xx} }{SSR}\beta }\] dimana $H_0$ diterima jika $|t| \leq t_{\alpha/2,n-2}$ dam ditolak jika $|t| > t_{\alpha/2,n-2}$.\\ Interval kepercayaan untuk parameter intersep $\alpha$ adalah \begin{equation} \left( \hat{\alpha} - \sqrt{\frac{\sum x_i^2 SSR}{n(n-2)S_{xx}}} t_{\alpha/2, n-2},\: \hat{\alpha} + \sqrt{\frac{\sum x_i^2 SSR}{n(n-2)S_{xx}}} t_{\alpha/2, n-2} \right) \end{equation}

Koefisien Determinasi

Persamaan regresi yang telah diperoleh perlu diselidiki seberapa besar persamaan tersebut mampu menjelaskan data yang sebenarnya. Berdasarkan data $(X_1,Y_1),(X_2,Y_2),\cdots ,(X_n,Y_n)$, bisa dicari variasi variabel respon $Y$ yang disebabkan pengaruh variabel penjelas $X$. Variasi variabel $Y$ didefinisikan oleh \begin{equation} S_{yy}=\sum_{i=1}^n(Y_i-\bar{Y})^2 \end{equation} Karena $Y=\alpha + \beta X + \epsilon$, maka variasi $Y$ disebabkan oleh dua komponen, yaitu

Karena variasi yang sebabkan oleh faktor kesalahan random adalah $SSR$, maka

variasi yang disebabkan oleh variabel penjelas $X$ = variasi $Y$ - variasi oleh kesalahan random.

Proporsi variasi yang disebabkan oleh variabel penjelas dinamakan koefisien determinasi, dituliskan $R^2$. Dengan demikian \begin{equation} R^2=\frac{variasi \: X}{variasi \: Y}=\frac{S_{yy}-SSR}{S_{yy}} = 1 - \frac{SSR}{S_{yy}} \end{equation} dimana Perhatikan bahwa $0 \leq S_{yy}-SSR \leq S_{yy}$. Oleh karena itu nilai koefisien determinasi memenuhi \[0 \leq R^2 \leq 1.\]

Semakin besar nilai $R^2$, semakin baik persamaan regresi tersebut mampu menjelaskan data yang sebenarnya.

Contoh

Pada contoh ini akan dicari nilai koefisien determinasi pada contoh di atas. Proses perhitungannya bisa menggunakan tabel berikut:
$X$$Y$ $\hat{Y}$ $(Y-\hat{Y})^2$ $(Y-\overline{Y})^2$
5.5 4.5 4.93 0.1849 1.9321
7.5 6 6.3619 0.131 0.0121
4.3 4 4.0739 0.0055 3.5721
9.4 8 7.7204 0.0782 4.4521
8.5 6.2 7.0769 0.769 0.0961
6 5.7 5.2894 0.1686 0.0361
9.2 7.5 7.5774 0.006 2.5921
7.2 6.5 6.1474 0.1243 0.3721
5.5 5 4.9319 0.0046 0.7921
4.2 4 4.0024 0 3.5721
6.5 5.8 5.6469 0.0234 0.0081
8.3 7.5 6.9339 0.3205 2.5921
Jumlah 1.816 20.0292

Dengan demikian nilai koefisien determinasi adalah \[ R^2=1 - \frac{SSR}{S_{yy}}=1-\frac{1.816 }{20.0292}=0.9093,\] yang berarti bahwa persamaan regresi yang telah diperoleh di atas bisa menjelaskan data sebenarnya sebesar 90.90 %.

Korelasi

Korelasi merupakan ukuran keeratan hubungan antara dua variabel. Di dalam korelasi tidak dipersoalkan hubungan sebab akibat. Dengan demikian pernyataan "korelasi antara variabel $X$ dan $Y$" sama saja dengan pernyataan "korelasi antara variabel $Y$ dan $X$".

Keeratan hubungan antara dua variabel dinyatakan dengan koefisien korelasi. Jika $(x_1,y_1), (x_2,y_2), \cdots , (x_n,y_n)$ adalah data sampel, maka koefisien korelasi antara variabel $X$ dan $Y$, ditulis $r$, didefinisikan \begin{equation} r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2 \sum_{i=1}^n(y_i-\bar{y})^2}} \label{korelasi} \end{equation}

Nilai koefisien korelasi adalah antara $-1$ sampai dengan $1$, yakni \[-1 \leq r \leq 1 .\]

Variabel $X$ dan $Y$ dikatakan:

Contoh

Berikut data berat badan ($X$) dan tinggi badan ($Y$) sepuluh orang dewasa:
Berat badan (kg)60635761727556506764
Tinggi badan (cm)162168165170168170155160164168

Tabel berikut merupakan proses perhitungan untuk mencari koefisien korelasi antara berat badan dan tinggi badan:

No. $X$ $Y$ $X-\overline{X}$ $Y-\overline{Y}$ $(X-\overline{X})^2$ $(Y-\overline{Y})^2$ $(X-\overline{X})(Y-\overline{Y})$
1 60 162 -2.5 -3 6.25 9 7.5
2 63 168 0.5 3 0.25 9 1.5
3 57 165 -5.5 0 30.25 0 0
4 61 170 -1.5 5 2.25 25 -7.5
5 72 1689.5 3 90.25 9 28.5
6 75 170 12.5 5 156.25 25 62.5
7 56 155 -6.5 -10 42.25 100 65
8 50 160 -12.5 -5 156.25 25 62.5
9 67 164 4.5 -1 20.25 1 -4.5
10 64 168 1.5 3 2.25 9 4.5
Jumlah 625 1650 506.5 212 220

Nilai koefiisien korelasinya adalah \[ r=\frac{220}{\sqrt{(506.5)\cdot (212)}}=0.6723.\] Ini berarti terdapat korelasi positif antara berat badan dan tinggi badang, dengan tingkat keeretan hubungan 67.23%.

Korelasi dan koefisien determinasi

Persamaan \ref{korelasi} dapat dituliskan sebagai \begin{equation} r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2 \sum_{i=1}^n(y_i-\bar{y})^2}} =\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} \end{equation} Karena $SSR=\frac{S_{xx}S_{yy}-S^2_{xy}}{S_{xx}}$, maka \begin{eqnarray*} r^2&=&\frac{S^2_{xy}}{S_{xx}S_{yy}}\\ &=&\frac{S_{xx} S_{yy}-SSR S_{xx}}{S_{xx}S_{yy}}\\ &=&1-\frac{SSR}{S_{yy}}\\ &=&R^2, \end{eqnarray*} yakni \[|r|=\sqrt{R^2} \] Ini berarti nilai absolut koefisien korelasi sama dengan akar dua koefisien determinasi. Tanda $r$ sama dengan tanda koefisien $\hat{\beta}$ didalam persamaan regresi.