# Data

Bij een onderzoek naar de studieresultaten van de eerstejaarsstudenten economie wordt bekeken hoe deze resultaten mogelijk samenhangen met de eindexamenresultaten op de middelbare school en de leeftijd van de studenten.

In [3]:
student = 1:10
gem.prop.cijfer = c(4.8, 5.2, 5.5, 6, 6.1, 6.5, 6.8, 7, 7.7, 8.2)
wisk.examen = c(5,6,5,6,7,8,7,9,8,9)
ec.examen = c(6,8,7,6,6,8,9,6,8,7)
leeftijd = c(20,18,23,21,22,19,17,18,19,18)

In [4]:
df = data.frame(student, gem.prop.cijfer, wisk.examen, ec.examen, leeftijd)
df

student,gem.prop.cijfer,wisk.examen,ec.examen,leeftijd
1,4.8,5,6,20
2,5.2,6,8,18
3,5.5,5,7,23
4,6.0,6,6,21
5,6.1,7,6,22
6,6.5,8,8,19
7,6.8,7,9,17
8,7.0,9,6,18
9,7.7,8,8,19
10,8.2,9,7,18


# Meervoudige regressiemodel

Het theoretische model luidt:

$$ \underline{Y} = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_kX_k + \epsilon $$

hiervan worden $\beta_0$ tot en met $\beta_k$ geschat door de grootheden $b_0$ to en met $b_k$, zodat het volgende geschatte model ontstaat:

$$ \underline{Y} = b_0 + b_1X_1 + b_2X_2 + \ldots + b_kX_k + \epsilon $$

De parameters $b_0$ tot en met $b_k$ worden bepaald met de kleinste kwadratenmethode. De voorspelde Y-waarde kunnen we berekenen zodra we de vergelijking $Y^c = b_0 + b_1X_1 + \ldots + b_kX_k$ kennen. Het doel is om de uitdrukking $\sum e_i^2$ te minimaliseren. We beschouwen eerst de uitdrukking:

$$ \sum e^2_i = \sum\left( Y_i - b_0 - b_1X_{1i} - b_2X_{2i} \right)^2 $$

Van deze uitdrukking nemen we de afgeleide naar $b_0, b_1, b_2$, het resultaat is een drietal vergelijkingen, de zogenoemde normaalvergelijkingen.

1. $\sum Y_i = nb_0 + b_1 \sum X_{1i} + b_2 \sum X_{2i}$
2. $\sum X_{1i}Y_i = b_0 \sum X_{1i} + b_1 \sum X_{1i}^2 + b_2 \sum X_{1i}X_{2i}$
3. $\sum X_{2i}Y_i = b_0 \sum X_{2i} + b_1 \sum X_{1i}X_{2i} + b_2 \sum X_{2i}^2$

Omdat de waarnemingen $(Y_i, X_{1i}, X_{2i}$ gegeven zijn, kunnen we alle sommaties berekenen. Daarom leveren de normaalvergelijkingen drie lineaire vergelijkingen met drie onbekende, zodat $b_0$, $b_1$ en $b_2$ opgelost kunnen worden. 

In [12]:
Y = unlist(df$gem.prop.cijfer)
X1 = unlist(df$wisk.examen)
X2 = unlist(df$ec.examen)

Eerste berekenen we alle sommaties zodat we de drie lineaire vergelijkingen kunnen opstellen.

In [14]:
SY = sum(Y)
SX1 = sum(X1)
SX2 = sum(X2)
SX1Y = sum(X1*Y)
SX1_2 = sum(X1^2)
SX1X2 = sum(X1*X2)
SX2Y = sum(X2*Y)
SX2_2 = sum(X2^2)
c(SY, SX1, SX2, SX1Y, SX1_2, SX1X2, SX2Y, SX2_2)

Hieruit volgt dat er de volgende drie lineaire vergelijkingen onstaan:

1. $63.8 = 10b_0 + 70b_1 + 71b_2$
2. $459.4 = 70b_0 + 510b_1 + 499b_2$
3. $455.7 = 71b_0 + 499b_1 + 515b_2$

Deze kunnen we gemakkelijk oplossen met R:

In [21]:
A = cbind(c(10, 70, 71), c(70, 510, 499), c(71, 499, 515))
b = c(63.8, 459.4, 455.7)
x = solve(A,b)
x

De oplossing voor de vergelijking is dus $b_0 = 1.03869, b_1 = 0.626542$ en $b_2 = 0.134579$. Dit leidt tot de vergelijking: $Y^c = 1.04 + 0.63X_1 + 0.13X_2$. Dus voor een student met $X_1 = 7$ en $X_2 = 7$ vinden we dus als voorspelling:

In [17]:
Yc = 1.04 + 0.63 * 7 + 0.13 * 7; Yc

# Correlatiematrix

Met $r_{ij}$ geven we de correlatie aan va nde variabele $X_i$ met $X_j$. Deze vorm van correlatie, die iets zegt over de onderlinge samenhang van verklarende variabelen, wordt _collineariteit_ genoemd. Het is gebruikelijk om alle berekende correlatiecoefficienten te plaatsen in een schema dat de _correlatiematrix_ wordt genoemd.

In [18]:
cor(df)

Unnamed: 0,student,gem.prop.cijfer,wisk.examen,ec.examen,leeftijd
student,1.0,0.9913582,0.910877,0.2501042,-0.4779733
gem.prop.cijfer,0.9913582,1.0,0.8826117,0.2540565,-0.4620062
wisk.examen,0.910877,0.8826117,1.0,0.1354571,-0.5710402
ec.examen,0.2501042,0.2540565,0.1354571,1.0,-0.5414602
leeftijd,-0.4779733,-0.4620062,-0.5710402,-0.5414602,1.0


In [19]:
cov(X1, X2) / (sd(X1) * sd(X2))

# Meervoudige correlatie

## Determinatiecoefficient

Bij enkelvoudige lineaire regressie kwamen we al in aanraking met het begrip determinatiecoefficient $R^2$. Dit is een belangrijke maatstaaf om vast te stellen in hoeverre de variantie van de variabele $Y$ verklaard wordt door de variabele $X$. 

1. Totale spreiding $ = SST = \sum (Y_i - \bar{Y})^2$
2. Verklaarde spreiding $ = SSR = \sum (Y_i^c - \bar{Y})^2$
3. Onverklaarde spreiding $ = SSE = \sum ( Y_i^c - Y_i)^2$

waarvoor geldt dat $SST = SSR + SSE$.

In [22]:
Yc =  x[1] + x[2] * X1 + x[3] * X2

In [25]:
SST = sum((Y - mean(Y))^2)
SSR = sum((Yc - mean(Y))^2)
SSE = sum((Yc - Y)^2)
SST; SSR; SSE

De determinatiecoefficient $R^2$ is gedefinieerd als:

$$ R^2 = 1 - \dfrac{\sum e_i^2}{ \sum(Y_i - \bar{Y})^2} = 1 - \dfrac{SSE}{SST}$$

In [27]:
R2 = 1 - SSE / SST
R2