# STAR Projekt

In den späten 1980er Jahren wurde in Tennessee ein Experiment durchgeführt, in dem für 4 Jahre der Effekt der Klassengrösse auf den Lernerfolg von Schülern evaluiert wurde (das sogenannte Student Teacher Achievement Ratio Experiment oder STAR Experiment). Das Experiment verglich die Leistungen von Schülern, die in Klassen von verschiedener Grösse registriert waren. In jeder der teilnehmenden Schulen gab es Klassen von verschiedener Grösse. Innerhalb jeder teilnehmenden Schule wurde nicht nur die Klassengrösse zufällig bestimmt, sondern auch die Kinder zufällig den Klassen zugeteilt. Jedes Jahr mussten die Kinder standardisierte Tests ablegen (sogenanntes  SAT).

Die im Datensatz classsize.RData enthaltenen Variablen sind:

- classize - Grösse der Klasse, in der das Kind registriert ist
- tscorek - Testergebnis des Kindes, gemessen in Punkten
- freelunk - 1 wenn das Kind ein kostenloses Mittagsessen erhält (Proxy für arme Familienverhälntnisse); 0 andernfalls
- totexpk - Arbeitserfahrung des Lehrers, gemessen in Jahren

Sie wollen nun den Effekt der Klassengrösse auf die Testergebnisse schätzen, weshalb Sie das folgende bivariate Regressionsmodell betrachten:
\begin{align*}
y_i=\beta_0+\beta_1x_i +u_i,
\end{align*}
Dabei bezeichnet $y_i$ das Testergebnis, $x_i$ die Klassengrösse und $u_i$ den Fehlerterm eines Teilnehmers.

## Daten laden und prüfen

Laden Sie das Paket ''ggplot2'' mit dem Befehl \texttt{library} (eventuell müssen Sie es vorher mit dem Befehl ```install.packages()``` installieren) und laden Sie die Daten mit dem Befehl \texttt{load}.

In [2]:
# Packages laden
library(ggplot2)

In [4]:
# Daten laden
load("classize.RData")
print("Daten geladen")

[1] "Daten geldaen"


 Verschaffen Sie sich mit den Befehlen ```summary()``` und ```View()``` einen ersten Überblick über die Daten. Fallen Ihnen Fehler in den Daten auf? 

In [5]:
summary(data)

    totexpk          schidkn         tscorek            sck        
 Min.   : 0.000   Min.   : 1.00   Min.   : 635.0   Min.   :0.0000  
 1st Qu.: 5.000   1st Qu.:20.00   1st Qu.: 870.0   1st Qu.:0.0000  
 Median : 9.000   Median :39.00   Median : 915.0   Median :0.0000  
 Mean   : 9.307   Mean   :39.83   Mean   : 922.4   Mean   :0.3014  
 3rd Qu.:13.000   3rd Qu.:60.00   3rd Qu.: 964.0   3rd Qu.:1.0000  
 Max.   :27.000   Max.   :80.00   Max.   :1253.0   Max.   :1.0000  
                                                                   
      boy            freelunk         classize           id      
 Min.   :0.0000   Min.   :0.0000   Min.   :10.00   Min.   :   1  
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:19.00   1st Qu.:1005  
 Median :1.0000   Median :0.0000   Median :23.00   Median :2008  
 Mean   :0.5138   Mean   :0.4829   Mean   :21.97   Mean   :2008  
 3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:26.00   3rd Qu.:3012  
 Max.   :1.0000   Max.   :1.0000   Max.   :29.00   Max.   :4

In [6]:
View(data)

totexpk,schidkn,tscorek,sck,boy,freelunk,classize,id
<hvn_lbll>,<hvn_lbll>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
0,37,925,0,0,0,21,1
6,19,866,0,1,1,21,2
0,67,1171,0,0,0,21,3
20,27,924,0,1,1,21,4
21,40,901,0,1,0,21,5
7,56,796,0,1,0,21,6
11,64,1156,0,1,0,21,7
0,37,961,0,1,1,21,8
3,43,1004,0,1,0,21,9
17,58,882,0,1,0,21,10


Überprüfen Sie, wie viele Observationen der Datensatz enthält.

In [7]:
nrow(data)

## Deskriptive Statistiken

Berechnen Sie die Mittelwerte und Varianzen von sowie die Kovarianz zwischen ```classize``` und ```tscorek```.

Mittelwerte:

In [8]:
mean(data$tscorek)
mean(data$classize)

Varianzen:

In [9]:
var(data$tscorek)
var(data$classize)

Kovarianz:

In [10]:
cov(data$tscorek,data$classize)

## Regressionsanalyse

Berechnen Sie die geschätzten Koeffizienten $\hat{\beta}_0$ und $\hat{\beta}_1$ manuell.

Steigungsparameter:

In [11]:
beta_1 = cov(data$tscorek,data$classize)/var(data$classize)
print(beta_1)

[1] -1.193383


Achsenabschnittsparameter:

In [12]:
beta_0 = mean(data$tscorek) - beta_1*mean(data$classize)
print(beta_0)

[1] 948.6171


Interpretieren Sie den Schätzer für den Achsenabschnitt und den Steigungsparameter. 

Regressieren Sie die Testergebnisse im Kindergarten auf die Klassengröße mit dem Befehl ```lm()```. Sind die Ergebnisse gleich wie bei manueller Berechnung?

In [13]:
ols <- lm(tscorek ~ classize, data) 
summary(ols)


Call:
lm(formula = tscorek ~ classize, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-281.40  -51.94   -7.17   41.90  337.80 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 948.6171     4.7254 200.749  < 2e-16 ***
classize     -1.1934     0.2104  -5.671 1.49e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 73.67 on 5747 degrees of freedom
Multiple R-squared:  0.005565,	Adjusted R-squared:  0.005391 
F-statistic: 32.16 on 1 and 5747 DF,  p-value: 1.49e-08


Erzielt ein Kind in einer kleineren Klasse notwendigerweise ein besseres Testergebnis?

In [None]:
# Plot Fitted Values
plot(tscorek ~ classize, data)
abline(coef(ols), col = "red")

Erklären Sie, was der Fehlerterm $u_i$ darstellt. Welche Informationen können in diesem enthalten sein?

## R-Quadrat

Wie gross ist das R-Quadrat der Regression? Kann die Klassengrösse einen grossen Teil der Varianz der Testergebnisse erklären?

In [15]:
# Residuen
ols$residuals

In [16]:
# Varianz Residuen
var(ols$residuals)

In [17]:
# R-Quadrat
R_quadrat = 1-var(ols$residuals)/var(data$tscorek)
print(R_quadrat)

[1] 0.005564528


## Gefittete Werte

Ein Kind besucht eine Klasse mit zehn Schülern - wie hoch ist dessen vorhergesagtes Testergebnis? Verifizieren Sie Ihre Angabe unter der Verwendung des ```predict()``` Befehls.

In [None]:
y_hat = beta_0 + beta_1*10
print(y_hat)

In [None]:
new_data <- data[1,]
new_data$classize <- 10
predict(ols, newdata = new_data)

## Effektgrösse

Diskutieren Sie, ob der gemessene Effekt klein oder gross ist (Hinweis: Benutzen Sie die Standardabweichung der Testergebnisse, um diese Frage zu beantworten).

In [21]:
ols$coefficients

In [22]:
ols$coefficients["classize"]

In [23]:
sd(data$tscorek)

In [26]:
print(ols$coefficients["classize"]/sd(data$tscorek))

   classize 
-0.01615511 


In [27]:
# Wechsel von kleinsert (10) zur grössten (29) Klasse

print((29-10)*ols$coefficients["classize"]/sd(data$tscorek))

  classize 
-0.3069471 


## Breakout Rooms