# STAR Projekt

In den späten 1980er Jahren wurde in Tennessee ein Experiment durchgeführt, in dem für 4 Jahre der Effekt der Klassengrösse auf den Lernerfolg von Schülern evaluiert wurde (das sogenannte Student Teacher Achievement Ratio Experiment oder STAR Experiment). Das Experiment verglich die Leistungen von Schülern, die in Klassen von verschiedener Grösse registriert waren. In jeder der teilnehmenden Schulen gab es Klassen von verschiedener Grösse. Innerhalb jeder teilnehmenden Schule wurde nicht nur die Klassengrösse zufällig bestimmt, sondern auch die Kinder zufällig den Klassen zugeteilt. Jedes Jahr mussten die Kinder standardisierte Tests ablegen (sogenanntes  SAT).

Die im Datensatz classsize.RData enthaltenen Variablen sind:

- classize - Grösse der Klasse, in der das Kind registriert ist
- tscorek - Testergebnis des Kindes, gemessen in Punkten
- freelunk - 1 wenn das Kind ein kostenloses Mittagsessen erhält (Proxy für arme Familienverhälntnisse); 0 andernfalls
- totexpk - Arbeitserfahrung des Lehrers, gemessen in Jahren

Sie wollen nun den Effekt der Klassengrösse auf die Testergebnisse schätzen, weshalb Sie das folgende bivariate Regressionsmodell betrachten:
\begin{align*}
y_i=\beta_0+\beta_1x_i +u_i,
\end{align*}
Dabei bezeichnet $y_i$ das Testergebnis, $x_i$ die Klassengrösse und $u_i$ den Fehlerterm eines Teilnehmers.

## Daten laden und prüfen

Laden Sie das Paket "ggplot2" mit dem Befehl ```library()``` (eventuell müssen Sie es vorher mit dem Befehl ```install.packages()``` installieren) und laden Sie die Daten mit dem Befehl ```load()```.

In [None]:
# Packages laden
library(ggplot2)

In [None]:
# Daten laden
load("classize.RData")
print("Daten geladen")

 Verschaffen Sie sich mit den Befehlen ```summary()``` und ```head()``` einen ersten Überblick über die Daten. Fallen Ihnen Fehler in den Daten auf? 

In [None]:
summary(???)

In [None]:
head(???)

Überprüfen Sie, wie viele Observationen der Datensatz enthält.

In [None]:
nrow(???)

## Deskriptive Statistiken

Berechnen Sie die Mittelwerte und Varianzen von sowie die Kovarianz zwischen ```classize``` und ```tscorek```.

Mittelwerte:

In [None]:
???(data$tscorek)
???(data$classize)

Varianzen:

In [None]:
???(data$tscorek)
???(data$classize)

Kovarianz:

In [None]:
???(data$tscorek,data$classize)

## Regressionsanalyse

Berechnen Sie die geschätzten Koeffizienten $\hat{\beta}_0$ und $\hat{\beta}_1$ manuell.

Steigungsparameter:

In [None]:
beta_1 = cov(???)/var(???)
print(beta_1)

Achsenabschnittsparameter:

In [None]:
beta_0 = mean(???) - beta_1*mean(???)
print(beta_0)

Interpretieren Sie den Schätzer für den Achsenabschnitt und den Steigungsparameter. 

Regressieren Sie die Testergebnisse im Kindergarten auf die Klassengröße mit dem Befehl ```lm()```. Sind die Ergebnisse gleich wie bei manueller Berechnung?

In [None]:
ols <- lm(??? ~ ???, data) 
summary(ols)

Erzielt ein Kind in einer kleineren Klasse notwendigerweise ein besseres Testergebnis?

In [None]:
# Plot Fitted Values
plot(tscorek ~ classize, data)
abline(coef(ols), col = "red")

Erklären Sie, was der Fehlerterm $u_i$ darstellt. Welche Informationen können in diesem enthalten sein?

## R-Quadrat

Wie gross ist das R-Quadrat der Regression? Kann die Klassengrösse einen grossen Teil der Varianz der Testergebnisse erklären?

In [None]:
# Residuen
head(ols$residuals)

In [None]:
# Varianz Residuen
var(ols$residuals)

In [None]:
# R-Quadrat
R_quadrat = 1-var(???)/var(???)
print(R_quadrat)

## Gefittete Werte

Ein Kind besucht eine Klasse mit zehn Schülern - wie hoch ist dessen vorhergesagtes Testergebnis? Verifizieren Sie Ihre Angabe unter der Verwendung des ```predict()``` Befehls.

In [None]:
y_hat = ???
print(y_hat)

In [None]:
new_data <- data[1,]
new_data$classize <- 10
predict(ols, newdata = new_data)

## Effektgrösse

Diskutieren Sie, ob der gemessene Effekt klein oder gross ist (Hinweis: Benutzen Sie die Standardabweichung der Testergebnisse, um diese Frage zu beantworten).

In [None]:
ols$coefficients

In [None]:
ols$coefficients["classize"]

In [None]:
sd(data$tscorek)

In [None]:
print(ols$coefficients["classize"]/sd(data$tscorek))

In [None]:
# Wechsel von kleinster (10) zur grössten (29) Klasse

print((29-10)*ols$coefficients["classize"]/sd(data$tscorek))

## Breakout Rooms