# M10: Empirische Wirtschaftsforschung
# Modul 3: Multivariate Regression

## Vorbereitung

In [3]:
# Packages laden
library("mlbench", "ggplot2")

# Daten laden
data(BostonHousing)

# Daten inspizieren
dim(BostonHousing) # Anzahl Zeilen und Spalten
summary(BostonHousing)
head(BostonHousing)

      crim                zn             indus       chas         nox        
 Min.   : 0.00632   Min.   :  0.00   Min.   : 0.46   0:471   Min.   :0.3850  
 1st Qu.: 0.08205   1st Qu.:  0.00   1st Qu.: 5.19   1: 35   1st Qu.:0.4490  
 Median : 0.25651   Median :  0.00   Median : 9.69           Median :0.5380  
 Mean   : 3.61352   Mean   : 11.36   Mean   :11.14           Mean   :0.5547  
 3rd Qu.: 3.67708   3rd Qu.: 12.50   3rd Qu.:18.10           3rd Qu.:0.6240  
 Max.   :88.97620   Max.   :100.00   Max.   :27.74           Max.   :0.8710  
       rm             age              dis              rad        
 Min.   :3.561   Min.   :  2.90   Min.   : 1.130   Min.   : 1.000  
 1st Qu.:5.886   1st Qu.: 45.02   1st Qu.: 2.100   1st Qu.: 4.000  
 Median :6.208   Median : 77.50   Median : 3.207   Median : 5.000  
 Mean   :6.285   Mean   : 68.57   Mean   : 3.795   Mean   : 9.549  
 3rd Qu.:6.623   3rd Qu.: 94.08   3rd Qu.: 5.188   3rd Qu.:24.000  
 Max.   :8.780   Max.   :100.00   Max.   :12.1

Unnamed: 0_level_0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,0.00632,18,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
2,0.02731,0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
3,0.02729,0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
4,0.03237,0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
5,0.06905,0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2
6,0.02985,0,2.18,0,0.458,6.43,58.7,6.0622,3,222,18.7,394.12,5.21,28.7


In [None]:
# Die chas Variable von Factor zu numeric konvertieren
BostonHousing$chas=as.numeric(BostonHousing$chas)-1
summary(BostonHousing)

## Partielle Regression
Wir schätzen den Effekt von der Lage am Charles River (*chas*) auf den Häuserpreis (*medv*) mittels partieller Regression.

In [None]:
# Schritt 1 - Regression von chas auf alle anderen Variablen exkl. medv
part_reg_formula=as.formula("chas ~ crim + zn + indus + nox + rm + age + dis + rad + tax + ptratio + b + lstat")
part_reg = lm(formula = part_reg_formula, data=BostonHousing)

# Summary der Regression anschauen
summary(part_reg)

In [None]:
# Schritt 2 - Residuen berechnen
part_reg_res=part_reg$residuals

# Residuals inspizieren
mean(part_reg_res)
ggplot() + aes(part_reg_res) + geom_histogram()

In [None]:
# Schritt 3 - Berechnung von beta_1

# beta_1 = summe(res * medv) / summe (res * res)

res_medv = sum(part_reg_res * BostonHousing$medv)
res_res = sum(part_reg_res * part_reg_res)
beta_1 = res_medv/res_res

# Berechneter Koeffizient beta_1
beta_1

## Interpretation der Koeffizienten

In [None]:
# Schätzen der multivariaten Regression
full_model = lm(formula = "medv ~ .", data = BostonHousing)

In [None]:
# Anzeigen der Resultate
summary(full_model)

In [None]:
# Boxplot der Hauspreise (medv) aufgeteilt nach der Lage am Charles River (chas)
ggplot(BostonHousing) + geom_boxplot(aes(group=chas, y=medv, col=as.factor(chas)))

## Breakout rooms
Aufgabe:
1. Schätzen Sie die Koeffizienten mittels partieller Regression, sowie multivariater Regression. Verwenden Sie dazu das Modell welches sie zuvor bestimmt haben. Sind die Resultate identisch?
2. Vergleichen Sie die Resultate mit den Resultaten des maximalen Modells.

### Raum 1
Sie sind interessiert am Effekt der Kriminalitätsrate (*crim*) auf die Wohnpreise (*medv*)

In [None]:
# Ihr Code

### Raum 2
Sie sind interessiert am Effekt der Stickstoffoxid Konzentration (nox) auf die Wohnpreise (medv)

In [None]:
# Ihr Code

## Hypothesentests
Wir berechen den p-Wert der Variable chas.

In [None]:
# Standardabweichung von beta_1
var_hat = sum((full_model$residuals)^2) / (nrow(BostonHousing) - 13 - 1)
SST = sum((BostonHousing$chas - mean(BostonHousing$chas))^2)
part_reg_rsq=summary(part_reg)$r.squared
beta_1_sd = sqrt(var_hat/(SST*(1-part_reg_rsq)))

In [None]:
# Test-Statistik
t = beta_1 / beta_1_sd

In [None]:
# p-Wert
p_wert = 2 * (1 - pt(abs(t), (nrow(BostonHousing) - 13 - 1)))
p_wert

In [None]:
# Vergleich mit direkter Funktion
summary(full_model)