# Aufgaben für Vorlesung 7

Wir nutzen die [PIAAC Daten](https://www.oecd.org/skills/piaac/data/), welche die Fähigkeiten von Erwachsenen in insgesamt 24 Ländern messen. In diesem Notebook konzentrieren wir uns auf Daten aus **Frankreich**.

In [None]:
import pandas as pd
import statsmodels.formula.api as smf

pd.options.mode.copy_on_write = True
pd.options.future.infer_string = True
pd.options.plotting.backend = "plotly"

In [None]:
piaac_fr = pd.read_feather("france_labor.arrow")

---
## 1. Bivariate Regression mit kontinuierlicher erklärender Variable 

In unserem ersten Beispiel betrachten wir den linearen Zusammenhang zwischen wöchentlich *gearbeiteten Stunden* und dem *Stundenlohn (inklusive Bonuszahlung)*.

---
### 1.1 OLS mit `statsmodels.formula`

In [None]:
model1 = smf.ols(formula="hourly_earnings_incl_bonus ~ hours_per_week", data=piaac_fr)
results1 = model1.fit()

In [None]:
print(results1.summary())

---
### 1.2 Interpretation
Interpretieren Sie den geschätzten Koeffizienten der Variable `hours_per_week`.

!! solution

Arbeitnehmer, die eine Stunde pro Woche mehr arbeiten, erhalten im Schnitt 3 Cent mehr Gehalt pro Stunde. Der Effekt ist statistisch signifikant von 0 verschieden zum 5% Niveau. Von einer kausalen Interpretation sollte man bei einem derart einfachen Model Abstand nehmen. Allerdings hat unsere neuste Nobelpreisträgerin *Claudia Goldin* gezeigt, dass manche Branchen lange Arbeitszeiten tatsächlich überproportional belohnen, was wesentlich zum Gender Pay Gap beiträgt. Bei Interesse gerne in ihr [Papier](https://www.aeaweb.org/articles?id=10.1257/aer.104.4.1091) schauen.

---
### 1.3 Visueller Eindruck

In [None]:
piaac_fr.plot.scatter(x="hours_per_week", y="hourly_earnings_incl_bonus")

---
## 2. Bivariate Regression mit binärer erklärender Variable

Schätzen Sie jetzt erneut ein bivariates Model. Verwenden Sie diesmal eine Indikatorvariable für die Teilnahme an einem Job-Training `took_job_training_binary` als erklärende Variable und dieselbe abhängige Variable.

---
### 2.1 OLS mit `statsmodels.formula`

In [None]:
## solution

model2 = smf.ols(
    formula="hourly_earnings_incl_bonus ~ took_job_training_binary",
    data=piaac_fr,
)
results2 = model2.fit()

In [None]:
print(results2.summary())

---
### 2.2 Interpretation
Interpretieren Sie den geschätzten Koeffizienten der Variable `took_job_training_binary`.

!! solution

Die Arbeitnehmer, die an einem Job-Training teilnehmen, verdienen im Schnitt 1,67€ mehr als die Arbeitnehmer, die nicht an einem solchen Training teilnehmen. Der Lohn-Unterschied zwischen diesen zwei Gruppen ist statistisch signifikant von 0 verschieden zum 1% Niveau. Auch hier sollte man von einer kausalen Interpretation absehen, da die Kausalität beispielsweise auch genau andersherum sein könnte.

---
### 2.3 Visueller Eindruck

In [None]:
## solution

piaac_fr.plot.scatter(x="took_job_training_binary", y="hourly_earnings_incl_bonus")