In [None]:
import pandas as pd

In [None]:
cpa_data = pd.read_excel('cpa-simulations.xlsx', engine='openpyxl')
cpa_data

### Was ist der Effekt eines WP-Examens auf das Einkommen?

**Alternative 1:** Vergleich des durchschnittlichen Einkommens (`earnings`) von WPs (`CPA=1`) mit nicht WPs (`CPA=0`).

In [None]:
mean_cpa        = cpa_data[cpa_data['CPA'] == 1]['earnings'].mean()
mean_non_cpa    = cpa_data[cpa_data['CPA'] == 0]['earnings'].mean()

print(mean_cpa)
print(mean_non_cpa)
print(mean_cpa - mean_non_cpa)

**Alternative 2:** Berechnung eines linearen Regressionsmodells.

In [None]:
import statsmodels.api as sm

# unabhängige Variable(n) und Achsenabschnitt
X = cpa_data['CPA']
X = sm.add_constant(X)
# abhängige Variable
Y = cpa_data['earnings']

model   = sm.OLS(Y, X)
results = model.fit()

print(results.summary())

In [None]:
results.params

In [None]:
results.params['CPA']

### Was ist der kausale Effekt eines WP-Examens auf das Einkommen?

**Alternative 1:** Vergleich des durchschnittlichen Einkommens (`earnings`) von WPs (`CPA=1`) mit nicht WPs (`CPA=0`), die gleiche Fähigkeiten (`skill`) besitzen. Der kausale Effekt ergibt sich dann als eine gewichtete Summe der Mittelwert-Differenzen.

In [None]:
# Vergleich der Accountants mit hohen Fähigkeiten (`skill==1`)
mean_cpa_skilled        = cpa_data[(cpa_data['CPA'] == 1) & (cpa_data['skill'] == 1)]['earnings'].mean()
mean_non_cpa_skilled    = cpa_data[(cpa_data['CPA'] == 0) & (cpa_data['skill'] == 1)]['earnings'].mean()

print(mean_cpa_skilled)
print(mean_non_cpa_skilled)

In [None]:
# Vergleich der Accountants mit geringen Fähigkeiten (`skill==0`)
mean_cpa_unskilled      = cpa_data[(cpa_data['CPA'] == 1) & (cpa_data['skill'] == 0)]['earnings'].mean()
mean_non_cpa_unskilled  = cpa_data[(cpa_data['CPA'] == 0) & (cpa_data['skill'] == 0)]['earnings'].mean()

print(mean_cpa_unskilled)
print(mean_non_cpa_unskilled)

In [None]:
# Gewichtung der Gruppen
weight_skilled = len(cpa_data[cpa_data['skill'] == 1]) / len(cpa_data)
weight_skilled

In [None]:
# Ermittlung des kausalen Effektes durch Gewichtung der Gruppen 
(mean_cpa_skilled - mean_non_cpa_skilled) * weight_skilled + (mean_cpa_unskilled - mean_non_cpa_unskilled) * (1 - weight_skilled)

**Alternative 2:** Berechnung eines multiplen linearen Regressionsmodells (unter Berücksichtigung einer Kontrollvariable für `skill`).

In [None]:
# unabhängige Variable(n) und Achsenabschnitt
X = cpa_data[['CPA', 'skill']]
X = sm.add_constant(X)
# abhängige Variable
Y = cpa_data['earnings']

model   = sm.OLS(Y, X)
results = model.fit()

print(results.summary())

In [None]:
results.params['CPA']

### Was ist der Effekt der individuellen Fähigkeiten auf das Einkommen?

**Alternative 1:** Vergleich des durchschnittlichen Einkommens (`earnings`) von Accountants mit hohen (`skill=1`) und geringen Fähigkeiten (`skill=0`). Ersetze dafür den Platzhalter `<mask>` durch den jeweils richtigen Code Baustein.

In [None]:
mean_skilled    = cpa_data[<mask>]['earnings'].mean()
mean_unskilled  = cpa_data[<mask>]['earnings'].mean()

print(mean_skilled)
print(mean_unskilled)
print(mean_skilled - mean_unskilled)

**Alternative 2:** Berechnung eines linearen Regressionsmodells. Ersetze dafür den Platzhalter `<...>` durch den jeweils richtigen Code Baustein.

In [None]:
X = cpa_data[<...>]
X = sm.add_constant(X)
Y = cpa_data[<...>]

model   = sm.OLS(Y, X)
results = model.fit()

print(results.summary())

In [None]:
results.params[<...>]

### Was ist der direkte Effekt der individuellen Fähigkeiten auf das Einkommen?

**Alternative 1:** Vergleich des durchschnittlichen Einkommens (`earnings`) von Accountants mit hohen (`skill=1`) und geringen Fähigkeiten (`skill=0`), die den gleiche Abschluss (`CPA`) besitzen. Der direkte Effekt ergibt sich dann als eine gewichtete Summe der Mittelwert-Differenzen. Ersetze dafür den Platzhalter `<...>` durch den jeweils richtigen Code Baustein.

In [None]:
# Vergleich der Accountants mit WP (`CPA==1`)
mean_skilled_cpa        = cpa_data[<mask>]['earnings'].mean()
mean_unskilled_cpa      = cpa_data[<mask>]['earnings'].mean()

print(mean_skilled_cpa)
print(mean_unskilled_cpa)

In [None]:
# Vergleich der Accountants ohne WP (`CPA==0`)
mean_skilled_non_cpa    = cpa_data[<mask>]['earnings'].mean()
mean_unskilled_non_cpa  = cpa_data[<mask>]['earnings'].mean()

print(mean_skilled_non_cpa)
print(mean_unskilled_non_cpa)

In [None]:
weight_cpa = len(cpa_data[<mask>]) / len(cpa_data)
weight_cpa

In [None]:
# Ermittlung des kausalen Effektes durch Gewichtung der Gruppen 
<mittelwert-diff-wp> * <gewicht-wp> + <mittelwert-diff-nicht-wp> * <gewicht-nicht-wp>

**Alternative 2:** Berechnung eines multiplen linearen Regressionsmodells (unter Berücksichtigung einer Kontrollvariable für `CPA`). Ersetze dafür den Platzhalter `<...>` durch den jeweils richtigen Code Baustein.

In [None]:
X = cpa_data[<...>]
X = sm.add_constant(X)
Y = cpa_data[<...>]

model   = sm.OLS(Y, X)
results = model.fit()

print(results.summary())

In [None]:
results.params[<...>]