In [None]:
import pandas as pd

In [None]:
cpa_data = pd.read_excel('cpa-simulations.xlsx')
cpa_data

### Was ist der Effekt eines WP-Examens auf das Einkommen?

**Alternative 1:** Vergleich des durchschnittlichen Einkommens von WPs mit nicht WPs

In [None]:
mean_cpa        = cpa_data[cpa_data['CPA'] == 1]['earnings'].mean()
mean_non_cpa    = cpa_data[cpa_data['CPA'] == 0]['earnings'].mean()

mean_cpa, mean_non_cpa, mean_cpa-mean_non_cpa

**Alternative 2:** Berechnung eines linearen Regressionsmodells.

In [None]:
import statsmodels.api as sm

X = cpa_data['CPA']
Y = cpa_data['earnings']

model   = sm.OLS(Y, sm.add_constant(X))
results = model.fit()

print(results.summary())

In [None]:
results.params

In [None]:
results.params['CPA']

### Was ist der kausale Effekt eines WP-Examens auf das Einkommen?

**Alternative 1:** Vergleich des durchschnittlichen Einkommens von WPs mit nicht WPs, die gleiche Fähigkeiten besitzen. Der kausale Effekt gibt sich dann als eine gewichtete Summe der Mittelwert-Differenzen.

In [None]:
# Vergleich der Accountants mit hohen Fähigkeiten (`skill==1`)
mean_cpa_skilled        = cpa_data[(cpa_data['CPA'] == 1) & (cpa_data['skill'] == 1)]['earnings'].mean()
mean_non_cpa_skilled    = cpa_data[(cpa_data['CPA'] == 0) & (cpa_data['skill'] == 1)]['earnings'].mean()
weight_skilled          = len(cpa_data[cpa_data['skill'] == 1]) / len(cpa_data)

mean_cpa_skilled, mean_non_cpa_skilled, weight_skilled

In [None]:
# Vergleich der Accountants mit geringen Fähigkeiten (`skill==0`)
mean_cpa_unskilled      = cpa_data[(cpa_data['CPA'] == 1) & (cpa_data['skill'] == 0)]['earnings'].mean()
mean_non_cpa_unskilled  = cpa_data[(cpa_data['CPA'] == 0) & (cpa_data['skill'] == 0)]['earnings'].mean()
weight_unskilled        = len(cpa_data[cpa_data['skill'] == 0]) / len(cpa_data)

mean_cpa_unskilled, mean_non_cpa_unskilled, weight_unskilled

In [None]:
# Ermittlung des kausalen Effektes durch Gewichtung der Gruppen 
(mean_cpa_skilled - mean_non_cpa_skilled) * weight_skilled + \
    (mean_cpa_unskilled - mean_non_cpa_unskilled) * weight_unskilled

**Alternative 2:** Berechnung eines multiplen linearen Regressionsmodells (unter Berücksichtigung von Kontrollvariablen).

In [None]:
import statsmodels.api as sm

X = cpa_data[['CPA', 'skill']]
Y = cpa_data['earnings']

model   = sm.OLS(Y, sm.add_constant(X))
results = model.fit()

print(results.summary())

In [None]:
results.params['CPA']

### Was ist der Effekt der individuellen Fähigkeiten auf das Einkommen?

**Alternative 1:** Vergleich des durchschnittlichen Einkommens von Accountants mit hohen und geringen Fähigkeiten.

In [None]:
mean_skilled    = cpa_data[<filter>]['earnings'].mean()
mean_unskilled  = cpa_data[<filter>]['earnings'].mean()

mean_skilled, mean_unskilled, mean_skilled-mean_unskilled

**Alternative 2:** Berechnung eines linearen Regressionsmodells.

In [None]:
import statsmodels.api as sm

X = cpa_data[<name-unabhängige-variable>]
Y = cpa_data[<name-abhängige-variable>]

model   = sm.OLS(Y, sm.add_constant(X))
results = model.fit()

print(results.summary())

In [None]:
results.params[<name-koeffizient>]

### Was ist der direkte Effekt der individuellen Fähigkeiten auf das Einkommen?

**Alternative 1:** Vergleich des durchschnittlichen Einkommens von Accountants mit hohen versus geringen Fähigkeiten, die den gleiche Abschluss besitzen. Der direkte Effekt gibt sich dann als eine gewichtete Summe der Mittelwert-Differenzen.

In [None]:
# Vergleich der Accountants mit WP (`CPA==1`)
mean_skilled_cpa        = cpa_data[<filter>]['earnings'].mean()
mean_skilled_non_cpa    = cpa_data[<filter>]['earnings'].mean()
weight_cpa              = len(cpa_data[<filter>]) / len(cpa_data)

mean_skilled_cpa, mean_skilled_non_cpa, weight_cpa

In [None]:
# Vergleich der Accountants ohne WP (`CPA==0`)
mean_unskilled_cpa      = cpa_data[<filter>]['earnings'].mean()
mean_unskilled_non_cpa  = cpa_data[<filter>]['earnings'].mean()
weight_non_cpa          = len(cpa_data[filter]) / len(cpa_data)

mean_unskilled_cpa, mean_unskilled_non_cpa, weight_non_cpa

In [None]:
# Ermittlung des kausalen Effektes durch Gewichtung der Gruppen 
<mittelwert-diff-wp> * <gewicht-wp> + \
    <mittelwert-diff-nicht-wp> * <gewicht-nicht-wp>

**Alternative 2:** Berechnung eines multiplen linearen Regressionsmodells (unter Berücksichtigung von Kontrollvariablen).

In [None]:
import statsmodels.api as sm

X = cpa_data[<name-unabhängige-variablen>]
Y = cpa_data[<name-abhängige-variable>]

model   = sm.OLS(Y, sm.add_constant(X))
results = model.fit()

print(results.summary())

In [None]:
results.params[<name-koeffizient>]