# Logistische Regression
Beispiel: Besteht ein Student / eine Studentin eine Klausur unter Berücksichtigung der Anzahl Stunden für die Vorbereitung auf die Klausur?

Wir laden zuerst den Datensatz.

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/troescherw/datasets/master/Klausur_Bestanden.csv"
df = pd.read_csv(url, delimiter=";")
df.head()

Wir erstellen einen Scatterplot.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.scatter(df.Stunden, df.KlausurBestanden)
plt.show()

Nun erstellen wir ein Vorhersagemodell mit Hilfe der Logistischen Regression. Wir verwenden wieder das Package *statsmodels.formula.api*. Als *family* geben wir *Binomial* an, da unsere abhängige Variable nur 2 Zustände annehmen kann (0 oder 1). *glm" steht für *Generalized Linear Model*.

In [None]:
import statsmodels.formula.api as smf
import statsmodels.api as sm

model = smf.glm("KlausurBestanden~Stunden", data=df, family=sm.families.Binomial()).fit()
model.summary()

Die Koeffizienten lauten:

Für $\beta_0$: -2,39

Für $\beta_1$: 0,165

Damit ergibt sich folgende Formel für die Berechnung von P("Klausur bestanden"):

$P(Klausur Bestanden) = \frac{1}{1+e^{2,93-0,165\cdot Stunden}}$

Wollen wir also zum Beispiel die Wahrscheinlichkeit berechnen, dass eine Studentin eine Klausur besteht, wenn Sie sich 30 Stunden auf die Klausur vorbereitet hat:

$P(Klausur Bestanden) = \frac{1}{1+e^{2,39-0,165\cdot 30}} = 0,93$

Oder wir berechnen diesen Wert mit Hilfe der *pred*-Funktion:

In [None]:
model.predict({"Stunden":30})

Wir plotten noch die "Schwanenhalsfunktion" für die Vorhersagewahrscheinlichkeiten im Bereich der kleinsten und größten Stundenzahl aus dem Datensatz.

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(df.Stunden.min(), df.Stunden.max())
y = model.predict(pd.DataFrame({"Stunden":x}))

plt.plot(x,y)
plt.xlabel("Stunden gelernt")
plt.ylabel("P(Klausur bestanden)")
plt.show()
