# Prüfung vs Lernstunden

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('fivethirtyeight')


Wir haben in einer Studie folgende Daten erhoben:

-  x repräsentiert die Stunden, die durchschnittlich mit Lernen am Tag verbracht wurden
-  y repräsentiert den Erfolg der Bemühungen: 1 - Pass, 0 - Fail


In [None]:
x = np.array([0.5, 0.75, 1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, 2.75, 3, 3.25, 3.5, 4, 4.25, 4.5, 4.75, 5, 5.5])
y = np.array([  0,    0, 0,    0,   0,    0, 1,    0,   1,    0, 1,    0,   1, 1,    1,   1,    1, 1,   1])

Schauen wir uns zunächst die Daten an:

In [None]:
fig, ax = plt.subplots(1, figsize=(10,6))
ax.set(title='Lohnt sich Lernen?', xlabel='Lernstunden pro Tag')
ax.set_yticks([0, 1])
ax.set_yticklabels(['Fail', 'Pass'])
ax.scatter(x, y, s=100, color='blue');


Lineare Regression haben wir ja schon studiert, **wissen also, dass das uns nicht weiterhilft**.

Also probieren wir es mit **logistischer Regression**:

In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()

model.fit(x[:, np.newaxis], y)

xfit = np.linspace(0, 6, 100)
yfit = model.predict(xfit[:, np.newaxis])

ax.plot(xfit, yfit, color='green', alpha=0.5)
fig

OK...

Jetzt kommt allerdings noch so ein Überflieger dazu: 12h am Tag! Und er hat's natürlich geschafft.

In [None]:
x2 = np.append(x, 12)
y2 = np.append(y, 1)
x2.shape

In [None]:
model2 = LogisticRegression()

model2.fit(x2[:, np.newaxis], y2)

xfit2 = np.linspace(0, 12, 100)
yfit2 = model2.predict(xfit2[:, np.newaxis])
ax.scatter(x2,y2, s=100, color='blue')
ax.set_ylim([-0.1, 1.1])
ax.plot(xfit2, yfit2, color='red')
fig

Das Modell funktioniert: die neuen Daten haben die bisherige Einschätzung kaum geändert.

Aber wo ist unsere Sigmoid-Funktion? 

Das Modell spukt nicht die Wahrscheinlichkeit P(y = 1) aus, sondern das Target $\in \{0, 1\}$. D.h. 0 oder 1, je nachdem
ob die Wahrscheinlichkeit unter oder über dem Threshold 0.5 liegt.

So sieht uns gefittetes Sigmoid aus:

> `model.predict_proba` gibt die Wahrscheinlichkeiten $P(y = 0|x)$ und $P(y = 1|x)$ zurück - wir plotten nur letztere

In [None]:
#fig, ax = plt.subplots(1, figsize=(10,6))
ax.set(title='Gefittetes Sigmoid', xlabel='Lernstunden pro Tag')
#ax.set_yticks([0, 1])
#ax.set_yticklabels(['Fail', 'Pass'])
#ax.scatter(x, y, s=100, color='blue');
ax.axhline(y=0.5, color='black')
xsig = np.linspace(0, 12, 100)
ysig = model.predict_proba(xsig[:, np.newaxis])

ax.plot(xsig, ysig[:, 1], color='gray');
fig