# Übung: Logistische Regression und Gradientenabstieg

In dieser Übung beschäftigen Sie sich mit Modellfunktion und Verlustfunktion der logistischen Regression und trainieren ein kleines logistisches Regressionsmodell mittels Gradientenabstieg.

## ✏ Aufgabe 1
In der folgenden Aufgabe sollen Sie ein Gefühl für die Modellfunktion und die Verlustfunktion der logistischen Regression entwickeln. Dafür betrachten wir drei verschiedene Modelle $f_1$, $f_2$, $f_3$, $f_4$ mit unterschiedlichen Parametern $w_0$ und $w_1$:

\begin{align*}
    f_1&: w_0=0, w_1=5\\		
    f_2&: w_0=0, w_1=10\\
    f_3&: w_0=1, w_1=10\\
    f_4&: w_0=1, w_1=-7\\
\end{align*}
Weiterhin sei folgender Datensatz aus 4 Punkten gegeben:
\begin{align*}
    x &= (-0.4,-0.2,0,0.2)\\
    y &= (0,0,1,1)
\end{align*}

1. Berechnen Sie die Modellvorhersage von Modell $f_3$ für den Datensatz.
2. Plotten Sie die vier Modellfunktionen. Wie kann man die Werte $w_0$ und $w_1$ graphisch interpretieren?
3. Berechnen Sie die Kreuzentropie-Verlustfunktion für das Modell $f_3$. Schreiben Sie den Term auf.
4. Berechnen Sie die Entscheidungsgrenze für das Modell $f_3$ für den Schwellwert $B=0.5$.

## Beispielcode: Gradientenabstieg für logistische Regression
Im folgenden ist beispielhaft ein Gradientenabstiegsverfahren für die logistische Regression implementiert. Weiter unten gibt es Aufgaben dazu :-)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Trainingsdatensatz. Dieser ist im folgenden fest, d.h. die Verlustfunktion bezieht sich 
# auf einen festen Trainingsdatensatz und wir fassen sie nur noch als Funktion von w auf.

# 2 Features: die erste Spalte sorgt dafür, dass der Koeffizienten w_0 ("Intercept") mitgeschätzt wird
X = np.array([[1,1,1,1,1,1,1,1,1,1,1],
              [-1,-0.8,-0.6,-0.4,-0.2,0,0.2,0.4,0.6,0.8,1]]).T
y = np.array([0,0,0,0,1,0,1,1,1,1,1])

print(f"X = \n{X}")
plt.plot(X[:,1],y, ".")

In [None]:
# Logistische Funktion
def logistic(w, X):
    return 1/(1+np.exp(-X@w))

# Kreuzentropie Funktion
def L(w, X=X, y=y):
    y_hat = logistic(w, X)
    return -np.mean(y*np.log(y_hat) + (1-y)*np.log(1-y_hat))

# Ableitung der Kreuzentropie nach w
def dLdw(w, X=X, y=y):
    y_hat = logistic(w, X)
    # Elementweise Multiplikation und spaltenweiser Mittelwert ergibt Gradientenvektor
    return np.mean((y_hat-y)[:,np.newaxis]*X, axis=0)

# Algorithmus: Gradientenabstieg zur Bestimmung der Parameter w
# w0: Startwert/-schätzung für w
# alpha: Schrittweite
# n_iter: Anzahl Iterationen
# Return: w (die Koeffizienten, die L auf den Trainingsdaten minimieren)
def gradient_descent(w0, alpha, n_iter):
    w = w0
    for k in range(n_iter):
        # Gib Zielfunktionswert in jeder 1000. Iteration aus
        if k % 1000 == 0:
            print(L(w))
        w = w - alpha * dLdw(w)
    return w

## ✏ Aufgabe 2
Lassen Sie das Gradientenverfahren mit Schrittweite 1 für 100 Iterationen laufen. 
Geben Sie am Ende die gelernten Koeffizienten aus und plotten Sie das Modell.

In [None]:
# TO DO

## ✏ Aufgabe 3
Sagen Sie die Wahrscheinlichkeit und die Klasse (Schwellwert 0.5) für die Trainingsdaten vorher.

In [None]:
# TO DO

## ✏ Aufgabe 4
Trainieren Sie ein logistisches Regressionsmodell mit scikit-learn für denselben Datensatz. Was bedeutet der Parameter ``penalty="none"``? Lassen Sie sich auch hier die Koeffizienten ausgeben, plotten Sie das Modell, und sagen Sie Wahrscheinlichkeiten und Klasse für die Trainingsdaten vorher. Beobachten Sie Unterschiede zum Modell oben? Was passiert, wenn Sie das Gradientenverfahren aus Aufgabe 2 für 10000 Iterationen laufen lassen?

In [None]:
# TO DO