# Regression

Im vorletzten Kapitel haben wir uns mit der linearen Regression beschäftigt, im letzten Kapitel mit den Fragen
* Wie wählen wir ein Modell aus?
* Wie messen wir die Qualität bzw. Prognosegüte eines Modells, um das bestmögliche Modell mit optimalen Hyperparametern für unsere zu finden?
* Was ist das Bias-Varianz-Dilemma (Underfitting vs. Overfitting)? 

In diesem Kapitel vertiefen wir die Fragestellungen weiter und diskutieren sie am Beispiel der **polynomialen Regression**.



## Wiederholung: lineare Regression

In der Statistik versteht man unter **linearer Regression** ein Verfahren, bei dem es eine Einflussgröße $X$ und eine Zielgröße $y$ mit $N$ Paaren von dazugehörigen Messwerten $(x_1,y_1), (x_2,y_2), \ldots, (x_N,y_n)$ gibt. Dann sollen zwei Koeffizienten $k_0$ und $k_1$ geschätzt werden, so dass $y_i = k_0 + k_1x_i$ gilt. Da bei den Messungen auch Messfehler passieren, werden wir die Gerade nicht perfekt treffen, sondern kleine Fehler machen, die wir hier mit $\varepsilon_i$ bezeichnen. Wir suchen also $k_0$ und $k_1$, so dass   
$$y_i = k_0 + k_1 x_i + \varepsilon_i.$$

Um uns jetzt für die weiteren Erläuterungen Spielbeispiele zur Verfügung zu haben, definieren wir uns eine Funktion, die künstlich Messdaten erzeugt.

In [None]:
import numpy as np
from numpy.random import default_rng

def erzeuge_kuenstliche_messdaten(koeffizienten, anzahl_daten=50):
    zufallszahlen_generator = default_rng(seed=42)
    xmin = - 5.0
    xmax = + 5.0
    x = zufallszahlen_generator.uniform(xmin, xmax, anzahl_daten)

    error = 3.0 * zufallszahlen_generator.standard_normal(anzahl_daten)
    y = error
    
    for i in range(len(koeffizienten)):
        y += koeffizienten[i] * x**i
    return x.reshape(-1,1), y.reshape(-1,1)

In [None]:
import matplotlib.pylab as plt
import seaborn as sns; sns.set()

X,y = erzeuge_kuenstliche_messdaten([-3, 7], 20)
X_original = np.linspace(-5, 5, 100)
y_original = -3 + 7 * X_original

fig, ax = plt.subplots()
ax.scatter(X, y)
ax.plot(X_original, y_original, c='k', label='original')
ax.legend();


**Mini_Übung**

Teilen Sie den Datensatz in Trainings- und Testdaten auf. Trainieren Sie ein lineares Regressionsmodell mit Scikit-Learn. Bestimmen Sie den R2-Score von den Trainings- und den Testdaten. Visualisieren Sie Ihre Regressionsgerade zusammen mit den Messdaten.

In [None]:
# Hier Ihr Code


## Polynomiale Regression

Wenn wir uns das folgende Beispiel betrachten, werden wir feststellen, dass die lineare Regression die Messdaten nicht besonders gut annähert. 

In [None]:
# erzeuge künstliche Daten
X,y = erzeuge_kuenstliche_messdaten([-3, 7, 2, -2], 30)

# Split in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X,y)

# Auswahl des Modells 
model = LinearRegression()

# Training 
model.fit(X_train, y_train)
print('k0 = {}'.format(model.intercept_))
print('k1 = {}'.format(model.coef_))

# Validierung
r2_train = r2_score(y_train, model.predict(X_train))
r2_test  = r2_score(y_test,  model.predict(X_test))
print('R2-Score der Trainingsdaten: {:.4}'.format(r2_train))
print('R2-Score der Testdaten: {:.4}'.format(r2_test))

# Visualisierung
X_vis = np.linspace(-5,5,100).reshape(-1,1)
y_vis = model.predict(X_vis)

fig, ax = plt.subplots(figsize=(12,9))
ax.scatter(X_train, y_train, label='train')
ax.scatter(X_test, y_test, label='test')
ax.plot(X_vis, y_vis, '--k')
ax.legend();

Der R2-Score ist sowohl bei den Trainingsdaten (0.7) als auch bei den Testdaten (0.6) nicht gut. Ein Regressionspolynom 2. oder 3. Grades könnte vielleicht besser passen. Wählen wir beispielsweise ein Polynom 3. Grades, so lautet das polynomiale Regressionsproblem wie folgt: Bestimme die Polynomkoeffizienten $k_0, k_1, k_2$ und $k_3$ so, dass
$$y_i = k_0 + k_1\cdot x_i + k_2\cdot x_i^2 + k_3 \cdot x_i^3 + \varepsilon_i.$$ 
Wenn Sie in der Dokumentation von Scikit-Learn nun nach einer Funktion zur polynomialen Regression suchen, werden Sie nicht fündig werden. Tatsächlich brauchen wir auch keine eigenständige Funktion, sondern können uns mit einem Trick weiterhelfen. Wir erzeugen einfach eine zweite Spalte mit $x_i^2$ und eine dritte Spalte mit $x_i^3$ in den $N$ Zeilen von $i=1, \ldots, N$. 

Dieser Trick wird auch bei anderen ML-Verfahren angewandt. Aus einem Input, aus einer Eigenschaft werden jetzt drei neue Eigenschaften gemacht. Aus einem eindimensionalen Input wird ein dreidimensionaler Input. Mathematisch gesehen haben wir die Input-Daten in einen höherdimensionalen Bereich projiziert. Diese Methode nennt man **Kernel-Trick**. Es ist auch möglich, andere Funktionen zu benutzen, um die Daten in einen höherdimensionalen Raum zu projizieren, z.B. radiale Gaußsche Basisfunktionen. Das nennt man dann **Kernel-Methoden**.  

In dieser Vorlesung bleiben wir aber bei den Polynomen als Basisfunktion. Scikit-Learn stellt auch hier passende Methoden bereit.


In [None]:
from sklearn.preprocessing import PolynomialFeatures

# erzeuge eine Matrix mit den Zahlen 1 bis 10 in der 1. Spalte
X = np.arange(1,11).reshape(-1,1)
print('Original X:\n', X)

# lade die Polynom-Transformator 
polynom_transformator = PolynomialFeatures(degree = 3)

# transformiere X
X_transformiert =  polynom_transformator.fit_transform(X)
print('transformiertes X:\n', X_transformiert)

Damit können wir nun verschiedene Regressionspolynome ausprobieren:

In [None]:
# erzeuge künstliche Daten
X,y = erzeuge_kuenstliche_messdaten([-3, 7, 2, -2], 30)

# setze Polynomgrad
grad = 3
print('\nGrad: {}'.format(grad))

# Kernel-Trick, Split in Trainings- und Testdaten
polynom_transformator = PolynomialFeatures(degree = grad)
X = polynom_transformator.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X,y)

# Auswahl des Modells 
model = LinearRegression()

# Training 
model.fit(X_train, y_train)
#print('k0 = {}'.format(model.intercept_))
#print('k1 = {}'.format(model.coef_))

# Validierung
r2_train = r2_score(y_train, model.predict(X_train))
r2_test  = r2_score(y_test,  model.predict(X_test))
print('R2-Score der Trainingsdaten: {:.4}'.format(r2_train))
print('R2-Score der Testdaten: {:.4}'.format(r2_test))

# Visualisierung
X_vis = polynom_transformator.fit_transform( np.linspace(-5,5,100).reshape(-1,1) )
y_vis = model.predict(X_vis)

fig, ax = plt.subplots(figsize=(12,9))
ax.scatter(X_train[:,1], y_train, label='train')
ax.scatter(X_test[:,1],   y_test, label='test')
ax.plot(X_vis[:,1], y_vis, '--k')
ax.legend();

Das Transformieren der Daten in eine höhere Dimension machen den Code schwerer lesbar. Deswegen definieren wir nun hiier eine Funktion, die erst transformiert und dann das lineare Regressionsmodell anwendet. Der Grad des Polynoms wird dabei als Argument übergeben. Damit diese Funktion Transformation und lineare Regression hintereinander automatisch ausführen kann, benötigen wir von Scikit-Learn die sogenannte Pipieline:

In [None]:
from sklearn.pipeline import make_pipeline
def PolynomialRegression(degree=2, **kwargs):
    return make_pipeline(PolynomialFeatures(degree), LinearRegression(**kwargs))

Damit kann der obige Code etwas kürzer geschrieben werden.

In [None]:
# erzeuge künstliche Daten
X,y = erzeuge_kuenstliche_messdaten([-3, 7, 2, -2], 30)

# setze Polynomgrad
grad = 3
print('\nGrad: {}'.format(grad))

# Split in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X,y)

# Auswahl des Modells 
model = PolynomialRegression(degree = 3)

# Training 
model.fit(X_train, y_train)
#print('k0 = {}'.format(model.intercept_))
#print('k1 = {}'.format(model.coef_))

# Validierung
r2_train = r2_score(y_train, model.predict(X_train))
r2_test  = r2_score(y_test,  model.predict(X_test))
print('R2-Score der Trainingsdaten: {:.4}'.format(r2_train))
print('R2-Score der Testdaten: {:.4}'.format(r2_test))

# Visualisierung
X_vis = np.linspace(-5,5,100).reshape(-1,1) 
y_vis = model.predict(X_vis)

fig, ax = plt.subplots(figsize=(12,9))
ax.scatter(X_train, y_train, label='train')
ax.scatter(X_test, y_test, label='test')
ax.plot(X_vis, y_vis, '--k')
ax.legend();

Als nächstes beschäftigen wir uns erneut mit der Frage, welches Modell am besten zu unseren Daten passt und ob Underfitting oder Overfitting vorliegt. Dazu kopieren wir den Code aus der obigen Code-Zelle und oacken ihn in eine for-Schleife:

In [None]:
# erzeuge künstliche Daten
X,y = erzeuge_kuenstliche_messdaten([-3, 7, 2, -2], 30)

# Split in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X,y)

# FOR-Schleife
for grad in range(1,15):
    print('\nGrad: {}'.format(grad))


    # Auswahl des Modells 
    model = PolynomialRegression(degree = grad)

    # Training 
    model.fit(X_train, y_train)
    #print('k0 = {}'.format(model.intercept_))
    #print('k1 = {}'.format(model.coef_))

    # Validierung
    r2_train = r2_score(y_train, model.predict(X_train))
    r2_test  = r2_score(y_test,  model.predict(X_test))
    print('R2-Score der Trainingsdaten: {:.4}'.format(r2_train))
    print('R2-Score der Testdaten: {:.4}'.format(r2_test))

    # Visualisierung
    X_vis = np.linspace(-5,5,100).reshape(-1,1) 
    y_vis = model.predict(X_vis)

    fig, ax = plt.subplots(figsize=(12,9))
    ax.scatter(X_train, y_train, label='train')
    ax.scatter(X_test, y_test, label='test')
    ax.plot(X_vis, y_vis, '--k')
    ax.set_title('Grad: {}'.format(grad))
    ax.legend();

Am besten notieren wir die verschiedenen R2-Scores mit, um zu entscheiden, ob Underfitting oder Overfitting vorliegt.

In [None]:
# erzeuge künstliche Daten
X,y = erzeuge_kuenstliche_messdaten([-3, 7, 2, -2], 30)

# Split in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X,y)

r2_train_liste = []
r2_test_liste = []

# FOR-Schleife
for grad in range(1,15):
    # Auswahl des Modells 
    model = PolynomialRegression(degree = grad)

    # Training 
    model.fit(X_train, y_train)
   
    # Validierung
    r2_train = r2_score(y_train, model.predict(X_train))
    r2_test  = r2_score(y_test,  model.predict(X_test))
   
    r2_train_liste.append(r2_train)
    r2_test_liste.append(r2_test)

print(r2_train_liste)
print(r2_test_liste)

Ein Plot der R2-Scores hilft bei der Einschätzung Over-/Underfitting:

In [None]:
fig, ax = plt.subplots()
ax.plot(range(1,15), r2_train_liste, label='train')
ax.plot(range(1,15), r2_test_liste, label='test')

Offensichtlich sind wir nach Grad 12 so schlecht, dass wir besser uns nur den Anfang angucken:

In [None]:
fig, ax = plt.subplots(figsize=(12,8))
ax.plot(range(1,12), r2_train_liste[0:11], label='train')
ax.plot(range(1,12), r2_test_liste[0:11], label='test')
ax.legend();

Zwischen Grad 3 und Grad 8 ist der R2-Score für die Trainingsdaten praktisch gleich dem R2-Score der Testdaten. Diese Modelle können also gewählt werden. Für Grad 1 und 2 ist der R2-Score sowohl für Trainings- als auch Testdaten schlecht, es liegt Underfitting vor. Ab Grad 9 ist der R2-Score für die Trainingsdaten super, aber er fällt für die Testdaten ab. Wir sind im Bereich des Overfittings.

Fazit: es kommen die polynomialen Regressionsmodelle für Grad 3 bis 8 infrage. Wenn man die Wahl hat, wählt man das einfachste Modell, also hier das mit Grad 3.

# Übungsaufgaben zur Vertiefung

#### Aufgabe 11.1

Laden Sie den Datensatz ``data/population_germany.csv``. Wie viele Menschen werden in Deutschland im Jahr 2030 leben? Führen Sie eine vollständige Datenanalyse durch (Erkundung der Daten, Modellauswahl und Validierung inklusive Visualisierungen).

#### Aufgabe 11.2

Laden Sie den Datensatz ``data/population_india.csv``. Wie viele Menschen werden in Indien im Jahr 2030 leben? Führen Sie eine vollständige Datenanalyse durch (Erkundung der Daten, Modellauswahl und Validierung inklusive Visualisierungen). Geben Sie eine Einschätzung ab, wie gut ein Polynom die Bevölkerungsentwicklung in Indien abbildet.

#### Aufgabe 11.3 (Wiederholung Python)

Schreiben Sie ein Python-Programm für das Spiel Tic-Tac-Toe. Das Tic-Tac-Toe-Spiel soll folgendermaßen funktionieren:
* Das Spielfeld ist ein 3x3-Feld. Tipp: lässt sich beispielsweise durch ein 2d-Array realisieren.
* Zwei Spieler wählen abwechselnd ein Feld und markieren das gewählte Feld mit ihrem Zeichen (entweder X oder O). Tipp: lässt isch beispielsweise durch -1 oder +1 besser verarbeiten.
* Der erste Spieler, der eine komplette Zeile oder eine komplette Spalte oder eine komplette Diagonale mit seinem Zeichen gefüllt hat, gewinnt.
* Der Computer fragt nach den Spielereingaben und stellt das Feld mit dem aktuellen Spielstand dar. Sobald einer der Spieler gewonnen hat, gibt der Computer dies aus; ansonsten meldet der Computer "Unentschieden!".

Optional können Sie anstatt der Eingaben eines zweiten Spielers auch den Computer zufällig Felder wählen lassen.

#### Aufgabe 11.4 (Wiederholung Datentypen)

Gehen Sie alle bisherigen Jupyter Notebooks durch und notieren Sie hier die in der Vorlesung behandelten Datentypen:

* XXX
* XXX
* XXX
...

Was ist überhaupt ein Datentyp? Geben Sie für jeden Datentyp ein Beispiel an.