# Grundlegender ML-Workflow mit Scikit-Learn 

Im letzten Kapitel haben wir uns mit den Basisbegriffen des maschinellen Lernens beschäftigt:
* überwachtes Lernen (supervised learning)
* unüberwachtes Lernen (unsupervised learning)

sowie Input (Eigenschaft, Merkmal, Feature oder Attribut) und Output (Klassenbezeichnung, Kategorie, Label, Target, Zielwert). Mit der linearen Regression haben wir ein einfaches Beispiel für überwachtes Lernen kennengelernt. Zur Erinnerung hier noch einmal der grundlegende Ablauf eines ML-Projektes, bevor wir uns weitere Beispiele zur Klassifikation und zum Clustering ansehen werden. 

<div class="alert alert-block alert-info">
<ol>
<li>Zuerst wählen wir ein Modell aus, das trainiert werden soll. </li>
<li>Danach wählen wir die Hyperparameter des Modells aus. Hyperparameter sind Parameter des Modells, die wir vorab ohne Kenntnis der Daten festlegen.</li>
<li>Danach packen wir die Inputdaten in eine Matrix X, bei der jede Spalte eine Eigenschaft repräsentiert und in den Zeilen die Daten stehen.</li>
<li>Falls wir ein überwachtes Lernverfahren anwenden wollen, packen wir die Outputdaten in einen Zeilenvektor y.</li>
<li>Wir trainieren das ML-Modell, indem wir die fit()-Methode aufrufen.</li>
<li>Um das Modell zur Prognose neuer Daten zu verwenden, benutzten wir die predict()-Methode</li>
</ol>
</div>

In [None]:
import numpy as np
import matplotlib.pylab as plt
import pandas as pd
import seaborn as sns; sns.set()

### Einfache Klassifikation mit Scikit-Learn

Um an einem einfachen Beispiel die Vorgehensweise für Klassifikationsaufgaben vorzustellen, verwenden wir ein sehr bekanntes Beispiel aus dem maschinellen Lernen, die Klassifikation von Irisblumen. Der Iris-Datensatz wird bereits seit 1936 genutzt, um Klassifikationsverfahren zu testen, siehe https://en.wikipedia.org/wiki/Iris_flower_data_set. In dem Datensatz sind drei verschiedene Irisarten:

Iris setosa | Iris versicolor | Iris virginica
- | - | -
<img src="pics/fig10_iris_setosa.jpg" alt="Iris setosa" style="width: 200px;"/> | <img src="pics/fig10_iris_versicolor.jpg" alt="Iris versicolor" style="width: 200px;"/> | <img src="pics/fig10_iris_virginica.jpg" alt="Iris vriginica" style="width: 200px;"/>

Quelle linkes Bild: CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=170298, ansonsten lizenzfrei

Für jede dieser drei Arten gibt es 50 Beispiele, bei denen vier Eigenschaften erfasst sind:

* sepal_length: Länge des Kelchblatts in cm
* sepal_width: Breite des Kelchblatts in cm
* petal_length: Länge des Kronblatts in cm
* petal_width: Breite des Kronblatts in cm

Da dieses Beispiel so häufig verwendet wird, ist es sogar in Scikit-Learn hinterlegt und die Iris-Daten können direkt geladen werden:

In [None]:
from sklearn import datasets

iris = datasets.load_iris()
iris

Nach dem Laden des Iris-Datensatzes stellen wir fest, dass die Variable `iris` nun ein Dictionary enthält. Wir können also mit eckigen Klammern auf die einzelnen Bestandteile des Datensatzes zugreifen. In `data` stehen die Eingabedaten, in `target`die Ausgabedaten.

In [None]:
X = iris['data']
print('Dimension von X: ', np.shape(X))

In [None]:
y = iris['target']
print('Dimension von y: ', np.shape(y)) 

Wenn wir uns den Inhalt von `y` betrachten, stellen wir fest, dass dort nicht etwa 'setosa', 'versicolor' oder 'virginica' steht, sondern nur 0, 1 oder 2.

In [None]:
print(y)

Für die mathematischen ML-Algorithmen müssen wir die Kategorien, d.h. in diesem Fall die drei Iris-Arten, codieren. Damit ist gemeint, dass jede Kategorie einen Zahlencode bekommt. Hier steht also die 0 für Iris setosa, 1 für Iris versicolor und 2 für Iris virginica.

Erkunden wir zunächst die Daten. Wir nehmen immer zwei Eigenschaften und stellen die Iris-Art über die Farbe dar, Scatterplots! 

**Mini-Übung:**

Plotten Sie auf der x-Achse "Länge Kelchblatt", auf der y-Achse "Breite Kelchblatt" und färben Sie die Kreise je nach Iris-Art ein. Erstellen Sie anschließend eine zweite Grafik mit "Länge Kelchblatt" auf der x-Achse und "Breite Kronblatt" auf der y-Achse, wieder mit der Iris-Art als Einfärbung.

In [None]:
# Hier Ihr Code


Da es mühsam ist, alle Kombinationen von Hand zu bilden, lassen wir das Python machen.

In [None]:
merkmale = ['Länge Kelchblatt (cm)', 'Breite Kelchblatt (cm)', 'Länge Kronblatt (cm)', 'Breite Kronblatt (cm)']

for i in range(4):
    for j in range(4):
        fig, ax = plt.subplots()
        ax.scatter( X[:,i], X[:,j], c=y )
        ax.set_xlabel(merkmale[i])
        ax.set_ylabel(merkmale[j]);
        
        

Als nächstes wählen wir ein Modell mit Hyperparametern und trainieren es. Diesmal wird es aber schwierig zu testen, ob das trainierte Modell gute Prognosen liefert. Daher legen wir von Anfang einige der Datensätze zur Seite. Diese Daten nennen wir **Testdaten**. Mit den übriggebliebenen Daten trainieren wir das ML-Modell. Diese Daten nennen wir **Trainingsdaten**. Später nutzen wir dann die Testdaten, um zu überprüfen, wie gut das Modell funktioniert.

Für die Aufteilung in Trainings- und Testdaten nehmen wir eine maßgeschneiderte Funktion von Scikit-Learn namens `train_test_split`, siehe auch https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html. 

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y)

print('Dimension X_train: ', np.shape(X_train))
print('Dimension X_test: ',  np.shape(X_test))
print('Dimension y_train: ', np.shape(y_train))
print('Dimension y_test: ',  np.shape(y_test))

Jetzt können wir ein ML-Modell wählen. Eines der einfachsten Klassifikationsmodelle ist das Gaußsche naive Bayes Modell, auch wenn der Name überhaupt nicht einfach ist. 
> https://scikit-learn.org/stable/modules/naive_bayes.html

Dafür hat es gar keine Hyperparameter und kann direkt eingesetzt werden:

In [None]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()

Jetzt das Training mit den Trainingsdaten (!):

In [None]:
model.fit(X_train, y_train)

Nun können wir testen, wie gut das Training funktioniert hat, indem wir mit dem ML-Modell prognostizieren, welche Iris-Art es für die Testdaten voraussagen würde:  

In [None]:
y_predict = model.predict(X_test)

Sehen wir uns mal die Vorhersage `y_predict` und die tatsächlichen Daten `y_test` an, die wir ja zuvor beiseite gelegt hatten:

In [None]:
print(y_predict)
print(y_test)

Sieht eigentlich ganz gut aus, doch an der 26. Stelle liegt unser Modell falsch. Überhaupt, das Vergleichen ist händisch etwas mühsam. Aber auch hier hilft Scikit-Learn, das eine Funktion zur Verfügung stellt, die den Anteil der korrekt prognostizierten Werte berechnet, nämlich `accuracy_score()`, siehe auch
> https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html


In [None]:
from sklearn.metrics import accuracy_score

correct = accuracy_score(y_test, y_predict)
print('Es wurden {:.2f} % Irisblumen korrekt klassifiziert.'.format(correct*100))

Und hier noch einmal alles zusammen:

In [None]:
# Module
from sklearn import datasets
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

# Datenimport
iris = datasets.load_iris()

# Auswahl des Modells mit Wahl der Hyperparameter (hier nur Standardwerte)
model = GaussianNB()

# Selektion Input und Output, Split in Trainings- und Testdaten
X = iris['data']
y = iris['target'] 
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Training des ML-Modells
model.fit(X_train, y_train)

# Vergleich mit Messung 
y_predict = model.predict(X_test)

correct = accuracy_score(y_test, y_predict)
print('Es wurden {:.2f} % Irisblumen korrekt klassifiziert.'.format(correct*100))

**Mini-Übung:**

Lesen Sie die Datei ``data/heart.csv`` ein. Wie viele Datensätze (=Zeilen) enthält die Datei? Die Bedeutung der Spaltennamen können Sie hier nachlesen: https://www.kaggle.com/ronitf/heart-disease-uci . Wie viele Personen leiden an einer Herzkrankheit (target == 1)?


In [None]:
# Hier Ihr Code


**Mini-Übung**

Extrahieren Sie nun die Input-Daten X und die Output-Daten y. Lassen Sie anschließend die Datensätze in einen Trainings- und einen Testdatensatz aufteilen. Trainieren Sie ein Gaußsches naives Bayes Modell mit den Trainingsdaten. Wenden Sie dann das trainierte Modell auf die Testdaten an. Wie viele Herzpatienten wurden in den Testdaten korrekt erkannt?

In [None]:
# Hier Ihr Code


**Mini-Übung**

Wiederholen Sie das Training des ML-Modells. Aber nutzten Sie diemal nicht alle 13 Attribute, sondern nur das Alter (age), das Geschlecht (sex, 1 = männlich, 0 = weiblich) und den Ruhepuls (trestbps). Wie viele Herzpatienten werden nun in den Testdaten korrekt erkannt? Was prognostiziert das Modell für Sie?

### Einfaches Clustering mit Scikit-Learn

Wir verwenden für das nächste Beispiel den Iris-Datensatz weiter. Angenommen, wir wüssten nicht, dass es sich um drei Iris-Arten handelt. Eines der einfachsten Clustering-Verfahren ist das sogenannte Gauß'sche Mixture-Modell (GMM), siehe

> https://scikit-learn.org/stable/modules/generated/sklearn.mixture.GaussianMixture.html#sklearn.mixture.GaussianMixture

Hier müssen wir allerdings Hyperparameter setzen. Insgesamt hat GMM 14 Hyperparameter. Wichtig ist allerdings nur erste Parameter `n_components`, der die Anzahl der Cluster vorgibt.  


In [None]:
from sklearn.mixture import GaussianMixture

# Wahl des Modells
model = GaussianMixture(n_components=3)

# Training des Modells mit allen Daten
model.fit(X)

# Prognose
y_predict = model.predict(X)

print(y_predict)
print(y)

# Hyperparameter und Modellvalidierung

Im letzten Abschnitt haben wir uns mit dem grundlegenden ML-Ablauf beschäftigt und als erste einfache ML-Modelle 
* lineare Regression,
* naive Gaußsche Bayes-Klassifikation und
* Gauß'sches Mixture-Model zum Clustering

behandelt. Aber wie wählen wir eigentlich ein Modell für unsere Daten aus? Oft werden einfach viele verschiedene ML-Modelle durchprobiert und am Ende entscheidet man sich für das ML-Modell mit der besten Performance. Aber wie messen wir die Performance eines Modells? 

### Kreuzvalidierung

Eine erste Idee dazu haben wir ebenfalls schon betrachtet. Wir halten einen Teil der Daten zurück, die sogenannten Testdaten, und trainieren das Modell nur mit den Trainingsdaten. Danach können wir ermitteln, wie gut das trainierte Modell die Testdaten prognostizieren kann. Diese Idee hat aber auch Schwächen, wie wir im folgenden Beispiel sehen.

Nehmen Sie das Beispiel der Iris-Klassifikation. Führen Sie die nächste Code-Zelle fünfmal aus und notieren Sie sich den prozentualen Anteil der korrekt klassifizierten Irisblumen.

In [None]:
# Module
from sklearn import datasets
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

# Datenimport
iris = datasets.load_iris()

# Auswahl des Modells mit Wahl der Hyperparameter (hier nur Standardwerte)
model = GaussianNB()

# Selektion Input und Output, Split in Trainings- und Testdaten
X = iris['data']
y = iris['target'] 
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Training des ML-Modells
model.fit(X_train, y_train)

# Vergleich mit Messung 
y_predict = model.predict(X_test)

correct = accuracy_score(y_test, y_predict)
print('Es wurden {:.2f} % Irisblumen korrekt klassifiziert.'.format(correct*100))

Sie werden feststellen, dass die Anzahl der korrekt klassifizierten Irisblumen schwankt. Das liegt daran, dass die Methode ``train_test_split()`` ca. 25 % der Daten als Testdaten zurückbehält und dabei *zufällig* auswählt, welche Daten in den Testdatensatz kommen. 

Mit zwei Optionen können wir die Aufteilung in Trainings- und Testdaten optional steuern:
* ``test_size``: wird ein Integer angegeben, so entspricht dies der absoluten Anzahl der Testdatensätze; wird ein Float angegeben, so entspricht dies der relativen Anzahl an Testdatensätzen (0.0 entspricht 0 %, 1.0 entspricht 100 %).
* ``random_state``: mit dieser Option kann ein Startwert (Integer) für die Generierung von Zufallszahlen gesetzt werden.



In [None]:
import numpy as np 

X = iris['data']
y = iris['target'] 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=None, random_state=None)

number_of_test_data = np.shape(X_test)[0]
number_of_all_data  = np.shape(X)[0]
print('absolute Anzahl: {} Testdatensätze, prozentuale Anzahl {:.2f} %'.format(number_of_test_data, number_of_test_data/number_of_all_data * 100))

print('Anfang von X_test: \n', X_test[0:5, :])

Wenn wir einen Teil der Daten als Testdaten für die spätere Validierung zurückbehalten, hat das auch den Nachteil, dass wir weniger Datensätze für das Training haben. Und sollten wir ohnehin nur wenige Daten insgesamt haben, kann das zu Problem und ungenauen schlecht trainierten Modellen führen. Sinnvoll ist daher die **Kreuzvalidierung**.

Die Idee der zweifachen Kreuzvalidierung ist wie folgt. Wir teilen die Daten in zwei Datensätze A und B und trainieren zweimal und testen dann auch zweimal. Um die Performance des Modells zu beurteilen, nehmen wir den Mittelwerte der beiden Tests.

Die Idee der dreifachen Kreuzvalidierung ist, drei Durchläufe zu machen. Wir teilen die Daten in drei Datensätze A, B und C auf. Beim ersten Durchlauf trainieren wir mit A, B und testen mit C. Beim zweiten Durchlauf trainieren wir mit B,C und testen mit A. Und beim dritten Durchlauf findet das Training mit C,A statt und der Test mit B. Zuletzt bilden wir wieder den Mittelwert aus den drei Testwerten.

Natürlich lässt sich diese Idee immer weiter treiben.




### Bestimmtheitsmaß $R^2$

Das Bestimmtheitsmaß ist eine statistische Kennzahl, wie gut ein Modell zu den Daten (Messwerten) passt:
* $R^2 = 1$ wäre perfekte Übereinstimmung,
* $R^2 = 0$ heißt, das Modell ist nicht besser, als wenn man einfach den Mittelwert aus allen Daten bilden würde,
* $R^2 < 0$ bedeutet ein schlechtes Modell.

Details zur Berechnung des $R^2$-Scores finden Sie hier: https://de.wikipedia.org/wiki/Bestimmtheitsmaß . Wir verwenden in der Regel die in Scikit-Learn eingebauten Performance-Funktionen, so dass Sie sich die mathematischen Formeln nicht merken müssen. Details finden Sie hier: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html?highlight=r2#sklearn.metrics.r2_score . Ein Beispiel mit den Messwerten ``y_true``und den prognostizierten Werten ``y_pred``würde folgendermaßen ausgewertet werden:

```code
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
r2_score(y_true, y_pred)
```


### Bias-Varianz-Dilemma oder Overfitting versus Underfitting

Nachdem wir nun wissen, wie wir bestimmen können, ob wir ein gutes oder schlechtes Modell gewählt haben, schauen wir uns das **Bias-Varianz-Dilemma** an. Dazu folgendes Beispiel:

In [None]:
# Quelle: https://scipy-lectures.org/packages/scikit-learn/auto_examples/plot_bias_variance.html

def generating_func(x, err=0.5):
    return np.random.normal(10 - 1. / (x + 0.1), err)

n_samples = 8

np.random.seed(0)
x = 10 ** np.linspace(-2, 0, n_samples)
y = generating_func(x)

x_test = np.linspace(-0.2, 1.2, 1000)

titles = ['d = 1 (Underfitting; großer Bias)',
          'd = 2',
          'd = 6 (Overfitting; hohe Varianz)']
degrees = [1, 2, 6]

fig = plt.figure(figsize=(9, 3.5))
fig.subplots_adjust(left=0.06, right=0.98, bottom=0.15, top=0.85, wspace=0.05)

for i, d in enumerate(degrees):
    ax = fig.add_subplot(131 + i, xticks=[], yticks=[])
    ax.scatter(x, y, marker='x', c='k', s=50)

    model = make_pipeline(PolynomialFeatures(d), LinearRegression())
    model.fit(x[:, np.newaxis], y)
    ax.plot(x_test, model.predict(x_test[:, np.newaxis]), '-b')

    ax.set_xlim(-0.2, 1.2)
    ax.set_ylim(0, 12)

    ax.set_title(titles[i])

Das linke Bild zeigt eine lineare Regression, aber offensichtlich sind die Daten nicht linear und die Gerade passt nicht besonders gut. Andererseits hat die lineare Funktion nur zwei Parameter, die trainiert werden müssen im Verhältnis zu 7 Datensätzen. Das mittlere ML-Modell scheint gut zu passen (3 Parameter zu 7 Datensätzen). Das rechte Bild zeigt ein Regressionspolynom vom Grad 6, das zu stark angepasst ist. Zwischen vorletztem und letztem Datenpunkt würde man ja einen Punkt dazwischen erwarten, aber das Regressionspolynom ist weit davon entfernt. Übrigens, 7 Parameter des Modells zu 7 Datensätzen... das konnte eigentlich gar nicht gut gehen.

**Overfitting oder Überanpassung:** Mit Overfitting bezeichnen wir in Machine Learning ein Modell, das **zuviele** erklärende Variablen enthält. Das Modell erklärt nicht nur den Ursache-Wirkungszusammenhang, sondern sogar die Messfehler. Oder anders ausgedrückt, das Modell hat eine **große Varianz**.

**Underfitting oder Unteranpassung:** Das Modell ist nicht flexibel genug oder nicht komplex genug. Man kann auch sagen, es hat nicht genügend erklärende Variablen, um die Daten zu beschreiben. Oder anders ausgedrückt, das Modell hat ein **großes Bias** (eine große Verzerrung).

Wie können wir jetzt entscheiden, ob unser trainiertes Modell über- oder unterangepasst ist oder genau richtig?

* Normalerweise sollte der Performance-Score der Trainingsdaten besser sein als der Score der Testdaten. Schließlich wurde das Modell ja mit den Trainingsdaten trainiert.
* Wenn das Modell nicht komplex genug ist (Underfitting), ist der Performance-Score sowohl bei den Trainingsdaten als auch bei den Testdaten schlecht.
* Ist das Modell überangepasst (Overfitting), dann ist der Performance-Score bei den Trainingsdaten super, aber schlecht bei den Testdaten.
* Bei mittleren Modellen ist der Performance-Score bei den *Testdaten* besser als bei den unter- oder überangepassten Modellen.

Die folgende Grafik (Quelle: Jake VanderPlas, Data Science mit Python, Abbildung 5.26) verdeutlicht diesen Zusammenhang noch einmal:

![Validierungskurve](pics/fig10_validierungskurve.png)


# Übungsaufgaben zur Vertiefung

<div class="alert alert-block alert-success"><b>Aufgabe 10.1</b></br>
Laden Sie den Datensatz ``bundesliga_top7_offensive.csv`` und filtern Sie die Daten nach Borussia Dortmund. 

* Führen Sie ein Clustering der Spieler nach Toren durch. Verwenden Sie 4 Cluster.
* Schreiben Sie eine schöne Ausgabe, die die Namen der Fußballer eines jeden Clusters gemeinsam mit den Toren des Fußballers ausgibt.
* Wie viele Fußballer sind gemeinsam mit Erling Haaland in einem Cluster?
* Was passiert mit Marco Reus, wenn Sie die Anzahl der Cluster von 4 auf 3 Cluster reduzieren. Mit wem ist er jetzt in einem Cluster?
</div>

<div class="alert alert-block alert-success"><b>Aufgabe 10.2</b></br>
Laden Sie den Datensatz ``statistic_id224105_durchschnittlicher-dieselpreis-in-deutschland-bis-januar-2022.csv``. Dieser Datensatz enthält die wöchentlichen Dieselpreise vom Januar 2014 bis Januar 2022 (Quelle: https://de.statista.com/statistik/daten/studie/224105/umfrage/durchschnittlicher-preis-fuer-diesel-kraftstoff/ ) in Eurocent pro Liter.

1. Trainieren Sie ein lineares Regressionsmodell für alle Dieselpreise seit Januar 2014 (Tipp: der erste Eintrag hat den Index '07. Jan 14'). Sie dürfen auf der x-Achse bzw. als Input die Anzahl der Wochen nehmen, also 1 bis 417. Lassen Sie den R2-Score berechnen, was vermuten Sie bzgl. Over- und Underfitting? Zeichnen Sie die Messwerte mit Punkten und plotten Sie die Gerade. Gutes oder schlechtes Modell?

2. Wiederholen Sie Teilaufgabe 1 für ab dem Januar 2021 (Tipp: der Index lautet '5. Jan 21'). Vergleichen Sie Ihr Ergebnis mit dem Ergebnis für Teilaufgabe 1. 
</div>