# Machine Learning im Schnelldurchlauf
Wir wollen nun einen schnellen Durchlauf durch den Machine Learning Workflow vornehmen. Sie werden sehen, dahinter steckt keine Magie und die Schritte sind nicht schwer. Auch werden Sie feststellen, dass man recht einfach zwischen verschiedenen Modellen wechseln kann, wenn man gewisse Standards einhält. Darüberhinaus lernen wir einen sehr wichtigen Teil bei der Anwendung kennen, denn Validierung ist mit eines der wichtigsten Schritte!

In [None]:
# Ressourcen zur Datenhaltung und einfache statistische Methoden
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

from IPython.display import Markdown

# Import der ML-Methoden und Validierung
from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import (roc_curve, roc_auc_score)
from sklearn.model_selection import cross_val_score

#Einstellungen zur Online-Darstellung von Grafiken innerhalb von Jupyter
%matplotlib inline
plt.style.use('ggplot')

In [None]:
#Datensätze für Machine Learning Beispiele
from sklearn import datasets

## Dateneinlesen und Vorbereiten
Hier lesen wir den Iris Datensatz ein, den wir schon aus unserer Einleitung kennen und wandeln ihn wieder in einen Pandas Dataframe um. Die Spaltenbeschriftung setzen wir ebenfalls. Wissen, was in der jeweiligen Spalte steht, ist aber oftmals schon die erste Hürde in der Analyse von echten Daten. Zusätzlich nimmt die weitere Vorbereitung der Daten oft 50% der Arbeit ein. Denn es gilt stets "Bullshit in, bullshit out"! Es muss u.a. auf Konsistenz geprüft werden, fehlende Daten ersetzt oder bereinigt werden, Formate kontrolliert werden, Textfelder in numerische Werte kodiert werden und vieles mehr.

In [None]:
iris = datasets.load_iris()

#Einen Dataframe aus den Iris-Daten erstellen
df = pd.DataFrame(iris.data)
#Die Spalten des Dataframe richtig benennen
df.columns = iris['feature_names']

## Feature Selection
Im vorigen Notebook haben wir uns bereits empirisch die verschiedenen Features angeschaut und das Potential für die Trennung der verschiedenen Klassen erkannt. Für das Training unseres ML-Models müssen wir selektieren, welche Features (Eingangsgrößen) wir nutzen wollen, um auf unsere Klassen (Zielgrößen) zu schließen. In unserem Beispiel können wir alle nutzen, aber selbstverständlich auch nur einen Teil von ihnen. In der Wirklichkeit macht es Sinn möglichst aussagekräftige Features zu selektieren, gerade wenn man limitiert in der Rechenkapazität ist.

In [None]:
df.columns

In [None]:
# Auswahl der Features

training_features = [
    'sepal length (cm)', 
    'sepal width (cm)', 
    'petal length (cm)',
    'petal width (cm)'
]

## Feature Engineering
Ganz ohne menschlichen Input geht es natürlich normalerweise nicht. Ein großer Teil der Datenvorbereitung ist neben dem Erkennen von aussagekräftigen Features auch das Generieren von zusätzlichen Features. Will man beispielsweise zweitabhängige Aussagen treffen, sollten die Features auch zeitabhängige Informationen tragen. Oder verläuft ein Wertebereich eines Features über mehrere Größenordnung macht es vielleicht Sinn die Skala mit einem Logarithmus zu transformieren.

## Definition von Eingangs- und Zielgröße für ML
Jetzt ist es an der Zeit die Eingangswerte und die Zielgrößen klar getrennt voneinander zu halten, damit man nicht versehentlich das Ergebnis in seinen Trainingsdaten hat. Wir wollen stets **$X$** für alle Eingangswerte und **$y$** für die Zielgröße nutzen.

Zusätzlich machen wir einen kleinen Test auf Vollständigkeit und löschen alle Messungen, die fehlende Datenpunkte (NaN = not a number) aufweisen.

In [None]:
X = df[training_features].dropna()
y = pd.DataFrame(iris.target)[0]

## Vorarbeit für die Validierung
Eine der Standardansätze für die Validierung ist das Auftrennen des Datensatzes in einen Training- und Testdatensatz. Dafür wird hier die Funktion `train_test_split` genutzt. Im Beispiel teilen wir den Datensatz genau in zwei Hälften. Hier sollte man stets beachten, dass Training- und Testdatensatz die gleichen Informationen tragen.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)

In [None]:
# Sind die Daten nun gemischt?
y_train.head(10)

## Model
Das zugrundeliegende ML-Modell wird an dieser Stelle initialisiert. Hier sieht man schon den Vorteil, wenn man sich an gewissen Standards in der Definition hält. Man kann leicht zwischen verschiedenen Modellen wie neuronalen Netzen oder Entscheidungsbäumen wechseln. Ein wichtiger Bestandteil der Initialisierung ist das Setzen der Hyperparameter, deren Optimierung ein wichtiger Prozess sein wird, um die Performance zu steigern.

In [None]:
model = RandomForestClassifier(n_estimators=50, max_depth=2)
#model = MLPClassifier(hidden_layer_sizes=(20,), activation='relu')
#model = GradientBoostingClassifier(n_estimators=20, max_depth=2)
#model = MLPClassifier()

## Fitting
Das eigentliche Trainieren bzw. Fitting findet in einer Zeile statt. Man beachte, dass wir zum Trainieren auch nur den Trainingsdatensatz nutzen.

In [None]:
model.fit(X_train, y_train)

## Validierung

### Ergebnisse und Begutachtung
Das Modell ist nun trainiert und wir können es auch jeden beliebigen Datensatz anwenden. Wichtig für die Validierung wird es sein, sich gerade den Trainings- und Testdatensatz im Vergleich zu betrachten, damit man über die Performance und Übertragbarkeit (Generalisierung) entscheiden kann. Mit `model.predict_proba(dataset)` erhalten wir für jede Messung die Wahrscheinlichkeit für jeden einzelnen Schwertlilientyp. 

In [None]:
y_pred_test = model.predict_proba(X_test)
y_pred_train = model.predict_proba(X_train)

In [None]:
# Wir haben für jede Messung drei Wahrscheinlichkeiten erhalten
y_pred_test.shape

In [None]:
# Die Summe der Wahrscheinlichkeiten ergibt stets genau eins
y_pred_test.sum(axis=1)

In [None]:
# Betrachtung der Wahrscheinlichkeit eines Blütentyps i
i=2
y_pred_test_i = y_pred_test[:,i]
y_pred_train_i = y_pred_train[:,i]

In [None]:
# Für alle 75 Messungen des Testdatensatzen haben wir nun die Wahrscheinlichkeit für Typ i
y_pred_test_i.shape

In [None]:
# Wie viele gehören in Wirklichkeit zu Typ i
y_pred_test_i[(y_test == i)].shape

In [None]:
# Wie hoch sind die jeweiligen Wahrscheinlichkeiten? Werden alle richtig zugeordnet? 
y_pred_test_i[(y_test == i)]

In [None]:
# Erhalten falsche Messungen hohe Wahrscheinlichkeiten für den Typ i (->False Positives)
y_pred_test_i[(y_test != i)]

In [None]:
# Wir zählen, wie viele eine Wahrscheinlichkeit größer 50 Prozent aufweisen.
(y_pred_test_i > 0.5).sum()

In [None]:
# Wie viele gehören in Wirklichkeit zu Typ i
y_pred_test_i[(y_test == i).values].shape

In [None]:
# Die mittleren Wahrscheinlichkeiten im Vergleich
for i in range(3):
    y_pred_test_i = y_pred_test[:,i]
    type_i = y_pred_test_i[(y_test == i)].mean()
    not_type_i = y_pred_test_i[(y_test != i)].mean()
    print(f'Typ {i}: Mittlere Wahrscheinlichkeit für wahre {type_i:.2f} und unwahre {not_type_i:.2f} Vorhersagen.')

### Hypothesentest
Sich nur Zahlen anzuschauen ist alles andere als übersichtlich. Es gibt aber einfache Tools und Vorgehensweisen, um sich die Ergebnisse besser zu visualisieren. Hier betrachten wir die Ergebnisse für jeden Typ einzeln. Wir brauchen also in diesem Beispiel drei einzelne Plots. Angegeben wird für jede Messungen die Wahrscheinlichkeit, dass sie zum jeweiligen Typ $i$ gehört. Man spricht auch von einem Hypothesentest in diesem Zusammenhang.


In [None]:
for i in [0,1,2]:
    y_pred_test_i = y_pred_test[:,i]
    
    plt.figure(figsize=(10, 4))
    
    plt.hist(y_pred_test_i[(y_test == 0).values], bins=np.linspace(0,1,20), alpha=0.5, normed=False, label='Setosa')
    plt.hist(y_pred_test_i[(y_test == 1).values], bins=np.linspace(0,1,20), alpha=0.5, normed=False, label='Versicolor')
    plt.hist(y_pred_test_i[(y_test == 2).values], bins=np.linspace(0,1,20), alpha=0.5, normed=False, label='Virginica')

    plt.legend()
    
    if i == 0:
        plt.title('Hypothese: Messung gehört zu Typ 0: Iris Setosa')
    elif i == 1:
        plt.title('Hypothese: Messung gehört zu Typ 1: Iris Versicolor')
    elif i == 2:
        plt.title('Hypothese: Messung gehört zu Typ 2: Iris Virginica')
    plt.xlabel('Wahrscheinlichkeit, dass die Hypothese wahr ist')
    plt.ylabel('Anzahl')
    
    #plt.yscale('log',nonposy='clip')
    #plt.ylabel('log(Anzahl)')
    plt.show()

### ROC Kurve
Die Receiver Operating Characteristics (ROC) sind ein mächtiges Instrument zur Bewertung verschiedener Aspekte von ML-Modellen. Sie stellt die richtig-positiv Rate in Abhängigkeit der falsch-positiv Rate in einem Diagramm dar.

In [None]:
for i in range(3):
    y_pred_test_i = y_pred_test[:,i]
    y_pred_train_i = y_pred_train[:,i]
    
    plt.figure(figsize=(5, 5))
    plt.plot(*roc_curve(y_test == i, y_pred_test_i)[:2], label='test')
    plt.plot(*roc_curve(y_train == i, y_pred_train_i)[:2], label='train')
    plt.plot([-0.1, 1.1],[-0.1, 1.1], color='black', linestyle=':')
    plt.title(f'ROC-Kurve Typ {i}')
    plt.xlabel('falsch-positiv Rate')
    plt.ylabel('richtig-positiv Rate') 
    plt.xlim(-0.05, 1.05)
    plt.ylim(-0.05, 1.05)
    plt.legend(loc='best')
    plt.show();    

### Confusion Matrix
In einer Confusion Matrix (Table of Confusion) wird für jede einzelne Klasse dargestellt, wie viele Messungen richtig zugeordnet werden (Hauptdiagonale) und wie viele falsch. Zusätzlich erkennt man auch zu welchem falschen Typ zugeordnet wird. Bei drei Klassen erhält man also eine 3x3 Matrix. Die Summe über die jeweilige Zeile ergibt die wahre Anzahl der Mitglieder pro Typ und die Summe über die Spalte die Anzahl vorhergesagter Mitglieder pro Typ.

In [None]:
from sklearn.metrics import confusion_matrix

# Liste mit den Klassenzugehörigkeiten
highest_pred = model.predict(X_test)

truth = y_test
pred = highest_pred
cm = confusion_matrix(truth, pred)

print(cm)

In [None]:
# Summe der wahren Mitglieder (Zeile)
(y_test.values==1).sum()

In [None]:
# Summe der vorhergesagten Mitglieder (Spalte)
(highest_pred==1).sum()

In [None]:
# Hilfsfunktionen für die Kondensierung auf eine binäre Klassifizierung

# Das komplette Modell wird übergeben
def make_bina_class(model, X_sample, i, threshold=0.0, check_max=True):
    proba = model.predict_proba(X_sample)
    if check_max:
        highest_pred = model.predict(X_sample)
        bina_class = [0 if (pred == i) and (proba[pos][i] >= threshold) else 1 for pos, pred  in enumerate(highest_pred)]
    else:
        bina_class = [0 if (pred >= threshold) else 1 for pred in proba[:,i]]
    return bina_class   

# In der List Comprehension geschieht folgendes:
   #for pos, pred  in enumerate(highest_pred):
   #    if (pred == i) & (proba[pos][i] >= threshold):
   #        bina_class.append(0)
   #    else:
   #        bina_class.append(1)

Hier wird die Confusion Matrix auf eine Hypothese, somit zu einer binären Klassifikation, kondensiert, sodass man für jede Kategorie eine 2x2 Matrix erhält. Die Summe der ersten Zeile sind alle wahren Mitglieder (**Positives**, P) des Typs, die sich aus den **True Positives** (TP) und **False Negatives** (FN) zusammensetzt. Die Summe der zweiten Zeile sind alle unwahren Mitglieder (**Negatives**, N), die sich aus der Summe der **False Positives** (FP) und **True Negatives** (TN) ergibt.

| als Positive klassifiziert| als Negative klassifiziert
-|-
**Positives (P)** | True Positives (TP) | False Negatives (FN)
**Negatives (N)** | False Positives (FP)  | True Negatives (TN) 

In [None]:
truth = y_test
pred = highest_pred
cm = confusion_matrix(truth, pred)
print(f'Confusion Matrix 3x3')
print(cm)

for i in range(3):
    pred = make_bina_class(model, X_test, i)
    truth_i = [0 if j == i else 1 for j in y_test]
    cm= confusion_matrix(truth_i,pred)
    print(f'\n Typ {i}')
    print(cm)

### AUC und Accuracy

Weitere Kennzahlen sind zum Beispiel die Fläche unter der ROC Kurve (**A**rea **U**nder **C**urve **AUC**) oder die **Accuracy** $\bigl(\frac{TP + TN}{P + N}\bigr)$. Sie gibt an, wie viele Messungen insgesamt richtig klassifiziert werden unabhängig, ob sie zu den Positives oder Negatives gehören. Bei der Accuracy muss man aber aufpassen, ob man eine Klasse oder alle Messungen betrachtet. Weitere wichtige Kennzahlen werden im späteren Verlauf betrachtet.

In [None]:
# Liste mit den Klassenzugehörigkeiten
highest_pred = model.predict(X_test)

# Wie viele werden falsch zugeordnet 
print(f'falsch klassifizierte Messungen: {(highest_pred != y_test).sum()}')

In [None]:
s = """
Typ | AUC | Accuracy
:-:|:-:|:-:|:-:
""" 
for i in range(3):
    y_pred_test_i = y_pred_test[:,i]
    
    
    roc = roc_auc_score(y_test.values == i, y_pred_test_i)
    score = model.score(X_test[y_test.values == i], y_test[y_test.values == i])
    
    
    # Betrachtung aller richtigen und falschen Zuordnungen
    #to_check = np.logical_or(highest_pred==i , y_test==i)
    #score = model.score(X_test[to_check], y_test[to_check])
    
    s += f'{i} | {roc:.3f} | {score:.3f} \n'
 
display(Markdown(s))
display(Markdown(f"**Mittlere Accuracy**: {model.score(X_test, y_test):.3f}"))

## Feature Importance
Man kann sich leicht anzeigen lassen, welches Feature eine höhere Relevanz für den Klassifizierer hat. So kann bei einer Vielzahl an Features ihre Relevanz gegeneinander abgewägt werden, um den Rechenaufwand zu minimieren. Auf der anderen Seite können aber auch bisher unbekannte Features als wichtig eingestuft werden.

In [None]:
# Funktioniert nur für GradientBoostingClassifier oder RandomForestClassifier
if (str(model)[0:3] != 'MLP'):
    plt.figure(figsize=(5, 5))
    plt.barh(range(len(X.columns)), model.feature_importances_)
    plt.yticks(range(len(X.columns)), X.columns)
    plt.show()
else:
    print("So einfach funktioniert es leider nur für baumartige Classifier wie GradientBoostingClassifier oder RandomForestClassifier")