# Train-the-Trainer Hands-on Workshop: Maschinelles Lernen Projektarbeit

Benjamin Bergner, Stefan Konigorski, Matthias Kirchler (Hasso Plattner Institut)
20. November 2020

Willkommen zur Projektarbeit mit Machine Learning in scikit-learn.

## Agenda

<a name="Agenda"></a>

| Inhalt | Zeit |
| :--- | :---: |
| Einführung | 10:00 - 10:15 |
| 1) Einführung in Machine Learning mit scikit-learn | 10:15 - 11:00|
|  a) Klassische Vorhersagemodelle | |
|  b) Unüberwachtes Lernen mit Clusteranalyse & PCA | |
| Übungen in scikit-learn in Kleingruppen | 11:00 - 11:30|
| Besprechung der Ergebnisse | 11:30 - 11:45|
| Pause | 11:45 - 12:15|
| 2) Einführung in Deep Learning mit fast.ai | 12:15 - 13:00|
| Projektarbeit in fast.ai - Kleingruppen | 13:00 - 13:30|
| Besprechung der Ergebnisse | 13:30 - 13:45|
| Abschluss | 13:45 - 14:00|

## Willkommen zur Übung zum Maschinellen Lernen mit `scikit-learn`

 

In den folgenden Übungen machen Sie sich noch näher mit scikit-learn vertraut. Es gibt hierfür je nach Interesse zwei Übungsteile. Wählen Sie zwischen den (1) klassischen Vorhersagemodellen oder der (2) Clusteranalyse. Sie können das Inhaltsverzeichnis nutzen, um zu den jeweiligen Übungen zu navigieren.

<hr>

#(1) Klassische Vorhersagemodelle

In dieser Übung wenden Sie selbst Logistische Regression mit einem Attribut ihrer Wahl an. Des Weiteren schauen Sie, wie gut ein weiterer Algorithmus, die Entscheidungsbäume und die verwandten Zufallsbäume auf diesem Datensatz funktionieren.

### Module importieren

Wir importieren zu Anfang alle Module, die Sie für diese Übung benötigen. Die folgende Zelle muss zu Beginn ausgeführt werden.

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier

### Daten laden

Der Datensatz wird geladen. Zeigen Sie die ersten Werte des Datensatzes an, um einen Überblick zu bekommen.


In [None]:
dataset_url = "https://raw.githubusercontent.com/benjaminbergner/colab/main/Pima_diabetes.csv"
diabetes_df = pd.read_csv(dataset_url)

In [None]:
# Hier sind Sie am Zug!
# Verwenden Sie den zuvor erstellen Dataframe und zeigen Sie die ersten 5 Zeilen an.
diabetes_df[:5] # Entfernen Sie diesen Kommentar um den Befehl dann ausführen zu können. 

Unnamed: 0,Schwangerschaften,Glukosespiegel,Blutdruck,Hautdicke,Insulin,BMI,DiabetesFamiliengeschichte,Alter,Diabetes
0,1,89,66,23,94,28.1,0.167,21,0
1,0,137,40,35,168,43.1,2.288,33,1
2,3,78,50,32,88,31.0,0.248,26,1
3,2,197,70,45,543,30.5,0.158,53,1
4,1,189,60,23,846,30.1,0.398,59,1


### Trainings- und Testdatensatz generieren

Zuerst wird der Datensatz erstellt. Da wir Diabetes vorhersagen wollen, wird diese Variable aus `x` entfernt und in der Zielvariable `y` gespeichert. Darauffolgend werden Trainings- und Testdatensplits generiert. Der Testdatensatz beinhaltet 30% des gesamten Datensatzes.

In [None]:
y = diabetes_df.Diabetes
x = diabetes_df.drop('Diabetes', axis=1)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=12)

### Logistische Regression

Nun geht es ans Eingemachte. Für diese Übung wählen Sie eine einzelne Variable aus, die Ihnen relevant erscheint um Diabetes vorherzusagen. Daraufhin wird die logistische Regression durchgeführt. Wie genau ist das Modell? Welche Variable sagt wohl am besten vorher?

In [None]:
# Hier sind Sie am Zug!
# Ersetzen Sie VARIABLENNAME durch eine der folgenden Attribute (Anfangsbuchstabe muss groß sein):
# Schwangerschaften, Glukosespiegel, Blutdruck, Hautdicke, Insulin, BMI, DiabetesFamiliengeschichte, Alter
VARIABLENNAME_train = np.array(x_train.VARIABLENNAME).reshape(-1,1)
logreg = LogisticRegression(max_iter=1000)
logreg.fit(VARIABLENNAME_train, y_train)

In [None]:
# Hier sind Sie am Zug!
# Nutzen Sie dieselbe Variable wie zuvor, um die Testdaten zu generieren und
# führen Sie die logistische Regression aus.
VARIABLENNAME_test = np.array(x_test.VARIABLENNAME).reshape(-1,1)
logreg_predict = logreg.predict(VARIABLENNAME_test)
logreg_predict

In [None]:
pd.crosstab(y_test, logreg_predict)

In [None]:
# Hier sind Sie am Zug!
# Errechnen Sie, wie gut ihr Modell funktioniert, in dem Sie VARIABLENNAME wie zuvor ersetzen.
logreg.score(VARIABLENNAME_test, y_test)

Sehr gut, sie sollten nun einen Genauigkeitsscore sehen. **Notieren Sie Ihr Ergebnis. Können Sie es verbessern, indem Sie diese Übung nochmals mit einem anderen Attribut ausführen?**

### Entscheidungsbäume

Ein weiterer bekannter Klassifikationsalgorithmus aus dem Maschinellen Lernen ist der Entscheidungsbaum. Dieser trifft eine Vorhersage, indem schrittweise alle Variablen betrachtet werden. Es wird dabei mit der Variable begonnen, die die Zielvariable Diabetes am besten vorhersagt. An jedem Knoten wird ein Grenzwert definiert, der die Richtung im nachfolgenden "Ast" vorgibt. Jede Verzweigung endet letztlich in der Klassifikation.

<img src=https://blog.iao.fraunhofer.de/images/blog/decision-tree.png width="500">

Entscheidungsbäume können sehr komplexe Regeln definieren. Diese Komplexität wird durch die Baumtiefe bestimmt.

In [None]:
# Hier sind Sie am Zug!
# Setzen Sie eine Maximaltiefe Ihrer Wahl.
MAXIMALE_TIEFE = 
dt = tree.DecisionTreeClassifier(random_state=2, max_depth=MAXIMALE_TIEFE)

Nun ist das Modell bereit zu lernen.

In [None]:
dt.fit(x_train, y_train)

Das fertig gelernte Modell kann nun auf den Testdaten angewandt werden, um zu überprüfen, wie gut es funktioniert.

In [None]:
dt.score(x_test, y_test)

Schauen wir uns den Baum einmal an:

In [None]:
plt.figure(figsize=(40,20), dpi=300)  
_ = tree.plot_tree(dt, feature_names=x_train.columns, 
             filled=True, fontsize=6, rounded=True)
plt.show()

Die Blätter (untersten Knoten) geben die Werte der beiden Klassen an.

```
value = [Nicht Diabetes, Diabetes]
```

Sie müssen, um dies zu sehen, ggf. etwas in das Bild hineinzoomen.

**Gehen Sie zurück und definieren einen weiteren Entscheidungsbaum mit einer anderen maximalen Tiefe. Können Sie interessante Regeln ablesen? Wie verhält sich die Genauigkeit des Modells zur Tiefe?**
<hr>


###Zufallsbäume

Eine spezielle Variante von Entscheidungsbäumen sind Zufallsbäume (Random Forests). Wie der Name vorgibt, werden eine Vielzahl von Entscheidungsbäumen trainiert. Jeder Baum hat hierbei Zugriff auf eine zufällige Auswahl an Attributen, wodurch leicht unterschiedliche Regeln entstehen. Letztlich werden die Ergebnisse aller Bäume gemittelt, wodurch häufig verbesserte Ergebnisse entstehen. **Trainieren und evaluieren Sie dieses Modell. Welche Ergebnisse erhalten Sie im Vergleich zum einzelnen Entscheidungsbaum?**

In [None]:
rf = RandomForestClassifier(random_state=2)

In [None]:
# Hier sind Sie am Zug!
# Trainieren Sie den zuvor erstellten rf Klassifikator. Tipp: Die Syntax ist gleich zum Entscheidungsbaum


In [None]:
# Hier sind Sie am Zug!
# Evaluieren Sie Ihr fertig trainiertes Modell. Tipp: Die Syntax ist gleich zum Entscheidungsbaum


Herzlichen Glückwunsch. Sie haben mehrere Algorithmen des maschinellen Lernens selbstständig ausprobiert. Wollen Sie noch mehr lernen? Probieren Sie es doch mal mit der Übung 2.

<hr>

# (2) Clusteranalyse & PCA

In dieser Übung wenden Sie den K-Means Algorithmus auf einen selbst gewählten Subset von Attributen an und identifizieren interessante Zusammenhänge in den Daten.

### Module importieren

Wir importieren anfangs alle Module, die Sie für diese Übung benötigen. Die folgende Zelle muss zu Beginn ausgeführt werden.

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import seaborn as sns

### Lade Daten

Der Datensatz wird geladen. Zeigen Sie die ersten Werte des Datensatzes an, um einen Überblick zu bekommen.


In [None]:
dataset_url = "https://raw.githubusercontent.com/benjaminbergner/colab/main/Pima_diabetes.csv"
diabetes_df = pd.read_csv(dataset_url)

In [None]:
# Hier sind Sie am Zug!
# Verwenden Sie den zuvor erstellen Dataframe und zeigen Sie die ersten 5 Zeilen an.


### Datensatz vorverarbeiten
Für diese Übung stellen Sie Ihren Datensatz selbst zusammen - d.h. Sie bestimmen die Attribute, in denen Sie Gruppen identifizieren wollen.




In [None]:
# Hier sind Sie am Zug!
# Ergänzen Sie Variable x um mindestens 3 Attribute ihrer Wahl.
x = diabetes_df[['Alter', 'Alter', 'Alter']]

Ein weiterer Schritt: Datennormalisierung, damit jedes Attribut gleichermaßen wichtig für das Clustering ist.

In [None]:
scaler = StandardScaler()
x_norm = scaler.fit_transform(x)
x_norm.shape

Die erste Zahl dieser Ausgabe beinhaltet die Anzahl an Personen, die zweite Zahl die Anzahl aller Attribute, die Sie selektiert haben.

### Clustering

Nun können wir mit dem Clustering beginnen. Aber zuvor noch eine kleine Sache: K-Means benötigt eine bestimmte Anzahl zu identifizierender Gruppen.

In [None]:
# Hier sind Sie am Zug!
# Wählen Sie die Anzahl an Cluster aus, die Sie identifizieren wollen. 
ANZAHL_CLUSTER = 
kmeans = KMeans(n_clusters=ANZAHL_CLUSTER)

Das Modell können Sie nun mit dem Befehl ```fit_predict(IHRE DATEN)``` trainieren. Dieser Befehl trainiert sowohl das Modell und gibt die Vorhersagen zurück.

In [None]:
# Hier sind Sie am Zug!
# Trainieren Sie das Modell auf den normalisierten Daten.
# Fügen Sie Ihren Code am Ende der folgenden Zeile hinzu.
preds_kmeans = kmeans.

Sehr gut. Das Modell ist fertig trainiert. Wir kommen gleich nochmal auf die getätigten Vorhersagen, die sich nun in `preds_kmeans` befinden, zurück.

### Datenvisualisierung mit PCA

Wir wollen die Dimensionen der Daten von der gewählten Attributzahl auf 2 begrenzen, um die Daten visualisieren zu können, ohne den wesentlichen Informationsgehalt zu verlieren. Wir wenden dafür Principal Component Analysis (PCA) an.

Sie können den Befehl `fit_transform` des Objektes `pca` nutzen, um die Daten zu komprimieren.

In [None]:
# Hier sind Sie am Zug!
# Transformieren Sie die normalisierten Daten mittels PCA.
# Fügen Sie Ihren Code am Ende der folgenden Zeile hinzu.
pca = PCA(n_components=2)
pc = pca.

Datenvisualisierung ist essenziell für die Interpretation der Ergebnisse. Hierfür können wir einen `scatterplot` nutzen.

In [None]:
# Hier sind Sie am Zug!
# Visualisieren Sie die Daten durch Ausführen der nächsten Zelle.
# Ergänzen Sie den Funktionsaufruf durch den Parameter hue=preds_kmeans, um die Cluster darzustellen.
sns.scatterplot(x=pc[:,0], y=pc[:,1])

### Ergebnisse interpretieren

Die Anordnung der Datenpunkte geben einen Überblick über die geformten Cluster. Wir können zusätzlich die Verteilungen der Attributwerte innerhalb der Cluster und Zusammenhänge zwischen den Variablen visualisieren.

**Führen Sie die folgende Zelle aus. Welche Schlussfolgerungen können Sie aus der Darstellung ziehen?**

In [None]:
x_norm_inverse = scaler.inverse_transform(x_norm)
df_clust = pd.DataFrame(x_norm_inverse, index=x.index, columns=x.columns)
df_clust['clust'] = preds_kmeans

sns.pairplot(df_clust, hue='clust', palette='Blues')

Das maschinelle Lernen ist ein iterativer Prozess. **Wiederholen Sie ggf. diese Übung mit einer anderen Auswahl von Attributen und/oder ändern Sie die Anzahl der Cluster.**
<hr>

Herzlichen Glückwunsch. Sie haben mehrere Algorithmen des maschinellen Lernens selbstständig ausprobiert. Wollen Sie noch mehr lernen? Probieren Sie es doch mal mit der Übung 1.