# Übung 2.1 - Entscheidungsbäume am Beispiel Schwertlilienbestimmung
VO Maschinelles Lernen in der Produktion, WS2020/21, Moritz von Unold, Richard Lux, Felix Soest

#### In diesem Notebook wird das Verfahren Entscheidungsbäume anhand des Anwendungsbeispiels Schwertlilienbestimmung geübt.

Im Datensatz der Schwertlilien werden drei verschiedene Lilienarten anhand 4 Eigenschaften (Breite und Länge der Kelchblätter, Breite und Länge der Kronblätter) klassifiziert. Es soll ein Entscheidungsbaum erstellt werden welcher bei gegebenen Breiten und Längen der Kelch- und Kronblätter die Art der Lilie (iris-setosa, iris-virginica oder iris-versicolor) bestimmen kann. 

![alt text](Prozess_Modellentwicklung_v2.png "Title")

#### 0. Bibliotheken importieren

#### 1. Daten erfassen
- Daten importieren

#### 2. Daten erkunden
- Daten tabellarisch darstellen
- Klassenzugehörigkeit anzeigen

#### 3. Daten vorbereiten
- Daten in Trainings- und Testdaten aufteilen

#### 4. Modelle bilden (hier nur 1 Modell)
- Mögliche Hyperparameter (Modell-Parameter) anzeigen
- Modell erstellen (und trainieren
- Bewertung des Trainings - falsche Vorhersagen
- Bewertung des Trainings - Genauigkeit

#### 5. (Modelle validieren)
- Da nur ein Modell erstellt wird entfällt dieser Schritt

#### 6. Modell testen & anwenden
- Bewertung des Modells - falsche Vorhersagen
- Bewertung des Modells - Wahrheitsmatrix 
- Bewertung des Modells - Genauigkeit
- Erkenntnisse aus dem Modell/Nutzen

#### 7. Visualisierung: Genauigkeit über der Baumtiefe und der Anzahl der Blätter 

### 0.Bibliotheken importieren

In [None]:
# 0. Code-Block
# Importiere benötigte Bibliotheken
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

pd.options.mode.chained_assignment = None
%matplotlib inline

### 1. Daten erfassen - Daten importieren

TODO:
- Wähle eine Zahl zwischen 1 und 100 für die Generierung deiner spezifischen Zufallszahlen  (1. Code-Block - Zeile 8)

(Wähle für alle Notebooks in allen Übungen immer die gleiche Zahl (z.B. den Tag deines Geburtstags), dann sind die Ergebnisse der verschiedenen Machine-Learning-Verfahren vergleichbar da dann alle Notebooks mit der "gleichen" Folge an Zufallszahlen arbeiten)
- Ausführen des 1. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Gewählte Zufallszahl

In [None]:
# 1. Code-Block

# Erstelle eigene Zufallszahlen
my_seed = TODO

# Lade Datensatz
df = pd.read_excel("Daten_Schwertlilien.xlsx")

# Ausgabe gewählte Zufallszahlen
print("\nGewählte Zahl für Zufallszahlen: \t" + str(my_seed))

### 2.1 Daten erkunden - Daten tabellarisch darstellen

TODO:
- Schreibe die Code-Zeile um dir die letzten 10 Zeilen das Datensatzes anzuzeigen
- Hilfe dafür im Cheat_Sheet_Daten_erkunden (im OPAL)
- Ausführen des 2. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Tabelle des Datensatzes

In [None]:
# 2. Code-Block

# Ausgabe der Daten in tabellarischer Form
df.tail(TODO)

### 2.2 Daten erkunden - Klassenzugehörigkeit anzeigen

Visuelle Darstellung der Klassenzugehörigkeit.

TODO:
- Ausführen des 3. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Pair-Plot, Darstellung der Klassen über 2 Variablen

In [None]:
# 3. Code-Block

# Ausgabe Klassenzugehörigkeit
import seaborn as sns

sns.pairplot(df, hue="Lilienart", diag_kind="hist")

### 3.1 Daten vorbereiten - Aufteilen der Daten in Trainings- und Testdaten

Der Datensatz wird in einen Trainingsdatensatz und einen Testdatensatz aufgeteilt:
Übliche Werte sind für den Trainingsdatensatz 70 - 80% der Daten und für den Testdatensatz 20 - 30%.

Mit dem Trainingsdatensatz wird das Regressionsmodell trainiert, der Testdatensatz dient dazu das trainierte Modell zu testen.

TODO:
- Setze für train_size einen Wert zwischen 0.6 und 0.9 ein (4. Code-Block - Zeile 4)
- Beispiel: Ein Wert von 0.8 bedeutet der Datensatz wird in 80% Trainingsdaten und 20% Testdaten unterteilt.
- Ausführen des 4. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Größe der Datensätze
- Variablen in X und in y

In [None]:
# 4. Code-Block

# Verhältnis Trainings- und Testdaten
train_size = TODO

# Teile Datensatz in Trainings- und Testdatensatz auf
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    df.drop(columns=["Lilienart"]),
    df["Lilienart"],
    test_size=(1 - train_size),
    random_state=my_seed,
)

# Ausgabe Datensätze und Anzahl Datenpunkte
print("\nAnzahl Traingsdaten: \t" + str(len(y_train)) + " / " + str(len(df)))
print("Anzahl Testdaten: \t" + str(len(y_test)) + " / " + str(len(df)))
print("\nX:\t" + str(list(X_train)))
print("y:\t[Lilienart]\n")

### 4.1 Modelle bilden - Mögliche Hyperparameter anzeigen

Vor der Erstellung eines Modells lassen wir uns zunächst alle einstellbaren Hyperparameter anzeigen.

TODO:
- Ausführen des 5. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Mögliche Hyperparameter für die Erstellung des Linearen Modells

In [None]:
# 5. Code-Block

# Ausgabe möglicher Hyperparameter
from sklearn import tree

tree.DecisionTreeClassifier().get_params()

Beschreibung der Hyperparameter:
http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

### 4.2 Modelle bilden - Modell erstellen und trainieren

Aufstellen des untrainierten Modells, mögliche Hyperparameter sind:
- max_Depth (maximale Tiefe des Baumes)
- min_samples_leaf (minimale Anzahl an Datenpunkten pro Blatt)
- max_leaf_nodes (maximale Anzahl an Blättern)

Wähle selbst welche Hyperparameter du für dein Modell verwenden möchtest.

TODO:
- Setze die einzustellenden Hyperparameter in die Klammer hinter dem Modell, zu Begin kannst du auch ein Modell ohne Hyperparameter (Standardeinstellungen) erstellen (sprich TODO einfach löschen) (6. Code-Block - Zeile 4)
- Setze immer den Hyperparameter random_state=my_seed ein (6. Code-Block - Zeile 4)
- z.B. decision_tree = tree.DecisionTreeClassifier(random_state=my_seed, max_depth=5)
- Setze die Trainingsdaten in den .fit-Befehle ein (X_train und y_train) (6. Code-Block - Zeile 7)
- Ausführen des 6. Code-Blocks (markieren und "Run" drücken)


AUSGABE:
- trainierter Entscheidungsbaum

In [None]:
# 6. Code-Block

# Erstellen des Modells
clf = tree.DecisionTreeClassifier(random_state=my_seed, TODO)

# Trainiere das Modell
clf = clf.fit(TODO, TODO)

# Ausgabe des trainierten Entscheidungsbaumes
plt.figure(figsize=(16, 16))
tree.plot_tree(clf, filled=True)
plt.show()

### 4.3 Modelle bilden - Bewertung des Trainings - Genauigkeit

Wir berechnen die Genauigkeit des Modells auf den Trainingsdaten (richtige Vorhersagen/alle Vorhersagen).

TODO:
- Übergebe dem .score-Befehl X_train und y_train um die Genauigkeit auf den Trainingsdaten zu berechnen. (8. Code-Block - Zeile 4)
- (Aus jeder Zeile des X_train wird die Vorhersage y_pred berechnet und diese mit dem Wert von y_train verglichen)
- Ausführen des 8. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Genauigkeit des Modells auf Trainingsdaten

In [None]:
# 8. Code-Block

# Berechne Genauigkeit auf Trainingsdaten
accuracy_train = clf.score(TODO, TODO)

# Ausgabe der Modellgenauigkeit
print(
    "\nDas Modell hat auf den Trainingsdaten ("
    + str(len(y_train))
    + " Datenpunkte) eine Genauigkeit von "
    + str("%.3f" % accuracy_train)
    + "."
)

### 5. Validieren der Modelle - entfällt

Dieser Schritt ist nur nötig wenn mehrere Modelle erstellt werden.

### 6.1 Modell testen & anwenden - Bewertung des Modells - Konfusionsmatrix

Um die Modellgüte visuell darzustellen wird eine Wahrheitsmatrix erstellt.

TODO:
- Ausführen des 9. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- allgemeine und gemittelte Genauigkeit

In [None]:
# 9. Code-Block

# Importieren der Funktion: Confusion matrix
from sklearn.metrics import confusion_matrix
import itertools

# Erzeuge Matrix
matrix = confusion_matrix(y_test, clf.predict(X_test)).transpose()
labels = y_test.unique()
plt.figure(figsize=(10, 6))
plt.imshow(matrix, interpolation="nearest", cmap=plt.cm.Blues)
plt.title("Konfusionsmatrix auf Testdaten")
plt.ylabel("Vorhersage")
plt.xlabel("Realer Wert")
tick_marks = np.arange(len(labels))
plt.xticks(tick_marks, labels, rotation=45)
plt.yticks(tick_marks, labels)
fmt = "d"
thresh = matrix.max() / 2.0
for i, j in itertools.product(range(matrix.shape[0]), range(matrix.shape[1])):
    plt.text(
        j,
        i,
        format(matrix[i, j], fmt),
        horizontalalignment="center",
        color="white" if matrix[i, j] > thresh else "black",
    )
plt.show()

### 6.2 Modell testen & anwenden - Bewertung des Modells - Genauigkeit

Wir berechnen die Genauigkeit des Modells auf den Testdaten (richtige Vorhersagen/alle Vorhersagen).

TODO:
- Übergebe dem .score-Befehl X_test und y_test um die Genauigkeit auf den Testdaten zu berechnen. (10. Code-Block - Zeile 4)
- (Aus jeder Zeile des X_test wird eine Vorhersage berechnet und diese mit dem Wert von y_test verglichen)
- Ausführen des 10. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Genauigkeit des Modells auf Testdaten

In [None]:
# 10. Code-Block

# Berechne Genauigkeit auf Testdaten
accuracy_test = clf.score(TODO, TODO)

# Ausgabe der Modellgenauigkeit
print(
    "\nDas Modell hat auf den Testdaten ("
    + str(len(y_test))
    + " Datenpunkte) eine Genauigkeit von "
    + str("%.3f" % accuracy_test)
    + "."
)

### 6.3 Modell testen & anwenden - Bewertung des Modells - falsche Vorhersagen

Mit dem erstellten Modell wird eine Vorhersage für alle Testdaten berechnet und diese mit den realen Werten verglichen.

TODO:
- Setze X_test in die .predict-Funktion ein um eine Vorhersage für alle Testdaten zu berechnen (11. Code-Block - Zeile 5)
- Ausführen des 11. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Tabelle aller falschen Vorhersagen des Modells auf den Testdaten

In [None]:
# 11. Code-Block

# Berechne Vorhersagen für Testdaten
results_test = pd.DataFrame(y_test)
results_test["Vorhersage"] = clf.predict(TODO)

# Ausgabe aller falschen Vorhersagen Trainingsdatensatz und Testdatensatz
print(
    "\nTestdaten - "
    + str(len(results_test[(results_test["Vorhersage"] != results_test["Lilienart"])]))
    + " falsche Vorhersage des Entscheidungsbaumes:"
)
results_test[(results_test["Vorhersage"] != results_test["Lilienart"])]

### 6.4 Modell testen & anwenden - Erkenntnisse aus dem Modell/Nutzen

TODO:
- Ausführen des 12. Code-Blocks (markieren und "Run" drücken)

AUSGABE:
- Einflussgröße der Variablen auf die Bauteilhärte

In [None]:
# 12. Code-Block

# Ausgabe Graph: Wichtigkeit der Input-Variablen auf die Lilienart
plt.figure(figsize=(16, 6))
plt.bar(list(X_train), clf.feature_importances_, align="center")
plt.title("Einfluss der Variablen auf die Lilienart")

### 7. Visualisierung: Genauigkeit über der Baumtiefe und der Anzahl der Blätter 

TODO:
- Ausführen des 13. Code-Blocks (markieren und "Run" drücken)
- Doppelt ausführen damit die interaktive Grafik angezeigt wird

AUSGABE:
- Interaktive Darstellung der Genauigkeit über varrierenden Hyperparametern

In [None]:
# 13. Code-Block

# Berechne Grid
leafs = [2, 3, 4, 5, 6, 7, 8, 9, 10]
depths = [2, 3, 4, 5, 6, 7, 8, 9, 10]

# Berechne Genauigkeit je Gridpunkt
x, y, z = [], [], []
for leaf in leafs:
    for depth in depths:

        # Trainiere Modell & Berechne Vorhersage
        clf = tree.DecisionTreeClassifier(
            random_state=my_seed, max_leaf_nodes=leaf, max_depth=depth
        )
        clf = clf.fit(X_train, y_train)
        results_ = pd.DataFrame(y_test)

        # Berechne MAE
        accuracy_test = clf.score(X_test, y_test)
        x.append(leaf)
        y.append(depth)
        z.append(accuracy_test)
X = np.asarray(x).reshape(9, 9)
Y = np.asarray(y).reshape(9, 9)
Z = np.asarray(z).reshape(9, 9)

# Ausgabe
%matplotlib notebook
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.cm as cm

fig = plt.figure(figsize=(14, 10))
ax = fig.add_subplot(111, projection="3d")
plt.title(
    "Modell-Genauigkeit abhängig von der maximalen Anzahl an Blättern und der maximalen Tiefe des Baumes"
)
plt.xlabel("maximale Anzahl an Blättern")
plt.ylabel("maximale Tiefe des Baumes")
surf = ax.plot_surface(X, Y, Z, cmap=cm.viridis, alpha=0.5, antialiased=False)
fig.colorbar(surf, shrink=0.5, aspect=5)
ax.view_init(35, 120)
plt.show()

### Verständnisfragen:

1. Welche Input-Parameter haben die größte Wichtigkeit bei der Bestimmung der Lilienart?
2. Welche Klasse von Schwertlilien lässt sich gut von den anderen 2 Klassen trennen? Welche Input-Variable reicht für diese Trennung aus? (Siehe Ausgabe von Punkt 2.2)
3. Welche Tiefe und wie viele Blätter hat der genaueste von dir trainierte Entscheidungsbaum?
4. Wieso kann die Genauigkeit eines Baumes mit einer maximalen Blattanzahl von 2 maximal 0.66 betragen?