# MLiP Entscheidungsbaum am Beispiel Rattern
Kurs Maschinelles Lernen in der Produktion  

#### In diesem Notebook wird das Verfahren Entscheidungsbaum anhand des Anwendungsbeispiels Rattern geübt.

Bei der Fertigung von Bauteilen treten manchmal störende Schwingungen auf, sog. Rattern. Dieses schädigt die Werkzeuge und führt zu einer niedrigeren Bauteilqualität.

Im Datensatz "Rattern" werden die Drehzahl der Spindel und die Tiefe des Schnitts einer CNC-Fräse gemessen. Es soll ein Entscheidungsbaum erstellt werden. Dises soll vorhersagen können, bei welcher Kombination aus Drehzahl und Schnitttiefe das Rattern auftritt. 

![alt text](Prozess_Modellentwicklung_v2.png "Title")

### 0.Bibliotheken importieren

In [None]:
# Importiere benötigte Bibliotheken
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, f1_score

#Einstellungen für die Grafikausgabe
style = 'seaborn-whitegrid'
plt.style.use(style)
plt.rcParams.update({'font.size': 14})  # Schriftgröße aller Textzeichen im Graphen

TODO:
* Wähle eine Zahl zwischen 1 und 100 für die Generierung deiner spezifischen Zufallszahlen my_seed=

(Wähle für alle Notebooks in allen Übungen immer die gleiche Zahl (z.B. den Tag deines Geburtstags), dann sind die Ergebnisse der verschiedenen Machine-Learning-Verfahren vergleichbar da dann alle Notebooks mit der "gleichen" Folge an Zufallszahlen arbeiten)

AUSGABE:
* Gewählte Zufallszahl

In [None]:
# Erstelle eigene Zufallszahlen
my_seed = TODO

# Ausgabe gewählte Zufallszahlen
print("\nGewählte Zahl für Zufallszahlen: \t" + str(my_seed))

### 1. Daten erfassen - Daten importieren

Import der Daten mittels der read_csv-Funktion von Pandas.  
Achtung, es gibt zwei Datensätze, einen mit den Trainingsdaten und einen mit den Testdaten. 

In [None]:
# Lade Datensatz
df_train = pd.read_csv("Trainingsdaten_Rattern.csv")
df_test = pd.read_csv("Testdaten_Rattern.csv")

### 2.1 Daten erkunden - Daten tabellarisch darstellen

TODO:
* Schreibe die Code-Zeile, um dir die letzten 10 Zeilen das Datensatzes anzuzeigen
* Hilfe dafür im Cheat_Sheet_Daten_erkunden

AUSGABE:
* Tabelle des Datensatzes

In [None]:
# Ausgabe der Daten in tabellarischer Form
df_train.tail(TODO)

### 2.2 Daten erkunden - Klassenzugehörigkeit anzeigen

Visuelle Darstellung der Klassenzugehörigkeit.

In [None]:
# Zeige Klassenzugehörigkeit an
fig = plt.figure(figsize=(20, 10))
surf = plt.scatter(
    df_train["Drehzahl Spindel"],
    df_train["Tiefe des Schnitts"],
    c=df_train["Rattern"],
    cmap=plt.cm.coolwarm,
    s=150,
    alpha=0.7,
    edgecolors="black"
)
#plt.colorbar(surf)
plt.xlim(7750, 16250)
plt.ylim(0, 0.023)
plt.xlabel("Drehzahl Spindel")
plt.ylabel("Tiefe des Schnitts")
plt.title("Effekt des Ratterns über Schnitttiefe und Spindeldrehzahl")
plt.show()

### 3 Daten vorbereiten - Aufteilen der Daten

In diesem Beispiel wurden die Daten bereits vorab in Trainings- und Testdaten aufgeteilt, somit müssen wir nur noch die Aufteilung in X und y vornehmen. 

In [None]:
# Teile Datensatz in X und y auf
X_train, y_train = (
    df_train[["Drehzahl Spindel", "Tiefe des Schnitts"]],
    df_train["Rattern"],
)
X_test, y_test = (
    df_test[["Drehzahl Spindel", "Tiefe des Schnitts"]],
    df_test["Rattern"],
)

# Ausgabe Datensätze und Anzahl Datenpunkte
print("\nAnzahl Traingsdaten: \t" + str(len(y_train)) + " / " + str(len(df_train)+len(df_test)))
print("Anzahl Testdaten: \t" + str(len(y_test)) + " / " + str(len(df_train)+len(df_test)))

### 4.1 Modelle bilden - Mögliche Hyperparameter anzeigen

Vor der Erstellung eines Modells lassen wir uns zunächst alle einstellbaren Hyperparameter anzeigen.

In [None]:
# Ausgabe möglicher Hyperparameter
from sklearn.tree import DecisionTreeClassifier, plot_tree

DecisionTreeClassifier().get_params()

Beschreibung der Hyperparameter:
http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

### 4.2 Modelle bilden - Modell erstellen und trainieren

Aufstellen des untrainierten Modells, mögliche Hyperparameter sind:
* max_depth (maximale Tiefe des Baumes)
* min_samples_leaf (minimale Anzahl an Datenpunkten pro Blatt)
* min_samples_split (minimale Anzahl an Datenpunkten damit ein Split durchgeführt werden kann)

Wähle selbst welche Hyperparameter du für dein Modell verwenden möchtest.

TODO:
* Setze die einzustellenden Hyperparameter in die Klammer hinter dem Modell, zu Begin kannst du auch ein Modell ohne Hyperparameter (Standardeinstellungen) erstellen (sprich TODO einfach löschen) (Zeile 2)
* Setze immer den Hyperparameter random_state=my_seed ein (Zeile 2)
* z.B. decision_tree = tree.DecisionTreeClassifier(random_state=my_seed, max_depth=8)
* Setze die Trainingsdaten in den .fit-Befehle ein (X_train und y_train) (Zeile 5)

AUSGABE:
* trainierter Entscheidungsbaum

In [None]:
# Erstellen des Modells
model = DecisionTreeClassifier(random_state=TODO, TODO)

# Trainiere das Modell
model.fit(TODO, TODO)

# Ausgabe des trainierten Entscheidungsbaumes
plt.figure(figsize=(16, 12))
plot_tree(model, filled=True, feature_names=list(df_train.columns.values))
plt.show()

### 4.3 Modelle bilden - Bewertung des Trainings - Genauigkeit

Wir berechnen die Genauigkeit des Modells auf den Trainingsdaten (richtige Vorhersagen/alle Vorhersagen).

TODO:
* Setze X_train in die .predict-Funktion ein, um eine Vorhersage für die Trainingsdaten zu berechnen (Zeile 2)
* Übergebe der accuray_score-Funktion und der f1-score-Funktion y_train und y_train_pred, um die Genauigkeit bzw. den F1-Score auf den Trainingsdaten zu berechnen. (Zeile 5 und Zeile 8)  

AUSGABE:
* Genauigkeit und F1-Score des Modells auf Trainingsdaten

In [None]:
# Berechnung der Vorhersage basierend auf den Trainingsdaten
y_train_pred = model.predict(TODO)

# Berechne Genauigkeit auf den Trainingsdaten
accuracy_train = accuracy_score(TODO, TODO)

# Berechne den F1-Score auf den Trainingsdaten
f1score_train = f1_score(TODO, TODO)

# Ausgabe der Modellgenauigkeit
print('Ergebnis für das Training:')
print('Accuracy: \t' + str(round(accuracy_train, 3)))
print('F1-Score: \t' + str(round(f1score_train, 3)))

### 5. Validieren der Modelle - entfällt

Dieser Schritt ist nur nötig wenn mehrere Modelle erstellt werden.

### 6.1 Modell testen & anwenden - Bewertung des Modells - Konfusionsmatrix

Um die Modellgüte visuell darzustellen wird eine Wahrheitsmatrix erstellt.

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

ConfusionMatrixDisplay.from_estimator(model, X_test, y_test)
plt.title('Konfusionsmatrix auf Testdaten')
plt.grid()
plt.show()

### 6.2 Modell testen & anwenden - Bewertung des Modells - Genauigkeit

Wir berechnen die Genauigkeit des Modells auf den Testdaten (richtige Vorhersagen/alle Vorhersagen).

TODO:
* Setze X_test in die .predict-Funktion ein, um eine Vorhersage für die Trainingsdaten zu berechnen (Zeile 2)
* Übergebe der accuray_score-Funktion und der f1-score-Funktion y_test und y_test_pred, um die Genauigkeit bzw. den F1-Score auf den Trainingsdaten zu berechnen. (Zeile 5 und Zeile 8)

AUSGABE:
- Genauigkeit und F1-Score des Modells auf Testdaten

In [None]:
# Berechnung der Vorhersage basierend auf den Testdaten
y_test_pred = model.predict(TODO)

# Berechne Genauigkeit auf den Testdaten
accuracy_test = accuracy_score(TODO, TODO)

# Berechne den F1-Score auf den Testdaten
f1score_test = f1_score(TODO, TODO)

# Ausgabe der Modellgenauigkeit
print('Ergebnis für das Training:')
print('Accuracy: \t' + str(round(accuracy_test, 3)))
print('F1-Score: \t' + str(round(f1score_test, 3)))

### 6.3 Modell testen & anwenden - Bewertung des Modells - falsche Vorhersagen

Mit dem erstellten Modell wird eine Vorhersage für alle Testdaten berechnet und diese mit den realen Werten verglichen.

In [None]:
# Speichere echte Werte und Vorhersagen für Testdaten in DataFrame
results_test = pd.DataFrame(y_test)
results_test["Vorhersage"] = y_test_pred

# Ausgabe aller falschen Vorhersagen des Testdatensatzes
print("\nTestdaten - " + str(len(results_test[(results_test["Vorhersage"] != results_test["Rattern"])]))
    + " falsche Vorhersage des Entscheidungsbaumes:")
results_test[(results_test["Vorhersage"] != results_test["Rattern"])]

### 6.4 Modell testen & anwenden - Modell visualisieren

Da das Modell nur 2 Input-Parameter benötigt können wir alle möglichen Modell-Vorhersagen grafisch visualisieren.

In [None]:
# Erstelle Grid für Modellausgabe
x = np.linspace(
    X_train["Drehzahl Spindel"].min(), X_train["Drehzahl Spindel"].max(), 200
)
y = np.linspace(
    X_train["Tiefe des Schnitts"].min(), X_train["Tiefe des Schnitts"].max(), 200
)
X, Y = np.meshgrid(x, y)

# Berechne Modellvorhersage
z = pd.DataFrame({"Drehzahl Spindel": X.ravel(), "Tiefe des Schnitts": Y.ravel()})
z = model.predict(z)

# Ausgabe Modellvorhersage

Z = np.asarray(z).reshape(200, 200)
fig = plt.figure(figsize=(20, 12))
plt.title(
    "Modellvorhersage und Datensätze (Train = Kreis, Test = Raute)"
)
plt.xlabel("Drehzahl Spindel")
plt.ylabel("Tiefe des Schnitts")
surf = plt.contourf(X, Y, Z, cmap=plt.cm.coolwarm)
plt.colorbar(surf)
plt.scatter(
    X_train["Drehzahl Spindel"],
    X_train["Tiefe des Schnitts"],
    c=y_train,
    marker="o",
    alpha=0.3,
    edgecolors="black",
    s=70,
)
plt.scatter(
    X_test["Drehzahl Spindel"],
    X_test["Tiefe des Schnitts"],
    c=y_test,
    marker="D",
    edgecolors="black",
    s=70,
)
plt.show()

### 7 Bonus - Visualisierung der Genauigkeit über der Baumtiefe und der minimale Anzahl Samples je Blatt

In diesem Block lassen wir Schleifen über mehrere Hyperparameter laufen, um automatich die Modelle für diese Werte zu trainieren und anschließend zu vergleichen.  
Der Vergleich wird mittels einem Konturplots dargestellt. Dabei gibt die Farbe am entsprechenden Ort die Höhe der Accuracy wieder. 

In [None]:
# Berechne Grid
depths = [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]
min_samples = [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]

# Berechne Genauigkeit je Gridpunkt
x, y, z = [], [], []
for min_sample in min_samples:
    for depth in depths:

        # Trainiere Modell & Berechne Vorhersage
        model = DecisionTreeClassifier(random_state=my_seed, max_depth=depth, min_samples_leaf=min_sample)
        model.fit(X_train, y_train)
        results_ = pd.DataFrame(y_test)

        y_test_pred = model.predict(X_test)
        # Berechne Accuracy
        accuracy_test = accuracy_score(y_test_pred, y_test)
        x.append(depth)
        y.append(min_sample)
        z.append(accuracy_test)
X = np.asarray(x).reshape(len(depths), len(min_samples))
Y = np.asarray(y).reshape(len(depths), len(min_samples))
Z = np.asarray(z).reshape(len(depths), len(min_samples))

# Ausgabe
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111)
surf = plt.contourf(X, Y, Z, cmap=plt.cm.coolwarm_r)
fig.colorbar(surf)
plt.title("Accuracy (Testdaten) abhängig von maximalen Tiefe des Baumes und minimalen Anzahl von Samples je Blatt")
plt.xlabel("maximale Tiefe des Baumes")
plt.ylabel("minimale Anzahl Samples je Blatt")
plt.show()
