# Übung 3.2 - Support-Vector-Machine am Beispiel Rattern
VO Maschinelles Lernen in der Produktion, WS2020/21, Moritz von Unold, Richard Lux, Felix Soest

#### In diesem Notebook wird das Verfahren Support-Vector-Machine (SVM) anhand des Anwendungsbeispiels Rattern geübt .

Bei der Fertigung von Bauteilen treten manchmal störende Schwingungen auf, sog. Rattern. Dieses schädigt die Werkzeuge und führt zu einer niedrigeren Bauteilqualität.

Im Datensatz "Rattern" werden die Drehzahl der Spindel und die Tiefe des Schnitts einer CNC-Fräse gemessen. Es soll eine Support-Vector-Machine (SVM) erstellt werden welche vorhersagen kann bei welcher Kombination aus Drehzahl und Tiefe das sog. Rattern auftritt. 
### Data-Mining-Prozess:

![alt text](Prozess_Modellentwicklung_v2.png "Title")

### 0. Bibliotheken importieren

In [None]:
# 0. Code-Block

# Importiere benötigte Bibliotheken
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

pd.options.mode.chained_assignment = None
%matplotlib inline

### 1. Daten erfassen - Daten importieren

TODO:
- Wähle eine Zahl für die Generierung deiner spezifischen Zufallszahlen  (1. Code-Block - Zeile 4)

AUSGABE:
- Gewählte Zufallszahl

In [None]:
# 1. Code-Block

# Erstelle eigene Zufallszahlen
my_seed = TODO

# Lade Datensatz und Ausgabe Zufallszahl
df_train = pd.read_csv("Trainingsdaten_Rattern.csv")
df_test = pd.read_csv("Testdaten_Rattern.csv")
df = df_train.append(df_test)
print("\nGewählte Zahl für Zufallszahlen: \t" + str(my_seed))

### 2. Daten erkunden

In [None]:
# 2. Code-Block

# Datensatz anzeigen
df.head(5)

In [None]:
# 3. Code-Block

# Datensatz beschreiben
df.describe()

In [None]:
# 4. Code-Block

# Zeige Klassenzugehörigkeit an
fig = plt.figure(figsize=(20, 10))
surf = plt.scatter(
    df["Drehzahl Spindel"],
    df["Tiefe des Schnitts"],
    c=df["Rattern"],
    cmap=plt.cm.coolwarm,
    s=150,
    alpha=0.7,
    edgecolors="black",
)
plt.colorbar(surf)
plt.xlim(7750, 16250)
plt.ylim(0, 0.023)
plt.xlabel("Drehzahl Spindel")
plt.ylabel("Tiefe des Schnitts")
plt.title("Effekt des Ratterns über Schnitttiefe und Spindeldrehzahl")

### 3. Daten vorbereiten - Aufteilen in Trainings- und Validationsdaten

Es wurden die Datensätze Trainingsdaten und Testdaten getrennt importiert, die Validierungsdaten werden mittels Cross-Validation aus den Trainingsdaten gewählt.

Optional können die Input-Parameter (Schnitttiefe und Spindeldrehzahl) normiert werden (Abbildung auf Bereich 0 bis 1).

TODO:
- __optionale Normierung:__ Wenn du die Daten normieren möchtest entferne das erste Zeichen (#) in den Zeilen 15 und 16 (5. Code-Block - Zeile 15-16)

AUSGABE:
- Größe der Datensätze

In [None]:
# 5. Code-Block

# Teile Datensatz in X und y auf
X_train_, y_train = (
    df_train[["Drehzahl Spindel", "Tiefe des Schnitts"]],
    df_train["Rattern"],
)
X_test_, y_test = (
    df_test[["Drehzahl Spindel", "Tiefe des Schnitts"]],
    df_test["Rattern"],
)

# Normiere Input-Parameter (optionales TODO)
X_train, X_test = X_train_.copy(deep=True), X_test_.copy(deep=True)
#X_train = (X_train - X_train_.min()) / (X_train_.max() - X_train_.min())
#X_test = (X_test - X_train_.min()) / (X_train_.max() - X_train_.min())

# Ausgabe Datensätze und Anzahl Datenpunkte
print(
    "\nAnzahl Trainingsdaten: \t\t"
    + str(len(y_train))
    + " / "
    + str(len(df_train) + len(df_test))
)
print(
    "Anzahl Testdaten: \t\t"
    + str(len(y_test))
    + " / "
    + str(len(df_train) + len(df_test))
)

### 4.1 Modelle bilden - Mögliche Hyperparameter anzeigen

Vor der Erstellung eines Modells lassen wir uns zunächst alle einstellbaren Hyperparameter anzeigen.

TODO:
- Schreibe den Code um das Modell aus der Bibliothek zu importieren (Cheat Sheet Modelle bilden)
- Schreibe den Code um die möglichen Hyperparameter angezeigt zu bekommen (Cheat Sheet Modelle bilden)

AUSGABE:
- Mögliche Hyperparameter für die Erstellung des Modells

In [None]:
# 6. Code-Block

# Importiere das Modell aus der Bibliothek sklearn
TODO

# Ausgabe möglicher Hyperparameter
TODO

Beschreibung der Hyperparameter:
http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC

### 4.2 Modelle bilden - Optimale Hyperparameter mittels Gittersuche bestimmen

Für die __SVM mit rbf-Kernel__ werden in diesem Notebook __4 Hyperparameter__ eingestellt:
- kernel: Der Kernel.
- random_state: Die Zufallszahlen zur Erzeugung des Modells.
- C: Der Strafterm C.
- gamma: Der Kernel Koeffizient gamma.

Um die optimalen Werte für die Hyperparameter C und gamma zu finden wird eine __Gittersuche__ durchgeführt:
- Bestimme zu probierende Werte für C, gamma
- Für diese Werte wird für alle Kombinationen:
    - Ein Modell erstellt 
    - Ein Modell trainiert
    - Die Genauigkeit auf den Validationsdaten berechnet
- Die Hyperparameter mit der höchsten Genauigkeit werden für das Vorzugsmodell verwendet

TODO:
- Schreibe die C-Werte für die Gittersuche in eine Liste hinter 'C': (7. Code-Block - Zeile 9)
- Schreibe die gamma-Werte für die Gittersuche in eine Liste hinter 'gamma': (7. Code-Block - Zeile 9)
- Es gibt 3 Möglichkeiten die Werte einzutragen:
    - Möglichkeit 1: Manuelles Eintragen in eine Liste: Cs = [0.001, 0.01, 0.1, 1, 10]
    - Möglichkeit 2: Erzeugen einer Liste mit np.linspace(): Cs = np.linspace(von, bis, Anzahl an Werten)
    - Möglichkeit 3: Erzeugen einer Liste mit np.logspace(): Cs = np.logspace(exp. von, exp. bis, Anzahl an Werten)

AUSGABE:
- optimale Hyperparameter
- Graph: Genauigkeit über Hyperparametern

In [None]:
# 7. Code-Block

# Werte für die Gittersuche/Hyperparameter
from sklearn.model_selection import GridSearchCV
import time

start_timer = time.monotonic()
hyper_parameters = [
    {"kernel": ["rbf"], "C": TODO, "gamma": TODO, "random_state": [my_seed]}
]

# Gittersuche: Berechne Genauigkeit auf Validationsdaten für alle möglichen Kombinationen
clf = svm.SVC()
gridSearch = GridSearchCV(clf, hyper_parameters, return_train_score=True, cv=5)
gridSearch = gridSearch.fit(X_train, y_train)
print(
    "\nDie Gittersuche ("
    + str(len(pd.DataFrame(gridSearch.cv_results_)))
    + " Kombinationen) hat "
    + str("%.1f" % (time.monotonic() - start_timer))
    + " Sekunden gedauert."
)

### In der Variable GridSearch sind nun die Ergebnisse der Gittersuche gespeichert ...
#### 1. mit GridSearch.best_estimator_ bekommen wir die besten Hyperparameter der Gittersuche:

In [None]:
# 8. Code-Block - Beste Kombination der Hyperparameter
gridSearch.best_estimator_

#### 2. mit GridSearch.best_score_  bekommen wir die Genauigkeit der besten Hyperparameter der Gittersuche:

In [None]:
# 9. Code-Block - Genauigkeit der besten Hyperparameter
gridSearch.best_score_

#### 3. mit GridSearch.cv_results_ bekommen wir die Ergebnis-Tabelle der Gittersuche (hier: besten 5 Hyperparameter):

In [None]:
# 10. Code-Block - Top 5 Hyperparameter
pd.DataFrame(gridSearch.cv_results_).sort_values(
    "mean_test_score", ascending=False
).head(5)

#### 4. Anzeigen einer sog. Heatmap der Hyperparameter C und gamma (nur bei 2 variierenden Hyperparametern möglich):

In [None]:
# 11. Code-Block
results = pd.DataFrame(gridSearch.cv_results_)
xx = results["param_C"].unique()
yy = results["param_gamma"].unique()
zz = np.asarray(results["mean_test_score"]).reshape(len(xx), len(yy)).T
fig = plt.figure(figsize=(16, 8))
plt.xlabel("C")
plt.ylabel("gamma")
plt.yscale("log")
plt.xscale("log")
plt.title(
    "GITTERSUCHE: Genauigkeit (Validationsdaten) über den Hyperparametern C und gamma"
)
surf = plt.contourf(xx, yy, zz, cmap=plt.cm.coolwarm_r)
fig.colorbar(surf)
plt.show()

### 4.3 Modell bilden - Vorzugs-Modell erstellen und trainieren

Erstelle das Modell mit den optimalen Hyperparametern und trainiere dieses mit den Trainingsdaten.

TODO:
- Schreibe den Code für die Modell-Erstellung (12. Code-Block - Zeile 4) (Cheat Sheet Modelle bilden)
- Schreibe den Code für das Training des Modells (12. Code-Block - Zeile 7) (Cheat Sheet Modelle bilden)
- __Verwende den Namen clf_best für das Modell__

AUSGABE:
- Genauigkeit auf den Trainingsdaten

In [None]:
# 12. Code-Block

# Erstellen des Modells
TODO

# Trainiere das Modell
TODO

# Ausgabe Genauigkeit auf Trainingsdaten
print(
    "\nGenauigkeit auf den Trainingsdaten:\t"
    + str("%.4f" % clf_best.score(X_train, y_train))
)

### 6.1 Modell testen & anwenden - Genauigkeit auf Testdaten und Konfusionsmatrix

Um die Qualität/Güte des Modells zu bestimmen wird dieses auf den Testdaten getestet und die Konfusionsmatrix ausgegeben.

In [None]:
# 13. Code-Block

# Berechne Genauigkeit auf Testdaten
accuracy_test = clf_best.score(X_test, y_test)

# Ausgabe Genauigkeit auf Testdatenz
print("\nGenauigkeit auf den Testdaten: " + str("%.4f" % accuracy_test))

# Importieren der Funktion: Confusion matrix
from sklearn.metrics import confusion_matrix

# Erzeuge Matrix
y_pred = clf_best.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
labels = y_test.unique()
plt.figure(figsize=(10, 6))
plt.imshow(cm, interpolation="nearest", cmap=plt.cm.Blues)
plt.title("Konfusionsmatrix auf Testdaten")
plt.ylabel("Vorhersage")
plt.xlabel("Realer Wert")
tick_marks = np.arange(len(labels))
plt.xticks(tick_marks, labels, rotation=45)
plt.yticks(tick_marks, labels)
plt.margins(0, 0)
fmt = "d"
thresh = cm.max() / 2.0
for i in range(cm.shape[0]):
    for j in range(cm.shape[1]):
        plt.text(
            j,
            i,
            format(cm[i, j], fmt),
            ha="center",
            va="center",
            color="white" if cm[i, j] > thresh else "black",
        )
plt.tight_layout()
plt.show()

### 6.2 Modell testen & anwenden - Modell visualisieren

Da das Modell nur 2 Input-Parameter benötigt können wir alle möglichen Modell-Vorhersagen grafisch visualisieren.

TODO:
- Ausführen des 14. Code-Blocks

AUSGABE:
- Grafische Visualisierung der Modellvorhersage

In [None]:
# 14. Code-Block

# Erstelle Grid für Modellausgabe
x = np.linspace(
    X_train["Drehzahl Spindel"].min(), X_train["Drehzahl Spindel"].max(), 200
)
y = np.linspace(
    X_train["Tiefe des Schnitts"].min(), X_train["Tiefe des Schnitts"].max(), 200
)
X, Y = np.meshgrid(x, y)

# Berechne Modellvorhersage
z = pd.DataFrame({"Drehzahl Spindel": X.ravel(), "Tiefe des Schnitts": Y.ravel()})
z = clf_best.predict(z)

# Ausgabe Modellvorhersage

Z = np.asarray(z).reshape(200, 200)
fig = plt.figure(figsize=(20, 12))
plt.title(
    "Modellvorhersage und Datensätze (Train = Kreis, Valid = Viereck, Test = Raute)"
)
plt.xlabel("Drehzahl Spindel")
plt.ylabel("Tiefe des Schnitts")
surf = plt.contourf(X, Y, Z, cmap=plt.cm.coolwarm)
plt.colorbar(surf)
plt.scatter(
    X_train["Drehzahl Spindel"],
    X_train["Tiefe des Schnitts"],
    c=y_train,
    marker="o",
    alpha=0.3,
    edgecolors="black",
    s=70,
)
plt.scatter(
    X_test["Drehzahl Spindel"],
    X_test["Tiefe des Schnitts"],
    c=y_test,
    marker="D",
    edgecolors="black",
    s=70,
)
plt.show()

### Verständnisfragen:

1. Wann ist die Normierung eines Datensatzes von Vorteil? 
2. Welche Probleme treten bei nicht-normierung auf?
2. Welcher Datensatz wird der GridSearch übergeben (Train, Test?) und wie werden die Validierungsdaten erzeugt?