# Übung 3.1 - Support-Vector-Machine am Beispiel Schwertlilienbestimmung
VO Maschinelles Lernen in der Produktion, WS2020/21, Moritz von Unold, Richard Lux, Felix Soest

#### In diesem Notebook wird das Verfahren Support-Vector-Machine (SVM) anhand des Anwendungsbeispiels Schwertlilienbestimmung geübt.

Im Datensatz der Schwertlilien werden drei verschiedene Lilienarten anhand 4 Eigenschaften (Breite und Länge der Kelchblätter, Breite und Länge der Kronblätter) klassifiziert. Es soll eine Support-Vector-Machine (SVM) erstellt werden welche bei gegebenen Breiten und Längen der Kelch- und Kronblätter die Art der Lilie (iris-setosa, iris-virginica oder iris-versicolor) bestimmen kann. 
### Data-Mining-Prozess:

![alt text](Prozess_Modellentwicklung_v2.png "Title")

### 0. Bibliotheken importieren

In [None]:
# 0. Code-Block

# Importiere benötigte Bibliotheken
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

pd.options.mode.chained_assignment = None
%matplotlib inline

### 1. Daten erfassen

TODO:
- Wähle eine Zahl für die Generierung deiner spezifischen Zufallszahlen  (1. Code-Block - Zeile 4)

AUSGABE:
- Gewählte Zufallszahl

In [None]:
# 1. Code-Block

# Erstelle eigene Zufallszahlen
my_seed = TODO

# Lade Datensatz und Ausgabe Zufallszahl
df = pd.read_excel("Daten_Schwertlilien.xlsx")
print("\nGewählte Zahl für Zufallszahlen: \t" + str(my_seed))

### 2. Daten erkunden

In [None]:
# 2. Code-Block

# Daten erkunden
import seaborn as sns

sns.pairplot(df, hue="Lilienart")

### 3. Daten vorbereiten - Aufteilen in Trainings-, Validations- und Testdaten

TODO:
- Wähle Werte für train_size und für valid_size (3. Code-Block - Zeile 4-5)

AUSGABE:
- Größe der Datensätze

In [None]:
# 3. Code-Block

# Verhältnis Trainings- und Testdaten
train_size = TODO
valid_size = TODO

# Teile Datensatz in Trainings- und Testdatensatz auf
from sklearn.model_selection import train_test_split

X_, X_test, y_, y_test = train_test_split(
    df.drop(columns=["Lilienart"]),
    df["Lilienart"],
    test_size=(1 - train_size - valid_size),
    random_state=my_seed,
)
X_train, X_valid, y_train, y_valid = train_test_split(
    X_, y_, test_size=(valid_size), random_state=my_seed
)

# Ausgabe Datensätze und Anzahl Datenpunkte
print("\nAnzahl Traingsdaten: \t\t" + str(len(y_train)) + " / " + str(len(df)))
print("Anzahl Validationsdaten: \t" + str(len(y_valid)) + " / " + str(len(df)))
print("Anzahl Testdaten: \t\t" + str(len(y_test)) + " / " + str(len(df)))

### 4.1 Modelle bilden - Mögliche Hyperparameter anzeigen

Vor der Erstellung eines Modells lassen wir uns zunächst alle einstellbaren Hyperparameter anzeigen.

TODO:
- Schreibe die Code-Zeilen um das Modell zu importieren (Hilfestellung im Cheat-Sheet Modelle bilden)
- Schreibe die Code-Zeile um die möglichen Hyperparameter anzuzeigen (Hilfestellung im Cheat-Sheet Modelle bilden)

AUSGABE:
- Mögliche Hyperparameter für die Erstellung des Modells

In [None]:
# 4. Code-Block
from sklearn import svm
# Importieren des Modells
TODO

# Ausgabe möglicher Hyperparameter
TODO

Beschreibung der Hyperparameter:
http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC

### 4.2 Modelle bilden - Optimale Hyperparameter mittels Gittersuche bestimmen

Für die SVM mit __Linearem Kernel__ werden in diesem Notebook 3 Hyperparameter eingestellt:
- C: Der Strafterm C.
- kernel: Der Kernel.
- random_state: Die Zufallszahlen zur Erzeugung des Modells.

Um den optimalen Wert für C zu finden wird eine sog. __Gittersuche__ durchgeführt:
- Bestimme mehrere Werte für C
- Für jeden dieser Werte wird:
    - Ein Modell erstellt 
    - Ein Modell trainiert
    - Die Genauigkeit auf den Validationsdaten berechnet
- Der C-Wert welcher die höchste Genauigkeit zeigt wird für das Vorzugsmodell verwendet

TODO:
- Wähle die C-Werte für die Gittersuche (6. Code-Block - Zeile 4)
- Es gibt 3 Möglichkeiten die Werte einzutragen:
    - Möglichkeit 1: Manuelles Eintragen in eine Liste: z.B. Cs = [0.001, 0.01, 0.1, 1, 10]
    - Möglichkeit 2: Erzeugen einer Liste mit np.linspace(): z.B. Cs = np.linspace(von, bis, Anzahl an Werten)
    - Möglichkeit 3: Erzeugen einer Liste mit np.logspace(): z.B. Cs = np.logspace(exp. von, exp. bis, Anzahl an Werten)

AUSGABE:
- optimale Hyperparameter
- Graph: Genauigkeit über Hyperparametern

In [None]:
# 5. Code-Block

# Werte für die Gittersuche
C_values = TODO

# Berechne Genauigkeit auf Validationsdaten für alle möglichen Kombinationen
accuracy = []
for C in C_values:
    # Erstelle, trainiere und validiere Modell
    clf = svm.SVC(kernel="linear", random_state=my_seed, C=C)
    clf.fit(X_train, y_train)
    # Berechne Gnenauigkeit auf Validierungsdaten
    accuracy.append(clf.score(X_valid, y_valid))

# Ausgabe Graphen
idx_min = accuracy.index(max(accuracy))
plt.figure(figsize=(16, 8))
plt.plot(C_values, accuracy, "o--")
plt.xlabel("C-Wert")
plt.ylabel("Genauigkeit")
plt.title("Genauigkeit des Modells auf Validationsdaten")
plt.xscale("log")
plt.plot(C_values[idx_min], accuracy[idx_min], "ro")

# Ausgabe bester alpha-Wert
print("\nAusprobierte C-Werte:\n\t" + str(C_values))
print(
    "\nOptimale Hyperparameter dieser Gittersuche (Genauigkeit: "
    + str("%.3f" % max(accuracy))
    + "):"
)
print("\tC-Wert:\t" + str("%.5f" % C_values[accuracy.index(max(accuracy))]))

### 4.3 Modell bilden - Vorzugs-Modell erstellen und trainieren

Erstelle das Modell mit den optimalen Hyperparametern (aus der Gittersuche) und trainiere dieses mit den Trainingsdaten.

TODO:
- Schreibe den Code für die Modell-Erstellung (7. Code-Block - Zeile 4) (Hilfestellung im Cheat-Sheet Modelle bilden)
    - Hyperparameter kernel='linear', random_state=my_seed und C=TODO
- Schreibe den Code für das Training des Modells (7. Code-Block - Zeile 7) (Hilfestellung im Cheat-Sheet Modelle bilden)
- __Verwende den Namen clf_best für das Modell__

AUSGABE:
- Genauigkeit auf den Trainingsdaten & Validierungsdaten

In [None]:
# 6. Code-Block

# Erstellen des Modells
TODO

# Trainiere das Modell
TODO

# Ausgabe Genauigkeit auf Trainingsdaten
print(
    "\nGenauigkeit auf den Trainingsdaten:\t"
    + str("%.5f" % clf_best.score(X_train, y_train))
)
print(
    "Genauigkeit auf den Validierungsdaten:\t"
    + str("%.5f" % clf_best.score(X_valid, y_valid))
)

### 6.1 Modell testen & anwenden - Genauigkeit auf Testdaten und Konfusionsmatrix

Um die Qualität/Güte des Modells zu bestimmen wird dieses auf den Testdaten getestet sowie die Konfusionsmatrix angezeigt.

In [None]:
# 7. Code-Block

# Berechne Genauigkeit auf Testdaten
accuracy_test = clf_best.score(X_test, y_test)

# Ausgabe Genauigkeit auf Testdatenz
print(
    "\nGenauigkeit auf den Testdaten: "
    + str("%.3f" % clf_best.score(X_test, y_test))
)

# Importieren der Funktion: Confusion matrix
from sklearn.metrics import confusion_matrix

# Erzeuge Matrix
y_pred = clf.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
labels = y_test.unique()
plt.figure(figsize=(10, 6))
plt.imshow(cm, interpolation="nearest", cmap=plt.cm.Blues)
plt.title("Konfusionsmatrix auf Testdaten")
plt.ylabel("Vorhersage")
plt.xlabel("Realer Wert")
tick_marks = np.arange(len(labels))
plt.xticks(tick_marks, labels, rotation=45)
plt.yticks(tick_marks, labels)
plt.margins(0, 0)
fmt = "d"
thresh = cm.max() / 2.0
for i in range(cm.shape[0]):
    for j in range(cm.shape[1]):
        plt.text(
            j,
            i,
            format(cm[i, j], fmt),
            ha="center",
            va="center",
            color="white" if cm[i, j] > thresh else "black",
        )
plt.tight_layout()
plt.show()

### Verständnisfragen:

1. Welche Kernel stehen für die SVM zur Auswahl? Welcher Kernel wurde hier verwendet und warum? (Siehe Dokumentation, Link unter 4.1)
2. Welche Nachteile hat es bei der Gittersuche zu viele Werte auszuprobieren?
3. Welche Nachteile hat es bei der Gittersuche zu wenig Werte auszuprobieren?
4. Bringe die 4. Schritte in die richtige Reihenfolge:
    - Modell trainieren
    - Modell testen
    - Modell importieren
    - Modell erstellen