# MLiP Gaussian Naive Bayes am Beispiel Lilienbestimmung (IRIS)
Kurs Maschinelles Lernen in der Produktion

Ziel des Notebooks ist die Anwendung des Gaussian Naive-Bayes Verfahren anhand des Datensatzes Lilienbestimmung IRIS. Bei diesem Beispiel sollen die drei Arten IRIS Setosa, Virginica und Versicolor anhand der Länge und Breite der Kelchblätter und Kronblätter erkannt werden.  
Fun Fact: Dies ist eines der meist analysierten Beispiele im Bereich des Maschinellen Lernens.

![Bild konnte nicht geladen werden! IRIS Setosa](Iris_Setosa.jpg)
Bild der IRIS Setosa Quelle: https://www.flickr.com/photos/lakeclarknps/37289883896 (No Copyright)

### Prozessschritte Data-Mining:

![Bild konnte nicht geladen werden! 1. Daten erfassen - 2. Daten erkunden - 3. Daten vorbereiten - 4. Modelle bilden - 5. Modelle validieren - 6. Modell testen](Prozess_Modellentwicklung_v2.png "Title")

## 0. Bibliotheken importieren

In [None]:
# Importiere benötigte Bibliotheken
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#Einstellungen für die Grafikausgabe
style = 'seaborn-whitegrid'
plt.style.use(style)
plt.rcParams.update({'font.size': 14})  # Schriftgröße aller Textzeichen im Graphen


TODO:
* Wähle eine Zahl zwischen 1 und 100 für die Generierung deiner spezifischen Zufallszahlen my_seed=

(Wähle für alle Notebooks in allen Übungen immer die gleiche Zahl (z.B. den Tag deines Geburtstags), dann sind die Ergebnisse der verschiedenen Machine-Learning-Verfahren vergleichbar da dann alle Notebooks mit der "gleichen" Folge an Zufallszahlen arbeiten)

AUSGABE:
* Gewählte Zufallszahl

In [None]:
# Erstelle Seed für eigene Zufallszahlen
my_seed = TODO

# Ausgabe gewählte Zufallszahlen
print("\nGewählte Zahl für Zufallszahlen: \t" + str(my_seed))

## 1. Daten erfassen - Daten importieren
Import der Daten mittels der read_csv-Funktion von Pandas.  

In [None]:
# Lade Datensatz
df = pd.read_csv("Daten_Schwertlilien.csv")

### 2.1 Daten erkunden - Ausgabe Datensatz
Ziel der Datenerkundung ist es einen Einblick in die Daten zu bekommen. Wir wollen verstehen wie der Datensatz aufgebaut ist.  
* Welche Einflussgrößen gibt es?  
* Wie sind die Werte der einzelnen Einflussgrößen verteilt? 
* Gibt es Auffälligkeiten bei den Daten? 
* Gibt es Ausreißer? 
* Kann man eine Unterschied zwischen den Klassen in den Daten erkennen? 
* Lassen sich Einflüße auf die Zielgröße erkennen? 
* Welche Art von Klassifikator könnte geeignet sein? 

TODO: 
* Schreibe die Code-Zeile, um dir die ersten 10 Zeilen das Datensatzes anzuzeigen
* Hilfe dafür findest du auch im Cheat_Sheet_Daten_erkunden

AUSGABE:
* Tabelle mit ersten Zeilen das Datensatzes

In [None]:
# Ausgabe der ersten Zeilen des Datensatzes
df.head(TODO)

Es gibt 4 Einflussgrößen im Datensatz IRIS, die Länge und Breite jeweils vom Kelch- und Kronblatt

### 2.2 Daten erkunden - Datensatz spaltenweise beschreiben
Berechnung von statistischen Kennzahlen, die die numerischen Daten beschreiben

In [None]:
df.describe()

Erkenntnisse: 
* Die Anzahl der Beipsiele (count) ist immer gleich, somit gibt es keine fehlende Werte. 
* Die Streuung und der Range (Breite des Wertebereichs) unterscheiden sich mitunter deutlich.
* Keine Ausreißer anhand statistischer Werte erkennbar, Min und Max weichen nicht stark ab. 

### 2.3 Daten erkunden - Datensatz visualisieren
Für die Visualisierung von Datensätzen für die Klassifikation empfiehlt sich der Pairplot von Seaborn. Dabei handelt es sich um eine Scatter-Matrix, bei der die Datenpunkte gemäß der Zielklasse eingefärbt werden.   
Bei der Visualisierung von großen Datensätzen ist Vorsicht geboten. 
* Bei zu vielen Spalten wird die Darstellung unübersichtlich. Es empfiehlt sich eine Auswahl der Spalten vorzunehmen. 
* Bei zu vielen Zeilen, also Datenpunkte, dauert die Erstellung des Plottes mitunter sehr lang. Hier reicht oft eine zufällige Auswahl der Datenpunkte.

In [None]:
# Visualisierung Klassenzugehörigkeits-Matrix
import seaborn as sns

sns.pairplot(df, hue="Lilienart")
plt.show()

## 3. Daten vorbereiten
Für diese Aufgabe ist nur ein Schritt notwendig:
* Die Aufteilung in Trainings- und Testdaten

Die Normierung der Daten ist für den Gaussian Naive Bayes Klassifikator nicht notwendig. 

### 3.1 Daten vorbereiten - Aufteilung in Trainings- und Testdaten sowie X und y
Meist bekommt man einen Datensatz und muss die Aufteilung der Daten in Trainings- und Testdaten selbst vornehmen.   
Am einfachsten geht das mit der Funktion train_test_split.  
Diese teilt gleichzeitig die Eingangsdaten (X) und Zielgröße (y) auf.  
Wichtige Einstellungen:  
* Split festlegen, es empfiehlt sich ein Anteil der Trainingsdaten von 0.6 - 0.9. Je nachdem wie groß der Datensatz ist. 
* Für die Reproduzierbarkeit der Ergebnisse, sollte der random_state gesetzt werden, da die Auswahl zufällig erfolgt. 
* Bei Klassifikationsproblemen erfolgt die Aufteilung so, dass die Verteilung der Zielklassen beim Trainings und Test etwa gleich sind 
* Es empfiehlt sich die Daten zu mischen bevor sie aufgeteilt werden (shuffle=True). Allerdings ist dies die Standardeinstellung und kann auch weggelassen werden.


TODO:
* Setze für train_size einen Wert zwischen 0.6 und 0.9 ein
* Beispiel: Ein Wert von 0.8 bedeutet der Datensatz wird in 80% Trainingsdaten und 20% Testdaten unterteilt.

AUSGABE:
* Größe der Datensätze
* Variablen in X und in y

In [None]:
# Aufteilen in Trainings- und Testdaten
from sklearn.model_selection import train_test_split

# Angabe des Anteils der Trainingsdaten
train_size = TODO  # Wert zwische 0 und 1, Anteil an Trainingsdaten

X_train, X_test, y_train, y_test = train_test_split(
    df.drop(columns=["Lilienart"]),  # DataFrame nur mit Einflussgrößen, daher drop(weglassen) der Lilienart 
    df["Lilienart"],  # Angabe der Zielgröße bzw. Übergabe der entsprechenden Daten
    test_size= 1 - train_size,
    shuffle=True,
    random_state=my_seed
)


# Ausgabe Datensätze und Anzahl Datenpunkte
print("\nAnzahl Traingsdaten: \t" + str(len(y_train)) + " / " + str(len(df)))
print("Anzahl Testdaten: \t" + str(len(y_test)) + " / " + str(len(df)))
print("\nX:\t" + str(list(X_train)))
print("y:\t[Lilienart]\n")

## 4. Modelle trainieren
In diesem Schritt wird das Modell imporiert, erstellt und trainiert

### 4.1 Modelle bilden - Modell importieren und erstellen

In [None]:
# Importieren des benötigten Modells
from sklearn.naive_bayes import GaussianNB

# Erstelle Modell
model = GaussianNB()

### 4.2 Modelle bilden - Modell trainieren
Modell wird mit den normierten Trainingsdaten trainiert

TODO:
* Setze die Trainingsdaten in die .fit-Funktion ein (X_train und y_train) 

AUSGABE:
* trainiertes Gaussian Naive Bayes Modell

In [None]:
# Trainiere das Modell
model = model.fit(TODO, TODO)

### 4.3 Modelle bewerten (anhand Trainingsdaten)
Wir berechnen die Kennzahlen auch für die Trainingsdaten: 
* damit wir erkennen, wie gut das Modell die Trainingsdaten erlernen kann
* damit wir die Kennzahlen vom Training später mit den Kennwerten von der Validierung bzw. Test vergleichen können. 

#### Accuracy

TODO:
*  Setze X_train in die .predict-Funktion ein, um eine Vorhersage für die Trainingsdaten zu berechnen 
* Übergebe der accuray_score-Funktion y_train und y_train_pred, um die Genauigkeit auf den Trainingsdaten zu berechnen. 

AUSGABE:
* Genauigkeit des Modells auf Trainingsdaten

In [None]:
# Berechnung der Accuracy für die Trainingsdaten
from sklearn.metrics import accuracy_score

# Vorhersage der Trainingsdaten mit Modell
y_train_pred = model.predict(TODO)

print('Accuracy für die Trainingsdaten:')
accuracy_score(TODO, TODO) 
# Hinweis: in dieser Kurzform ist es wichtig, erst die wahren Werte, dann die vorhersagegten Werten

#### F1-Score
TODO:
* Übergebe der F1-Score-Funktion y_train und y_train_pred, um den F1-Score auf den Trainingsdaten zu berechnen. 

AUSGABE:
* F1-Score des Modells für die Trainingsdaten

In [None]:
# Berechnung der Accuracy für die Trainingsdaten
from sklearn.metrics import f1_score

print('F1-Score für die Trainingsdaten:')
f1_score(TODO, TODO, average='weighted')
 

### 5.1 Modelle validieren - Modell validieren
Entfällt da nur 1 Modell trainiert wurde.

## 6. Modell testen

### 6.1 Modell testen - Genauigkeit auf Testdaten
Wir berechnen nun die Kennzahlen für die Testdaten: 
* damit wir abschließend bewerten können, wie gut das Modell bei unbekannten Daten wirklich funktioniert
* damit wir erkennen, wie gut das Modell sich später in der Anwendung bewähren wird

#### Accuracy

TODO:
*  Setze X_test in die .predict-Funktion ein, um eine Vorhersage für die Trainingsdaten zu berechnen 
* Übergebe der accuray_score-Funktion y_test und y_test_pred, um die Genauigkeit auf den Testdaten zu berechnen. 

AUSGABE:
* Genauigkeit des Modells auf Testdaten

In [None]:
# Vorhersage der Trainingsdaten mit Modell
y_test_pred = model.predict(TODO)

print('Accuracy für die Testsdaten:')
accuracy_score(TODO, TODO) 

#### F1-Score
TODO:
* Übergebe der F1-Score-Funktion y_test und y_test_pred, um den F1-Score auf den Trainingsdaten zu berechnen. 

AUSGABE:
* Genauigkeit des Modells auf Testdaten

In [None]:
# Berechnung der Accuracy für die Trainingsdaten
from sklearn.metrics import f1_score

print('F1-Score für die Testsdaten:')
f1_score(TODO, TODO, average='weighted')
 

### 6.2 Modell testen - Visualisierung der Modellgüte (Konfusionsmatrix)

Für die Erstellung der Konfusionsmatrix gibt es zwei Varianten, die von dem Objekt ConfusionMatrixDisplay als Funktionen (korrekt handelt es sich hier um Methoden) bereitgestellt werden.  
Die Funktion .from_predictions bekommt die echten Werte und die Vorhergesagten Werte mit denen eine Konfusionsmatrix erstellt wird.  
Die Funktion .from_estimator bekommt das Modell, die Daten (Eingangsdaten X und Zielgröße y), um die Konfusionsmatrix zu erstellen. 

TODO: 
* Übergebe der ConfusionMatrixDisplay.from_predictions-Funktion y_test und y_test_pred für die Erstellung der Konfusionsmatrix

AUSGABE:
* Konfusionsmatrix für die Testdaten

In [None]:
# Ausgabe Konfusionsmatrix

# Importieren der Funktion: ConfusionMatrixDisplay
from sklearn.metrics import ConfusionMatrixDisplay

#Erstellen der Konfusionsmatrix mit Hilfe des trainierten Modells
ConfusionMatrixDisplay.from_predictions(TODO, TODO, xticks_rotation=45)
plt.title('Konfusionsmatrix auf Testdaten')
plt.grid()
plt.show()

## Bonus Visualisierung mittels Decision Boundary

Dieser Abschnitt soll zeigen, wie man eine Decision Boundary erstellen kann. Das Ganze ist technisch etwas aufwändiger und ist nur als Bonus gedacht.  

Für die Decision Boundary wird ein neues Modell erstellt, das nur die beiden Größen Länge Kelchblatt und Breite Kelchblatt nutzt. 

In [None]:
# Schritte 3 Daten vorbereitung und 4 Modell trainieren 

# Daten vorbereiten
train_size = 0.8  # Wert zwische 0 und 1, Anteil an Trainingsdaten
X_train, X_test, y_train, y_test = train_test_split(
    df.drop(columns=["Lilienart", 'Länge Kronblatt', 'Breite Kronblatt']),
    df["Lilienart"],
    test_size=1 - train_size,
    shuffle=True,
    random_state=my_seed
)
# Modell trainieren
model = model.fit(X_train, y_train)

In [None]:
# Erstelle Grid für Modellausgabe
x1_grid = np.linspace(X_train["Länge Kelchblatt"].min(), X_train["Länge Kelchblatt"].max(), 250)
x2_grid = np.linspace(X_train["Breite Kelchblatt"].min(), X_train["Breite Kelchblatt"].max(), 250)
xx1, xx2 = np.meshgrid(x1_grid, x2_grid)

# Berechne Modellvorhersage im Plotbereich
z = model.predict(pd.DataFrame({"Länge Kelchblatt": xx1.ravel(), "Breite Kelchblatt": xx2.ravel()}))

# Umwandeln der Klassennamen in Klassennamen
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
z = le.fit_transform(z)

# Formatkonvertierung des Ergegebnisses für Plot
Z = np.asarray(z).reshape(250, 250)

fig = plt.figure(figsize=(12, 9))
plt.title(
    "Modellvorhersage und Datensätze (Train = Kreis, Test = Raute)"
)
plt.xlabel("Länge Kelchblatt")
plt.ylabel("Breite Kelchblatt")
plt.contourf(xx1, xx2, Z, cmap=plt.cm.brg)
scatter = plt.scatter(
    X_train["Länge Kelchblatt"],
    X_train["Breite Kelchblatt"],
    cmap=plt.cm.brg,
    c=le.transform(y_train),
    marker="o",
    alpha=0.5,
    edgecolors="black",
    s=70
)
plt.scatter(
    X_test["Länge Kelchblatt"],
    X_test["Breite Kelchblatt"],
    cmap=plt.cm.brg,
    c=le.transform(y_test),
    marker="D",
    edgecolors="black",
    s=70
)
#add legend with class names
plt.legend(handles=scatter.legend_elements()[0], labels=list(le.classes_))
plt.show()