# Übung zu Kapitel 5.4 - Evaluieren eines erstellten ML-Modells

*Eine Übung zum Buch "[Basiswissen KI-Testen - Qualität von und mit KI-basierten Systemen](https://dpunkt.de/produkt/basiswissen-ki-testen/)", ISBN 978-3-86490-947-4*

In dieser Übung evaluieren wir die Modelle, die wir in der [Übung 4.2](../Kap04.2_Datensätze_aufteilen/Übung_Datensätze_aufteilen.ipynb) trainiert haben. Dazu verwenden wir die Testdaten, die wir dort zurückgelegt haben. Auch hier nutzen wir wieder mehrere Bibliotheken, die dafür passende Methoden bereithalten:

[<img src="https://pandas.pydata.org/docs/_static/pandas.svg" alt="pandas" width="80" height="24">](https://pandas.pydata.org/docs/reference/index.html)
&emsp; [<img src="https://joblib.readthedocs.io/en/stable/_static/joblib_logo.svg" alt="joblib" width="36" height="36"> joblib](https://joblib.readthedocs.io/en/stable)
&emsp; [<img src="https://scikit-learn.org/stable/_static/scikit-learn-logo-small.png" alt="Scikit-learn" width="80" height="24">](https://scikit-learn.org/stable/modules/classes.html)
&emsp; [<img src="https://seaborn.pydata.org/_static/logo-wide-lightbg.svg" alt="seaborn" width="80" height="24">](https://seaborn.pydata.org/index.html)
&emsp; [<img src="https://matplotlib.org/_static/logo_light.svg" alt="matplotlib" width="80" height="24">](https://matplotlib.org/)

**Aufgabe:** Zur Evaluierung ermittelst du die vier funktionalen Leistungsmetriken. Hier musst du beachten, dass vom Entscheidungsbaum drei Klassen ausgegeben werden. Die Konfusionsmatrix besteht daher aus drei Zeilen und drei Spalten!

Für diese Aufgabe gehen wir in fünf Schritten vor:
1. Vorbereitung: Testdaten laden, Modell laden, Konfusionsmatrix ermitteln,
1. Genauigkeit (engl. accuracy) evaluieren,
1. Präzision (engl. precision) evaluieren,
1. Sensitivität (engl. recall) evaluieren,
1. F1-Wert (engl. F1-score) evaluieren.

## 1. Vorbereitung
### Laden der Testdaten
Als Erstes laden wir im Folgenden die Testdaten. Diese Testdaten haben wir in der [Übung 4.2](../Kap04.2_Datensätze_aufteilen/Übung_Datensätze_aufteilen.ipynb) vom Datensatz abgetrennt und für die Modellevaluierung zurückgehalten. Diese Daten haben wir zusätzlich im Ordner "data" in der Datei "iris2_testdata.csv" abgelegt, damit du die Übungen unabhängig voneinander bearbeiten kannst.

In [None]:
import pandas as pd         # zum Laden der Daten verwenden wir die pandas Bibliothek
X_test = pd.read_csv('../Kap04.2_Datensätze_aufteilen/X_test.csv') # wenn du die Übung 4.2 nicht bis zum Ende abgeschlossen hast, ...
y_test = pd.read_csv('../Kap04.2_Datensätze_aufteilen/y_test.csv') # ... kannst du die Daten auch aus dem Verzeichnis "data/" dieser Übung laden.
#X_test = pd.read_csv('data/X_test.csv') # wenn du die Übung 4.2 nicht bis zum Ende abgeschlossen hast, ...
#y_test = pd.read_csv('data/y_test.csv') # ... kannst du die Daten auch aus dem Verzeichnis "data/" dieser Übung laden.

Wir schauen uns die Testdaten genauer an: 

In [None]:
X_test

Die dazugehörigen Klassen der 15 Pflanzen in den Testdaten befinden sich in der Variablen y_test.

In [None]:
y_test

### Laden des trainierten Modells
In [Übung 4.2](../Kap04.2_Datensätze_aufteilen/Übung.ipynb) haben wir einen Entscheidungsbaum mit der Tiefe 8 trainiert. Diesen Entscheidungsbaum haben wir dort unter dem Namen `modell-8.pkl` abgelegt. Diesen wollen wir nun mit Hilfe der [joblib](https://joblib.readthedocs.io/en/stable/) Bibliothek laden und anhand verschiedener Metriken evaluieren. Dazu schauen wir uns die Vorhersage (engl. prediction) des Entscheidungsbaums zu den Testdaten genauer an.

In [None]:
import joblib
model_eval = joblib.load("../Kap04.2_Datensätze_aufteilen/modell-8.pkl") 
#model_eval = joblib.load("data/Modelle/modell-8.pkl") # alternatives Modell, wenn du Übung 4.2 nicht bis zum Ende abgeschlossen hast.

In [None]:
y_pred = model_eval.predict(X_test)
df_predictions = pd.DataFrame({'Vorhersagte Klasse': y_pred, 'Tatsächliche Klasse': y_test['class']})
df_predictions

### Darstellung der Vorhersagen durch das Modell
Um einen besseren Überblick über die Richtigkeit der Vorhersagen zu bekommen, stellen wir die Ergebnisse in einer Konfusionsmatrix dar. Dafür können wir die Funktion [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) aus der sklearn-Unterbibliothek <i>metrics</i> verwenden. Für die Darstellung der Konfusionsmatrix verwenden wir die Bibliotheken [matplotlib](https://matplotlib.org/) und [seaborn](https://seaborn.pydata.org/). 

In [None]:
from   sklearn.metrics import confusion_matrix
import seaborn             as sns
import matplotlib.pyplot   as plt

# Inhalt für Konfusionsmatrix zusammenstellen
y_pred = model_eval.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
class_names = ['Klasse 0', 'Klasse 1', 'Klasse 2']

# Konfusionsmatrix mit Seaborn darstellen
plt.figure()
sns.heatmap(cm, annot=True, cmap='Blues', cbar=False, xticklabels=class_names, yticklabels=class_names)
plt.xlabel('Vorhergesagte Klassen')
plt.ylabel('Tatsächliche Klassen')
plt.title('Konfusionsmatrix')
plt.show()

#Achtung: Hier sind die Achsen anders ansgeordnet als im Buch. 

## 2. Genauigkeit evaluieren

Berechne die <b>Genauigkeit</b> (engl. accuracy) für das Modell anhand der Test-Daten! 
Hier müssen wir beachten, dass wir nicht nur zwei Klassen haben, sondern 3 Klassen. Daher berechnen wir die Genauigkeit als die Anzahl der richtigen Klassifikationen geteilt durch die Anzahl aller Klassifikationen.

Wenn wir auf die Konfusionsmatrix oben schauen, ist dies: (6 + 2 + 6) / 15

Wir können dafür auch die Funktion [accuracy_score(y_true, y_pred, ...)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) aus der sklearn-Bibliothek verwenden.

In [None]:
### Genauigkeit (engl. accuracy) = (RP + RN) / (RP + FP + RN + FN)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_true = ..., y_pred = ...)
print("Genauigkeit: ", accuracy)

In [None]:
# Um die Lösung anzuzeigen, bitte diese Zelle zweimal ausführen
%load Lösungen/Lösung01.py

## 3. Präzision evaluieren
Berechne die **Präzision** (engl. precision) für das Modell! Hier können wir die sklearn-Funktion [precision_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html) verwenden. Achte darauf, dass wir hier eine mehrklassige Klassifikation haben, und probiere verschiedene Werte für den Parameter `average` aus. Der average-Parameter bestimmt, wie die Präzision für mehrklassige Klassifikationen berechnet wird. Hier gibt es kein "richtig" und "falsch", die Wahl des Parameters gibt viel mehr verschiedene Antworten auf die Frage nach der Präzision. Schaue dir zumindest das Ergebnis für den *average*-Wert `None` an.

In [None]:
### Präzision (engl. precision) = RP / (RP + FP)  
from sklearn.metrics import precision_score

precision = precision_score(y_true = ...., y_pred = ..., average = ...)
print("Präzision: ", precision)

In [None]:
# Um die Lösung anzuzeigen, bitte diese Zelle zweimal ausführen
%load Lösungen/Lösung02.py

## 4. Sensitivität evaluieren
Berechne die **Sensitivität** (engl. recall)! Dazu können wir die sklearn-Funktion [recall_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score) verwenden. Auch hier kannst du bei der Funktion *reacll_score* für den Parameter `average` verschiedene Werte setzen. 

In [None]:
### Sensitivität (engl. recall) = RP / (RP + FN)
from sklearn.metrics import recall_score

recall = recall_score(y_true = ...., y_pred = ..., average= ...)
print("Sensitivität: ", recall)

In [None]:
# Um die Lösung anzuzeigen, bitte diese Zelle zweimal ausführen
%load Lösungen/Lösung03.py

## 5. F1-Wert evaluieren
Berechne den **F1-Wert** (engl. F1-score)! Dazu können wir die sklearn-Funktion [f1_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score) verwenden. Hier können wir wieder wie bei den zwei vorherigen Funktion für den Parameter *average* verschiedene Werte setzen. 

In [None]:
### F1-Wert (engl. F1-score) = 2*(Präzision*Sensitivität) / (Präzision + Sensitivität)
from sklearn.metrics import f1_score

f1 = f1_score(y_true = ...., y_pred = ..., average= ...)
print("F1-Wert: ", f1)

In [None]:
# Um die Lösung anzuzeigen, bitte diese Zelle zweimal ausführen
%load Lösungen/Lösung04.py

## Aufgabe (optional)
Interessant ist, wie sich die verschiedenen Metriken mit steigender Komplexität des Entscheidungsbaums verhalten. Dazu laden wir Variationen des Modells aus der Übung Kap04.2_Datensätze_aufteilen aus dem Verzeichnis *data/Modelle* dieser Übung und schauen uns in einem Plot an, wie sich die verschiedenen Metriken mit zunehmender Komplexität verändern.

In [None]:
import matplotlib.pyplot as plt   # Wir benutzen die matplot-Bibliothek zum Zeichnen der Grafik
import joblib
from pathlib import Path   
import os

# Initialisierung der Listen die wir später in der Grafik verwenden werden.
accuracy_test  = []
precision_test = []
recall_test    = [] 
f1_test        = []
model_name     = []

# Berechnung der Metriken über alle Entscheidungsbäume (die wie in Übung Kap04.2_Datensätze_aufteilen trainiert wurden) mit einer For-Schleife 
dir= Path("data/Modelle")         # in diesem Verzeichnis ...
for model in dir.glob('*.pkl'):   # ... suche alle pkl-Dateien
    # Laden der Modelle
    model_eval = joblib.load(model)
    y_pred = model_eval.predict(X_test)
    # Berechnung der Metriken
    accuracy_test.append(accuracy_score(y_test, y_pred))
    precision_test.append(precision_score(y_test, y_pred, average='macro', zero_division=1))
    recall_test.append(recall_score(y_test, y_pred, average='macro', zero_division=1))
    f1_test.append(f1_score(y_test, y_pred, average='macro', zero_division=1))
    # Den Namen des Modells entnehmen und für die spätere x-Achse in die Liste anhängen
    model_name.append(model.stem)
    
# Grafik erzeugen
fig, ax1 = plt.subplots() 
ax1.set_xlabel('Modelle')   # x-Achse
ax1.set_ylabel('Metrik')    # y-Achse
ax1.plot(model_name, accuracy_test,  label = "Genauigkeit")
ax1.plot(model_name, precision_test, label = "Präzision")
ax1.plot(model_name, recall_test,    label = "Sensitivität")
ax1.plot(model_name, f1_test,        label = "F1-Wert")
plt.ylim([0, 1])
ax1.legend() 
plt.tight_layout()  # Dies sorgt dafür, dass die Plots und Beschriftungen nicht überlappen
plt.show()