# <p style='margin-bottom:-30px'><font color='darkblue'>Modul 4: Übungsmaterial Klassifikation &#8211; Was macht Schokolade lecker?</font>&nbsp; <font size='6'>&#x1F36B;</font></p>

<hr style="border:1px solid gray"> </hr>

In diesem Notebook wird der Datensatz zur Schokoladenbewertung, der bereits aus dem Übungsnotebook aus Modul 2 bekannt ist, genauer betrachtet. Auf Grundlage der Daten soll ein Klassifikationsmodell erstellt werden, anhand dessen sich bestimmen lässt, was eine leckere Schokolade ausmacht.

## <font color='darkblue'>Inhalt</font>


1. [Datenverständnis und Datenvorbereitung](#kap1)  
    1.1 [Datensatz einlesen und erforschen](#kap11)  
    1.2 [Datenvorbereitung](#kap12)    
    

2. [Modellierung](#kap2)    
    2.1 [Erste Modellierung](#kap21)  
    &emsp; &ensp;2.1.1 [Entscheidungsbaum](#kap211)  
    &emsp; &ensp;2.1.2 [Random Forest](#kap212)  
    2.2 [Zweite Modellierung](#kap22)   


3. [Fazit](#kap3)

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>1. Datenverständnis und Datenvorbereitung</font> <a name="kap1"></a>

### <font color='darkblue'>1.1  Datensatz einlesen und erforschen</font> <a name="kap11"></a>

In diesem Beispiel soll der Datensatz mit Merkmalen von Schokoladenriegeln untersucht werden, welcher bereits in Modul 2 bereiningt wurde. Der ursprüngliche Datensatz wurde auf <a href="http://flavorsofcacao.com/chocolate_database.html">Flavors of Cacao</a> veröffentlicht und kann auch über <a href="https://www.kaggle.com/andrewmvd/chocolate-ratings">Kaggle</a> heruntergeladen werden. Hier wurde er vorher leicht verändert.

Mit ihm soll in diesem Modul ein Modell zur Bewertung des Geschmacks von Schokoladenriegeln anhand verschiedener Merkmale erstellt werden. Dabei soll das Rating (die 3 Klassen) als Zielmerkmal ausgewählt werden. 

Zunächst werden die benötigten Bibliotheken eingebunden, sowie der in Modul 2 vorbereitete Datensatz eingelesen und ein Überblick angezeigt.

In [None]:
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('M4_Uebung_Schokolade_bereinigt.csv')
df.info()

In [None]:
df.head()

In [None]:
df.describe()

Der Datensatz enthält Informationen zur Herstellung, Zusammensetzung und Geschmacksbewertung von Schokoladenriegeln. Die Merkmale werden in der nachfolgenden Tabelle erläutert.

<table align='left'>
    <thead>
        <tr>
          <th style="text-align:left">Spaltenname</th>
          <th style="text-align:left">Bedeutung</th>
          <th style="text-align:left">Weitere Informationen</th>
        </tr>
    </thead>
    <tr>
    <td style="text-align:left">Company</td>
    <td style="text-align:left">Hersteller</td>
    <td style="text-align:left">-</td>
    </tr>
    <tr>
    <td style="text-align:left">Company Location</td>
    <td style="text-align:left">Herstellungsort</td>
    <td style="text-align:left">Im Datensatz sind nur Riegel enthalten, die in den USA oder Kanada produziert wurden.</td>
    </tr>
    <tr>
    <td style="text-align:left">Review Date</td>
    <td style="text-align:left">Jahr der Bewertung</td>
    <td style="text-align:left">-</td>
    </tr>
    <tr>
    <td style="text-align:left; vertical-align: top">Country of Bean Origin</td>
    <td style="text-align:left; vertical-align: top">Herkunftsland der verwendeten Kakaobohne</td>
    <td style="text-align:left; vertical-align: top">-</td>
    </tr>
    <tr>
    <td style="text-align:left; vertical-align: top">Specific Bean Origin or Bar Name</td>
    <td style="text-align:left; vertical-align: top">Name der verwendeten Bohne /<br>Name des Riegels</td>
    <td style="text-align:left; vertical-align: top">-</td>
    </tr>
    <tr>
    <td style="text-align:left">Cocoa Percent</td>
    <td style="text-align:left">Kakaoanteil</td>
    <td style="text-align:left">[%]</td>
    </tr>
    <tr>
    <td style="text-align:left; vertical-align: top">Rating</td>
    <td style="text-align:left; vertical-align: top">Bewertung</td>
    <td style="text-align:left; vertical-align: top">3 = sehr empfehlenswert <br>2 = empfehlenswert <br>1 = enttäuschend</td>
    </tr>
    <tr>
    <td style="text-align:left; vertical-align: top">rich cocoa, fatty, [...], dirty, bold</td>
    <td style="text-align:left; vertical-align: top">Einprägsamste Merkmale</td>
    <td style="text-align:left; vertical-align: top">Es handelt sich hierbei um die Ausprägungen der einprägsamsten Merkmale aus dem Übungsnotebook des Moduls 2. Aus diesen wurden mittels One-Hot-Encoding eigene Datenspalten gebildet. Die Ausprägungen sind somit 0 oder 1.</td>
    </tr>
    <tr>
    <td style="text-align:left">Number of Ingredients</td>
    <td style="text-align:left">Anzahl der Zutaten</td>
    <td style="text-align:left">-</td>
    </tr>
    <tr>
    <td style="text-align:left">b</td>
    <td style="text-align:left">Bohnen</td>
    <td style="text-align:left">0 / 1</td>
    </tr>
    <tr>
    <td style="text-align:left">s</td>
        <td style="text-align:left">Zucker</td>
    <td style="text-align:left">0 / 1</td>
    </tr>
    <tr>
    <td style="text-align:left">c</td>
    <td style="text-align:left">Kakaobutter</td>
    <td style="text-align:left">0 / 1</td>
    </tr>
    <tr>
    <td style="text-align:left">l</td>
    <td style="text-align:left">Lecithin</td>
    <td style="text-align:left">0 / 1</td>
    </tr>
    <tr>
    <td style="text-align:left">v</td>
    <td style="text-align:left">Vanille</td>
    <td style="text-align:left">0 / 1</td>
    </tr>
    <tr>
    <td style="text-align:left">sa</td>
    <td style="text-align:left">Salz</td>
    <td style="text-align:left">0 / 1</td>
    </tr>
    <tr>
    <td style="text-align:left">s*</td>
    <td style="text-align:left">Süßungsmittel</td>
    <td style="text-align:left">0 / 1</td>
    </tr>
</table>

## <font color='darkblue'>1.2. Datenvorbereitung</font> <a name="kap12"></a>

Zur besseren Übersichtlichkeit des Datensatzes werden nun zunächst einige Merkmale gelöscht, die in der folgenden Klassifikation nicht verwendet werden sollen. Dies liegt entweder daran, dass sie höchstwahrscheinlich keinen Einfluss auf den Geschmack haben (bspw. `Review Date`) oder nur schwierig weiterverarbeitet werden können (bspw. `Country of Bean Origin`).

In [None]:
df = df.drop("Company (Manufacturer)", axis=1)
df = df.drop("Company Location", axis=1)
df = df.drop("Review Date", axis=1) 
df = df.drop("Specific Bean Origin or Bar Name", axis=1) 
df = df.drop("Country of Bean Origin", axis=1) 

Nun werden die Daten in Trainings- und Testdatenmenge aufgeteilt. 

In [None]:
from sklearn.model_selection import train_test_split
train_set,test_set = train_test_split(df, random_state=0, test_size=0.2, stratify = df['Rating'])

Anschließend werden die Daten mit dem Standardscaler auf die Daten der Trainingsmenge skaliert.

In [None]:
from sklearn.preprocessing import StandardScaler

# Nur die Merkmale werden standardisiert, daher wird eine Liste erstellt, die nur die Merkmale ohne das Zielmerkmal enthält
features = list(df.drop(['Rating'], axis=1).columns)

# Skalierung wird an train_set angepasst
scaler = StandardScaler()
scaler.fit(train_set[features])

# Skalierung der Trainingsdaten
train_features_scaled = pd.DataFrame(scaler.transform(train_set[features]), columns=features, index=train_set.index)
# Zusammenfügen der skalierten Merkmale und das Zielmerkmal (nicht skaliert) zu einem Dataframe
train_set_scaled = pd.concat([train_features_scaled, train_set['Rating']], axis=1)

# Skalierung der Testdaten
test_features_scaled = pd.DataFrame(scaler.transform(test_set[features]), columns=features, index=test_set.index)
# Zusammenfügen der skalierten Merkmale und das Zielmerkmal (nicht skaliert) zu einem Dataframe
test_set_scaled = pd.concat([test_features_scaled, test_set['Rating']], axis=1)

train_set_scaled.head()

Da das Zielmerkmal das Rating ist, werden die Trainings- und Testdaten passend in Eingabe- und Ausgabemerkmale geteilt. 

In [None]:
# Trainingsdaten für die Modellierung mit ausgewählten Merkmalen
X_train = train_set_scaled.drop(["Rating"], axis=1)
y_train = train_set_scaled[['Rating']].values.ravel() # Befehl verändert die Form der Variable und verhindert so eine sonst auftretende Warnung 

# Testdaten für die Modellierung mit ausgewählten Merkmalen
X_test = test_set_scaled.drop(["Rating"], axis=1)
y_test = test_set_scaled[['Rating']].values.ravel() # Befehl verändert die Form der Variable und verhindert so eine sonst auftretende Warnung 

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>2. Modellierung</font> <a name="kap2"></a>

Wenn wie in diesem Beispiel mehr als zwei Klassen vorliegen, spricht man von Klassifikatoren mit mehreren Kategorien oder auch von multinomialen Klassifikatoren. Hierbei gibt es einige Unterschiede zu beachten:

Bei der Fehleranalyse kann weiterhin die Korrektklassifikationsrate und die Konfusionsmatrix berechnet werden. Precision und Recall können zwar je bezüglich einer der Klassen bestimmt werden, dies ist aber aufwändiger, da vorher alle anderen Klassen als negative Klasse zusammengefasst werden müssen.

Viele Methoden der Klassifikation mit zwei Klassen lassen sich erweitern auf mehrere Klassen. Von den in diesem Kurs vorgestellten ist nur die Support Vector Machine nicht auf mehr als zwei Klassen anwendbar. Hier kann aber die "Einer gegen Alle"-Strategie angewendet werden: Der erste Klassifikator entscheidet, ob die erste Klasse vorliegt oder nicht. Der zweite, ob die zweite Klasse vorliegt usw. bis zur Gesamtanzahl der Klassen. Aus diesen Einzelklassifikatoren wird dann die Entscheidung mit dem höchsten Score als Gesamtentscheidung herausgegriffen. 

### <font color='darkblue'>2.1 Erste Modellierung</font> <a name="kap21"></a>

Für ein erstes Modell sollen die Merkmale, welche sich aus der `Most Memorable Characteristics` ergeben haben, für eine Modellierung umgangen werden. So würde sich eine Aussage rein aus den Zutaten des Riegels ableiten lassen. Um dies umzusetzen, werden die Variablen auf diese Merkmale eingeschränkt: 

In [None]:
X_train_teil = X_train[['Cocoa Percent','Number of Ingredients','b','s','c','l','v','sa','s*']]
X_test_teil = X_test[['Cocoa Percent','Number of Ingredients','b','s','c','l','v','sa','s*']]

### <font color='darkblue'>2.1.1 Entscheidungsbaum</font> <a name="kap211"></a>

Aus dem Video ist bereits der Entscheidungsbaum bekannt. 

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

Modellieren Sie einen Entscheidungsbaum mit `max_depth = 10`, indem Sie die nachfolgende Zelle ergänzen. Geben Sie anschließend die Konfusionsmatrix für die Testdaten aus und interpretieren Sie das Ergebnis. Was geben die Einträge in den Zeilen und Spalten an?
</div>

In [None]:
# Ergänzen Sie die zweite Zeile
from sklearn.tree import DecisionTreeClassifier
# clf_dt = #
clf_dt.fit(X_train_teil,y_train)
print("Korrektklassifikationsrate auf Trainingsdaten:", clf_dt.score(X_train_teil, y_train))
print("Korrektklassifikationsrate auf Testdaten:",clf_dt.score(X_test_teil,y_test))

In [None]:
# Geben Sie in diese Zelle die Befehle zur Ausgabe der Konfusionsmatrix an (Achtung: Einbindung des Moduls nicht vergessen)

Interpretation: Die Konfusionsmatrix besitzt nun genauso viele Zeilen und Spalten wie Klassen vorhanden sind, hier sind es daher 3 Zeilen und Spalten.

In den Zeilen stehen wieder die tatsächlichen Werte der jeweiligen Klassen, in den Spalten die vorhergesagten Werte. So bedeutet z.B. die Zahl `217` in der zweiten Zeile und zweiten Spalte, dass in 217 Fällen für Riegel der Klasse 2 auch diese Klasse vorhergesagt wurde. Allgemein lässt sich formulieren: alle richtigen Vorhersagen stehen auf der Hauptdiagonalen der Matrix:  
<br>

<span style='font-family:monospace'>
    [[ <span style='background :gold'>0</span>   &ensp;&ensp;   10   &ensp;&ensp;   0]    <br>    
    &thinsp;&thinsp;&thinsp;[ 1  &ensp; <span style='background :gold'>217</span> &ensp; 69]    <br>
    &thinsp;&thinsp;&thinsp;[ 0  &ensp;  139  &ensp;  <span style='background :gold'>53</span>]]
</span>

Die Konfusionsmatrix zeigt, wie stark die einzelnen Klassen besetzt sind und wo noch Fehler bei der Vorhersage gemacht werden.
Die Zeilensummen geben an, wie viele Testfälle dieser Klasse in der Testmenge sind:
- Für die erste Klasse sind das 10 Testfälle.
- Die zweite Klasse ist 1+217+69 = 287 Mal vertreten.
- Die dritte Klasse hat 139+53 = 192 Testfälle.

Auf der Diagonalen stehen die Anzahlen der richtig erkannten Testfälle:   
- Die erste Klasse wurde niemals richtig erkannt. Alle Testfälle zur ersten Klasse wurden der Klasse 2 zugeordnet. 
- Die zweite Klasse wurde 217 mal richtig erkannt. 1 Testfall wurde der ersten Klasse zugeordent, 69 Testfälle der dritten Klasse.
- 139 Elemente der Klasse 3 wurden der Klasse 2 zugeordnet. usw. 

Die Konfusionsmatrix gibt eine tiefere Einsicht bei der Fehleranalyse. Hier sehen Sie z.B. dass die größte Anzahl der falschen Klassifizierungen bei den 139 Fällen von Klasse 3-Testfällen war, die in Klasse 2 eingeordnet wurden. Es könnte nun überlegt werden, wie diese beiden Klassen besser zu unterscheiden sind. 

Anhand der Konfusionsmatrix kann auch die Berechnung der Korrektklassifikationsrate nachvollzogen werden:

Korrekt klassifiziert sind alle Einträge auf der Diagonalen der Matrix, hier:
0 + 217 + 53 = 270

Die Gesamtheit aller Testfälle ist die Summe aller Einträge in der Matrix, hier zeilenweise vorgegangen:
0+10+0 + 1+217+69 + 0+139+53 = 489

Die Korrektklassifikationsrate ist dann 270 &divide; 489 = 0,552....

Eine Variation der Tiefe des Baumes und anschließende Ausgabe der Korrektklassifikationsrate kann einen Hinweis auf die beste Tiefe geben: 

In [None]:
for i in range(2,20):
    clf_dt = DecisionTreeClassifier(max_depth = i)
    clf_dt.fit(X_train_teil,y_train)
    print("i = ", i)
    print("Korrektklassifikationsrate auf Testdaten:",clf_dt.score(X_test_teil,y_test))

Der beste Entscheidungsbaum hat eine Tiefe von 5, es sind also sehr viele Unterscheidungen nötig. Die Korrektklassifikationsrate liegt in diesem Fall bei knapp 59%, was aber im Kontext der Anzahl der Klassen interpretiert werden muss: Bei drei Klassen liegt die Ratewahrscheinlichkeit bei 1/3 = 33,33%, also ist die Korrektklassifikationsrate deutlich höher als eine zufällige Entscheidung. 

Es soll nun noch ein neues Verfahren thematisiert werden: Der Random Forest. 

### <font color='darkblue'>2.1.2 Random Forest</font> <a name="kap212"></a>

Random Forests oder auf Deutsch "Zufallswälder" basieren auf Entscheidungsbäumen: 
Aus den Trainingsdaten werden Teilmengen gebildet, für die jeweils ein einzelner Entscheidungsbaum trainiert wird. Es entstehen daher mehrere Entscheidungsbäume, die bei der Vorhersage unterschiedliche Klassifikationen vornehmen können. Die Klasse, die dabei am häufigsten auftritt, bestimmt die endgültige Klassenzuordnung und ist damit die Vorhersage des Random Forest.

Der einzelne Entscheidungsbaum muss dabei nicht unbedingt besonders gut sein. Wichtig beim Random Forest ist es eher, möglichst unterschiedliche Entscheidungsbäume zu erstellen. Diese produzieren dann unterschiedliche Fehlertypen, die sich über die Menge der Bäume dann gegenseitig aufheben. 

Das Modell des Random Forests ist jedoch nicht mehr so leicht nachvollziehbar wie das eines einzelnen Entscheidungsbaumes, d.h. die Erklärbarkeit des Modells geht verloren.

Es soll nun zu dem oben definierten Datensatz ein Random Forest trainiert werden, die Syntax entspricht der bereits bekannten.

In [None]:
from sklearn.ensemble import RandomForestClassifier
clf_rf = RandomForestClassifier(max_depth=5, n_estimators=10) # n_estimators gibt die Anzahl der Bäume im Wald an
clf_rf.fit(X_train_teil, y_train)
print("Korrektklassifikationsrate auf Trainingsdaten:", clf_rf.score(X_train_teil, y_train))
print("Korrektklassifikationsrate auf Testdaten:",clf_rf.score(X_test_teil,y_test))

y_pred_rf = clf_rf.predict(X_test_teil)
print(confusion_matrix(y_test, y_pred_rf))

Der Random Forest bringt offenbar zunächst kein besseres Modell hervor. Ein Random Forest besitzt viele Hyperparameter, die optimiert werden sollten.  
Die beiden wichtigsten sind die Tiefe der Bäume `max_depth`  und ihre Anzahl `n_estimators`.

Um beide Parameter gleichzeitig zu variieren, kann eine Doppelschleife genutzt werden:

In [None]:
for j in [50, 100, 300, 500]:
    for i in [5, 10, 15]:
        clf = RandomForestClassifier(max_depth=i, n_estimators=j, random_state=0)
        clf.fit(X_train_teil, y_train)
        print("i= ", i, " j = ", j)
        print(clf.score(X_test_teil, y_test))

Die beste Korrektklassifikationsrate wird bei `max_depth = 5` und `n_estimators=50` erreicht. Es wäre möglich, an dieser Stelle die Suche nach den besten Parametern zu verfeinern, indem noch mehr Werte ausprobiert werden, allerdings liegt die Korrektklassifikationsrate auch hier wieder bei ca. 59%. Es scheint also, als wäre hier keine Optimierung bezüglich der Korrektklassifikationsrate möglich, deshalb sollen nun doch auch die `Most Memorable Characteristics` in die Modellierung mit einbezogen werden. 

### <font color='darkblue'>2.2 Zweite Modellierung</font> <a name="kap22"></a>

Da für die erste Modellierung lediglich auf die Variablen `X_train_teil` und `X_test_teil` zurückgegriffen wurde, kann nun mit der Variable `X_train` und `X_test` fortgefahren werden. 

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

Nutzen Sie die Bausteine von Kapitel 2.1.1, um einen Entscheidungsbaum mit `max_depth = 10` zu modellieren. Geben Sie anschließend die Korrektklassifikationsraten und die Konfusionsmatrix aus.
</div>

In [None]:
# Platz für Arbeitsauftrag

Das Ergebnis zeigt, dass mit den neu hinzugefügten Merkmalen eine deutlich bessere Modellierung möglich ist.  
Vielleicht liefert hier nun auch der Random Forest ein besseres Ergebnis? 

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

Nutzen Sie die Bausteine von Kapitel 2.1.2, um einen Random Forest inklusive einer Suche nach den besten Paramtern mit einer Doppelschleife für die Parameter `max_depth`  und `n_estimators` zu modellieren. Geben Sie in jeder Runde die Korrektklassifikationsrate der Testmenge aus. 
</div>

In [None]:
# Platz für Arbeitsauftrag

Die beste Korrektklassifikationsrate wird bei `max_depth = 15` und `n_estimators=50` erreicht. Nachfolgend wird das Netz noch einmal verfeinert: 

In [None]:
for j in [40, 45, 50, 55, 60]:
    for i in [13, 14, 15, 16, 17]:
        clf = RandomForestClassifier(max_depth=i, n_estimators=j, random_state=0)
        clf.fit(X_train, y_train)
        print("i= ", i, " j = ", j)
        print(clf.score(X_test, y_test))

Das beste Ergebnis wird für `i=17`und  `j = 60` erreicht. Die Konfusionsmatrix gibt abschließend an, wo die Verbesserungen stattgefunden haben:

In [None]:
clf = RandomForestClassifier(max_depth=17, n_estimators=60, random_state=0)
clf.fit(X_train, y_train)
y_pred_rf_neu = clf.predict(X_test)
print(confusion_matrix(y_test, y_pred_rf_neu))

Die Modellierung zeigt, dass der Einbezug der `Most Memorable Characteristics`, obwohl er umgangen werden sollte, eine Verbesserung des Modells mit sich bringt. Durch die in Modul 2 durchgeführte Aufspaltung des Merkmals könnte eine Untersuchung dieses Ergebnisses zurückspiegeln, welche `Most Memorable Characteristics` zu einem besonders guten Riegel führt. Dies wäre eine logisch nachfolgende Untersuchung. 

Wie beispielsweise auch im Video thematisiert wurde, ist ein schlichtes Ausprobieren, bei welchen Parametern eine optimierte Korrektklassifikationsrate erreicht wird, nicht immer zielführend.

Allgemein erzielen Random Forests in vielen Anwendungen bei mittelgroßen Datensätzen sehr gute Ergebnisse. 

Es gibt inzwischen einige Verbesserungen, die die Bäume schneller und mit weniger Rechenkapazität berechnen können.  
Weit verbreitet sind <a href="https://xgboost.readthedocs.io/en/stable/">xgboost</a> und <a href="https://lightgbm.readthedocs.io/en/latest/index.html">LigthGBM</a>.


<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>3. Fazit</font> <a name="kap3"></a>

Dieses Notebook hat
- eine Klassifikation mit mehr als zwei Klassen gezeigt.
- Ihre Fähigkeiten bei der Vorverarbeitung der Daten erweitert.
- ein neues Klassifikationsverfahren, nämlich das Random Forest Verfahren, eingeführt. 