# 2.6 Entscheidungsbäume

In diesem Notebook geht es darum, einen Einblick in den Einsatz von Entscheidungsbäumen als prädiktive Modelle zur Klassifikation zu bekommen. Dafür verwenden wir das berühmte Beispiel des Iris-Datensatzes. Ziel ist, einen Entscheidungsbaum zu programmieren, der möglichst genau zwischen den drei Blumen-Arten <b> Iris Setosa, Iris Versicolor und Iris Virginica </b> unterscheiden kann. Hierfür steht ein Datensatz mit insgesamt 150 Blumen dieser drei Arten zur Verfügung. Als erklärende Attribute liegen lediglich Größenangaben zum Kelchblatt (sepal) und zum Blütenblatt (petal) vor.

Konkret lernst du in diesem Kapitel...
   - ... mittels des Moduls ``sklearn`` einen Entscheidungsbaum zu erzeugen
   - ... den Entscheidungsbaum mit Daten aus einem DataFrame (Stichwort ``pandas``) zu trainieren
   - ... zu überprüfen, wie genau dein Modell gearbeitet hat
   - ... und den finalen Entscheidungsbaum zu visualisieren und als Bild auszugeben.

<div class="alert alert-block alert-info">
<font size="3"><b>Achtung:<b></font> Die Pakete pandas und sklearn sind in der Regel schon vorinstalliert. Die Pakete graphviz und pydotplus müssen hingegen zunächst installiert werden, bevor man sie importieren kann:
    
    1. conda install python-graphviz
    2. conda install -c conda-forge pydotplus
    

In [None]:
from sklearn import tree
import pandas as pd
import graphviz 
import pydotplus

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 1:</b></font>

Lade den Iris Datensatz aus dem Blackboard herunter. Erzeuge ein DataFrame ``iris`` mit unserem bekannten Befehl aus pandas, in welches der CSV-Datensatz importiert wird. Verschaffe dir dann mit ``.head()`` einen Überblick über das Dataframe ``iris``. Was fällt auf?

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 2:</b></font>

Um das Problem zu beheben: Ergänze deinen Einlesebefehl aus Aufgabe 1 um den Parameter ``names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']``. Wenn du unsicher bist, informiere dich darüber, was ``names`` genau macht. Verschaffe dir dann erneut einen Überblick über die Daten.
    
(Tipp: Eine Beschreibung des Parameters ''names'' findet sich z.B. unter https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html )

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 3:</b></font>

Erzeuge eine Liste ``features``, welche die Namen aller erklärenden Attribute (Features) enthält.


<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 4:</b></font>

Erzeuge ein neues DataFrame ``iris_train``, welches 100 zufällige Zeilen aus ``iris`` enthält. Auf Basis dieser Daten soll der Entscheidungsbaum trainiert werden ('Training Set'). Informiere dich vorher darüber, mit welchen Methoden dies erreicht werden kann und wirf davor auch einen kurzen Blick auf Aufgabe 5. Lass dir zur Kontrolle die Elemente des erstellten DataFrames ausgeben.

(Tipp1: Beispielsweise kennt das Paket pandas die Funktionalität "sample" oder das Paket sklearn kennt "train_test_split")
    
(Tipp2: Bei Verwendung von "train_test_split" aus dem Paket sklearn kann hier bereits gleichzeitig Aufgabe 5 realisiert werden)
    
(Tipp3: Eine einfache Ausgabe lässt sich z.B. mit dem "print" Befehl realisieren)

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 5:</b></font>

Erzeuge ein weiteres DataFrame ``iris_test`` aus ``iris``, welches die übrigen (bislang nicht verwendeten) Zeilen enthält. Dieses soll später genutzt werden, um die Genauigkeit des Baumes zu testen ('Test Set'). Lass dir zur Kontrolle die Elemente des erstellten DataFrames ausgeben.

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 6:</b></font>

Erzeuge ein Objekt der Klasse ``DecisionTreeClassifier`` aus dem am Anfang importierten Paket ``tree`` und benenne es sinnvoll. Dies generiert einen leeren Entscheidungsbaum. 

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 7:</b></font>

Wende auf dieses Objekt die Methode ``.fit()`` korrekt parametrisiert an. Hierdurch soll der Entscheidungsbaum basierend auf dem Training Set aus Aufgabe 4 trainiert werden. Speichere das Ergebnis in einer neuen Variablen, z.B. ``cl_fit``.

(Tipp: Die Methode bekommt als Input sowohl Daten zu den erklärenden Variablen (``features``) sowie passende Einträge der Zielvariable)

<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 8:</b></font>

Jetzt, wo der Entscheidungsbaum auf dem Training Set trainiert worden ist, soll basierend aus dem Test Set (!) aus Aufgabe 5 ausgegeben werden, wie genau das Model ist. Wende auf den Entscheidungsbaum dafür die Methode ``score()`` an.

(Tipp: Die Methode ist vom Prinzip wie die Methode ``fit()`` zu verwenden)

In [None]:
print("Model Accuracy:")
# hier eine Zeile Code implementieren


<div class="alert alert-block alert-warning">
<font size="3"><b>Aufgabe 9:</b></font>

Der Entscheidungsbaum ist nun fertig und sollte eine Genauigkeit von ca. 90-95% haben. Solltest du eine Genauigkeit von 100% erzielt haben, ist wahrscheinlich ein Detail in Aufgabe 8 falsch :-)

Als Sahnehäubchen gilt es jetzt, den Entscheidungsbaum zu visualisieren. Das kann bei Entscheidungsträger:innen, die das Modell verwenden, zu höherer Akzeptanz und verbessertem Verständnis des Modells führen.

Ergänze hierfür den folgenden Code durch geeigneten Aufruf von Methoden aus pydotplus.
    
(Tipp: pydotplus kennt einen "write"-Befehl, der für unterschiedliche Formate leicht zu variieren ist)

In [None]:
# Eventuell musst du clf durch den Namen des Objektes ersetzen, welches du in Aufgabe 6 erstellt hast.
listOfClassNames = ['Iris-setosa','Iris-versicolor','Iris-virginica']
dot_data = tree.export_graphviz(clf, out_file=None, feature_names=features, class_names= listOfClassNames, filled=True, rounded=True, special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data)
# Ab hier ergänzen, sodass 'graph' einmal als PNG-Bild und einmal als PDF gesichert wird



<div class="alert alert-block alert-success">
<b>Super! </b> Nach all den Grundlagen konntest du nun einiges an Python-Wissen anwenden, um einen ziemlich akkuraten Entscheidungsbaum zu implementieren und zu visualisieren.  
<br>
 
<font size="3"><b>Du hast gelernt:<b></font>
    
- Das Paket sklearn.tree zu verwenden, um Entscheidungsbäume zu erstellen
- Diese Entscheidungsbäume mit Trainingsdaten aus einem DataFrame zu trainieren
- Die Genauigkeit des Entscheidungsbaumes mit Testdaten zu überprüfen und den finalen Baum visuell auszugeben.
</div>

<div class="alert alert-block alert-info">
<font size="3"><b>Zusatzaufgaben</b></font> <font size="2"><b>und Kleingedrucktes</b></font>
 
1.) Was passiert, wenn alle Schritte noch einmal ausgeführt werden? Vergleiche den nun entstandenen Baum mit dem vorherigen.

2.) Wie können identische Ergebnisse reproduziert werden? <br> 
<font size="2">&emsp;(Tipp: die Nutzung des Parameters ``random_state = ....`` wäre an geeigneter Stelle angebracht)</font>

3.) Nach welchem Qualitätskriterium wird zurzeit die Aufteilung im Baum durchgeführt? Gibt es Unterschiede beim Einsatz eines anderen Kriteriums?<br> 
<font size="2">&emsp;(Tipp: ``gini`` vs ``entropy``)</font>

4.) Wie gut funktioniert ein Entscheidungsbaum mit einer vorgegebenen maximalen Tiefe (z.B. von 2)?<br> 
<font size="2">&emsp;(Tipp: An geeigneter Stelle könnte der Parameter ``max_depth = ....`` weiterhelfen)</font>

5.) Wie können wir den Mehrwert des erzeugten Entscheidungsbaums als Vorhersagemodell nachweisen bzw. klar zeigen?<br>
<font size="2">&emsp;(Tipp: Was wäre ein Vergleichsmaßstab?)</font>