# Decision Trees - Entscheidungsbäume

Wir wollen zuerst das Beispiel aus dem Datensatz "Tennis" nachvollziehen. Anhand historischer Daten wollen wir vorhersagen, ob ein fiktiver Tennis-Spieler Tennis spielt oder nicht. Als Features fließen dabei die **Witterung**, die **Temperatur**, die **Luftfeuchtigkeit** sowie der **Wind** ein. Die Spalte **TennisGespielt** sagt uns, ob er Tennis gespielt hat (1) oder nicht (0). Wir laden den Datensatz und geben ihn aus:

In [37]:
import pandas as pd
url="https://raw.githubusercontent.com/troescherw/datasets/master/tennis.csv"
df = pd.read_csv(url, delimiter=";")
df

Unnamed: 0,Witterung,Temperatur,Luftfeuchtigkeit,Windig,TennisGespielt
0,Regnerisch,Heiß,Hoch,Nein,0
1,Regnerisch,Heiß,Hoch,Ja,0
2,Bedeckt,Heiß,Hoch,Nein,1
3,Sonnig,Mild,Hoch,Nein,1
4,Sonnig,Kalt,Normal,Nein,1
5,Sonnig,Kalt,Normal,Ja,0
6,Bedeckt,Kalt,Normal,Ja,1
7,Regnerisch,Mild,Hoch,Nein,0
8,Regnerisch,Kalt,Normal,Nein,1
9,Sonnig,Mild,Normal,Nein,1


Wir teilen den Datensatz auf in Prädiktoren (X) und in das Kriterium (y).

In [38]:
X = df.iloc[:, :4]
y = df.TennisGespielt

Die kategorialen Variablen ersetzen wir durch Dummy-Variablen:

In [39]:
X = pd.get_dummies(X)

Wir erstellen das Modell (Entscheidungsbaum) und trainieren den Baum mit den vorliegenden Daten. Aufgrund der geringen Anzahl an Beobachtungen verzichten wir hier auf die Aufteilung und Trainings- und Testdaten.

In [40]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state=0, criterion="entropy").fit(X,y)

![Entscheidungsbaum](https://github.com/troescherw/images/blob/master/entscheidungsbaum.PNG?raw=true)

Mit dem Modell können wir eine Vorhersage durchführen und die Ergebnisse der Vorhersage (prediction) mit den realen Daten vergleichen.

In [41]:
pred = model.predict(X)

Wir können nun die vorhergesagten Daten mit der Realität (den Daten in y) tabellarisch gegenüberstellen. Diese Tabelle nennt man **Confusion Matrix**. In der Diagonalen finden wir die richtig vorhergesagten Klassen (also 0 oder 1). Wir stellen fest, dass unser Modell immer richtig lag! Allerdings ist das nicht wirklich aussagekräftig, da wir mit denselben Daten unser Modell testen, mit denen wir auch unser Modell trainiert haben!


In [42]:
pd.crosstab(pred,y)

TennisGespielt,0,1
row_0,Unnamed: 1_level_1,Unnamed: 2_level_1
0,5,0
1,0,9


## Entscheidungsbaum mit dem IRIS-Datensatz
Wir erstellen einen Entscheidungsbaum mit dem IRIS-Datensatz.

Beim Iris Datensatz handelt es sich um einen Datensatz mit 150 Beobachtungen von 4 Features von Schwertlilien. Gemessen wurden dabei jeweils die Breite und die Länge des Kelchblatts (Sepal) sowie des Kronblatts (Petal). Des weiteren ist für jeden Datensatz die Art der Schwertlilie (Setosa, Virginica, Versicolor) angegeben. Für jede Spezies liegen 50 Messungen vor.

Wir laden den Datensatz und geben die ersten 5 Zeilen aus.

In [43]:
import pandas as pd

url  = "https://raw.githubusercontent.com/troescherw/datasets/master/iris.csv"
iris = pd.read_csv(url, delimiter=";")

iris.head()

Unnamed: 0,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width,Species,SpeciesID
0,5.1,3.5,1.4,0.2,setosa,0
1,4.9,3.0,1.4,0.2,setosa,0
2,4.7,3.2,1.3,0.2,setosa,0
3,4.6,3.1,1.5,0.2,setosa,0
4,5.0,3.6,1.4,0.2,setosa,0


Wir teilen den Datensatz wieder bzgl. der Features auf: Prädiktoren X und Kriterium y:

In [44]:
X = iris.iloc[:,:4]
y = iris.SpeciesID

Wir teilen den Datensatz bzgl. der Beobachtungen auf: Einen Datensatz mit 70% der Daten verwenden wir für das Training des Modells, mit den verbleibenden 30% der Daten überprüfen wir die Qualität unseres Modells.

In [45]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,
                                                   shuffle=True,
                                                   random_state=1,
                                                   test_size=0.3)

Nun erstellen wir unseren Entscheidungsbaum mit Hilfe des Train-Datensatzes

In [46]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(max_depth=3,
                              criterion="entropy").fit(X_train, y_train)

![Entscheidungsbaum](https://github.com/troescherw/images/blob/master/Entscheidungsbaum_iris.PNG?raw=true?raw=true)

Wir erstellen mit unserem Entscheidungsbaum eine Vorhersage und verwenden hierfür den Test-Datensatz.

In [47]:
pred = model.predict(X_test)

Wir stellen die Vorhersage (pred) mit der Realiät (y_test) wieder tabellarisch in einer **Confusion Matrix** gegenüber. In dieser Matrix stehen wieder die richtig vorhergesagten Klassen (hier also Versicolor, Verginica oder Versicolor) in der Diagnoalen.

In [48]:
ytest_labels = y_test.replace([0,1,2], ["Setosa","Versicolor","Virginica"])
pred_labels = pd.Series(pred).replace([0,1,2], ["Setosa","Versicolor","Virginica"])

pd.crosstab(pred_labels, ytest_labels.values,
           rownames=["Predicted"],
           colnames=["Reference"])

Reference,Setosa,Versicolor,Virginica
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Setosa,14,0,0
Versicolor,0,17,1
Virginica,0,1,12


Wie "gut" ist nun unser Modell? In der Diagonale stehen wieder die richtig vorhergesagten Spezies. Insgesamt wurden also 14 + 17 + 12 = 43 Spezies richtig vorhergesagt. Bei 2 Vorhersagen versagte unser Modell: Statt Versicolor wurde eine Virginica, statt eine Virginica wurde eine Versicolor vorhergesagt. In 43 von 45 Fällen lag das Modell aber richtig, das entspricht 96%. Dieser Wert wird **Accuracy** genannt.

Mit Hilfe der Funktion *classification_report* können wir neben der Accuracy auch noch weitere Kennzahl ausgeben, die im zugehörigen Skript ausführlich erläutert werden.

In [49]:
from sklearn.metrics import classification_report

print(classification_report(y_test, pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.94      0.94      0.94        18
           2       0.92      0.92      0.92        13

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45



Der folgende 3D-Plot zeigt, wieso sich unser Modell mit den Species Virginica und Versicolor schwer tut, wohingegen die Setosa alle richtig klassifiziert wurden. Wir plotten *Sepal.Length*, *Petal.Length* und *Sepal.Width* und stellen fest, dass sich Virginica und Vesicolor teilweise überlappen, wohingegen die Setosas bzgl. dieser Features deutlich von den anderen Spezies unterscheiden.

![Entscheidungsbaum](https://github.com/troescherw/images/blob/master/iris_3d.PNG?raw=true)