# Decision Trees - Entscheidungsbäume

Wir wollen zuerst das Beispiel aus dem Datensatz "Tennis" nachvollziehen. Anhand historischer Daten wollen wir vorhersagen, ob ein fiktiver Tennis-Spieler Tennis spielt oder nicht. Als Features fließen dabei die **Witterung**, die **Temperatur**, die **Luftfeuchtigkeit** sowie der **Wind** ein. Die Spalte **TennisGespielt** sagt uns, ob er Tennis gespielt hat (1) oder nicht (0). Wir laden den Datensatz und geben ihn aus:

In [None]:
import pandas as pd
url="https://raw.githubusercontent.com/troescherw/datasets/master/tennis.csv"
df = pd.read_csv(url, delimiter=";")
df

Wir teilen den Datensatz auf in Prädiktoren (X) und in das Kriterium (y).

In [None]:
X = df.iloc[:, :4]
y = df.TennisGespielt

Die kategorialen Variablen ersetzen wir durch Dummy-Variablen:

In [None]:
X = pd.get_dummies(X)

Wir erstellen das Modell (Entscheidungsbaum) und trainieren den Baum mit den vorliegenden Daten. Aufgrund der geringen Anzahl an Beobachtungen verzichten wir hier auf die Aufteilung und Trainings- und Testdaten.

In [None]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state=0, criterion="entropy").fit(X,y)

![Entscheidungsbaum](https://github.com/troescherw/images/blob/master/entscheidungsbaum.PNG?raw=true)

Mit dem Modell können wir eine Vorhersage durchführen und die Ergebnisse der Vorhersage (prediction) mit den realen Daten vergleichen.

In [None]:
pred = model.predict(X)

Wir können nun die vorhergesagten Daten mit der Realität (den Daten in y) tabellarisch gegenüberstellen. Diese Tabelle nennt man **Confusion Matrix**. In der Diagonalen finden wir die richtig vorhergesagten Klassen (also 0 oder 1). Wir stellen fest, dass unser Modell immer richtig lag! Allerdings ist das nicht wirklich aussagekräftig, da wir mit denselben Daten unser Modell testen, mit denen wir auch unser Modell trainiert haben!


In [None]:
pd.crosstab(pred,y)

## Entscheidungsbaum mit dem IRIS-Datensatz
Wir erstellen einen Entscheidungsbaum mit dem IRIS-Datensatz.

Beim Iris Datensatz handelt es sich um einen Datensatz mit 150 Beobachtungen von 4 Features von Schwertlilien. Gemessen wurden dabei jeweils die Breite und die Länge des Kelchblatts (Sepal) sowie des Kronblatts (Petal). Des weiteren ist für jeden Datensatz die Art der Schwertlilie (Setosa, Virginica, Versicolor) angegeben. Für jede Spezies liegen 50 Messungen vor.

Wir laden den Datensatz und geben die ersten 5 Zeilen aus.

In [None]:
import pandas as pd

url  = "https://raw.githubusercontent.com/troescherw/datasets/master/iris.csv"
iris = pd.read_csv(url, delimiter=";")

iris.head()

Wir teilen den Datensatz wieder bzgl. der Features auf: Prädiktoren X und Kriterium y:

In [None]:
X = iris.iloc[:,:4]
y = iris.SpeciesID

Wir teilen den Datensatz bzgl. der Beobachtungen auf: Einen Datensatz mit 70% der Daten verwenden wir für das Training des Modells, mit den verbleibenden 30% der Daten überprüfen wir die Qualität unseres Modells.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,
                                                   shuffle=True,
                                                   random_state=1,
                                                   test_size=0.3)

Nun erstellen wir unseren Entscheidungsbaum mit Hilfe des Train-Datensatzes

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(max_depth=3,
                              criterion="entropy").fit(X_train, y_train)

![Entscheidungsbaum](https://github.com/troescherw/images/blob/master/Entscheidungsbaum_iris.PNG?raw=true?raw=true)

Wir erstellen mit unserem Entscheidungsbaum eine Vorhersage und verwenden hierfür den Test-Datensatz.

In [None]:
pred = model.predict(X_test)

Wir stellen die Vorhersage (pred) mit der Realiät (y_test) wieder tabellarisch in einer **Confusion Matrix** gegenüber. In dieser Matrix stehen wieder die richtig vorhergesagten Klassen (hier also Versicolor, Verginica oder Versicolor) in der Diagnoalen.

In [None]:
ytest_labels = y_test.replace([0,1,2], ["Setosa","Versicolor","Virginica"])
pred_labels = pd.Series(pred).replace([0,1,2], ["Setosa","Versicolor","Virginica"])

pd.crosstab(pred_labels, ytest_labels.values,
           rownames=["Predicted"],
           colnames=["Reference"])

Wie "gut" ist nun unser Modell? In der Diagonale stehen wieder die richtig vorhergesagten Spezies. Insgesamt wurden also 14 + 17 + 12 = 43 Spezies richtig vorhergesagt. Bei 2 Vorhersagen versagte unser Modell: Statt Versicolor wurde eine Virginica, statt eine Virginica wurde eine Versicolor vorhergesagt. In 43 von 45 Fällen lag das Modell aber richtig, das entspricht 96%. Dieser Wert wird **Accuracy** genannt.

Mit Hilfe der Funktion *classification_report* können wir neben der Accuracy auch noch weitere Kennzahl ausgeben, die im zugehörigen Skript ausführlich erläutert werden.

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, pred))

## Visualisierung mit Hilfe der PCA
Wir wollen nun die IRS-Daten noch visualisieren. Problem: Wir haben 4 Features, die die Spezies bestimmen. Somit müssten wir 4 Dimensionen plotten, was natürlich nicht möglich ist.

Hier hilft die **PCA**, die **Principal Component Analysis** (Hauptkomponentenanalyse). Mit Hilfe von mathematischen Verfahren, auf die wir hier nicht näher eingehen werden, reduziert die PCA die Anzahl der Dimensionen, indem durch Linearkombination mehrere Vektoren zu jeweils einem Vektor (der Hauptkomponente) zusammengefasst werden.

Um das Vorgehen zu verdeutlichen, laden wir (nochmal) den IRIS-Datensatz. Die Labels laden wir gesondert in die Variable gleichen Namens.



In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/troescherw/datasets/master/iris.csv"
iris = pd.read_csv(url, delimiter=";", usecols=[0,1,2,3])
labels = pd.read_csv(url, delimiter=";", usecols=[4])

Um eine PCA durchzuführen, sollten die Werte immer standardisiert werden, damit kein Feature über- oder untergewichtet in die Berechnung eingeht. Wir erledigen dies mit Hilfe von *StandardScaler*.

In [None]:
from sklearn.preprocessing import StandardScaler
iris_scaled = StandardScaler().fit_transform(iris)

Nun können wir die PCA durchführen. Wir können hier einen 3D-Plot erstellen, deshalb reduzieren wir die 4 Dimensionen auf 3.

In [None]:
from sklearn.decomposition import PCA
iris_pca = PCA(n_components=3).fit_transform(iris_scaled)


Nun können wir diese 3 Features in einem 3D-Plot visualisieren.

In [None]:
%matplotlib notebook
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt

fig = plt.figure(figsize=[15,10])
ax = fig.add_subplot(111, projection="3d")

iris_pca = PCA(n_components=3).fit_transform(iris_scaled)
for species in labels.Species.unique():
    ax.scatter( iris_pca[labels.Species==species][:,0], 
                iris_pca[labels.Species==species][:,1],
                iris_pca[labels.Species==species][:,2],
                s=50,
                label=species)
plt.title("IRIS")
plt.legend()
plt.draw()