# Entscheidungsbaum

Wir nutzen wieder das sklearn-Modul, um einen Entscheidungsbaum zu trainieren.
Hier ist die Aufgabe, die Irisart in <b> 3 Klassen</b> vorherzusagen.
<p>
Versicolor<br>
Setosa<br>
Virginica<br>
</p><br>

### 1. Schritt: Daten einlesen:

In [None]:
import pandas as pd
data = pd.read_csv("iris.csv", sep = ",")

data

##### Erkunden und Bereinigen:

In [None]:
#Zeilen 98 bis 102 und alle Spalten
data.loc[98:102,:]

#### Variante in Zahl umwandeln

In [None]:
variant = {'Versicolor': 0, 'Setosa' : 1, 'Virginica' : 2}

data['variety'] = data['variety'].map(variant)

#### Auswirkungen anschauen

In [None]:
data.loc[48:52,:]

#data.loc[98:102,:]

### 2. Schritt Korrelationsanalyse: 

In [None]:
#Note that the number 3 in the code indicates the number of digits after the decimal point for each cell.
correlation = data.corr()
correlation.style.background_gradient(cmap='coolwarm').set_precision(3)

### 3. Schritt: Label zusammenfassen und normieren:

Zunächst schauen wir uns die einzelnen Labels einmal als Plot an. Countplot ist dabei ein gutes Werkzeug. Sie können sich so schnell die Anzahl der Einträge zu den einzelnen Werten ansehen:

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(20,8))
sns.countplot(x=variety, data=data)

### 4. Schritt:  Vorbereitung der Daten:

In [None]:
#Erst mal die Ausgangsgröße (roughness) als y-Werte definieren:
y_data = data.variety.values

#Jetzt Label entfernen
x_data = data.drop(["variety"],axis=1)

#Normieren der Features
from sklearn.preprocessing import MinMaxScaler
mm = MinMaxScaler()
x_norm = mm.fit_transform(x_data)

#Aufteilen in Trainings und Testdaten (70% / 30%), zufällige Auswahl
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_norm,y_data,test_size = 0.3,random_state=1)

### 5. Schritt: Modell erzeugen, trainieren und testen

In [None]:
#Entsprechendes Modul importieren
from sklearn.tree import DecisionTreeClassifier

#Modell definieren
#Parameter siehe: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html
DecisionTreeClassifierModel =DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=3,min_samples_split=2,
                                    min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,
                                    random_state=0, max_leaf_nodes=5)

DecisionTreeClassifierModel.fit(x_train, y_train)

#Etwas Statistik...
print('DecisionTreeClassifierModel Train Score is : ' , DecisionTreeClassifierModel.score(x_train, y_train))
print('DecisionTreeClassifierModel Test Score is : ' , DecisionTreeClassifierModel.score(x_test, y_test))

#Klassen und wichtige Features extrahieren
print('DecisionTreeClassifierModel Classes are : ' , DecisionTreeClassifierModel.classes_)
print('DecisionTreeClassifierModel feature importances are : ' , DecisionTreeClassifierModel.feature_importances_)

### 6. Schritt: Metriken nutzen

Es gibt eine Menge nützlicher Fuktionen, um die Vorhersagegenauigkeit anzuzeigen. Hier eine ganz einfache:

In [None]:
#Calculating Prediction
y_pred = DecisionTreeClassifierModel.predict(x_test)
# Now we calculate the probability of choosing the output for any division
y_pred_prob = DecisionTreeClassifierModel.predict_proba(x_test)
print('Predicted Value for DecisionTreeClassifierModel is : ' , y_pred[:10])
# These are the values that we categorized.
print("test values :" ,y_test[:10] )
print('Prediction Probabilities Value for DecisionTreeClassifierModel is : ' , y_pred_prob[:10])


Eine weitere Möglichkeit ist die Nutzung des "metric" Pakets:

In [None]:
from sklearn.metrics import confusion_matrix



#Calculating Confusion Matrix
CM = confusion_matrix(y_test[:10], y_pred[:10])
print('Confusion Matrix is : \n', CM)

# drawing confusion matrix
sns.heatmap(CM, center = True, cmap=plt.cm.Blues, annot=True)
plt.show()

### Decission Tree visualisieren


In [None]:
from sklearn.tree import plot_tree

plt.figure(figsize=(20,15))

class_names = ['versicolor', 'setosa', 'virginica']
feature_names = ['sepal.length', 'sepal.width', 'petal.length','petal.width']

plot_tree(DecisionTreeClassifierModel, filled=True, class_names=class_names, feature_names = feature_names)
plt.title("Decision tree trained on all the iris features")
plt.show()