# Drzewa decyzyjne (Decision Trees)

In [None]:
from sklearn.datasets import load_iris

from sklearn.tree import (
    DecisionTreeClassifier,
    plot_tree
)

import matplotlib.pyplot as plt

from mlxtend import plotting # https://rasbt.github.io/mlxtend/user_guide/plotting/plot_decision_regions/

## Trenowanie pierwszego drzewa dla problemu klasyfikacji

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier

In [None]:
iris = load_iris()

In [None]:
X = iris.data[:, 2:]
y = iris.target

## DecisionTreeClassifier

In [None]:
tree_clf = DecisionTreeClassifier(random_state=0) #z domyślnymi parametrami
tree_clf.fit(X, y)

### Wizualizacja

In [None]:
plt.figure(figsize = (12, 8))

plot_tree(tree_clf,
          feature_names = iris.feature_names,
          class_names = iris.target_names,
          filled=True);

Przytnijmy trochę drzewo, żeby łatwiej interpretować wyniki.

In [None]:
tree_clf = DecisionTreeClassifier(max_depth=2, random_state=99)
tree_clf.fit(X, y)

In [None]:
plt.figure(figsize = (10, 8))

plot_tree(tree_clf,
          feature_names = iris.feature_names,
          class_names = iris.target_names,
          filled=True);

### Istotność zmiennych

Ocenia, jak ważna jest każda zmienna dla decyzji podejmowanej przez drzewo.  
Jest to liczba z przedziału od 0 do 1 dla każdej cechy, gdzie 0 oznacza "w ogóle nie używana", a 1 oznacza "doskonale przewiduje target".  
Istotności cech zawsze sumują się do 1.

In [None]:
tree_clf.feature_importances_

### Granice decyzyjne

In [None]:
def decision_regions(data, target, classifier, figsize=(12, 8)):
    plt.figure(figsize=figsize)
    plotting.plot_decision_regions(X=data, y=target, clf=classifier, legend=2)
    plt.scatter(data[:, 0], data[:, 1], c=["brg"[x] for x in target])

In [None]:
decision_regions(X, y, tree_clf)

## Model Interpretation: White Box Models

## Predykcja

In [None]:
new_obs = [5, 1.5]
tree_clf.predict_proba([new_obs])

In [None]:
tree_clf.predict([[5, 1.5]])

In [None]:
iris.target_names[1]

# Zadania do przećwiczenia

Dla całości danych iris (4 featury) zbadaj jak na model wpłynie zmiana kryterium nieczystości z gini na entropy (`criterion`).  
Narysuj drzewa.  
Oblicz samodzielnie wartości gini i entropy w wybranym węźle.

Narysuj granice decyzyjne dla drzewa decyzyjnego i regresji logistycznej - w tym celu wybierz podzbiór danych iris `iris.data[:,:2]`.   