<a href="https://colab.research.google.com/github/m-fila/uczenie-maszynowe-2021-22/blob/main/08_Drzewa_decyzyjne.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Drzewa decyzyjne

Na tych zajęciach zapoznamy się z drzewami decyzyjnymi oraz kolejnymi zbiorami danych.

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_blobs, load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split

In [None]:
def printScores(model, X, y):
    print("Classification report:")
    print(classification_report(y, model.predict(X)))
    print("Confusion matrix:")
    print(confusion_matrix(y, model.predict(X)))

In [None]:
def plot_decision(X, y, model):
  h=0.02
  x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
  y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
  xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))
  Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
  Z = Z.reshape(xx.shape)
  graph=sns.jointplot(x=X[:, 0], y=X[:, 1], hue=y)
  graph.ax_joint.contour(xx, yy, Z, cmap=plt.cm.RdYlBu, alpha=0.8)

## Własności drzew

W pierwszej kolejności wygenerujemy zbiór danych w postaci dwóch blobów (każda klasa ma wielowymiarowy rozkład gaussowski).

Proszę: 
- korzystając z `sklearn.make_blobs` wygenerować zbiór danych o `1000` elementach należacych do dwóch równolicznych klasach o rozkładach o wartościach oczekiwanych `(-1,-1)` i `(1,1)` oraz odchyleniu standardowym `0.4`,
- przepisać zbiór danych do `pandas.DataFrame` nazywając kolumny odpowienio `x1`, `x2`, `label`,
- narysować uzyskany zbiór danych.

In [None]:
# X, y = make_blobs(n_samples=... , n_features = ... , centers = ... , cluster_std = ... )
# df = ...
# df['label'] = ...
# sns.jointplot(...)
### YOUR CODE HERE

Na tak przygotowanych danych wyuczmy klasyfikator drzewa decyzyjnego.

Proszę:
- utworzyć model drzewa decyzyjnego `sklearn.tree.DecisionTreeClassifier`,
- wyuczyć model na przygotowanych wcześniej danych,
- wypisać miary jakości na zbiorze treningowym,
- korzystając ze zdefiniowanej wcześniej funkcji `plot decision`, na jednym rysunku narysować zbiór treningowy i granicę decyzyjną,
- zastanowić się jaki kształt ma granica decyzyjna.

In [None]:
# model = ...
# X, y = ...
# model.fit(...)
# printScores(...)
# plot_decision(...)
### YOUR CODE HERE

Na rysunku powinniśmy zaobserwować, że linia decyzyjna składa się jedynie z poziomych i pionowych odcinków. To jest właściwość drzew decyzyjnych, która wynika z tego, że w każdej gałęzi drzewa testowana jest tylko jedna cecha.

Drzewa decyzjne zaliczają się do algorytmów *white box*, tzn. w łatwy sposób możemy wizualizować i interpretować sam model.

Proszę:
- korzystając ze zdefiniowanej poniżej funkcji `plot_tree` narysować drzewo decyzyjne,
- wskazać, które elementy drzewa są gałęziami, a które liśćmi,
- sprawdzić, czym są parametry `gini`, `samples`, `value`.

In [None]:
import io
from IPython.display import Image
from sklearn.tree import  export_graphviz
import pydotplus

In [None]:
def plot_tree(model, feature_names, class_names):
  dot_data = io.StringIO()
  export_graphviz(model, out_file=dot_data,
                    filled=True, rounded=True,
                    rotate=False,
                    node_ids = True,
                    special_characters=True,
                    leaves_parallel=False,
                    feature_names = feature_names,
                    class_names=class_names
                   )
  graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
  return Image(graph.create_png())
  

In [None]:
class_names=['0','1']

### plot_tree(...)
### YOUR CODE HERE

### Feature engineering
Po raz kolejny wykorzystamy *feature engineering*, żeby uprościć problem.

Dodamy dwie nowe cechy będące wynikiem obrócenia cech `x1`, `x2` o $45^{\circ}$:
- `x3`= (`x1`+`x2`)/2
- `x4`= (`x1`-`x2`)/2

Proszę:
- dodać cechy `x3` i `x4` do zbioru danych,
- narysować rozkład cech `x3` i `x4`.

In [None]:
# df['x3'] = ...
# df['x4'] = ...
# sns.jointplot(...)
### YOUR CODE HERE

Proszę:
- utworzyć klasyfikator drzewa decyzyjnego,
- wyuczyć go na zbiorze danych wykorzystując tylko cechy `x3` i `x4`,
- na jednym rysunku narysować granicę decyzyjną modelu oraz rozkład cech wykorzystanych przy uczeniu,
- narysować uzyskane drzewo decyzyjne.

In [None]:
# model = ...
# X, y = ...
# model.fit(...)
# plot_decision(...)
# plot_tree(...)
### YOUR CODE HERE

### Nieseparowalne dane

Sprawdźmy teraz jakie drzewo otrzymamy w wyniku uczenia na nieseparowalnym zbiorze danych.

Proszę: 
- korzystając z `sklearn.make_blobs` wygenerować zbiór danych o `1000` elementów należacych do dwóch równolicznych klas o rozkładach o wartościach oczekiwanych `(-1,0)` i `(1,0)` oraz odchyleniu standardowym `0.75`,
- podzielić uzyskany zbiór danych na zbiór treningowy i testowy, tak żeby zbiór testowy wynosił 0.3 wszystkich danych,
- narysować zbiór treningowy.

In [None]:
# X, y = make_blobs(n_samples = ..., n_features = ... ,centers= ... , cluster_std = ...)
# X_train, X_test, y_train, y_test = ...
# sns.jointplot(...)
### YOUR CODE HERE

Proszę:
- utworzyć klasyfikator drzewa decyzyjnego,
- wyczyć go na danych treningowych,
- wypisać i porównać miary jakości uzyskane na zbiorze treningowym i testowym. Czy model uległ przetrenowaniu?
- na jednym rysunku narysować granicę decyzyjną i dane testowe.

In [None]:
# model = ...
# model.fit(...)
# print('Train:')
# printScores(...)
# print('Test:')
# printScores(...)
# plot_decision(...)

### YOUR CODE HERE

### Regularyzacja

Drzewa decyzjne są modelami nieparametrycznymi (tzn. parametry występują, ale ich liczba (np. struktura drzewa) nie jest znana przed uczeniem) i bardzo łatwo ulegają przetrenowaniu.

Aby temu zaradzić stosowana jest regularyzacja, poprzez ograniczanie swobody algorytmu uczenia.

Drzewa decyzyjne można regularyzować parametrami, takimi jak:
- `max_depth` - maksymalna wysokość drzewa (domyślnie nieskończoność),
- `max_leaf_nodes` - maksymalna liczba liści,
- `max_features` - maksymalna liczba cech użytych do dzielenia gałęzi,
- `min_samples_split` - minimalna liczba próbek w gałęzi, żeby została podzielona,
- `min_samples_leaf` - minimalna liczba próbek w liściu,
- `min_weigth_fraction_leaf` - minimalna liczba próbek w liściu (jako ułamek wszystkich próbek).

Zwiększanie parametrów `min_` i zmniejszanie parametrów `max_` powoduje większą regularyzację.

Proszę:
- powtórzyć uczenie, ale tym razem dodając parametr regularyzacyjny `max_depth=5`,
- wypisać i porównać miary jakości na zbiorze treningowym i testowym. Czy tym razem model również uległ przetrenowaniu?
- na jednym rysunku narysować zbiór testowy i granicę decyzyjną,
- wybrać bardziej odpowiednią wartość parametru `max_depth` i narysować uzyskane dla niego drzewo.

In [None]:
# model= ...
# model.fit(...)
# print('Train:')
# printScores
# print('Test:')
# printScores(...)
# plot_decision(...)
# plot_tree(...)
### YOUR CODE HERE

## Zbiór danych 'breast cancer'



Proszę:
- załadować zbiór `sklearn.datasets.load_breast_cancer`,
- za pomocą metody `keys` sprawdzić zawartość zbioru,
- wypisać nazwy cech oraz etykiet,
- podzielić zbiór danych na zbiór treningowy i testowy, tak żeby zbiór testowty stanowił 0.2 wszystkich danych,
- przepisać zbiór treningowy do `panadas.DataFrame`.

In [None]:
# cancer = ...
# print("Contents:")
# print(...)
# print("Features:")
# print(...)
# print("Target:")
# print(...)
# print("Description")
# print(...)
# X_train, X_test, y_train, y_test = ...
# df = pd.DataFrame(...)
# df['label'] = ...
### YOUR CODE HERE

### Analiza wizualna

Pierwszy raz używamy tego zbioru danych, więc wykonamy wizualizację. 

W poniższych przykładach wizualizować będziemy jedynie zbiór treningowy.

Proszę:
- wypisać na ekran liczebność klas (`pandas.DataFrame.value_counts`)
- narysować wykresy skrzypcowe dla każdej cechy z uwzględnieniem podziału na klasy,
- na podstawie rysunków proszę ustalić, czy cechy wymagają normalizacji i czy jest ona potrzebna w przypadku drzew decyzyjnych.


In [None]:
#print(...)
### YOUR CODE HERE

fig, axes = plt.subplots(7,5, figsize=(20,20))
for index, columnName in enumerate(df.columns):
    # sns.violinplot(...)
    ### YOUR CODE HERE
fig.tight_layout()


Proszę:
- obliczyć macierz korelacji (nie kowariancji!) między wszystkimi kolumnami danych włączając etykiety,
- narysować macierz korelacji,
- wskazać, które cechy są silnie skorelowane.



In [None]:
_, ax = plt.subplots(figsize=(15,15))

# correlationMatrix = ...
# sns.heatmap(...)
### YOUR CODE HERE

### Klasyfikacja drzewem decyzyjnym

Wiemy już jak wygląda zbiór danych. Przystąpmy do uczenia klasyfikatora.

Proszę:
- utworzyć klasyfikator drzewa decyzyjnego i wyuczyć go na zbiorze danych,
- wypisać miary jakości na zbiorze treningowym i testowym,
- narysować uzyskane drzewo.

In [None]:
# model = ...
# model.fit(...)
# print('Train')
# printScores(...)
# print('Test')
# printScores(...)
# plot_tree(...)
### YOUR CODE HERE

Proszę:
- korzystając z `sklearn.tree.DecisionTreeClasifier.feature_importances_` wypisać, a następnie narysować na wykresie słupkowym wagi cech.

In [None]:
# ax = sns.barplot(...)
### YOUR CODE HERE
ax.set_xlabel('Gini importance')

### Ścieżka decyzyjna

Wspomnilśmy już, że drzewa zaliczają się do algorytmów *white box* i łatwo możemy interpretować ich działanie. Prześledźmy, jak przebiegła klasyfikacja przypadku o indeksie 0 ze zbioru treningowego:

Proszę:
- wypisać cechy przypadku o indeksie 0 w zbiorze treningowym,
- korzystając z poniższej funkcji `print_decision_path` wypisać ścieżkę decyzyjną dla tego przypadku.

In [None]:
def print_decision_path(model, x, feature_names, class_names):
  feature = model.tree_.feature
  threshold=model.tree_.threshold
  value=model.tree_.value
  node_indicator = model.decision_path([x])
  leaf_id = model.apply([x])
  

  sample_id = 0

  # obtain ids of the nodes `sample_id` goes through, i.e., row `sample_id`
  node_index = node_indicator.indices[
    node_indicator.indptr[sample_id] : node_indicator.indptr[sample_id + 1]
  ]

  print("Rules used to predict sample {id}:\n".format(id=sample_id))
  for node_id in node_index:
      # continue to the next node if it is a leaf node
      if leaf_id[sample_id] == node_id:
          print("\nDecision: leaf {leaf}".format(leaf=node_id))
          proba=np.array(value[node_id]).reshape(-1)
          proba=proba/proba.sum()
          for v, name in zip(proba, class_names):
            print("\t{}: {}%".format(name, v*100))
          continue

      # check if value of the split feature for sample 0 is below threshold
      if X_test[sample_id, feature[node_id]] <= threshold[node_id]:
          threshold_sign = "<="
      else:
          threshold_sign = ">"

      print(
          "decision node {node} : ('{feature}' = {value}) "
          "{inequality} {threshold})".format(
              node=node_id,
              feature=feature_names[feature[node_id]],
              value=X_test[sample_id, feature[node_id]],
              inequality=threshold_sign,
              threshold=threshold[node_id],
          )
      )
      


In [None]:
index=0
for value, name in zip(X_test[index], cancer.feature_names):
  print(name, value)
print()
# print_decision_path(...)
### YOUR CODE HERE

### Regularyzacja przez przycinanie

Ponownie uzyskaliśmy przetrenowany model i ponownie dodamy do niego regularyzację. Tym razem wykorzystamy do tego przycinanie (*pruning*). Przycinanie polega na wytrenowaniu drzewa, a następnie wyeliminownaiu (przycięciu) najmniej istotnych liści i gałęzi.

Proszę:
- prześledzić poniższy kod,
- podać najlepszą wartość parametru regularyzacyjnego `ccp_alpha`,
- narysować drzewo uzyskane dla najlepszej wartośći `ccp_alpha` oraz wypisać jego miary jakości na zbiorze testowym.

In [None]:
# użyj funkcji cost_complexity_pruning_path żeby znaleźć ścieżkę przycinania dla zbioru uczącego
path = model.cost_complexity_pruning_path(X_train, y_train)
# z obiektu path wyjmij wartości parametrów alpha i "nieczystości"
ccp_alphas, impurities = path.ccp_alphas, path.impurities

In [None]:
# narysuj wykres punktowo-schodkowy (patrz dokumentacja) nieczystości w funkcji alpha
plt.plot(ccp_alphas[:-1], impurities[:-1], marker='o', drawstyle="steps-post")
plt.xlabel("effective alpha")
plt.ylabel("total impurity of leaves")
plt.title("Total Impurity vs effective alpha for training set")

In [None]:
models = []
# iteruj w pętli po wartościach parametrów alpha
# dla każdego alpha stwórz drzewo, dofituj i dodaj model do listy clfs
for ccp_alpha in ccp_alphas:
    model = DecisionTreeClassifier(random_state=0, ccp_alpha=ccp_alpha)
    model.fit(X_train, y_train)
    models.append(model)
    
print("Number of nodes in the last tree is: {} with ccp_alpha: {}".format(
      models[-1].tree_.node_count, ccp_alphas[-1]))

In [None]:
models = models[:-1]
ccp_alphas = ccp_alphas[:-1]
# policzymy ilość węzłów w naszych modelach
node_counts = [model.tree_.node_count for model in models]
# i maksymalną "głębokość" 
depth = [model.tree_.max_depth for model in models]
# narysujemy powyższe wartości na wykresach punktowo-schodkowych
fig, ax = plt.subplots(2, 1)
# naryj liczbę węzłów w funkcji współczynników alpha
ax[0].plot(ccp_alphas, node_counts, marker='o', drawstyle="steps-post")
ax[0].set_xlabel("alpha")
ax[0].set_ylabel("number of nodes")
ax[0].set_title("Number of nodes vs alpha")
# naryj głębokość w funkcji współczynników alpha
ax[1].plot(ccp_alphas, depth, marker='o', drawstyle="steps-post")
ax[1].set_xlabel("alpha")
ax[1].set_ylabel("depth of tree")
ax[1].set_title("Depth vs alpha")
fig.tight_layout()

In [None]:
# Teraz rysujemy accuracy w funkcji alpha dla zbiorów uczącego i testowego
train_scores = [model.score(X_train, y_train) for model in models]
test_scores = [model.score(X_test, y_test) for model in models]

fig, ax = plt.subplots()
ax.set_xlabel("alpha")
ax.set_ylabel("accuracy")
ax.set_title("Accuracy vs alpha for training and testing sets")
# narysuj accuracy dla zbioru uczącego
ax.plot(ccp_alphas, train_scores, marker='o', label="train",
        drawstyle="steps-post")
# narysuj accuracy dla zbioru testowego
ax.plot(ccp_alphas, test_scores, marker='o', label="test",
        drawstyle="steps-post")
ax.legend()
plt.show()

In [None]:
# best_index = ...
# print(...)
# best_model = ...
# plot_tree(...)
# printScores(...)
### YOUR CODE HERE