# Деревья решений. Классификация

## 1. Критерий информативности с нуля

построение дерева зависит от следующих факторов:
* вид правила разбиения
* критерий информативности
* критерий останова
* проблема пропусков

рассмотрим критерии информативности

In [1]:
import numpy as np
from collections import Counter

*Нам понадобятся две библиотеки: numpy, а объект класса Counter в заданном списке просто подсчитывает количество вхождений каждого элемента и возвращает результат в виде словаря. Пример:*

In [2]:
Counter([9,9,9,7,7])

Counter({9: 3, 7: 2})

*Для численного измерения улучшения разбиений на каждом этапе мы вводим некоторый *критерий информативности*, который будет оценивать разнообразие объектов в выборке: чем больше разных классов в выборке, тем больше значение H(R). Чем меньше взвешенное значение критерия после разбиения - тем лучше*

Функция для расчёта энтропийного критерия качества:

$H(R) = -\sum_{k=1}^{K}p_klogp_k$

**Задание.** Дополните функцию расчёта энтропийного критерия множества

In [None]:
data = [0, 0, 0, 1, 0, 1]

def HEntropy(l):
    length = len(l)
    cnt = Counter(l)
    
    res = 0
    for x 

**Задание.** По аналогии с *энтропийным критерием* заполните функции *критерия Джини*

In [None]:
def HGini(l):
    pass #здесь ваш код

*Information Gain (IG)* - функционал качества, отвечающий на вопрос, а сколько энтропии мы погасили при определённом разбиении? На каждом шаге разбиения при построении дерева максимизируется IG. Формула для вычисления при критерии информативности H:

$IG(R) = H(R) - \frac{|R_l|}{|R|}H(R_l) - \frac{|R_r|}{|R|}H(R_r)$

**Задание.** Заполните функцию для вычисления функционала качества

In [None]:
def IG(H, l, i):
    pass #здесь ваш код

Функция для визуализации работы произвольного критерия качества на выборке

In [None]:
def test_H(H, l):
    print("{:5} {:3}   {:4} {:4} {:4}".format("#","l","IG","Hl","Hr"))
    print("-"*24)
    for i in range(1,len(l)):
        print("{:2}. {:3}   {:.2f} {:.2f} {:.2f}".format(i, l[i], IG(H, l, i), H(l[:i]), H(l[i:])))

Определим как-нибудь выборку и посмотрим, какое разбиение предложат критерии информативности. Элементы здесь будут выводиться начиная со второго, а значения функций рассчитаны для разбиения *перед* элементом строки

In [None]:
l = [1]*5 + [2]*3 + [1]*4
print(l)

In [None]:
test_H(HEntropy, l)

In [None]:
test_H(HGini, l)

**Задание.** проверьте, какое разбиение будет сделано на втором шаге?

In [None]:
pass #здесь ваш код

## 2. Визуализация принятия решений классификатором sklearn

#### 1. Используем данные о цветках ириса из занятия

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

In [None]:
from matplotlib import pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
iris = load_iris()

#### Задание

1. Постройте dataframe

In [None]:
#здесь ваш код

In [None]:
print(df.shape)
df.head()

Выведем попарное распределение фичей датасета с раскраской по виду цветка

In [None]:
sns.pairplot(df, hue='species', diag_kind="kde", palette="colorblind");

визуально кажется, что ширина листка (petal width) даже самостоятельно может отделить два класса друг от друга идеально, а ещё для двух понадобится хотя бы ещё одна фича.

Возьмём пока для возможности изобразить это в 2D две фичи: длину и ширину листка

In [None]:
Xcut = X[X.columns[2:4]]

#### 2. Используем классификатор

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
clf = DecisionTreeClassifier()

In [None]:
clf.fit(Xcut, y)

In [None]:
clf.predict([ [1,1], [3,3] ])

In [None]:
clf.predict_proba([ [1,1], [3,3] ])

Можем теперь предсказывать. Давайте визуализируем границу принятия решений. Для удобства экспереминтирования всё упаковано в функцию **test_clf**, в неё передаётся созданный классификатор и при установленном fit_clf=True обучается внутри, а затем отрисовывает границу. Таким образом можно экспериментировать с параметрами классификатора

In [None]:
def get_grid(data):
    x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
    y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1
    return np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))

In [None]:
def test_clf(clf, X, y, cmap=None, fit_clf=False):
    xx,yy = get_grid(X.values)
    if fit_clf:
        clf.fit(X, y)
    predicted = clf.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape)
    plt.figure(figsize=(8, 8))
    plt.pcolormesh(xx, yy, predicted, cmap=cmap or 'spring')
    plt.scatter(X.values[:, 0], X.values[:, 1], c='blue', s=100, cmap=cmap or 'spring', edgecolors='black')
    if fit_clf:
        return clf

*попробуйте при разной глубине*

In [None]:
clf = test_clf(DecisionTreeClassifier(), Xcut, y, fit_clf=True)

обратите внимание, один блок занимает то позицию снизу, то слева: данных недостаточно для принятия однозначного решения и экстраполяция идёт произвольно

#### 3. Визуализируем само дерево

Возможно, самое замечательное свойство одиночных деревьев - возможность визуализировать их алгоритм работы и затем объяснить его человеку

Дерево можно отобразить внутри ipython-ноутбука, но сейчас воспользуемся онлайн-сервисом http://www.webgraphviz.com

Сгенерируем код дерева в формате .dot и скопируем его на сайт

In [None]:
from sklearn.tree import export_graphviz

def get_tree_dot_view(clf, feature_names=None, class_names=None):
    print(export_graphviz(clf, out_file=None, filled=True, feature_names=feature_names, class_names=class_names))

In [None]:
clf = DecisionTreeClassifier(max_depth=3)
clf.fit(Xcut, y)

In [None]:
get_tree_dot_view(clf, list(Xcut.columns), iris.target_names)

-----

-----

## 3. Оценка важности фичей

важность зависит от конкретного прогона классификатора, это не объективный показатель, но дающий представление

*попробуйте при разной глубине*

In [None]:
clf = DecisionTreeClassifier(max_depth=3)
clf.fit(X, y)

plt.barh(np.arange(len(clf.feature_importances_)), clf.feature_importances_)
plt.yticks(np.arange(len(X.columns)),X.columns);


## 4. Переообучение наглядно

In [None]:
np.seed = 7
train_data = np.random.normal(size=(100, 2))
train_labels = np.zeros(100)
train_data = np.r_[train_data, np.random.normal(size=(100, 2), loc=2)]
train_labels = np.r_[train_labels, np.ones(100)]
train_data = pd.DataFrame(train_data)

In [None]:
plt.scatter(train_data[0], train_data[1], c=train_labels, s=100, cmap='autumn', edgecolors='black', linewidth=1.5);
plt.plot(range(-2,5), range(4,-3,-1));

*попробуйте при разной глубине*

In [None]:
clf = test_clf(DecisionTreeClassifier(max_depth=1), train_data, train_labels, cmap='autumn', fit_clf=True)

In [None]:
clf = test_clf(DecisionTreeClassifier(), train_data, train_labels, cmap='autumn', fit_clf=True)

### Визуализация дерева прямо в ноутбуке

In [None]:
from sklearn import tree
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

tree.plot_tree(clf, feature_names=list(X),max_depth=2,
               class_names = ['Negative','Positive'],
               filled = True);

In [None]:
fn=['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']
cn=['setosa', 'versicolor', 'virginica']
fig, axes = plt.subplots(nrows = 1,ncols = 1,figsize = (10,5), dpi=600)
tree.plot_tree(clf, max_depth=None,
               feature_names = fn, 
               class_names=cn, fontsize=4,
               filled = True);

### Задание

1. Постройте дерево решений на датасет Iris (везде использовать random_state=42)
2. Оцените работу алгоритма метрикой accuracy
3. Попробуйте улучшить результат подобрав параметры алгоритма.