# Практическое задание по обучению решающих деревьев

В практической части мы реализуем часть алгоритма обучения решающего дерева: мы выполним построение корневой вершины дерева на конкретных данных. Мы будем перебирать все признаки и пороги, для каждой комбинации выполним подсчет критерия. После выбора оптимального признака и порога, мы визуализируем разделение выборки по этому признаку и порогу.

Будем использовать данные boston. В этой задаче нужно предсказать стоимость жилья (задача регрессии).

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
import re
from sklearn.model_selection import train_test_split

In [None]:
boston = load_boston()

In [None]:
boston.keys()

Разделим выборку на обучение и контроль:

In [None]:
X_tr, X_te, y_tr, y_te = train_test_split(boston["data"], boston["target"])

Преобразуем в pandas-датафрейм:

In [None]:
data_train = pd.DataFrame(X_tr, columns=boston["feature_names"])
data_test = pd.DataFrame(X_te, columns=boston["feature_names"])

In [None]:
data_train.head()

Число объектов и признаков:

In [None]:
data_train.shape

In [None]:
from matplotlib import pyplot as plt
%matplotlib inline

Далее мы будем реализовывать первый шаг в построении решающего дерева - выбор признака и порога для разделения в корневой вершине дерева.

In [None]:
# чтобы было удобно сортировать объекты вместе с целевым вектором, 
# допишем его в датафрейм
data_train["target"] = y_tr

In [None]:
# чтобы было удобно перебирать порог на первый признак, 
# сортируем датафрейм по нему
data_train.sort_values("CRIM", inplace=True)

In [None]:
data_train.head()

In [None]:
# перебирите все возможные разбиения по первому признаку
# для каждого разбиения вычислите критерий Q
# запишите все значения Q в quals

quals = []
for i in range(data_train.shape[0]):
    # сначала для левого и правого поддерева вычислить критерий информативности - дисперсию ответов 
    # затем сложить два значения критерия информативности с весами
    quality = ...
    quals.append(quality)

In [None]:
# рисуем график порог на первый признак - критерий Q
plt.plot(data_train["CRIM"], quals)
plt.xlabel("feature CRIM")
plt.ylabel("Q")

Теперь повторим процедуру вычисления критерия Q для каждого признака.

Обратите внимание: чтобы было удобно сравнивать значение критерия для разных признаков, мы все рисуем на одном графике. Но шкала (множество значений) у каждого признака своя. Так что мы будем откладывать по оси x просто числа от 0 до длины выборки, и величину оптимального порога по графику будет определить нельзя. По графику мы сможем определить только оптимальный признак для разделения.

In [None]:
for feat in data_train.columns[:-1]:
    quals = []
    data_train.sort_values(feat, inplace=True)
    for i in range(data_train.shape[0]):
        quality = # скопировать код
        quals.append(quality)
    plt.plot(quals, label=feat)
plt.xlabel("Dataset splits")
plt.ylabel("Q")
plt.legend(loc=(1, 0))

Наименьшее значение критерия из всех линий достигается на коричневой линии RM. Нарисуем для него график отдельно (уже с его осью значений порога): 

In [None]:
feat = "RM"
quals = []
data_train.sort_values(feat, inplace=True)
for i in range(data_train.shape[0]):
    quality = # скопировать код
    quals.append(quality)
plt.plot(data_train[feat], quals)
plt.xlabel("feature "+feat)
plt.ylabel("Q")

Оптимальная величина порога:

In [None]:
not_nan_mask = np.logical_not(np.isnan(quals))
quals = np.array(quals)[not_nan_mask]
threshs = data_train[feat].values[not_nan_mask]
thresh = threshs[np.argmin(quals)]
print(thresh)

Нарисуем выборку в осях RM - target и изобразим порог, по которому мы выполнили разделение:

In [None]:
plt.scatter(data_train["RM"], data_train["target"])
plt.plot([thresh, thresh], [0, 60], color="red")
plt.xlabel("RM")
plt.ylabel("Target")

Видно, что точки справа от красной линии лежат почти все выше 30, а слева - ниже, т. е. этот признак действительно очень хорошо разделяет выборку.