# Выращиваем решающее дерево своими руками

### OzonMasters, "Машинное обучение 1"

В этом ноутбуке вам предлагается реализовать решающее дерево.

## Введение
Для начала импортируем библиотеки, которые нам понадобятся в дальнейшем:

In [None]:
import numpy as np
import numpy.testing as npt

from sklearn.metrics import accuracy_score

### Решающее дерево

Вспомним, что такое решающее дерево.

Решающее дерево - алгоритм машинного обучения, задающийся специальным графом-деревом. В данном задании мы будем использовать бинарное дерево. Каждая внутренняя вершина такого дерева соответствует функции предикату $\mathbb{I}[x_{\alpha} \geq \beta]$. Каждая листовая вершина соответствует некоторому значению ответа, которое будет выдавать алгоритм (вещественное число в случае регрессии, номер класса или вектор вероятностей в случае классификации).

На этапе обучения нам необходимо построить само дерево, а также выбрать $\alpha$ и $\beta$ для каждой внутренней вершины и метку прогноза для каждой листовой вершины. Задача построения "наилучшего" дерева (например того, которое не совершает ошибок и имеет минимальное число вершин) является NP-полной, поэтому при построении деревьев на практике приходиться использовать жадные алгоритмы.

На этапе применения все объекты пропускаются через дерево. Изначально, для каждого объекта вычисляется значение функции-предиката корневой вершины. Если оно равно нулю, то алгоритм переходит в левую дочернюю вершину, иначе в правую. Затем вычисляется значение предиката в новой вершине и делается переход или влево, или вправо. Процесс продолжается, пока не будет достигнута листовая вершина. Алгоритм возвращает то значение, которое будет приписано этой вершине.

### Выбор $\alpha$ и $\beta$

На этапе построения дерева мы будем выбирать предикаты для каждой новой вершины, максимизируя функционал качества для разбиения вершины на два поддерева, который можно записать в следующем виде:
$$ Q(R, \alpha, \beta) = H(R) - \frac{|R_l|}{|R|} H(R_l) - \frac{|R_r|}{|R|} H(R_r) $$

* $H$ - критерий информативности
* $R$ - объекты в текущей вершине
* $R_r$ - объекты, попадающие в правое поддерево
* $R_l$ - объекты, попадающие в левое поддерево

Например, критерий информативности Джини для задачи классификации задаётся следующей оптимизационной задачей:


$$H(R) = \min_{c: \; \sum_{k=1}^K c_k = 1} \frac{1}{|R|} \sum_{(x_i, y_i) \in R} \sum_{k=1}^K (c_k - \mathbb{I}[y_i=k])^2$$

Решение задачи можно найти аналитически:
$$H(R) = \sum_{k=1}^K p_k (1 - p_k)$$

* $p_k$ - доля объектов с классом $k$ среди $R$
* $K$ - общее число классов

При разбиении вершины на два поддерева мы хотим максимизировать функционал качества, оптимизируя:

* $\alpha$ - номер признака в предикате
* $\beta$ - пороговое значение предиката

В данном задании оптимизацию мы будем проводить, используя полный перебор значений. Для $\alpha$ множество перебираемых значений - все имеющиеся признаки, для $\beta$ - все встречающиеся в обучающей выборке значения каждого признака, кроме наименьшего и наибольшего.

## 1. Вычисление значения в листе дерева 

Начнём реализацию дерева с самого простого - реализация функции выдачи ответов в листе дерева. Будем в качестве такой функции использовать долю объектов каждого класса среди объектов обучающей выборки, попавших в лист.

Ниже вам предлагается реализовать метод класса `ClassificationProbabilityMatcher` вычисляющий по поданному массиву ответов, долю каждого из классов по этому массиву. Предполагается, что массив y состоит из целых чисел от $0$ до $K-1$, где $K$ - количество классов.

**Рекомендация.** Воспользуйтесь функций bincount из библиотеки numpy.

In [None]:
class BasePredictionMatcher:
    def get_prediction_value(self, y):
        raise NotImplementedError

class ClassificationProbabilityMatcher(BasePredictionMatcher):
    def __init__(self, n_classes=None):
        self.n_classes = n_classes
    
    def get_prediction_value(self, y):
        """
        Parameters
        ----------
        y : numpy ndarray of shape (n_objects,) 
        
        Returns
        -------
        classes_probabilities : numpy ndarray of shape (n_classes,)
            classes_probabilities[i] - ith class probability
        """
        #########################
        ##  your code is here  ##
        #########################

Проверьте себя:

In [None]:
some_y = np.array([1, 1, 2, 4, 2, 2, 0, 1, 0, 4])
probability_matcher = ClassificationProbabilityMatcher(n_classes=6)

assert probability_matcher.get_prediction_value(some_y).tolist() == [0.2, 0.3, 0.3, 0, 0.2, 0]

## 2. Вычисление параметров предиката

Ниже вам предлагается реализовать несколько методов. Для класса `BaseInformationCriterion` необходимо реализовать методы:
* `find_best_split` - вычисление оптимального $\beta$ и $Q$ по выбранному признаку и вектору ответов 
* `get_Q` - вычисление функционала $Q$

Для класса `GeanyInformationCriterion` вам предлагается реализовать метод `get_H`, вычисляющий значение критерия информативности. 

**Рекомендация.** Реализовывайте методы в следующем порядке: `get_H`, `get_Q`, `find_best_split`.

In [None]:
class BaseInformationCriterion:
    def find_best_split(self, X_feature, y):
        """
        Parameters
        ----------
        X_feature : numpy ndarray of shape (n_objects,)
        
        y : numpy ndarray of shape (n_objects,)
        
        Returns
        -------
        best_threshold : float 
        best_Q_value : float
        """
        #########################
        ##  your code is here  ##
        #########################
        
    def get_Q(self, H_main, y_left, y_right):
        """
        Parameters
        ----------
        H_main : float
        
        y_left : numpy ndarray of shape (n_objects_left,)
        
        y_right : numpy ndarray of shape (n_objects_right,)
        
        Returns
        -------
        Q_value : float
        """
        #########################
        ##  your code is here  ##
        #########################
        
    def get_H(self, y):
        raise NotImplementedError

In [None]:
class GeanyInformationCriterion(BaseInformationCriterion):
    def __init__(self, n_classes=None):
        self.probability_matcher = ClassificationProbabilityMatcher(n_classes=n_classes)
        
    def get_H(self, y):
        """
        Parameters
        ----------
        y : numpy ndarray of shape (n_objects,)
        
        Returns
        -------
        H_value : float
        """
        #########################
        ##  your code is here  ##
        #########################

Проверьте себя:

In [None]:
geany_criterion = GeanyInformationCriterion(n_classes=5)


main_H = geany_criterion.get_H(some_y)
npt.assert_almost_equal(main_H, 0.74, 4)

In [None]:
npt.assert_almost_equal(
    geany_criterion.get_Q(main_H, [1, 1, 1, 0], [2, 2, 0, 2, 4, 4]),
    0.22333333333333327,
    decimal=4
)

In [None]:
some_X_feature = np.array([-5, -4, 1, 2, 3, 2, -3, -1, -2, 2])

best_threshold, best_Q = geany_criterion.find_best_split(some_X_feature, some_y)
assert best_threshold == 1
npt.assert_almost_equal(best_Q, 0.26, 4)

## 3. Реализация вершины дерева

Класс `TreeNode` задаёт одну вершину дерева (неважно, листовую или внутреннюю). У каждого объекта класса есть следующие атрибуты:

* feature_index - индекс признака ($\alpha$), по которому строится предикат
* threshold - пороговое значение ($\beta$), по которому строится предикат
* prediction_value - значение, которое будет выдавать алгоритм для объектов, попавших в эту вершину, если она является листовой
* right_children - ссылка на правую вершину-ребёнка
* left_children - ссылка на левую веришну-ребёнка

Вам необходимо реализовать два метода класса:
* метод `get_next_nodes_mask` - получает значения предиката для попадающих в вершину объектов
* метод `split_node` - превращает вершину из листовой в внутреннуюю, вычисляет по поданным X, y, критерию информативности и функции вычисления значений вершины значения параметров `feature_index` и `threshold` и создаёт две дочерних вершины, присваивая им нужные `prediction_value`

In [None]:
class TreeNode:
    def __init__(self, prediction_value, feature_index=None, threshold=None):
        self.feature_index = feature_index
        self.threshold = threshold
        self.prediction_value = prediction_value
        self.right_children = None
        self.left_children = None
        
    @property
    def is_terminal(self):
        if self.right_children is None and self.left_children is None:
            return True
        return False
    
    def get_next_nodes_mask(self, X):
        """
        Parameters
        ----------
        X : numpy ndarray of shape (n_objects, n_features)
        
        Returns
        -------
        next_node_indexes : float
        """
        #########################
        ##  your code is here  ##
        #########################
        
    def split_node(self, X, y, criterion, prediction_matcher):
        """
        Parameters
        ----------
        X : numpy ndarray of shape (n_objects, n_features)
        y : numpy ndarray of shape (n_objects,)
        criterion : instance of BaseInformationCriterion inherited
        prediction_matcher : instance of BasePredictionMatcher inherited
        
        Returns
        -------
        indexes_mask : numpy ndarray of shape (n_objects,)
            Right children objects mask.
        right_children : instance of TreeNode
        left_children : instance of TreeNode
        """
        #########################
        ##  your code is here  ##
        #########################

In [None]:
some_node = TreeNode(1, 0, 0.5)

some_X = np.array([
    [0, 1, 2],
    [0.3, 1, 3],
    [0.5, 1, 3],
    [1, 2, 1]
])

some_y = np.array([0, 1, 1, 0])

assert some_node.get_next_nodes_mask(some_X).tolist() == [False, False, True, True]

In [None]:
some_node = TreeNode(1)
geany_criterion = GeanyInformationCriterion(n_classes=2)

mask, right_children, left_children = (
    some_node.split_node(some_X, some_y, geany_criterion, geany_criterion.probability_matcher)
)

In [None]:
assert mask.tolist() == [False, True, True, False]
assert right_children.prediction_value.tolist() == [0, 1]
assert left_children.prediction_value.tolist() == [1, 0]

Ещё одна проверка:

In [None]:
some_tree = ClassificationDecisionTree(max_depth=2, min_leaf_size=1)

some_X = np.vstack((
    np.random.normal(loc=(-5, -5), size=(100, 2)),
    np.random.normal(loc=(-5, 5), size=(100, 2)),
    np.random.normal(loc=(5, -5), size=(100, 2)),
    np.random.normal(loc=(5, 5), size=(100, 2)),
))

some_X = np.hstack((some_X, np.random.random((400, 100))))

some_y = np.array(
    [0] * 100 + [1] * 100 + [2] * 100 + [3] * 100
)

some_tree.fit(some_X, some_y)
predictions = some_tree.predict(some_X)

In [None]:
assert isinstance(predictions, type(np.zeros(0)))
npt.assert_equal(predictions, some_y)

## 4. Реализация дерева.

Вот мы и добрались до самого важного. В классе `DecisionTree` вам необходимо реализовать следующие методы:
* fit - обучения дерева
* predict - выдача предсказаний по дереву

Для реализации предлагается использовать два вспомогательных метода: 
* _build_new_nodes - вспомогательный рекурсивный метод для fit, разделяет вершину на две, если не выполняются условия останова
* _get_predictions_from_terminal_nodes - вспомогательный рекурсивный метод для predict, пропускает объекты через вершины и заполняет словарь предсказаний

Важный вопрос при реализации: как выбрать критерий останова создания новой вершины? Вершина не должна разветвляться, если выполнено хотя бы одно из трёх условий:

* если вершина на глубине max_depth
* если в вершине меньше чем min_leaf_size объектов
* если в вершине все объекты имеют одинаковые метки

In [None]:
class DecisionTree:
    def __init__(
        self, criterion, prediction_matcher,
        max_depth, min_leaf_size,
    ):
        self.max_depth = max_depth
        self.min_leaf_size = min_leaf_size
        self.criterion = criterion
        self.prediction_matcher = prediction_matcher
    
    def fit(self, X, y):
        """
        Parameters
        ----------
        X : numpy ndarray of shape (n_objects, n_features)
        y : numpy ndarray of shape (n_objects,)
        """
        base_answer = self.prediction_matcher.get_prediction_value(y)
        self.root_node = TreeNode(prediction_value=base_answer)
        
        #########################
        ##  your code is here  ##
        #########################
        
    def _build_new_nodes(self, X, y, current_objects_indexes, current_node, current_depth):
        """
        Parameters
        ----------
        X : numpy ndarray of shape (n_objects, n_features)
        y : numpy ndarray of shape (n_objects,)
        current_objects_indexes : numpy ndarray of shape (n_objects_node,)
            Indexes of current node objects
        current_node : instance of TreeNode
        current_depth : int
        """
        #########################
        ##  your code is here  ##
        #########################
        
    def predict(self, X):
        """
        Parameters
        ----------
        X : numpy ndarray of shape (n_objects, n_features)
        """
        predictions_dict = dict()
        
        #########################
        ##  your code is here  ##
        #########################
        
        predictions = np.array([
            elem[1] for elem in sorted(predictions_dict.items(), key=lambda x: x[0])
        ])
        return predictions
    
    def _get_predictions_from_terminal_nodes(self, X, current_objects_indexes, current_node,
                                             current_predictions):
        """
        Parameters
        ----------
        X : numpy ndarray of shape (n_objects, n_features)
        current_objects_indexes : numpy ndarray of shape (n_objects_node,)
        current_node : instance of TreeNode
        current_predictions : dict
        """
        #########################
        ##  your code is here  ##
        #########################

А теперь на основе реализованного в общем виде дерева, сделаем дерево для классификации:

In [None]:
class ClassificationDecisionTree(DecisionTree):
    def __init__(self, max_depth, min_leaf_size):
        criterion = GeanyInformationCriterion()
        matcher = ClassificationProbabilityMatcher()
        
        super().__init__(
            max_depth=max_depth,
            min_leaf_size=min_leaf_size,
            criterion=criterion,
            prediction_matcher=matcher,
        )
        
    def fit(self, X, y):
        n_classes = y.max() + 1
        self.prediction_matcher.n_classes = n_classes
        
        super().fit(X, y)
    
    def predict_proba(self, X):
        return super().predict(X)
    
    def predict(self, X):
        probabilities = super().predict(X)
        return probabilities.argmax(axis=1)

Проверь себя:

In [None]:
some_tree = ClassificationDecisionTree(max_depth=2, min_leaf_size=1)

some_X = np.vstack((
    np.random.normal(loc=(-5, -5), size=(100, 2)),
    np.random.normal(loc=(-5, 5), size=(100, 2)),
    np.random.normal(loc=(5, -5), size=(100, 2)),
    np.random.normal(loc=(5, 5), size=(100, 2)),
))

some_y = np.array(
    [0] * 100 + [1] * 100 + [2] * 100 + [3] * 100
)

some_tree.fit(some_X, some_y)
predictions = some_tree.predict(some_X)

In [None]:
assert isinstance(predictions, type(np.zeros(0)))
npt.assert_equal(predictions, some_y)

## 5. Визуализация результатов

Давайте проверим, что дерево работает на нескольких модельных задачах.

In [None]:
from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt
%matplotlib inline

Функция для визуализации двумерной выборки:

In [None]:
def plot_data(X, y, figsize=(6, 5)):
    plt.figure(figsize=figsize)
    
    n_classes = y.max() + 1
    for i in range(n_classes):
        plt.plot(X[:, 0][y == i], X[:, 1][y == i], 'o')

Функция для визуализации работы дерева на двумерной выборке:

In [None]:
def plot_decision_surface(clf, X, y, plot_step=0.2, cmap='Spectral', figsize=(6, 5)):
    # Plot the decision boundary
    plt.figure(figsize=figsize)
    
    n_classes = len(set(y))
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                         np.arange(y_min, y_max, plot_step))

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    cs = plt.contourf(xx, yy, Z, cmap=cmap, alpha=0.5)    
    y_pred = clf.predict(X)

    # Plot the training points
    plt.scatter(*X[y_pred == y].T, marker='.', s=70,
                c=y[y_pred == y], cmap=cmap, alpha=0.9, label='correct')
    plt.scatter(*X[y_pred != y].T, marker='x', s=50,
                c=y[y_pred != y], cmap=cmap, label='errors')
    plt.xlabel('X')
    plt.ylabel('Y')
    plt.axis("tight")
    plt.legend(loc='best')
    print("Accuracy =", accuracy_score(y, y_pred))

Для начала рассмотрим простую задачу с полностью разделимыми по некоторому признаку классами:

In [None]:
X, y = make_blobs(n_samples=300, n_features=2, cluster_std=1.5, centers=2, random_state=23)

plot_data(X, y)

Применим к этой задаче алгоритм "решающий пень":

In [None]:
some_tree = ClassificationDecisionTree(max_depth=1, min_leaf_size=1)
some_tree.fit(X, y)

Если вы всё реализовали правильно, то алгоритм должен нарисовать горизонтальную разделяющую поверхность по нижней точки верхнего класса.

In [None]:
plot_decision_surface(some_tree, X, y)

Теперь рассмотрим более сложную задачу с плохо разделимыми классами:

In [None]:
X, y = make_blobs(n_samples=300, n_features=2, cluster_std=2, centers=5, random_state=23)

In [None]:
plot_data(X, y)

Посмотрим на результаты, которые получаются при разных значениях глубины:

In [None]:
some_tree = ClassificationDecisionTree(max_depth=1, min_leaf_size=1)
some_tree.fit(X, y)

plot_decision_surface(some_tree, X, y, figsize=(10, 5))

In [None]:
some_tree = ClassificationDecisionTree(max_depth=2, min_leaf_size=1)
some_tree.fit(X, y)

plot_decision_surface(some_tree, X, y, figsize=(10, 5))

In [None]:
some_tree = ClassificationDecisionTree(max_depth=3, min_leaf_size=1)
some_tree.fit(X, y)

plot_decision_surface(some_tree, X, y, figsize=(10, 5))

In [None]:
some_tree = ClassificationDecisionTree(max_depth=5, min_leaf_size=1)
some_tree.fit(X, y)

plot_decision_surface(some_tree, X, y, figsize=(10, 5))

In [None]:
some_tree = ClassificationDecisionTree(max_depth=10, min_leaf_size=1)
some_tree.fit(X, y)

plot_decision_surface(some_tree, X, y, figsize=(10, 5))

Можно заметить, что начиная с некоторого значения глубины, дерево начинает сильно переобучаться (новые сплиты пытаются описать максимум 1-2 объекта). Это можно поправить, изменяя параметр min_leaf_size.

In [None]:
some_tree = ClassificationDecisionTree(max_depth=10, min_leaf_size=10)
some_tree.fit(X, y)

plot_decision_surface(some_tree, X, y, figsize=(10, 5))

## Домашнее задание (10 баллов)

1. (4 балла) Доделать все пункты ноутбука до конца

2. (2 балла) Для регрессионного дерева необходимо использовать такой критерий:
    $$ H(R) = \min_c \frac{1}{|R|} \sum_{(x_i, y_i) \in R} (y_i - c)^2$$
    
    Докажите, что H(R) можно переписать в следующем виде:

    $$ H(R) = \frac{1}{|R|} \left(y_i - \frac{1}{|R|} \sum_{(x_j, y_j) \in R} y_j \right)^2$$

3. (2 балла) Реализуйте регрессионное дерево. В качестве критерия необходимо использовать критерий, определённый в пункте 2. В качестве функции выдачи результатов необходимо использовать среднее значение ответов по всем объектам в листе.

    Сгенерируйте однопризнаковую выборку для тестирования дерева и покажите работу дерева на этой выборке. Отобразите на одном графике значения алгоритма и точки. Нарисуйте эту картинку для нескольких значений глубины. Сделайте выводы.
    
    
3. (2 балла) Протестируйте ваше дерево на california_housing датасете (можно загрузить с помощью sklearn.datasets.fetch_california_housing).
    Разбейте данные на обучение, контроль и тест. Подберите гиперпараметры по контрольной выборке, покажите качество алгоритма на тестовой. Сделайте выводы.


Бонусных баллов в этот раз нет :)

$$ H(R) = \min_c \frac{1}{|R|} \sum_{(x_i, y_i) \in R} (y_i - c)^2$$
Тогда найдем минимум:
$$ H(R)^{'}_c = \frac{2}{|R|} \sum_{(x_i, y_i) \in R} (y_i - c) = 0 $$
Откуда:
$$ c = \frac{1}{|R|} \sum_{(x_i, y_i) \in R} y_i $$ 
Подставим, получим:
$$ H(R) = \frac{1}{|R|} \sum_{(x_i, y_i) \in R}(y_i - \frac{1}{|R|} \sum_{(x_j, y_j) \in R} y_j )^2$$