Авторы материала: аспирант Мехмата МГУ Евгений Колмаков, программист-исследователь Mail.ru Group Юрий Кашницкий.

# <center>Домашнее задание № 3. Опциональная часть 
## <center> Реализация алгоритма построения дерева решений

**Заполните код в клетках (где написано "Ваш код здесь") и ответьте на вопросы в [веб-форме](https://docs.google.com/forms/d/1k4jn-czjTL_6pnQD96N3kA0uSq3cCGHcfNdKpfICURA/edit?usp=sharing).**

In [2]:
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
from sklearn.base import BaseEstimator
from sklearn.datasets import make_classification, make_regression, load_digits, load_boston
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score, mean_squared_error
from collections import Counter

Зафиксируем заранее `random_state` (a.k.a. random seed). Это должно повысить вероятность полной воспроизводимости результатов, впрочем, замечено, что тем не менее небольшие флуктуации возможны (например, качества прогнозов дерева, которое мы сейчас вырастим) в случае разных ОС.

In [3]:
RANDOM_STATE = 17

**Необходимо реализовать класс `DecisionTree`**

**Спецификация:**
- класс наследуется от `sklearn.BaseEstimator`;
- конструктор содержит следующие параметры: 
    `max_depth` - максимальная глубина дерева (по умолчанию - `numpy.inf`); 
    `min_samples_split` - минимальное число объектов в вершине, при котором происходит её разбиение (по умолчанию - 2); 
    `criterion` - критерий разбиения (для классификации - 'gini' или 'entropy', для регрессии - 'variance' или 'mad_median'; 
    по умолчанию - 'gini');
    
    Функционал, значение которого максимизируется для поиска оптимального разбиения в данной вершине имеет вид
    $$Q(X, j, t) = F(X) - \dfrac{|X_l|}{|X|} F(X_l) - \dfrac{|X_r|}{|X|} F(X_r),$$
    где $X$ - выборка, находящаяся в текущей вершине, $X_l$ и $X_r$ - разбиение выборки $X$ на две части 
    по предикату $[x_j < t]$, а $F(X)$ -критерий разбиения.
    
    Для классификации: пусть $p_i$ - доля объектов $i$-го класса в выборке $X$.
    
    'gini': Неопределенность Джини $F(X) = 1 -\sum_{i = 1}^K p_i^2$.
    
    'entropy': Энтропия $F(X) = -\sum_{i = 1}^K p_i \log_2(p_i)$.
    
    Для регрессии: $y_j = y(x_j)$ - ответ на объекте $x_j$, $y = (y_1, \dots, y_{|X|})$ - вектор ответов.
    
    'variance': Дисперсия (среднее квадратичное отклонение от среднего) $F(X) = \dfrac{1}{|X|} \sum_{x_j \in X}(y_j - \dfrac{1}{|X|}\sum_{x_i \in X}y_i)^2$
    
    'mad_median': Среднее отклонение от медианы $F(X) = \dfrac{1}{|X|} \sum_{x_j \in X}|y_j - \mathrm{med}(y)|$
    
- класс имеет методы `fit`, `predict` и `predict_proba`;
- метод `fit` принимает матрицу объектов `X` и вектор ответов `y` (объекты `numpy.ndarray`) и возвращает экземпляр класса
    `DecisionTree`, представляющий собой решающее дерево, обученное по выборке `(X, y)` с учётом заданных в конструкторе параметров; 
- метод `predict_proba` принимает матрицу объектов `X` и возвращает матрицу `P` размера `X.shape[0] x K`, где `K` - число классов, такую что $p_{ij}$ есть вероятность принадлежности объекта, заданного $i$-ой строкой матрицы X к классу $j \in \{1, \dots, K\}$.
- метод `predict` принимает матрицу объектов и возвращает вектор предсказанных ответов; в случае классификации - это 
    наиболее многочисленный класс в листе, в который попал объект, а в случае регрессии - среднее значение ответов по 
    всем объектам этого листа;

In [76]:
def entropy(y):  
    y = np.array(list(Counter(y).values())) / np.shape(y)[0]
    logs = np.log2(y)
    logs[logs == -np.inf] = 0 
    result = -np.sum(y * logs)
    return result
    
def gini(y):
    y = np.array(list(Counter(y).values())) / np.shape(y)[0]
    result = 1 - np.sum(y ** 2)
    return result

def variance(y):
    y = np.array(y)
    result = np.sum((y - np.mean(y)) ** 2) / np.size(y)
    return result

def mad_median(y):
    y = np.array(y)
    result = np.sum(np.abs(y - np.median(y))) / np.size(y)
    return result


def classify(y):
    counter = dict(Counter(y))
    result = None
    for (tag, count) in counter.items():
        if result == None or count > best_count:
            result = tag
            best_count = count
        counter[tag] /= np.size(y)
    return result, counter

def interpolate(y):
    return np.mean(y), None

In [86]:
class DecisionTree(BaseEstimator):
    
    class TreeNode():
        
        def test_quality(self, y, left_indexes, criterion):
            result = criterion(y)
            result -= left_indexes.shape[0] / y.shape[0] * criterion(y[left_indexes])
            result -= (~left_indexes).shape[0] / y.shape[0] * criterion(y[~left_indexes])
            return result
        
        def __init__(self, tree, X, y, depth = 0):            
            self.tree = tree
            self.testing_feature = None
            self.feature_threshold = None
            self.left_child = None
            self.right_child = None
            
            prediction = self.tree.prediction
            self.predicted, self.detailed = prediction(y)
            
            max_depth = self.tree.max_depth
            if depth > max_depth:
                return
            min_samples_split = self.tree.min_samples_split
            if X.shape[0] < min_samples_split:
                return
            
            criterion = self.tree.criterion
            best_quality = None
            for feature in range(X.shape[1]):
                sorted_X = np.sort(X[:, feature])
                thresholds = [(sorted_X[i - 1] + sorted_X[i]) / 2 for i in range(1, sorted_X.shape[0])]
                for threshold in thresholds:
                    go_left = (X[:, feature] < threshold)
                    quality = self.test_quality(y, go_left, criterion)
                    if best_quality == None or quality > best_quality:
                        best_quality = quality
                        self.testing_feature = feature
                        self.feature_threshold = threshold
            
            go_left = (X[:, self.testing_feature] < self.feature_threshold)
            self.left_child = DecisionTree.TreeNode(tree, X[go_left], y[go_left], depth + 1)
            self.right_child = DecisionTree.TreeNode(tree, X[~go_left], y[~go_left], depth + 1)
            
        def predict(self, X):
            y = np.zeros(shape = X.shape[0])
            if X.shape[0] == 0:
                return y
            if self.testing_feature == None:
                y[:] = self.predicted
            else:
                go_left = (X[:, self.testing_feature] < self.feature_threshold)            
                y[np.where(go_left)] = self.left_child.predict(X[go_left])            
                y[np.where(~go_left)] = self.right_child.predict(X[~go_left])
            return y
            
        def predict_detailed(self, X):
            y = np.zeros(shape = (X.shape[0], self.tree.__class_count))
            if X.shape[0] == 0:
                return y
            if self.testing_feature == None:
                y[:, self.detailed.keys] = self.detailed.values
            else:
                go_left = (X[:, self.testing_feature] < self.feature_threshold)            
                y[np.where(go_left)] = self.left_child.predict(X[go_left])            
                y[np.where(~go_left)] = self.right_child.predict(X[~go_left])
            return y
            
    
    def __init__(self, max_depth = np.inf, min_samples_split = 2,
                 criterion = gini, prediction = classify, debug = False):
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.criterion = criterion
        self.prediction = prediction
        self.debug = debug
        self.__class_count = None
        self.__root = None
    
    def fit(self, X, y):
        if X.shape[0] != y.shape[0]:
            raise ValueError('X and y should have the same number of rows.')
        self.__class_count = np.max(y) + 1
        self.__root = self.TreeNode(self, X, y)
        return self
        
    def predict(self, X):
        return self.__root.predict(X)
        
    def predict_proba(self, X, class_count):
        return self.__root.predict_detailed(X, class_count)

## Тестирование реализованного алгоритма

### Классификация

С помощью метода `load_digits` загрузите датасет `digits`. Разделите выборку на обучающую и тестовую с помощью метода `train_test_split`, используйте значения параметров `test_size=0.2`, `random_state=17`. Попробуйте обучить неглубокие решающие деревья и убедитесь, что критерии gini и entropy дают разные результаты.

In [39]:
X, y = load_digits(return_X_y = True)
X = np.array(X)
y = np.array(y)
print(X, X.shape)
print(y, y.shape)
print()

train_X, test_X, train_y, test_y = train_test_split(X, y, test_size = 0.2, random_state = 17)
print(train_X, train_X.shape)
print(test_X, test_X.shape)
print()
print(train_y, train_y.shape)
print(test_y, test_y.shape)
print()

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]] (1797, 64)
[0 1 2 ... 8 9 8] (1797,)

[[ 0.  0.  3. ... 16.  2.  0.]
 [ 0.  0.  6. ...  0.  0.  0.]
 [ 0.  1.  7. ...  0.  0.  0.]
 ...
 [ 0.  6. 16. ... 11.  1.  0.]
 [ 0.  1.  8. ...  0.  0.  0.]
 [ 0.  0.  0. ... 16. 16. 16.]] (1437, 64)
[[ 0.  0.  0. ...  6.  0.  0.]
 [ 0.  0.  0. ... 14.  4.  0.]
 [ 0.  0.  5. ...  0.  0.  0.]
 ...
 [ 0.  0.  2. ... 15.  4.  0.]
 [ 0.  0.  4. ...  6.  0.  0.]
 [ 0.  0. 13. ...  0.  0.  0.]] (360, 64)

[1 9 5 ... 3 7 1] (1437,)
[1 2 7 3 9 5 8 9 8 1 4 3 5 0 9 9 5 3 9 6 6 3 6 4 6 2 6 7 3 1 8 4 1 1 0 2 3
 5 5 5 5 6 0 5 3 5 1 8 2 9 9 4 0 8 8 1 1 1 0 4 1 2 0 7 9 8 8 6 0 8 8 3 4 6
 4 3 2 3 9 7 5 8 3 5 1 8 9 5 4 7 7 8 3 0 2 7 9 9 4 0 5 6 4 0 1 3 3 1 8 7 4
 2 5 5 3 9 6 4 2 7 4 1 8 5 1 5 8 6 5 5 4 9 4 2 7 8 4 4 4 9 7 1 9 9 2 0 0 3
 5 8 1 9 5 3 6 8 7 4 6 1 9 7 6 4 0 9 4

С помощью 5-кратной кросс-валидации (`GridSearchCV`) подберите оптимальное значение параметров `max_depth` и `criterion`. Для параметра `max_depth` используйте диапазон значений - range(3, 11), а для criterion - {'gini', 'entropy'}. Критерий качества `scoring`='accuracy'.

In [93]:
decisionTree = DecisionTree(max_depth = 1, criterion = gini, prediction = classify)
decisionTree.fit(train_X, train_y)
print(decisionTree.predict(test_X))

[6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 4. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 4. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 4. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 4. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 4. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 4. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6.
 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 6. 4. 6. 6. 6. 6.

In [95]:
print(decisionTree._DecisionTree__class_count)

9


In [80]:
tree_params = {'max_depth': list(range(3, 11)), 'criterion': [gini, entropy]}

decisionTree = DecisionTree()
tree_grid = GridSearchCV(decisionTree, tree_params, cv = 5, n_jobs = -1, verbose = True, scoring = 'accuracy')
tree_grid.fit(train_X, train_y)
print('best parameters: {0}'.format(tree_grid.best_params_))
print('best score: {0}'.format(tree_grid.best_score_))

Fitting 5 folds for each of 16 candidates, totalling 80 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.


NameError: name 'params' is not defined

Постройте графики средних значений критерия качества `accuracy` для критериев `gini` и `entropy` в зависимости от `max_depth`.

In [None]:
# Ваш код здесь

**Выберите верные утверждения:**
1. Оптимальное значение `max_depth` для каждого критерия достигается на отрезке [4, 9].
2. На отрезке [3, 10] построенные графики не пересекаются.
3. На отрезке [3, 10] построенные графики пересекаются ровно один раз.
4. Наилучшее качество при `max_depth` на интервале [3, 10] достигается при использовании критерия `gini`.
5. Хотя бы для одного из критериев значение accuracy строго возрастает с ростом значения `max_depth` на интервале [3, 10].

**Чему равны найденные оптимальные значения параметров max_depth и criterion?**
1. max_depth = 7, criterion = 'gini';
2. max_depth = 7, criterion = 'entropy';
3. max_depth = 10, criterion = 'entropy';
4. max_depth = 10, criterion = 'gini';
5. max_depth = 9, criterion = 'entropy';
6. max_depth = 9, criterion = 'gini';

Используя найденные оптимальные значения max_depth и criterion, обучите решающее дерево на X_train, y_train и вычислите вероятности принадлежности к классам для X_test.

In [None]:
# Ваш код здесь

Для полученной матрицы вычислите усредненные по всем объектам из `X_test` значения вероятностей принадлежности к классам.

**Вопрос:** Чему примерно равна максимальная вероятность в полученном векторе?
1. 0.127
2. 0.118
3. 1.0
4. 0.09

### Регрессия

С помощью метода `load_boston` загрузите датасет `boston`. Разделите выборку на обучающую и тестовую с помощью метода `train_test_split`, используйте значения параметров `test_size=0.2`, `random_state=17`. Попробуйте обучить неглубокие регрессионные деревья и убедитесь, что критерии `variance` и `mad_median` дают разные результаты.

In [None]:
# Ваш код здесь

С помощью 5-кратной кросс-валидации подберите оптимальное значение параметров `max_depth` и `criterion`. Для параметра `max_depth` используйте диапазон значений - `range(2, 9)`, а для `criterion` - {'variance', 'mad_median'}. Критерий качества `scoring`='neg_mean_squared_error'.

In [None]:
# Ваш код здесь

Постройте графики средних значений критерия качества `neg_mean_squared_error` для критериев `variance` и `mad_median` в зависимости от `max_depth`.

In [None]:
# Ваш код здесь

**Выберите верные утверждения:**
1. На отрезке [2, 8] построенные графики не пересекаются.
2. На отрезке [2, 8] построенные графики пересекаются ровно один раз.
3. Оптимальное значение `max_depth` для каждого из критериев достигается на границе отрезка [2, 8].
4. Наилучшее качество при `max_depth` из [2, 8] достигается при использовании критерия `mad_median`.

**Чему равны найденные оптимальные значения параметров `max_depth` и `criterion`?**
1. max_depth = 9, criterion = 'variance';
2. max_depth = 5, criterion = 'mad_median';
3. max_depth = 4, criterion = 'variance';
4. max_depth = 2, criterion = 'mad_median';
5. max_depth = 4, criterion = 'mad_median';
6. max_depth = 5, criterion = 'variance';