# Домашнее задание 7. Градиентный бустинг над решающими деревьями. Регрессия. 

Дедлайн: 07.06.2020 23:59

При градиентном бустинге деревья обучаются итеративно. Каждое новое дерево обучается на ошибках предыдущего. 
Алгоритм обучения градиентного бустинга:
+ $T$ - количество деревьев
+ $\gamma$ - размер шага (learning_rate)
+ $\{ (x_i, y_i )\}_{i=1}^N$ - обучающая выборка   


1. Инициализировать массив предсказаний $prediction$ ансамбля, заполнив его нулями. 
2. For $t$ in $1...T$      
  2.1. Посчитать остатки - антиградиент функции ошибки.    
  ***Ошибка:*** $mse(y,prediction) = (y - prediction)^2$    
  ***Градиент:*** $\nabla_{prediction} mse(y,prediction) = prediction - y$   
  ***Антиградиент:*** $residuals_t = y - prediction$    
  2.2. Обучить дерево $b_t$, обучающая выборка:$ \{ (x_i, residuals_{t, i} ) \}_{i=1}^N$ 
  (в качестве целевой переменной выступают остатки)   
  2.3. Сделать предсказание обученным деревом:     
    $prediction_t = b_t(x)$    
  2.4. Прибавить предсказанние текущей модели умноженное на размер шага к вектору предсказаний ансамбля: $prediction \mathrel{+}= \gamma*prediction_t$    




Итоговый ансамбль имеет вид:  $a(x) = \sum_{t = 1}^T (\gamma b_t(x))$

       

Ваша задача - заполнить пропуски # YOUR CODE HERE, и выполнить код

In [7]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeRegressor

Обязательно фиксируем random state. 

In [8]:
SEED = 22
np.random.seed(SEED)

Реализуем простой градиентный бустинг, в качестве базового алгоритма используем DecisionTreeRegressor из sklearn. 

In [23]:
class SimpleGBRegressor:

    def __init__(self, n_estimators=10, max_depth=5, 
                 min_samples_leaf=1, learning_rate=0.1, 
                 random_state=None):
        self.n_estimators = n_estimators
        self.max_depth = max_depth
        self.min_samples_leaf = min_samples_leaf
        self.learning_rate = learning_rate
        self.random_state = random_state
        self.trees = []
        self.was_fit = False

    def fit(self, X, y):
        # убедиться что в X и y одинаковое число элементов
        assert len(X) == len(y)
        
        # инициализировать массив с предсказаниями, заполнив нулями
        prediction = np.zeros(len(y))

        # обучаем деревья
        for i in range(self.n_estimators):
            # посчитать остатки
            residual = y - prediction

            # инициализировать дерево с нужными параметрами
            tree = DecisionTreeRegressor(max_depth = self.max_depth, min_samples_leaf = self.n_estimators, 
                                         random_state = self.random_state)

            # обучить дерево
            tree.fit(X,residual)

            # сделать предсказание текущего дерева
            tree_prediction = tree.predict(X)

            # сохранить обученное дерево
            self.trees.append(tree)

            # обновить вектор предсказаний модели
            prediction += tree_prediction * self.learning_rate

        self.was_fit = True
        return self

    def predict(self, X):
        # если модель не была обучена, печатаем сообщение об этом и вовращаем None
        if self.was_fit == False:
            print('Модель не была обучена')
            return None

        # инициализировать массив с предсказаниями
        y_pred = np.zeros(len(X))
        
        # добавить прогнозы деревьев
        for tree in self.trees:
            tree_prediction = tree.predict(X)
            y_pred += tree_prediction * self.learning_rate            
            
        # убедиться что в X и y одинаковое число элементов
        assert len(X) == len(y_pred)
        return y_pred

## Провеярем нашу модель


Загружаем датасет Diabetes. 

In [13]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
diabetes = load_diabetes()

In [9]:
print(diabetes['DESCR'])

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - Age
      - Sex
      - Body mass index
      - Average blood pressure
      - S1
      - S2
      - S3
      - S4
      - S5
      - S6

Note: Each of these 10 feature variables have been mean centered and scaled by the standard deviation times `n_samples` (i.e. the sum of squares of each column totals 1).

Source URL:
https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

For more information see:
Bra

In [10]:
data = pd.DataFrame(diabetes['data'], columns=diabetes['feature_names'])
target = diabetes.target

In [11]:
data.head(10)

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019908,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.06833,-0.092204
2,0.085299,0.05068,0.044451,-0.005671,-0.045599,-0.034194,-0.032356,-0.002592,0.002864,-0.02593
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022692,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031991,-0.046641
5,-0.092695,-0.044642,-0.040696,-0.019442,-0.068991,-0.079288,0.041277,-0.076395,-0.04118,-0.096346
6,-0.045472,0.05068,-0.047163,-0.015999,-0.040096,-0.0248,0.000779,-0.039493,-0.062913,-0.038357
7,0.063504,0.05068,-0.001895,0.06663,0.09062,0.108914,0.022869,0.017703,-0.035817,0.003064
8,0.041708,0.05068,0.061696,-0.040099,-0.013953,0.006202,-0.028674,-0.002592,-0.014956,0.011349
9,-0.0709,-0.044642,0.039062,-0.033214,-0.012577,-0.034508,-0.024993,-0.002592,0.067736,-0.013504


Делим на обучающую и тестовую выборку, размер тестовой выборки - 30%. Не забываем про random state.

In [17]:
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3, random_state = SEED)

Обучаем нашу модель и делаем предсказание по тестовой выборке. 
Параметры модели:
+ n_estimators = 100
+ random_state - зафиксированный нами ранее
+ остальные значения по умолчанию 

In [25]:
# создаем и обучаем модель
my_model = SimpleGBRegressor(n_estimators = 100, random_state = SEED)
my_model.fit(X_train, y_train)
my_model.predict(X_test)

array([166.90397847,  93.44154947, 221.1947866 , 237.84727123,
       236.74547585,  89.25081358, 116.22789291, 217.99615271,
        88.60817683, 217.50094303, 220.56530444, 223.4924004 ,
       154.10202581, 186.2808836 ,  89.25081358, 106.05792144,
       112.13582914, 103.02944902,  88.75052673, 231.50054906,
       178.24788985, 223.83677943, 143.01255201, 137.1999821 ,
       210.9160611 , 111.33433492,  89.26818786,  79.61827093,
        76.04776366, 119.81812848, 177.12233453, 178.86038964,
        87.46953162,  89.12848182,  77.12232991, 237.3284512 ,
       224.65087528, 158.86942992, 221.14908169, 133.4850777 ,
       161.06209258,  88.60817683, 239.90548681, 164.03293905,
       150.01572517, 237.3284512 , 189.24646741,  98.94691963,
       112.69587567, 183.14947461, 204.04344589,  81.13509151,
        89.25081358, 157.17825658,  78.47245694, 189.27335035,
        83.23411651, 181.97130895, 234.75929947, 102.23498095,
        98.96429391,  89.82806908, 113.13430136,  83.53

In [27]:
# делаем предсказание по тестовой выборке
y_pred = my_model.predict(X_test)

In [28]:
from sklearn.ensemble import GradientBoostingRegressor

Считаем MSE

In [35]:
# оцениваем качество
array = np.square(y_test - y_pred)
mse = array.mean()
print(mse)

4041.6408758436764


Сравниваем с реализацией аналогичного алгоритма из sklearn c **такими же** параметрами (будьте внимательны)

In [38]:
# создаем и обучаем модель
sklearn_model = GradientBoostingRegressor(n_estimators = 100, random_state = SEED,
                                         max_depth=5, min_samples_leaf=1, learning_rate=0.1)
sklearn_model.fit(X_train, y_train)
sklearn_model.predict(X_test)

array([155.8147599 ,  64.82054025, 275.39181948, 234.45010251,
       207.18427048, 122.03947322, 107.62422579, 205.17498786,
        83.16106544, 234.1298949 , 207.47339178, 197.08882438,
       170.58764742, 212.87604389,  83.49819754, 117.54499782,
       118.7337494 , 119.28274575, 133.08909943, 255.49560195,
       206.62111063, 213.90703446, 107.66919437, 123.8293681 ,
       168.21009953, 107.26852801, 101.68414547,  95.45952773,
        86.1980105 ,  81.53135856, 180.747099  , 158.38972397,
        84.1917453 ,  58.39351547,  92.84277408, 270.86910152,
       243.46488874, 154.49108598, 198.7168851 , 139.81090673,
       192.79887365,  87.40722762, 233.23847912, 150.94160743,
       112.11334129, 213.28030949, 180.74964374,  87.57119414,
        89.28955292, 182.73964437, 214.11701629, 113.47863853,
        85.39537334, 165.21750384,  69.4082974 , 139.1982552 ,
        70.22141607, 183.68765094, 244.61549104, 117.68994306,
       112.52791461,  80.35751558, 114.42731668,  80.78

In [39]:
# делаем предсказание по тестовой выборке
y_pred_sklearn = sklearn_model.predict(X_test)

In [40]:
# оцениваем качество
array = np.square(y_test - y_pred_sklearn)
mse = array.mean()
print(mse)

4179.799430520316
