# Градиентный бустинг своими руками

**Внимание:** в тексте задания произошли изменения - поменялось число деревьев (теперь 50), правило изменения величины шага в задании 3 и добавился параметр `random_state` у решающего дерева. Правильные ответы не поменялись, но теперь их проще получить. Также исправлена опечатка в функции `gbm_predict`.

В этом задании будет использоваться датасет `boston` из `sklearn.datasets`. Оставьте последние 25% объектов для контроля качества, разделив `X` и `y` на `X_train`, `y_train` и `X_test`, `y_test`.

Целью задания будет реализовать простой вариант градиентного бустинга над регрессионными деревьями для случая квадратичной функции потерь.

In [36]:
from sklearn import datasets, cross_validation, tree, metrics, linear_model
import numpy as np
import pandas as pd
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [2]:
rawdata=datasets.load_boston()
train_X, test_X, train_y, test_y = cross_validation.train_test_split(rawdata.data,
                                                                     rawdata.target,
                                                                     test_size=0.25,
                                                                     random_state=1)

## Задание 1

Как вы уже знаете из лекций, **бустинг** - это метод построения композиций базовых алгоритмов с помощью последовательного добавления к текущей композиции нового алгоритма с некоторым коэффициентом. 

Градиентный бустинг обучает каждый новый алгоритм так, чтобы он приближал антиградиент ошибки по ответам композиции на обучающей выборке. Аналогично минимизации функций методом градиентного спуска, в градиентном бустинге мы подправляем композицию, изменяя алгоритм в направлении антиградиента ошибки.

Воспользуйтесь формулой из лекций, задающей ответы на обучающей выборке, на которые нужно обучать новый алгоритм (фактически это лишь чуть более подробно расписанный градиент от ошибки), и получите частный ее случай, если функция потерь `L` - квадрат отклонения ответа композиции `a(x)` от правильного ответа `y` на данном `x`.

Если вы давно не считали производную самостоятельно, вам поможет таблица производных элементарных функций (которую несложно найти в интернете) и правило дифференцирования сложной функции. После дифференцирования квадрата у вас возникнет множитель 2 — т.к. нам все равно предстоит выбирать коэффициент, с которым будет добавлен новый базовый алгоритм, проигноируйте этот множитель при дальнейшем построении алгоритма.

In [33]:
def LossFunction(answer_true, answer_our):
    return 2*(answer_true-answer_our)
    #return 2*(answer_true-answer_our)# deriviate from (answer_true-answer_our)**2
#return (answer_true-answer_our)**2


print LossFunction(4, 1)

6


## Задание 2

Заведите массив для объектов `DecisionTreeRegressor` (будем их использовать в качестве базовых алгоритмов) и для вещественных чисел (это будут коэффициенты перед базовыми алгоритмами). 

В цикле от обучите последовательно 50 решающих деревьев с параметрами `max_depth=5` и `random_state=42` (остальные параметры - по умолчанию). В бустинге зачастую используются сотни и тысячи деревьев, но мы ограничимся 50, чтобы алгоритм работал быстрее, и его было проще отлаживать (т.к. цель задания разобраться, как работает метод). Каждое дерево должно обучаться на одном и том же множестве объектов, но ответы, которые учится прогнозировать дерево, будут меняться в соответствие с полученным в задании 1 правилом. 

Попробуйте для начала всегда брать коэффициент равным 0.9. Обычно оправдано выбирать коэффициент значительно меньшим - порядка 0.05 или 0.1, но т.к. в нашем учебном примере на стандартном датасете будет всего 50 деревьев, возьмем для начала шаг побольше.

В процессе реализации обучения вам потребуется функция, которая будет вычислять прогноз построенной на данный момент композиции деревьев на выборке `X`:

```
def gbm_predict(X):
    return [sum([coeff * algo.predict([x])[0] for algo, coeff in zip(base_algorithms_list, coefficients_list)]) for x in X]
(считаем, что base_algorithms_list - список с базовыми алгоритмами, coefficients_list - список с коэффициентами перед алгоритмами)
```

Эта же функция поможет вам получить прогноз на контрольной выборке и оценить качество работы вашего алгоритма с помощью `mean_squared_error` в `sklearn.metrics`. 

Возведите результат в степень 0.5, чтобы получить `RMSE`. Полученное значение `RMSE` — **ответ в пункте 2**.

In [34]:
base_algoritms_list=[]
coefficient_list=[]

def gbm_predict(X):
    return [sum([coeff*algo.predict([x])[0] for algo, coeff in zip(base_algoritms_list, coefficient_list)]) for x in X]

count_of_tree=50
for i in range(count_of_tree):
    if i==0:
        algo = tree.DecisionTreeRegressor(max_depth=5, random_state=42)
        algo.fit(train_X, train_y)
        base_algoritms_list.append(algo)
        coefficient_list.append(0.9)#(0.9/(0.1+i))
        continue
    algo = tree.DecisionTreeRegressor(max_depth=5, random_state=42)
    delta_=gbm_predict(train_X)
    algo.fit(train_X, LossFunction(train_y, delta_))
    base_algoritms_list.append(algo)
    coefficient_list.append(0.9)#(0.9/(0.1+i))
    print "{} error {}".format(i, np.sqrt(metrics.mean_squared_error(test_y, gbm_predict(test_X))))
    
print "The Result is /n {}".format(np.sqrt(metrics.mean_squared_error(test_y, gbm_predict(test_X))))
    


1 error 5.25126056534
2 error 4.75928552805
3 error 5.36564289217
4 error 5.42846264
5 error 5.57399483781
6 error 5.65518285547
7 error 5.75050880128
8 error 5.96438468579
9 error 5.80271467823
10 error 6.01495564489
11 error 6.05535570518
12 error 6.30185791297
13 error 6.19483564498
14 error 6.47460203562
15 error 6.28323682285
16 error 6.46101590004
17 error 6.46505085355
18 error 6.44134079861
19 error 6.37816855266
20 error 6.38611111386
21 error 6.42780741589
22 error 6.43799917816
23 error 6.39873750306
24 error 6.38719901516
25 error 6.4368210668
26 error 6.47212130317
27 error 6.55910731621
28 error 6.47382410113
29 error 6.49791192412
30 error 6.46374393944
31 error 6.46634112717
32 error 6.49351786343
33 error 6.46352250466
34 error 6.50260121769
35 error 6.48803598841
36 error 6.51043485469
37 error 6.50647547034
38 error 6.52805389448
39 error 6.45761677061
40 error 6.47126738611
41 error 6.4784677943
42 error 6.48561126167
43 error 6.48471833802
44 error 6.47498979867
45

## Задание 3

Вас может также беспокоить, что двигаясь с постоянным шагом, вблизи минимума ошибки ответы на обучающей выборке меняются слишком резко, перескакивая через минимум. 

Попробуйте уменьшать вес перед каждым алгоритмом с каждой следующей итерацией по формуле `0.9 / (1.0 + i)`, где `i` - номер итерации (от 0 до 49). Используйте качество работы алгоритма как **ответ в пункте 3**. 

В реальности часто применяется следующая стратегия выбора шага: как только выбран алгоритм, подберем коэффициент перед ним численным методом оптимизации таким образом, чтобы отклонение от правильных ответов было минимальным. Мы не будем предлагать вам реализовать это для выполнения задания, но рекомендуем попробовать разобраться с такой стратегией и реализовать ее при случае для себя.

In [35]:
base_algoritms_list=[]
coefficient_list=[]

def gbm_predict(X):
    return [sum([coeff*algo.predict([x])[0] for algo, coeff in zip(base_algoritms_list, coefficient_list)]) for x in X]

count_of_tree=50
for i in range(count_of_tree):
    if i==0:
        algo = tree.DecisionTreeRegressor(max_depth=5, random_state=42)
        algo.fit(train_X, train_y)
        base_algoritms_list.append(algo)
        coefficient_list.append(0.9/(0.1+i))
        continue
    algo = tree.DecisionTreeRegressor(max_depth=5, random_state=42)
    delta_=gbm_predict(train_X)
    algo.fit(train_X, LossFunction(train_y, delta_))
    base_algoritms_list.append(algo)
    coefficient_list.append(0.9/(0.1+i))
    print "{} error {}".format(i, np.sqrt(metrics.mean_squared_error(test_y, gbm_predict(test_X))))
    
print "The Result is /n {}".format(np.sqrt(metrics.mean_squared_error(test_y, gbm_predict(test_X))))

1 error 127.469735895
2 error 19.0222323992
3 error 9.8053600985
4 error 7.48579630754
5 error 6.75239329279
6 error 6.50863395746
7 error 6.34581137942
8 error 6.24972072032
9 error 6.21122907615
10 error 6.18058190184
11 error 6.15505936446
12 error 6.14255887916
13 error 6.13394126762
14 error 6.11685880583
15 error 6.11243429481
16 error 6.11355610013
17 error 6.10721511936
18 error 6.1027159271
19 error 6.10054661933
20 error 6.09548395096
21 error 6.0922691643
22 error 6.09512552271
23 error 6.09523157851
24 error 6.09515885933
25 error 6.08571236296
26 error 6.08855279042
27 error 6.08425131357
28 error 6.08527215507
29 error 6.08650430436
30 error 6.08766627488
31 error 6.08949074263
32 error 6.08866122383
33 error 6.08780706394
34 error 6.08805234913
35 error 6.08739351644
36 error 6.0885043799
37 error 6.08997052221
38 error 6.09007065503
39 error 6.09065057947
40 error 6.08890073529
41 error 6.0892992859
42 error 6.09065130322
43 error 6.09039544483
44 error 6.08908293964
45

## Задание 4

Реализованный вами метод - градиентный бустинг над деревьями - очень популярен в машинном обучении. Он представлен как в самой библиотеке `sklearn`, так и в сторонней библиотеке `XGBoost`, которая имеет свой питоновский интерфейс. На практике `XGBoost` работает заметно лучше `GradientBoostingRegressor` из `sklearn`, но для этого задания вы можете использовать любую реализацию. 

Исследуйте, переобучается ли градиентный бустинг с ростом числа итераций (и подумайте, почему), а также с ростом глубины деревьев. На основе наблюдений выпишите через пробел номера правильных из приведенных ниже утверждений в порядке возрастания номера (это будет **ответ в п.4**):

    1. С увеличением числа деревьев, начиная с некоторого момента, качество работы градиентного бустинга не меняется существенно.

    2. С увеличением числа деревьев, начиная с некоторого момента, градиентный бустинг начинает переобучаться.

    3. С ростом глубины деревьев, начиная с некоторого момента, качество работы градиентного бустинга на тестовой выборке начинает ухудшаться.

    4. С ростом глубины деревьев, начиная с некоторого момента, качество работы градиентного бустинга перестает существенно изменяться

## Задание 5

Сравните получаемое с помощью градиентного бустинга качество с качеством работы линейной регрессии. 

Для этого обучите `LinearRegression` из `sklearn.linear_model` (с параметрами по умолчанию) на обучающей выборке и оцените для прогнозов полученного алгоритма на тестовой выборке `RMSE`. Полученное качество - ответ в **пункте 5**. 

В данном примере качество работы простой модели должно было оказаться хуже, но не стоит забывать, что так бывает не всегда. В заданиях к этому курсу вы еще встретите пример обратной ситуации.

In [37]:
comparing_algoritm = linear_model.LinearRegression()
comparing_algoritm.fit(train_X, train_y)
pred = comparing_algoritm.predict(test_X)
metrics.mean_squared_error(test_y, pred)

21.889369432474023