# Градиентный бустинг над деревьями

Грузим датасет Wine. Будем предсказывать происхождение вина по его химическим характеристикам. 

In [0]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
import matplotlib.pyplot as plt
%matplotlib inline

In [0]:
wine = load_wine()

In [0]:
print(wine.DESCR)

In [0]:
data = pd.DataFrame(wine['data'], columns=wine['feature_names'])
target = wine.target

In [0]:
data.head(10)

Сколько всего классов в обучающей выборке? Как они распределены?

Делим на обучающую и тестовую выборку. Что нужно не забыть сделать?

In [0]:
SEED=25

In [0]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3, random_state=SEED)

Обучаем одно дерево

In [0]:
from sklearn.tree import DecisionTreeClassifier

In [0]:
tree_clf = DecisionTreeClassifier()

In [0]:
tree_clf.fit(X_train, y_train)

In [0]:
y_pred = tree_clf.predict(X_test)

In [0]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

Обучаем градиентный бустинг

In [0]:
from sklearn.ensemble import GradientBoostingClassifier

In [0]:
gb_clf = GradientBoostingClassifier(verbose=10)

In [0]:
gb_clf.fit(X_train, y_train)

In [0]:
y_pred = gb_clf.predict(X_test)

In [0]:
print(classification_report(y_test, y_pred))

Сколько деревьев мы обучили? А сколько было бы достаточно для получения текущего качества?

**Early stopping** - перестать обучаться, если ошибка не уменьшается/ уменьшается незначительно. 
За это отвечают следующие параметры модели:
+ ***tol***, *default=0.0001* - tolerance for the early stopping
+ ***n_iter_no_change***, *default=None* - is used to decide if early stopping will be used to terminate training when validation score is not improving
+ Если ошибка не уменьшается хотя бы на **tol**  в течение ***n_iter_no_change*** итераций, то прекращаем обучение. 

In [0]:
gb_clf_es = GradientBoostingClassifier(n_iter_no_change=5, verbose=10)

In [0]:
gb_clf_es.fit(X_train, y_train)

In [0]:
y_pred = gb_clf.predict(X_test)

In [0]:
print(classification_report(y_test, y_pred))

Можно предсказывать не только метки классов, но и их вероятности. 

In [0]:
probas = gb_clf.predict_proba(X_test)

In [0]:
probas.shape

Можно посмотреть коэффициенты важности признаков, так же как у рандомного леса. Какие признаки самые важные?

In [0]:
gb_clf.feature_importances_