# Gradient Boosting
**Градиентный бустинг** – это продвинутый алгоритм машинного обучения для решения задач классификации и регрессии.

Он строит предсказание в виде ансамбля слабых предсказывающих моделей, которыми в основном являются деревья решений. **Из нескольких слабых моделей в итоге мы собираем одну, но уже эффективную.**

**Общая идея алгоритма** – последовательное применение предиктора (предсказателя) таким образом, что каждая последующая модель сводит ошибку предыдущей к минимуму.

Параметры алгоритма

- loss – функция ошибки для минимизации.

- criterion – критерий выбора расщепления, Mean Absolute Error (MAE) или Mean Squared Error (MSE). Используется только при построении деревьев.

- init – какой алгоритм мы будем использовать в качестве главного (именно его и улучшает техника бустинга).

- learning_rate – скорость обучения.

- n_estimators – число итераций в бустинге. Чем больше, тем лучше качество, однако слишком большой увеличение данного параметра может привести к ухудшению производительности и переобучению.

- min_samples_split – минимальное число объектов, при котором происходит расщепление. С данным параметром мы можем избежать переобучение.

- min_samples_leaf – минимальное число объектов в листе (узле). При увеличении данного параметра качество модели на обучении падает, в то время как время построения модели сокращается. Меньшие значения стоит выбирать для менее сбалансированных выборок.

- max_depth – максимальная глубина дерева. Используется для того, чтобы исключить возможность переобучения.

- max_features – количество признаков, учитываемых алгоритмом для построения расщепления в дереве.
- max_leaf_nodes : Максимальное число верхних точек в дереве. При наличии данного параметра max_depth будет игнорироваться.

# Implementation sklearn

### Libs:

In [1]:
import pandas as pd
import numpy as np

#import warnings
#warnings.filterwarnings('ignore')


from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

from sklearn.preprocessing import StandardScaler,LabelEncoder
from sklearn.metrics import mean_squared_error,r2_score 

from sklearn.ensemble import GradientBoostingRegressor

### Prepare data

In [2]:
breast_cancer = load_breast_cancer()


### Обозначаем целевую переменную для нашей будущей модели
X = pd.DataFrame(breast_cancer['data'], columns=breast_cancer['feature_names'])
y = pd.Categorical.from_codes(breast_cancer['target'], breast_cancer['target_names'])

### Feature Engineering

In [4]:
# encoding
lbl = LabelEncoder() 
lbl.fit(y)

y_enc = lbl.transform(y)


### Разбираемся с признаками
scl = StandardScaler()
scl.fit(X)
X_scaled = scl.transform(X)

### Split train and test

In [5]:
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y_enc,
    test_size=0.20,
    random_state=42)

### GradientBoostingRegressor

In [6]:
params = {'n_estimators':200,
          'max_depth':12,
          'criterion':'friedman_mse',
          'learning_rate':0.03,
          'min_samples_leaf':16,
          'min_samples_split':16
          }

In [7]:
### Тренируем
gbr = GradientBoostingRegressor(**params)
gbr.fit(X_train,y_train)

In [8]:
### Вычисляем точность
train_accuracy_score=gbr.score(X_train,y_train)
print('accuracy_score: ', train_accuracy_score)

test_accuracy_score=gbr.score(X_test,y_test)
print('test_accuracy_score: ', test_accuracy_score)

accuracy_score:  0.985058330455562
test_accuracy_score:  0.8729663247086374


In [9]:
### Предсказание
y_pred = gbr.predict(X_test)

### И среднеквадратичную ошибку
mse = mean_squared_error(y_test,y_pred)
print("MSE: %.4f" % mse)
print("R^2 : ", r2_score(y_test, y_pred))

MSE: 0.0298
R^2 :  0.8729663247086374


# XGBoost
**XGBoost** – более регуляризованная форма градиентного бустинга.

Основным преимуществом данной библиотеки является производительность и эффективная оптимизация вычислений (лучший результат с меньшей затратой ресурсов).

Библиотека XGBoost предоставляем нам разные классы для разных задач: **XGBClassifier для классификации и XGBregressor для регрессии.**

# Пример использования XGBoost для классификации:

### Libs:

In [10]:
from numpy import asarray
from numpy import mean
from numpy import std

from sklearn.datasets import make_classification

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold

from xgboost import XGBClassifier

### Oпределяем датасет

In [11]:
X, y = make_classification(
    n_samples=1000,
    n_features=10,
    n_informative=5,
    n_redundant=5,
    random_state=42)

### Oпределяем модель вместе с кросс-валидацией

In [12]:
model = XGBClassifier()

In [13]:
cv = RepeatedStratifiedKFold(
    n_splits=10,
    n_repeats=3,
    random_state=42)

In [14]:
n_scores = cross_val_score(
    model,
    X,
    y,
    scoring='accuracy',
    cv=cv,
    n_jobs=-1,
    error_score='raise')

print('Точность: %.5f (%.5f)' % (mean(n_scores), std(n_scores)))

Точность: 0.93367 (0.02057)


### Тренируем модель на всём наборе данных

In [15]:
model = XGBClassifier()
model.fit(X, y)

### Предсказываем

In [16]:
row = [2.56999479, -0.13019997, 3.16075093, -4.35936352, -1.61271951,
       -1.39352057, -2.48924933, -1.93094078, 3.26130366, 2.05692145]

row = asarray(row).reshape((1, len(row)))
yhat = model.predict(row)
print('Предсказание (Предикт): %d' % yhat[0])

Предсказание (Предикт): 1


# Пример использования XGBoost для регрессии:

### Libs:

In [17]:
from numpy import asarray
from numpy import mean
from numpy import std

from sklearn.datasets import make_regression

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedKFold

from xgboost import XGBRegressor

###  Oпределяем датасет

In [18]:
X, y = make_regression(
    n_samples=1000,
    n_features=10,
    n_informative=5,
    random_state=42)

### Oпределяем модель (в данном примере мы меняем метрику на MAE)

In [19]:
model = XGBRegressor(objective='reg:squarederror')

In [20]:
cv = RepeatedKFold(n_splits=10,
                   n_repeats=3,
                   random_state=42)

In [21]:
n_scores = cross_val_score(
    model,
    X,
    y,
    scoring='neg_mean_absolute_error',
    cv=cv,
    n_jobs=-1,
    error_score='raise')

print('MAE (Средняя Абсолютная Ошибка): %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

MAE (Средняя Абсолютная Ошибка): -8.757 (0.693)


### Тренируем модель на всём наборе данных

In [22]:
model = XGBRegressor(objective='reg:squarederror')

In [23]:
model.fit(X, y)

### Предсказываем

In [24]:
row = [2.02220122, 0.31563495, 0.82797464, -0.30620401, 0.16003707,
       -1.44411381, 0.87616892, -0.50446586, 0.23009474, 0.76201118]

row = asarray(row).reshape((1, len(row)))

yhat = model.predict(row)
print('Предсказание (Предикт): %.3f' % yhat[0])

Предсказание (Предикт): 40.074


# LightGBM
**LightGBM** -библиотека от Microsoft.

В ней идет добавление авто выбора объектов и фокуса на тех частях бустинга, в которых мы имеем больший градиент. Это способствует значительному ускорению в обучении модели и улучшению показателей предсказания. 

# LightGBM для классификации:

### Libs:

In [25]:
from numpy import mean
from numpy import std

from sklearn.datasets import make_classification

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold

from lightgbm import LGBMClassifier

### Oпределяем датасет

In [26]:
X, y = make_classification(
    n_samples=1000,
    n_features=10,
    n_informative=5,
    n_redundant=5,
    random_state=42)

### Oпределяем модель вместе с кросс-валидацией

In [27]:
model = LGBMClassifier()


In [28]:
cv = RepeatedStratifiedKFold(
    n_splits=10,
    n_repeats=3,
    random_state=42)

In [29]:
n_scores = cross_val_score(
    model,
    X,
    y,
    scoring='accuracy',
    cv=cv,
    n_jobs=-1,
    error_score='raise')

print('Точность: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

Точность: 0.936 (0.022)


### Тренируем модель на всём наборе данных

In [30]:
model = LGBMClassifier()
model.fit(X, y)

### Предсказываем

In [31]:
row = [[2.56999479, -0.13019997, 3.16075093, -4.35936352, -1.61271951,
        -1.39352057, -2.48924933, -1.93094078, 3.26130366, 2.05692145]]

yhat = model.predict(row)

print('Предсказание (Предикт): %d' % yhat[0])

Предсказание (Предикт): 1


# LightGBM для регрессии:

### Libs:

In [32]:
from numpy import mean
from numpy import std

from sklearn.datasets import make_regression

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedKFold

from lightgbm import LGBMRegressor

### Oпределяем датасет

In [33]:
X, y = make_regression(
    n_samples=1000,
    n_features=10,
    n_informative=5,
    random_state=1)

### Oпределяем модель вместе с кросс-валидацией. Метрика MAE

In [34]:
model = LGBMRegressor()

In [35]:
cv = RepeatedKFold(
    n_splits=10,
    n_repeats=3,
    random_state=42)

In [36]:
n_scores = cross_val_score(
    model,
    X,
    y,
    scoring='neg_mean_absolute_error',
    cv=cv,
    n_jobs=-1,
    error_score='raise')

In [37]:
print('MAE (Средняя Абсолютная Ошибка): %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

MAE (Средняя Абсолютная Ошибка): -12.857 (1.387)


### Тренируем модель на всём наборе данных

In [38]:
model = LGBMRegressor()

In [39]:
model.fit(X, y)

### Предсказываем

In [40]:
row = [[2.02220122, 0.31563495, 0.82797464, -0.30620401, 0.16003707,
        -1.44411381, 0.87616892, -0.50446586, 0.23009474, 0.76201118]]

yhat = model.predict(row)
print('Предсказание (Предикт): %.3f' % yhat[0])

Предсказание (Предикт): -82.040


# CatBoost
**CatBoost** – это библиотека градиентного бустинга, которую создали разработчики Яндекса.

Здесь используются “забывчивые” (oblivious) деревья решений, при помощи которых мы растим сбалансированное дерево. Одни и те же функции используются для создания разделений (split) на каждом уровне дерева.


Более того, главным преимуществом CatBoost (помимо улучшения скорости вычислений) является **поддержка категориальных входных переменных**. Из-за этого библиотека получила свое название CatBoost, от "Category Gradient Boosting" (Категориальный Градиентный Бустинг).

# CatBoost в задаче классификации:

### Libs:

In [41]:
from numpy import mean
from numpy import std

from matplotlib import pyplot

from sklearn.datasets import make_classification

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold

from catboost import CatBoostClassifier

### Oпределяем датасет

In [42]:
X, y = make_classification(
    n_samples=1000,
    n_features=10,
    n_informative=5,
    n_redundant=5,
    random_state=42)

### Oпределяем модель вместе с кросс-валидацией

In [43]:
model = CatBoostClassifier(
    verbose=100,
    n_estimators=100)

In [44]:
cv = RepeatedStratifiedKFold(
    n_splits=10,
    n_repeats=3,
    random_state=42)

In [45]:
n_scores = cross_val_score(model,
                           X,
                           y,
                           scoring='accuracy',
                           cv=cv,
                           n_jobs=-1,
                           error_score='raise')
print('Точность: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

Точность: 0.933 (0.021)


### Тренируем модель на всём наборе данных

In [46]:
model = CatBoostClassifier(verbose=0, n_estimators=100)

In [47]:
model.fit(X, y)

<catboost.core.CatBoostClassifier at 0x7f2dae7c9780>

### Предсказываем

In [48]:
row = [[2.56999479, -0.13019997, 3.16075093, -4.35936352, -1.61271951,
        -1.39352057, -2.48924933, -1.93094078, 3.26130366, 2.05692145]]

yhat = model.predict(row)
print('Предсказание (Предикт): %d' % yhat[0])

Предсказание (Предикт): 1


# CatBoost в задаче регрессии:

### Libs:

In [50]:
from numpy import mean
from numpy import std

from matplotlib import pyplot

from sklearn.datasets import make_regression

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedKFold

from catboost import CatBoostRegressor

### Oпределяем датасет

In [51]:
X, y = make_regression(n_samples=1000,
                       n_features=10,
                       n_informative=5,
                       random_state=42)

### Oпределяем модель вместе с кросс-валидацией. Метрика MAE

In [52]:
model = CatBoostRegressor(verbose=0, n_estimators=100)

In [53]:
cv = RepeatedKFold(n_splits=10,
                   n_repeats=3,
                   random_state=42)

In [54]:
n_scores = cross_val_score(model,
                           X,
                           y,
                           scoring='neg_mean_absolute_error',
                           cv=cv,
                           n_jobs=-1,
                           error_score='raise')

In [55]:
print('MAE (Средняя Абсолютная Ошибка): %.3f (%.3f)' % (mean(n_scores), std(n_scores)))

MAE (Средняя Абсолютная Ошибка): -5.415 (0.650)


### Тренируем модель на всём наборе данных

In [56]:
model = CatBoostRegressor(verbose=0, n_estimators=100)

In [57]:
model.fit(X, y)

<catboost.core.CatBoostRegressor at 0x7f2dae7cbaf0>

### Предсказываем

In [58]:
row = [[2.02220122, 0.31563495, 0.82797464, -0.30620401, 0.16003707,
        -1.44411381, 0.87616892, -0.50446586, 0.23009474, 0.76201118]]

yhat = model.predict(row)
print('Предсказание (Предикт): %.3f' % yhat[0])

Предсказание (Предикт): 38.018
