Бустинг это ансамбль алгоритмов предназначенный для поиска наиболее выгодного решения задачи.

Суть Бустинга, равно как и других ансамблей алгоритмов, состоит в том, чтобы из нескольких слабых моделей собрать одну сильную. Общая идея алгоритмов Бустинга - последовательно применять предикторы так, чтобы каждая последующая модель минимизировала ошибку предыдущей.

Общий процес описания работы бустинговый алгоритмов можно свести к следующему. Веса ошибочно сработанных моделей увеличиваются, и в следущем проходе алгоритм больше внимания уделяет уже конкретной области.

Такая техника последовательного обучения напоминает градиентный спуск, только вместо изменения параметров одного предиктора для минимизации функции потерь AdaBoost добавляет модели в ансамбль, постепенно улучшая его. Большим недостатком этого алгоритма можно считать то, что его нельзя распараллелить, поскольку каждый из предикторов может быть обучен лишь только после окончания обучения предыдущего.


AdaBoost работает по следующей схеме:
1. Изначально всем точкам присвоены равные веса
2. Модель строится на подвыборке данных.
3. По этой модели получаются предсказания для всех данных.
4. По предсказаниям и истинным значениям вычисляются ошибки.
5. В построении следующей модели наибольшие веса присваиваются точкам данных, на предсказании которых алгоритм ошибся.
6. Веса могут быть определены по величине ошибки. А именно, чем больше ошибка, тем больше вес.
7. Этот процесс повторяется, пока функция ошибки не перестанет меняться или пока не будет достигнуто максимальное число предикторов.

Гиперпараметры:

base_estimator : определяет базовый алгоритм.
n_estimator : определяет количество базовых алгоритмов; по умолчанию - 10, но для улучшения реализации их можно увеличить.
learning_rate : коэффициент скорости обучения - параметр, отвечающий за то, насколько изменяются веса.
max_depth : максимальная глубина каждой модели.
n_jobs : параметр, показывающий, сколько ядер процессора можно использовать для процесса обучения. “-1” значит, что ограничения нет.
random_state : делает ответ модели повторимым. Модель всегда будет давать один и тот же ответ на одних и тех же данных и параметрах при совпадении значения этого параметра.

Градиентный Бустинг
Другой  очень популярный бустинговый алгоритм, принцип работы которого очень похож на рассмотренный только что AdaBoost. Градиентный Бустинг работает последовательно добавляя к прошлым моделям новые так, чтобы исправлялись ошибки, допущенные предыдущими предикторами.
Градиентный Бустинг отличается от Адаптивного тем, что, в отличие от AdaBoost, изменяющего веса при каждой итерации, Градиентный пытается обучать новые модели по остаточной ошибке прошлых (двигаясь к минимуму функции потерь).
Для лучшего понимания этого алгоритма важно разобраться в работе градиентного спуска.


Приведем шаги реализации Градиентного Бустинга:
1. Модель строится по подборке данных.
2. Эта модель делает предсказания для всего набора данных.
3. По предсказаниям и истинным значениям вычисляются ошибки.
4. Новая модель строится с учетом ошибок как целевых переменных. При этом мы стремимся найти лучшее разделение для минимизации ошибки.
5. Предсказания, сделанные с помощью этой новой модели, сочетаются с предсказаниями предыдущих.
6. Снова вычисляются ошибки с использованием этих предсказанных значений и истинных значений.
7. Этот процесс повторяется, пока функция ошибки не перестанет меняться или пока не будет достигнуто максимальное число предикторов.

Гиперпараметры:

min_samples_split : минимальное число точек, необходимое для разделение. Полезно, чтобы избегать переобучение.
min_samples_leaf : минимальное количество элементов в листе или узле дерева. Меньшие значения следует выбирать для несбалансированных выборок.
min_weight_fraction_leaf : похож на предыдущий, только вместо количества задает долю от общего числа элементов.
max_depth : максимальная глубина дерева. Используется для борьбы с переобучением.
max_lead_nodes : Максимальное число конечных листьев у дерева. Если задан этот гиперпараметр, то предыдущий игнорируется.
max_features : количество признаков, учитываемых алгоритмом при поиске лучше разделения.

XGBoost
Экстремальный Градиентный Бустинг (XGBoost - Extreme Gradient Boosting) - это продвинутая реализация Градиентного Бустинга. Этот алгоритм обладает высокой предсказательной способностью и в десять раз быстрее любых других методов градиентного бустинга. Кроме того, включает в себя различные регуляризации, что уменьшает переобучение и улучшает общую производительность.

Преимущества
1. Осуществляет регуляризацию, что помогает бороться с переобучением.
2. Возможно распараллеливание, что делает его намного быстрее Градиентного Бустинга.
3. Позволяет пользователю определить собственные цели оптимизации и критерии оценки, добавляя измерения в модель.
4. Имеет встроенную подпрограмму для обработки пропущенных значений.
5. Находит разделения до заданной максимальной глубины, а затем начинает обрезать дерево и удалять разделения, после которых нет положительных выводов.
6. Позволяет производить кросс-валидацию на каждой итерации бустинга и следовательно облегчает вычисление оптимального числа итераций бустинга.

Light GB
Для особенно больших наборов данных Легкий Градиентный Бустинг лучше остальных, так как требует меньше времени.


Каждое дерево должно уменьшать ошибку (компенсировать ошибку предыдущего шага). 
Для этого вводятся 2 связанных параметра: n_estimators и learning_rate.
Чем меньше learning_rate (шаг отрицательного прироста ошибки), тем больше n_estimators (небольших деревьев) нужно.
У деревьев задается небольшая высота, обычно 2 - 8.
An = An-1 + learning_rate * Bb

Ошибка = (предсказанный ответ - реальный ответ)**2
Направление ошибки (производная) = 2 * (предсказанный ответ - реальный ответ)
Если классификация 0 или 1, то лучше использовать сигмойдальную активационную функцию.
Описание активационных функций и градиентного спуска для уменьшения ошибки описано тут: Введение в нейронные сети

Преимущество перед random forest - что обучение направленное (не случайное), и хороший результат может быть 
достигнут на меньшем числе деревьев

In [1]:
# Подргужаем библиотеки

import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
import xgboost


from sklearn.metrics import accuracy_score


In [2]:

# Подружаем изначальный набора данных
data = pd.read_csv(r'C:\Тест\Python_Обучение\data\titanic.csv')

# Выбираем обучающий набор, удаляя не нужные столбцы
x = data.drop(["PassengerId", "Survived", "Name", "Ticket", "Cabin"], axis=1)

#преобразуем строковые значения в числовые. Для проведения дальльнейшего анализа.
x = pd.get_dummies(x)

# Все пропуски в обучаеющем наборе заполним медианным значением
x = x.fillna({'Age': x.Age.median()})

# Целевой набор. В данном случае остался ли жив человек.
y = data.Survived

In [3]:



# Разбиваем на тестовые и тренировочные признаки и ответы в соотношении 67 к 33.
# random_state - задает зерно случайности при выборке строк. 
# Если его не задать, то при каждом запуске в тест и train будут попадать разные строки.
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state = 42)




In [4]:
# Градиентный бустинг

parameters = {'n_estimators': [10, 15, 20, 30], 
              'learning_rate': [0.1,0.5,1], 
              'max_depth': [3,5,7,10],
              'min_samples_split': [2,5,7,10,15,20], 
              'min_samples_leaf': [1,2,5,7,10]
             }
GB = GradientBoostingClassifier()
grid_search_cv_clf = GridSearchCV(GB,
                                  parameters,
                                  cv=5,
                                  n_jobs=-1
                                 )

grid_search_cv_clf.fit(X_train, y_train)
best_clf = grid_search_cv_clf.best_estimator_
grid_search_cv_clf.best_params_ 


{'learning_rate': 0.1,
 'max_depth': 3,
 'min_samples_leaf': 10,
 'min_samples_split': 2,
 'n_estimators': 10}

In [5]:
# Точность для Градиентного бустинга составит при этом:
accuracy = best_clf.score(X_test, y_test) 
print("Accuracy: %.2f%%" % (accuracy * 100.0))

Accuracy: 78.85%


In [6]:
# АдаБуст

# Зададим модель на "минималках"
AB = AdaBoostClassifier()


AB.fit(X_train, y_train)


best_clf = grid_search_cv_clf.best_estimator_
grid_search_cv_clf.best_params_ 
grid_search_cv_clf.best_params_


{'learning_rate': 0.1,
 'max_depth': 3,
 'min_samples_leaf': 10,
 'min_samples_split': 2,
 'n_estimators': 10}

In [7]:
# Точность для алгоритма АдаБуст на "минималках" составит при этом:
accuracy = AB.score(X_test, y_test) 
print("Accuracy: %.2f%%" % (accuracy * 100.0))

Accuracy: 69.23%


Не очень презентабельная точность. Не так ли? Давайте попробуем совсем немного улучшить модель.

In [8]:
# АдаБуст с улучшеним

# Зададим модель с улучшением:
AB = AdaBoostClassifier(algorithm='SAMME')

AB.fit(X_train, y_train)


best_clf = grid_search_cv_clf.best_estimator_
grid_search_cv_clf.best_params_ 
grid_search_cv_clf.best_params_


{'learning_rate': 0.1,
 'max_depth': 3,
 'min_samples_leaf': 10,
 'min_samples_split': 2,
 'n_estimators': 10}

In [9]:
# Точность для алгоритма АдаБуст на "минималках" составит при этом:
accuracy = AB.score(X_test, y_test) 
print("Accuracy: %.2f%%" % (accuracy * 100.0))

Accuracy: 76.92%


Получается более интересный показатель.

In [10]:
# XGboost

# Создаем модель, для тестового примера параметры задавать не будем
xgb = xgboost.XGBClassifier()

xgb.fit(X_train, y_train)



XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, gamma=0, gpu_id=-1,
              importance_type='gain', interaction_constraints='',
              learning_rate=0.300000012, max_delta_step=0, max_depth=6,
              min_child_weight=1, missing=nan, monotone_constraints='()',
              n_estimators=100, n_jobs=0, num_parallel_tree=1, random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
              tree_method='exact', validate_parameters=1, verbosity=None)

In [11]:
# Оценим точность модели

# Сделаем прогноз на тестовой выборке:
y_pred = xgb.predict(X_test)
predictions = [round(value) for value in y_pred]

# Расчитаем точность:
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: %.2f%%" % (accuracy * 100.0))

Accuracy: 76.92%
