Atalov S.

Fundamentals of Machine Learning and Artificial Intelligence

# Gradient Boosted Trees

---

На прошлых занятиях мы научились соединять базовые алгоритмы в ансамбль с помощью бэггинга (и, в частности, строить из решающих деревьев случайные леса). Теперь мы рассмотрим другой способ объединять базовые алгоритмы в композицию – градиентный бустинг.

В ходе обучения случайного леса каждый базовый алгоритм строится независимо от остальных. Бустинг, в свою очередь, воплощает идею последовательного построения линейной комбинации алгоритмов. Каждый следующий алгоритм старается уменьшить ошибку текущего ансамбля.

Бустинг, использующий деревья решений в качестве базовых алгоритмов, называется градиентным бустингом над решающими деревьями, **Gradient Boosting on Decision Trees, GBDT**. Он отлично работает на выборках с «табличными» данными. Такой бустинг способен эффективно находить нелинейные зависимости в данных различной природы. Этим свойством обладают все алгоритмы, использующие деревья решений, однако именно GBDT обычно выигрывает в подавляющем большинстве задач. Благодаря этому он широко применяется во многих конкурсах по машинному обучению и задачах из индустрии (поисковом ранжировании, рекомендательных системах, таргетировании рекламы, предсказании погоды, пункта назначения такси и многих других).

Не так хорошо бустинг проявляет себя на однородных данных: текстах, изображениях, звуке, видео. В таких задачах нейросетевые подходы почти всегда демонстрируют лучшее качество.

Хотя деревья решений и являются традиционным выбором для объединения в ансамбли, никто не запрещает использовать и другие алгоритмы, например, линейные модели в качестве базовых (эта возможность реализована в пакете XGBoost). Стоит только понимать, что построенная композиция по сути окажется линейной комбинацией линейных моделей, то есть опять-таки линейной моделью. Это уменьшает возможности ансамбля эффективно определять нелинейные зависимости в данных. В рамках данного курса мы будем рассматривать только бустинг над решающими деревьями.

## Интуиция
Рассмотрим задачу регрессии с квадратичной функцией потерь:
$$
\mathcal{L}(y, x) = \frac{1}{2}\sum^{N}_{i=1}\left(y_i -  a(x_i)\right)^{2} \rightarrow \min
$$

Для решения будем строить композицию из $K$ базовых алгоритмов

$$
a(x) = a_K(x) = b_1(x) + b_2(x) + \dots +b_K(x)
$$

Если мы обучим единственное решающее дерево, то качество такой модели, скорее всего, будет низким. Однако о построенном дереве мы знаем, на каких объектах оно давало точные предсказания, а на каких ошибалось.

Попробуем использовать эту информацию и обучим еще одну модель. Допустим, что предсказание первой модели на объекте  $x_l$ на 10 больше, чем необходимо (т.е. $b_1(x_l) = y_l + 10$). Если бы мы могли обучить новую модель, которая на $x_l$ будет выдавать ответ , то сумма ответов этих двух моделей на объекте $x_l$ в точности совпала бы с истинным значением:

$$
b_1(x_l) + b_2(x_l) = (y_l + 10) + (-10) = y_l
$$


Другими словами, если вторая модель научится предсказывать разницу между реальным значением и ответом первой, то это позволит уменьшить ошибку композиции.

В реальности вторая модель тоже не сможет обучиться идеально, поэтому обучим третью, которая будет «компенсировать» неточности первых двух. Будем продолжать так, пока не построим композицию из $K$  алгоритмов.

<img src="https://yastatic.net/s3/ml-handbook/admin/5_1_848ce5004c.png" width=600>


Источник:
- https://education.yandex.ru/handbook/ml/article/gradientnyj-busting

## Practice

Try Gradient Boosting Classifier. Compare with Random Forest Classifier

In [None]:
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html

In [None]:
import pandas as pd

In [None]:
titanic_train = 'https://raw.githubusercontent.com/lobachevksy/teaching/main/titanic/train.csv'
df = pd.read_csv(titanic_train)
df.head()