# Градиентный бустинг

>Градиентный бустинг — это семейство ансамблевых методов машинного обучения, которое строит модель путем последовательного обучения слабых моделей (обычно деревьев решений). Каждая следующая модель минимизирует ошибки (остатки) предыдущих моделей, постепенно улучшая качество предсказаний. Итоговое предсказание — это сумма предсказаний всех слабых моделей.

<center>
    <img alt="" height="479" name="image.png" src="https://ucarecdn.com/f3e99e78-c62d-49c5-bf88-6f267f00c486/" width="800">
</center>

## Алгоритм обучения градиентного бустинга - регрессора (слегка упрощенный).

##### 1. Инициализация модели:

    Начнём с того, что предскажем среднее значение целевой переменной $y$ для всех объектов. Это будет наш первый прогноз $F_0 (x)$.



##### 2. Расчёт ошибки (остатка):

- Для каждого объекта вычислим ошибку (остаток) на основе разницы между истинным значением $y$ и текущим прогнозом модели $F_m(x)$.
- Остаток $r_i=y_i−F_m(x_i)$, где $m$ — номер текущей итерации, а $i$ — индекс объекта.
- Заметим, что остаток $r_i=y_i−F_m(x_i)$ эквивалентен производной квадратичной функции потерь $L(y_i,F(x_i))=\frac{1}{2} (y_i−F(x_i))^2$ (мы добавили константу по двум причинам: просто потому, что можем и потому, что это приводит к красивому результату; это ничего не меняет). $\frac {\partial L}{\partial F(x_i)}=−(y_i−F(x_i))$. В будущем мы можем обозначать остаток через производную (градиент для многих строк).



##### 3. Обучение слабого ученика (дерева решений):

Построим маленькое дерево решений (обычно с небольшой глубиной, чтобы оно не переобучилось; к тому же нет необходимости в глубоких деревьях, тк все равно каждое следующее дерево улучшает результат предыдущего) для предсказания этих ошибок (остатков). Слабый ученик будет обучен на предсказание этих ошибок, чтобы улучшить текущую модель.



##### 4. Обновление прогноза:

Обновим текущий прогноз: новый прогноз $F_{m+1}(x)$ = текущий прогноз $F_m(x)$ + маленькая доля предсказаний нового дерева, умноженная на коэффициент скорости обучения $\eta$.
    $F_{m+1}(x)=F_m(x)+\eta \cdot T_m(x)$, где $T_m(x)$ — предсказания нового дерева.



##### 5. Повторение итераций:

Повторяем шаги 2-4 для каждой итерации (m). На каждой итерации добавляется новое дерево, и обновляется общий прогноз модели.
    Итерации продолжаются до тех пор, пока модель не станет достаточно точной или пока не будет достигнуто заданное количество итераций.



### Пример итераций:

- **Шаг 1**: Начальный прогноз — среднее значение целевой переменной.
- **Шаг 2**: Вычисляем ошибку для каждого объекта.
- **Шаг 3**: Обучаем слабое дерево на ошибках.
- **Шаг 4**: Обновляем текущий прогноз с учётом предсказаний нового дерева.


<center>
    <img alt="" height="297" name="image.png" src="https://ucarecdn.com/db442eda-7ead-44d7-99b1-ce3e97d0b429/" width="392">
</center>

В случае алгоритма классификации всё очень похоже за исключением того, что каждое следующее дерево корректирует значение вероятности (логитов) принадлежности объектов к определенному классу. Деревья решений в этом алгоритме не предсказывают классы напрямую, а вычисляют градиенты логистической функции потерь и корректируют предсказания вероятностей. Остатки (разности) в этом случае эквивалентны градиентам, и это позволяет модели на каждом шаге улучшать свои предсказания, делая их всё более точными.

Вместо того чтобы параллельно строить случайные независимые варианты дерева решений, GB - это последовательный метод, который направлен на улучшение производительности каждого последующего дерева. Это происходит за счет оценки эффективности слабых моделей и последующего повышения веса последующих моделей для смягчения результатов случаев, неправильно классифицированных в предыдущих раундах. Экземпляры, правильно классифицированные в предыдущем раунде, заменяются более высокой долей экземпляров, которые не были точно классифицированы.

Хотя это создает еще одну слабую модель, модификации, полученные от предыдущей модели, помогают новой модели учесть ошибки предыдущего дерева. Способность алгоритма учиться на своих ошибках делает градиентное усиление одним из самых популярных алгоритмов в машинном обучении на сегодняшний день.