Цель занятия — познакомиться с алгоритмом XGBoost, который решает проблему переобучения путём введения регуляризации и оптимизации функции потерь.

## Визуальная демонстрация алгоритма

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>XGBoost (eXtreme Gradient Boosting)</b> — это алгоритм машинного обучения, основанный на градиентном бустинге деревьев решений. Он был разработан в 2014 году и является одним из наиболее эффективных алгоритмов для задач классификации, регрессии и ранжирования.</div>

XGBoost обучает ансамбль деревьев решений последовательно, приближаясь к оптимальному прогнозу с каждой новой итерацией. На каждой итерации алгоритм добавляет новое дерево, которое предсказывает остатки предыдущих деревьев. Таким образом, каждое новое дерево корректирует ошибки предыдущих деревьев.

По умолчанию XGBoost строит деревья level-wise, то есть строит все узлы на одном уровне перед переходом к следующему уровню.

<img src='../static/img/module_6_7.png'>

Однако можно строить деревья по листьям (leaf-wise), когда каждый узел строится так, чтобы максимизировать уменьшение функции потерь. Это может способствовать более быстрому обучению и увеличению точности моделей, но в некоторых случаях может вызывать переобучение.

При выборе стратегии построения деревьев необходимо учитывать особенности конкретной задачи и набора данных.

<b>Основные компоненты алгоритма XGBoost:</b>

-    <b>Функция потерь </b>определяет, какой функционал оптимизируется в процессе обучения. В XGBoost используется функция потерь, которая состоит из двух частей: функции потерь для задачи (например, MSE для регрессии или логистическая функция потерь — для классификации) и штрафа за сложность модели (регуляризация).
-    <b>Деревья решений</b>. В качестве базовых алгоритмов используются решающие деревья. Каждое дерево строится на основе взвешенной версии обучающего набора данных, которая зависит от остатков предыдущих деревьев.
-   <b> Регуляризация.</b> XGBoost поддерживает несколько методов регуляризации, включая L1- и L2-регуляризацию, ограничение глубины деревьев, ограничение на число листьев, ограничение на минимальное количество выборок в листе и ограничение на максимальное количество признаков при поиске наилучшего разделения. Регуляризация помогает предотвратить переобучение модели и повысить её обобщающую способность.
- <b>    Градиентный спуск.</b> Для нахождения оптимальных весов модели XGBoost использует градиентный спуск. На каждой итерации градиентного спуска алгоритм вычисляет градиент функции потерь по отношению к весам модели и изменяет их с определённым шагом в направлении уменьшения функции ошибки.



## Подготовка данных для алгоритма

Шаги по предобработке наборов данных для использования с алгоритмом XGBoost:

-    <b>Обработка выбросов и пропущенных значений</b>. XGBoost может работать с данными, содержащими пропущенные значения и выбросы, но для достижения лучшей производительности рекомендуется предварительно обработать эти аномалии.
-    <b>Обработка категориальных признаков</b>. XGBoost поддерживает категориальные признаки, но их нужно предварительно закодировать в числовом формате. Существуют различные методы кодирования категориальных признаков, такие как One-Hot Encoding, Label Encoding, и выбор метода зависит от конкретной задачи.
 -   <b>Сбалансированность классов</b>. Если классы в наборе данных несбалансированные, может потребоваться сбалансировать данные. Например, можно использовать взвешивание классов или сэмплирование данных, чтобы уравнять количество примеров в каждом классе.
 -   <b>Отбор признаков</b>. XGBoost может работать с большим количеством признаков, но для предотвращения переобучения модели может быть полезно отбирать только наиболее важные из них. Это можно сделать с помощью методов отбора признаков, таких как Recursive Feature Elimination (RFE) или SelectKBest.


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Это не полный список способов, которыми можно обрабатывать данные для XGBoost, но мы привели наиболее распространённые методы. В целом, подготовка данных для использования с XGBoost зависит от конкретного набора данных и задачи машинного обучения.</div>

## Процесс обучения



Основная идея алгоритма XGBoost состоит в том, чтобы строить деревья решений последовательно, учитывая ошибки предыдущих деревьев, и объединять их в итоговую модель. Каждое новое дерево обучается на ошибках предыдущих деревьев, чтобы исправить эти ошибки и улучшить качество модели. Этот процесс продолжается до тех пор, пока не будет достигнута определённая степень точности или не будут исчерпаны все ресурсы.

<b>Основные шаги обучения алгоритма XGBoost:</b>

- <b>Инициализация модели</b>. Начальное значение целевой переменной устанавливается как среднее значение обучающей выборки.
- <b>Вычисление градиента и гессиана.</b> Для каждого объекта в обучающей выборке вычисляются градиент и гессиан целевой функции. Градиент представляет собой первую производную функции ошибки, а гессиан — вторую производную. Градиент ошибки — это вектор первых частных производных функции ошибки по каждому параметру модели. Гессиан — это матрица вторых частных производных функции ошибки по каждой паре параметров модели. Градиент и гессиан используют для обучения каждого нового дерева решений.
- <b>Обучение дерева</b>. Каждое новое дерево обучается на остатках (разнице между целевой переменной и предсказанным значением) предыдущих деревьев. Для этого используют метод градиентного бустинга, где дерево решений на каждой итерации обучается минимизировать целевую функцию, которую можно выбрать из различных вариантов в зависимости от задачи.
- <b>Вычисление весов деревьев</b>. Деревья решений имеют различные веса, которые определяют их важность в модели. Веса деревьев вычисляются на основе ошибок, которые они исправляют, и регуляризации, которая учитывает сложность модели.
- <b>Обновление целевой переменной</b>. Целевая переменная обновляется путём вычитания предсказанного значения из текущего значения, что позволяет модели сфокусироваться на ошибках, которые ещё не исправлены.
- <b>Повторение шагов.</b> Шаги 2–6 повторяются до тех пор, пока не будет достигнута заданная точность или не будет исчерпано максимальное количество итераций.


<b>Особенности обучения XGBoost:</b>

- <b>Обработка отсутствующих значений</b>. XGBoost поддерживает обработку отсутствующих значений, но лучше делать предобработку данных.
- <b>Регуляризация</b>. XGBoost использует регуляризацию для контроля сложности модели и во избежание переобучения.
- <b>Подбор гиперпараметров</b>. XGBoost позволяет настраивать различные гиперпараметры, такие как глубина дерева, скорость обучения и количество деревьев. Это позволяет найти оптимальные настройки модели для конкретной задачи.
- <b>Автоматический выбор признаков</b>. XGBoost оценивает важность признаков на основе их вклада в улучшение целевой функции и может автоматически выбирать наиболее важные из них для моделирования.


Важные параметры при обучении XGBoost:

- <b>learning_rate </b>— скорость обучения, которая определяет, насколько сильно корректируются веса при обновлении модели на каждой итерации. Выбор этого параметра влияет на скорость сходимости модели и её способность к обобщению.
- <b>max_depth</b> — максимальная глубина дерева, которая определяет количество уровней дерева решений. Выбор этого параметра влияет на способность модели к обобщению и на скорость обучения.
- <b>min_child_weight </b>— минимальная величина, которую должен иметь вес дочернего узла, чтобы продолжать делить узел. Выбор этого параметра влияет на устойчивость модели к шуму и на её способность к обобщению.
- <b>gamma</b> — минимальное снижение функции ошибки, которое необходимо достичь, чтобы продолжать делить узел. Выбор этого параметра влияет на устойчивость модели к шуму и на скорость обучения.
- <b>subsample</b> — доля выборки, используемая для обучения каждого дерева. Выбор этого параметра влияет на способность модели к обобщению и на устойчивость к переобучению.
- <b>colsample_bytree </b>— доля признаков, используемых для обучения каждого дерева. Выбор этого параметра влияет на способность модели к обобщению и на устойчивость к переобучению.
- <b>alpha</b> — коэффициент L1-регуляризации весов деревьев. Выбор этого параметра влияет на скорость обучения и на способность модели к обобщению.
- <b>lambda</b> — коэффициент L2-регуляризации весов деревьев. Выбор этого параметра влияет на скорость обучения и на способность модели к обобщению.
- <b>num_boosted_round</b> — количество итераций обучения. Выбор этого параметра влияет на скорость обучения и на способность модели к обобщению.


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Выбор оптимальных значений этих гиперпараметров может существенно повлиять на точность и обобщающую способность модели XGBoost.</div>

## Оценка качества алгоритма

Для оценки качества алгоритма XGBoost часто используют следующие метрики:

1. Классификация

- <b>Accuracy:</b> $\frac{TP+TN}{TP+TN+FP+FN}$.

- <b>Precision:</b>$\frac{TP}{TP+FP}$

- <b>Recall:</b>$\frac{TP}{TP+FN}$

- <b>F1: </b> $2* \frac{precision*recall}{precision+recall}$

2. Регрессия

- MSE
- MAE

## Интерпретация признаков с помощью алгоритма

В XGBoost есть несколько методов для интерпретации важности признаков. Они помогают понять, какие признаки вносят наибольший вклад в модель.

Рассмотрим несколько таких методов:

-    <b>Важность признаков на основе деревьев</b>. Этот метод основан на том, как деревья в модели XGBoost используют признаки для принятия решений. Для каждого признака суммируется значение важности, которое это свойство получает при разделении данных на каждом узле дерева. Чем выше суммарное значение важности, тем важнее признак.
-    <b>SHAP-значения</b>. SHAP (SHapley Additive exPlanations) — это метод, который предоставляет объяснение для каждого предсказания, показывая, какой вклад вносит каждый признак в конечный результат. Для распределения вклада между признаками метод использует теорию игр Шепли.
-    <b>Partial Dependence Plot (PDP).</b> PDP — это график, который показывает, как модель меняет свои прогнозы в зависимости от значений одного признака. При этом все остальные признаки не меняются. Это позволяет понять, какой эффект на прогноз оказывает каждый отдельный признак.
-    <b>Feature Interaction</b>. XGBoost также позволяет выявлять взаимодействия между признаками. Это может быть полезно, когда важность признаков взаимозависима и один признак вносит больший вклад только вместе с другими признаками.

Все эти методы помогают понять, какие признаки вносят наибольший вклад в модель XGBoost и как они взаимодействуют между собой.

## Применение алгоритма

XGBoost — это мощный алгоритм машинного обучения, который применяют во многих областях.

Примеры применения:

 -   Классификация — в медицине, финансах, при обработке естественного языка и т. д.
 -   Регрессия — в задачах прогнозирования цен на недвижимость, оценки риска финансовых инструментов и т. д.
 -   Ранжирование — для построения рекомендательных систем, ранжирования результатов поиска и т. д.
 -   Анализ данных — для поиска закономерностей и трендов в данных, а также для выявления аномалий и выбросов.
 -   Обработка изображений — для классификации изображений, определения объектов на изображении, обнаружения дефектов и т. д.
 -   Обработка звука — для классификации звуковых сигналов, распознавания речи, анализа звукового спектра и т. д.
 -   Промышленность — для оптимизации управления производственными линиями, логистики и т. д.

XGBoost широко применяют в различных областях, где требуется высокая точность и скорость работы алгоритма машинного обучения.

## Плюсы и минусы алгоритма

 	😃 

- Высокая производительность и масштабируемость на больших наборах данных.
- Превосходные результаты на различных задачах машинного обучения.
- Поддержка распределённых вычислений для обучения на кластерах.
- Реализация регуляризации для борьбы с переобучением.
- Возможность обработки разных типов данных (числовых, категориальных, текстовых и т. д.).
- Возможность обработки пропущенных значений.

😥

-    Большое количество гиперпараметров может быть сложным для настройки.
-    Не так хорошо работает на маленьких выборках данных.
-    Может потребоваться больше времени для обучения, чем для простых моделей машинного обучения, таких как линейные модели.

XGBoost реализован в библиотеке <a href="https://xgboost.readthedocs.io/en/stable/">xgboost</a>. Для задачи классификации в библиотеке существует классификаторXGBClassifier, а для задач регрессии — XGBRegressor.

Основные параметры этих моделей:

    n_estimators — количество деревьев в лесу. По умолчанию n_estimators=100.
    objective — функция потерь, которую требуется минимизировать при обучении модели. Поддерживаются различные функции потерь в зависимости от задачи (например, binary:logistic для бинарной классификации или reg:squarederror — для регрессии). По умолчанию objective=reg:squarederror.
    max_depth — максимальная глубина каждого дерева в лесу. По умолчанию max_depth=6.
    learning_rate — шаг обучения (также называемый темпом обучения). По умолчанию learning_rate=0.3.
    min_child_weight — минимальный вес, необходимый для разделения узла. По умолчанию min_child_weight=1.
    subsample — доля обучающих данных, которые используются для каждого дерева. По умолчанию subsample=1.
    colsample_bytree — доля признаков, которые используются для каждого дерева. По умолчанию colsample_bytree=1.
    reg_alpha — коэффициент L1-регуляризации. По умолчанию reg_alpha=0.
    reg_lambda — коэффициент L2-регуляризации. По умолчанию reg_lambda=1.

Классы XGBClassifier и XGBRegressor также имеют методы:

    fit(X, y) — для обучения модели на данных X и y;
    predict(X) — для предсказания целевых значений для новых данных X;
    score(X, y) и get_params() — для получения оценки точности модели и параметров модели соответственно.

Кроме того, класс XGBClassifier имеет метод predict_proba(X), который возвращает вероятности принадлежности каждому классу.


<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">
Давайте резюмируем:

-    XGBoost (Extreme Gradient Boosting) — это эффективный и мощный алгоритм машинного обучения, используемый для задач классификации и регрессии.
-    Основные преимущества XGBoost — высокая скорость обучения и предсказания, возможность работы с большими объёмами данных, устойчивость к переобучению и возможность интерпретации результатов.
-    В XGBoost используется ансамбль деревьев решений, которые объединяются с помощью градиентного бустинга. Этот метод позволяет улучшать качество модели, последовательно добавляя новые деревья и корректируя ошибки предыдущих.
-    XGBoost предлагает множество параметров для настройки модели, включая параметры дерева и параметры бустинга. Они позволяют контролировать глубину деревьев, скорость обучения, количество деревьев в ансамбле и другие факторы, влияющие на качество модели.
-    В целом, XGBoost является одним из наиболее эффективных и гибких инструментов машинного обучения, которые можно использовать для решения различных задач классификации и регрессии.
</div>
