Цель занятия — познакомиться с алгоритмом CatBoost, для которого характерна усовершенствованная обработка категориальных признаков. 

## Визуальная демонстрация алгоритма

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>CatBoost</b> — это алгоритм градиентного бустинга деревьев решений от компании «Яндекс». Он может обрабатывать большие объёмы данных и быстро обучается за счёт использования нескольких техник оптимизации, таких как категориальная обработка данных, симметричный случайный выбор (Symmetric Random Selection), использование градиентов второго порядка (Hessian).</div>

 <b>Одно из основных преимуществ CatBoost</b> — его способность автоматически обрабатывать категориальные признаки, не требуя их предобработки. Это может значительно ускорить процесс обучения модели.

В отличие от LightGBM, в CatBoost используется стратегия обучения по слоям (level-wise): на каждом уровне дерева одновременно выбираются все узлы для разделения, что позволяет более полно использовать информацию о данных. Это может способствовать повышению точности модели, но также может увеличить время обучения.

В CatBoost используется структура дерева <b>Oblivious Decision Tree</b> — алгоритм построения дерева решений, который относится к классу неведущих (oblivious) алгоритмов.

В отличие от обычных деревьев решений, которые могут использовать различные признаки на каждом уровне дерева, неведущие деревья используют только один и тот же признак на каждом уровне дерева. 

<img src='../static/img/module_6_9.png'>

 CatBoost поддерживает распределённое обучение на нескольких компьютерах, многоклассовую классификацию и регрессию.

<b>Общие шаги алгоритма CatBoost</b>:

1. Предобработка данных и подготовка набора признаков.
2. Обучение базовых моделей на первоначальном наборе данных.
3. Создание и обучение ансамбля базовых моделей с использованием градиентного бустинга.
4. Вычисление ошибки на каждой итерации градиентного бустинга и пересчёт весов моделей с учётом ошибки.
5. Применение ансамбля моделей на новых данных для решения задачи классификации или регрессии.


<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">CatBoost отличается от других алгоритмов градиентного бустинга тем, что он автоматически обрабатывает категориальные признаки и не требует их предварительного преобразования. </div>

## Подготовка данных для алгоритма

 Подготовка данных для алгоритма CatBoost может включать в себя <b>обработку пропущенных значений</b>: если в данных есть пропуски, заполните их средними, медианами или другими подходящими значениями. 

## Процесс обучения



 Процесс обучения CatBoost включает в себя следующие шаги:

1. Подготовка данных и определение набора признаков.
2. Определение гиперпараметров модели, таких как количество деревьев, глубина деревьев, скорость обучения и т. д.
3. Обучение базовых моделей на первоначальном наборе данных.
4. Создание ансамбля базовых моделей с использованием градиентного бустинга.
5. Оценка качества модели на проверочном наборе данных, чтобы определить оптимальное число итераций и избежать переобучения.
6. Применение обученной модели для решения задачи классификации или регрессии.

CatBoost также поддерживает автоматическое кодирование категориальных признаков, встроенную кросс-валидацию и техники борьбы с переобучением — регуляризацию и сокращение градиента. Кроме того, CatBoost позволяет использовать несколько процессоров и графические процессоры для ускорения обучения модели. 

 <b>Особенности обучения CatBoost:</b>

- <b>Обработка отсутствующих значений</b>. CatBoost обрабатывает отсутствующие значения с помощью специального токена, чтобы модель могла корректно обработать данные.
- <b>Регуляризация.</b> CatBoost применяет регуляризацию, чтобы контролировать сложность модели и избегать переобучения, а также использует методы сокращения данных и ограничения глубины деревьев.
- <b>Подбор гиперпараметров</b>. CatBoost позволяет настраивать множество гиперпараметров, таких как глубина дерева, скорость обучения, количество деревьев и др. Для нахождения оптимальных настроек модели можно использовать встроенные функции подбора гиперпараметров.
- <b>Параллельное обучение</b>. CatBoost может обучаться параллельно на многих ядрах процессора, что позволяет сократить время обучения моделей и ускорить процесс выбора оптимальных гиперпараметров.
- <b>Обработка категориальных признаков</b>. CatBoost имеет уникальный алгоритм для работы с категориальными признаками, который позволяет автоматически преобразовывать категориальные признаки в числовые значения, не требуя предобработки данных.



 <b>Важные параметры при обучении CatBoost:</b>

- learning_rate — скорость обучения, которая определяет, насколько сильно корректируются веса при обновлении модели на каждой итерации. Этот параметр влияет на скорость сходимости модели и на её способность к обобщению.
- depth — максимальная глубина дерева, которая определяет количество уровней дерева решений. Этот параметр влияет на способность модели к обобщению и на скорость обучения.
- l2_leaf_reg — коэффициент L2-регуляризации весов у листьев деревьев. Этот параметр влияет на скорость обучения и на способность модели к обобщению.
- min_data_in_leaf — минимальное количество образцов в листе дерева. Этот параметр влияет на устойчивость модели к шуму и на её способность к обобщению.
- max_bin — максимальное количество корзин для гистограммного метода построения деревьев. Этот параметр влияет на скорость обучения и на качество модели.
- subsample — доля выборки, используемая для обучения каждого дерева. Этот параметр влияет на способность модели к обобщению и на устойчивость к переобучению.
- random_strength — сила случайности, используемая при выборе случайных признаков для обучения каждого дерева. Этот параметр влияет на устойчивость к переобучению и на качество модели.
- bagging_temperature — температура распределения Больцмана, которая используется при выборе объектов для обучения каждого дерева. Этот параметр влияет на способность модели к обобщению и на устойчивость к переобучению.


## Оценка качества алгоритма

Для оценки качества алгоритма CatBoost часто используют следующие метрики:

1. Классификация

- <b>Accuracy:</b> $\frac{TP+TN}{TP+TN+FP+FN}$.

- <b>Precision:</b>$\frac{TP}{TP+FP}$

- <b>Recall:</b>$\frac{TP}{TP+FN}$

- <b>F1: </b> $2* \frac{precision*recall}{precision+recall}$

2. Регрессия

- MSE
- MAE

## Интерпретация признаков с помощью алгоритма

 CatBoost предлагает различные методы интерпретации признаков, которые помогают оценить важность признаков и их влияние на предсказания модели.

- Важность признаков. CatBoost предоставляет встроенную функцию, которая рассчитывает важность признаков на основе их использования в деревьях решений. Важность можно использовать для определения наиболее значимых признаков, влияющих на целевую переменную.
- SHAP-значения. CatBoost поддерживает расчёт SHAP-значений для интерпретации модели. SHAP-значения позволяют определить влияние каждого признака на предсказание модели и объяснить, почему модель даёт определённые предсказания. Это может быть полезным для понимания важности и влияния признаков.
- Визуализация деревьев. CatBoost позволяет визуализировать деревья решений, построенные в ходе обучения модели. Визуализация деревьев позволяет лучше понять, какие признаки используются в модели и как они влияют на предсказание.
- Предсказания на новых данных. При предсказаниях на новых данных в CatBoost можно оценить важность признаков. Если признаки не важны для предсказания на новых данных, их можно удалить из модели.

Эти методы интерпретации признаков помогают разобраться в модели и понять, какие признаки наиболее важны для её предсказаний. 

## Применение алгоритма

 CatBoost широко используется в различных областях для решения следующих задач:

 -   Реклама и маркетинг — прогнозирование кликов и конверсий, оптимизация рекламных кампаний, персонализация рекомендаций.
 -   Финансы — оценка кредитного скоринга, обнаружение мошеннических операций, прогнозирование рыночных трендов.
 -   Здравоохранение — диагностика заболеваний, прогнозирование рисков, анализ медицинских изображений.
 -   Интернет-магазины — рекомендательные системы, прогнозирование спроса, управление ассортиментом.
 -   Телекоммуникации — прогнозирование оттока клиентов, оптимизация сетей связи.
 -   Транспорт и логистика — оптимизация маршрутов, прогнозирование задержек, управление логистическими процессами.
 -   Энергетика — прогнозирование потребления энергии, оптимизация энергетических сетей.

CatBoost показывает хорошую производительность в задачах с большим числом категориальных признаков и может эффективно работать с разрежёнными данными. Его также можно применять в задачах обработки естественного языка, компьютерного зрения и в других областях, где требуется классификация и регрессия. 

## Плюсы и минусы алгоритма

 	😃 

- Обработка категориальных признаков. CatBoost автоматически обрабатывает категориальные признаки без необходимости их предобработки. Это упрощает процесс подготовки данных и позволяет моделировать задачи с большим количеством категориальных признаков.
- Устойчивость к переобучению. CatBoost включает в себя встроенные методы регуляризации, которые помогают предотвратить переобучение модели. Это делает его более устойчивым к шуму и выбросам в данных.
- Высокая точность и обобщающая способность. CatBoost показывает хорошие результаты на различных задачах и способен обобщать на новые данные. Он обладает высокой предсказательной точностью при правильной настройке гиперпараметров.
- Эффективное использование категориальных признаков. CatBoost использует специальный алгоритм для эффективной обработки категориальных признаков, что позволяет получать более точные предсказания.



😥

- Длительное время обучения. В некоторых случаях обучение CatBoost может требовать больше времени по сравнению с другими алгоритмами градиентного бустинга, особенно при большом количестве категориальных признаков.
- Требуется настройка гиперпараметров. У CatBoost есть множество гиперпараметров, которые необходимо настроить для достижения наилучшей производительности модели. Это может потребовать затрат времени и вычислительных ресурсов.
- Большое потребление памяти. Для обработки больших объёмов данных со множеством признаков CatBoost требует соответствующего объёма памяти, особенно при использовании GPU.



<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">В целом, CatBoost — это мощный алгоритм градиентного бустинга с хорошей поддержкой категориальных признаков. Однако для него необходимо настраивать гиперпараметры. Также он может потребовать больше вычислительных ресурсов. </div>

CatBoost реализован в библиотеке <a href="https://catboost.ai/en/docs/">CatBoost</a>. В ней для задач классификации существует класс CatBoostClassifier, а для задач регрессии — класс CatBoostRegressor.

Основные параметры классов CatBoostClassifier и CatBoostRegressor:

- loss_function — целевая функция, которую оптимизирует CatBoost.
    - Поддерживаемые целевые функции для задач классификации: Logloss, CrossEntropy, MultiClass, MultiClassOneVsAll, AUC, F1, Accuracy, PRAUC, Recall, Precision, BalancedAccuracy.
    - Поддерживаемые целевые функции для задач регрессии: MAE, MAPE, Poisson, Quantile, RMSE, SquaredLoss, Huber, LogLinQuantile.
- n_estimators — количество деревьев в градиентном бустинге. По умолчанию n_estimators=1000.
- learning_rate — шаг обучения, который контролирует вклад каждого дерева. По умолчанию learning_rate=0.03.
- max_depth — максимальная глубина каждого дерева. По умолчанию max_depth=6.
- num_leaves — максимальное количество листьев в каждом дереве. По умолчанию num_leaves=31.
- min_data_in_leaf — минимальное количество элементов, которые должны быть в листьях дерева. По умолчанию min_data_in_leaf=1.
- colsample_bylevel — количество признаков, которые должны быть рассмотрены при каждом разделении на каждом уровне дерева. По умолчанию colsample_bylevel=1.0.
- subsample — доля элементов, которые должны быть использованы при построении каждого дерева. По умолчанию subsample=1.0.
- random_seed — начальное значение для генератора случайных чисел. По умолчанию random_seed=None.


Классы CatBoostClassifier и CatBoostRegressor имеют методы:

- fit(X, y) — для обучения модели на данных X и y;
- predict(X) — для предсказания целевых значений для новых данных X;
- score(X, y) и get_params() — для получения оценки точности модели и параметров модели соответственно.


<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;">

Давайте резюмируем:

- CatBoost — это ещё один быстрый и эффективный алгоритм градиентного бустинга деревьев решений, который также использует уникальные техники построения деревьев и обработки данных. Он имеет ряд преимуществ перед другими алгоритмами, включая автоматическую обработку категориальных признаков, быструю скорость обучения и предсказания, а также поддержку распределённого обучения.
- CatBoost также обеспечивает автоматическую настройку гиперпараметров, что может улучшить качество модели.
- CatBoost можно использовать для задач классификации, регрессии и ранжирования.

</div>

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">В этом модуле мы познакомились с бустингом и с моделями, которые работают на его основе: AdaBoost, XGBoost, LightGBM и CatBoost.</div>

Теперь вы знаете:

-    как подготавливать данные для этих алгоритмов и обучать их;
-    оценивать качество полученных моделей;
-    интерпретировать признаки;
-    реализовывать эти алгоритмы в Python.

Кроме того, мы изучили преимущества и недостатки каждого из алгоритмов, сферы их применения и задачи, которые они могут решать.

Кратко обозначим основные моменты.

<b>Бустинг </b>— это метод машинного обучения, который позволяет улучшить качество прогнозов, создаваемых слабыми моделями машинного обучения. При использовании этого метода каждая последующая базовая модель фокусируется на примерах, которые были неправильно классифицированы предыдущими моделями, что позволяет создать сильную модель, которая даёт более точные прогнозы.

Существует два подхода к реализации бустинга: AdaBoost и градиентный бустинг. AdaBoost создаёт последовательность слабых взвешенных моделей машинного обучения и комбинирует их в единую сильную модель. Градиентный бустинг использует градиент, настраиваемый на остатки (разность между предсказаниями текущей модели и правильными ответами предыдущих моделей), чтобы определить, какие примеры данных неправильно классифицировали предыдущие модели, и насколько сильно эти примеры влияют на функцию потерь.

<b>XGBoost, LightGBM и CatBoost</b> — эффективные и мощные алгоритмы градиентного бустинга для задач классификации и регрессии. Они используют градиентный бустинг деревьев решений для улучшения качества модели путём последовательного добавления новых деревьев и корректировки ошибок предыдущих.

Основные преимущества:

-    XGBoost — высокая скорость обучения и предсказания, возможность работы с большими объёмами данных, устойчивость к переобучению и возможность интерпретации результатов;
-    LightGBM — меньшее время обучения, более высокая скорость предсказания и меньшее потребление памяти по сравнению с другими алгоритмами градиентного бустинга;
-    CatBoost — автоматическая обработка категориальных признаков, быстрая скорость обучения и предсказания, поддержка распределённого обучения.

Все три алгоритма предоставляют множество параметров, которые можно настраивать и тем самым влиять на качество модели. Алгоритмы можно использовать для задач классификации, регрессии и ранжирования. Однако выбор алгоритма зависит от конкретной задачи и требований к модели.