Цель занятия — познакомиться с алгоритмом LightGBM, который использует стратегию построения деревьев по листьям, что приводит к более быстрому построению дерева.

## Визуальная демонстрация алгоритма

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>LightGBM</b> — это алгоритм градиентного бустинга деревьев решений, который разработан Microsoft и считается одним из наиболее быстрых и эффективных.</div>

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;"><b>Основные преимущества LightGBM</b> — его способность работать с большими объёмами данных и быстрая скорость обучения модели. Это достигается за счёт использования нескольких техник оптимизации: основанной на гистограммах обработки данных, локальной оценки градиента (GOSS) и сжатия данных (компактное представление данных).</div>

В отличие от других алгоритмов градиентного бустинга, в которых используется стратегия обучения по слоям (level-wise), в LightGBM используется стратегия обучения по листьям (leaf-wise):

<img src='../static/img/module_6_8.png'>

При построении дерева алгоритм на каждом шаге выбирает тот лист, который максимально уменьшает функцию потерь, и строит дочерние узлы от этого листа. Таким образом, в LightGBM каждое дерево может иметь разную глубину, что позволяет модели улавливать более сложные зависимости в данных. Также это позволяет LightGBM строить деревья с меньшим количеством узлов, что уменьшает сложность модели и ускоряет время обучения.

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Однако стратегия leaf-wise может привести к переобучению, особенно если выборка содержит выбросы или шумы. Поэтому в LightGBM реализован ряд механизмов для предотвращения переобучения — регуляризация и early stopping.</div>

Кроме того, LightGBM поддерживает распределённое обучение на нескольких компьютерах, многоклассовую классификацию и регрессию.

<b>Общие шаги алгоритма LightGBM:</b>

-    Построение гистограмм для свойств.
-    Обучение деревьев решений с использованием градиентного бустинга.
-    Пересчёт градиента и гессиана на каждой итерации для обновления весов деревьев.
-    Вычисление прогноза модели на новых данных.

LightGBM — это быстрый и эффективный алгоритм градиентного бустинга, который можно использовать для решения задач классификации и регрессии на больших объёмах данных.

## Подготовка данных для алгоритма

Подготовка данных для алгоритма LightGBM может включать в себя следующие шаги:

-    Обработка выбросов. Для достижения лучшей производительности рекомендуется предварительно обработать выбросы.
-    Обработка пропущенных значений. Если есть пропущенные значения, заполните их средними значениями, медианами или другими подходящими значениями.


## Процесс обучения

Процесс обучения LightGBM включает в себя следующие шаги:

1. Подготовка данных.
2. Подготовка параметров модели. У LightGBM есть множество гиперпараметров, которые можно настроить для достижения наилучшей производительности модели.
3. Создание деревьев. LightGBM использует алгоритм, основанный на градиентном бустинге деревьев решений. На каждой итерации модель добавляет новое дерево, которое пытается уменьшить остаточную ошибку предыдущей модели.
4. Прогнозирование. После построения модели можно использовать её для прогнозирования новых значений. LightGBM позволяет делать прогнозы как для задач классификации, так и для задач регрессии.
5. Тюнинг гиперпараметров. Как и в случае с другими моделями машинного обучения, можно провести тюнинг гиперпараметров для достижения наилучшей производительности модели. У LightGBM есть множество гиперпараметров, которые можно настроить для улучшения качества модели.
6. Повторение. Шаги 2–4 можно повторить несколько раз для достижения наилучшей производительности модели.

В результате обучения LightGBM получается ансамбль деревьев решений, которые были построены поэтапно с помощью градиентного бустинга. LightGBM работает быстро и обладает хорошей производительностью на больших наборах данных. Кроме того, LightGBM поддерживает параллельное выполнение и распределённое обучение.

<b>Особенности обучения LightGBM:</b>

1. Обработка отсутствующих значений. LightGBM поддерживает обработку отсутствующих значений в данных, но лучше делать их предобработку.
2. Регуляризация. LightGBM применяет регуляризацию для контроля сложности модели и во избежание переобучения, а также использует методы сокращения данных и ограничения глубины деревьев.
3. Подбор гиперпараметров. LightGBM позволяет настраивать множество гиперпараметров, таких как глубина дерева, скорость обучения, количество деревьев и др. Это позволяет найти оптимальные настройки модели для конкретной задачи.
4. Автоматический выбор признаков. LightGBM может автоматически выбирать наиболее важные признаки для моделирования. Это происходит путём оценки важности признаков на основе их вклада в улучшение целевой функции, но также можно использовать внешние алгоритмы выбора признаков.
5. Параллельное обучение. LightGBM может обучаться параллельно на многих ядрах процессора, что позволяет сократить время обучения моделей и ускорить процесс выбора оптимальных гиперпараметров.



Важные параметры при обучении LightGBM:

 -   learning_rate — скорость обучения, которая определяет, насколько сильно корректируются веса при обновлении модели на каждой итерации. Выбор этого параметра влияет на скорость сходимости модели и на её способность к обобщению.
-    max_depth — максимальная глубина дерева, которая определяет количество уровней дерева решений. Выбор этого параметра влияет на способность модели к обобщению и на скорость обучения.
-    min_child_samples — минимальное количество образцов, необходимых для создания нового узла. Выбор этого параметра влияет на устойчивость модели к шуму и на её способность к обобщению.
-    min_child_weight — минимальная величина веса дочернего узла, чтобы продолжать делить узел. Выбор этого параметра влияет на устойчивость модели к шуму и на её способность к обобщению.
-    subsample — доля выборки, используемая для обучения каждого дерева. Выбор этого параметра влияет на способность модели к обобщению и на устойчивость к переобучению.
-    colsample_bytree — доля признаков, используемых для обучения каждого дерева. Выбор этого параметра влияет на способность модели к обобщению и на устойчивость к переобучению.
-    reg_alpha — коэффициент L1-регуляризации весов деревьев. Выбор этого параметра влияет на скорость обучения и на способность модели к обобщению.
-    reg_lambda — коэффициент L2-регуляризации весов деревьев. Выбор этого параметра влияет на скорость обучения и на способность модели к обобщению.


## Оценка качества алгоритма

Для оценки качества алгоритма LightGBM часто используют следующие метрики:

1. Классификация

- <b>Accuracy:</b> $\frac{TP+TN}{TP+TN+FP+FN}$.

- <b>Precision:</b>$\frac{TP}{TP+FP}$

- <b>Recall:</b>$\frac{TP}{TP+FN}$

- <b>F1: </b> $2* \frac{precision*recall}{precision+recall}$

2. Регрессия

- MSE
- MAE

## Интерпретация признаков с помощью алгоритма

Чтобы интерпретировать признаки в LightGBM, можно использовать следующие методы:

-    Важность признаков. В LightGBM есть встроенная функция, которая рассчитывает важность признаков на основе их использования в деревьях решений. Важность можно использовать для определения наиболее значимых признаков, влияющих на целевую переменную.
-    SHAP-значения. SHAP (SHapley Additive exPlanations) — это метод интерпретации модели, который позволяет определить влияние каждого признака на её предсказание. LightGBM поддерживает SHAP-значения, которые можно рассчитать для каждого образца в данных. SHAP-значения можно использовать для объяснения причин, по которым модель даёт определённые предсказания.
-    Визуализация деревьев решений. LightGBM позволяет визуализировать деревья решений, созданные в ходе обучения модели. Благодаря визуализации деревьев легче понимать, какие признаки используются в модели и как они влияют на предсказание.
-    Предсказания на новых данных. LightGBM позволяет делать предсказания на новых данных. Если такие предсказания достаточно точны, можно использовать их для определения важности признаков. Если признаки не важны для предсказания на новых данных, их можно удалить из модели.


## Применение алгоритма

Основные области применения LightGBM включают в себя:

    Финансы — прогнозирование кредитных рисков, анализ финансовых рынков.
    Реклама — прогнозирование эффективности рекламы, оптимизация бюджета рекламных кампаний.
    Интернет-магазины — рекомендательные системы, прогнозирование продаж, сегментация аудитории.
    Обработка естественного языка — классификация текстов, анализ тональности, машинный перевод.
    Изображения и видео — распознавание объектов, классификация изображений, анализ видео.
    Промышленность — мониторинг и управление качеством продукции, прогнозирование отказов оборудования.
    Транспорт и логистика — прогнозирование спроса на перевозки, оптимизация маршрутов, анализ логистических данных.

В целом, LightGBM может быть полезным в любой области, где требуется классификация или регрессия на основе большого количества признаков и где есть достаточно данных для обучения модели. Он также может пригодиться для решения задач, связанных с обработкой естественного языка и изображений, и задач прогнозирования в различных отраслях.

## Плюсы и минусы алгоритма

 	😃 

- Высокая скорость обучения. LightGBM использует алгоритм градиентного бустинга, который позволяет быстро обучать модель на больших объёмах данных.
- Высокая точность предсказаний. LightGBM способен достичь высокой точности предсказаний, особенно при использовании большого количества деревьев.
- Эффективное использование памяти. LightGBM использует специальную структуру данных, которая позволяет эффективно использовать память и ускоряет обучение модели.
- Гибкость в настройке. В LightGBM можно настраивать множество гиперпараметров, что позволяет добиться наилучшей производительности модели.

😥

- Чувствительность к шуму и выбросам. LightGBM может быть чувствителен к шуму и выбросам в данных, что может приводить к переобучению.
- Неэффективность при большом количестве категориальных признаков со множеством уникальных значений. В этом случае может возникнуть проблема переобучения.
- Требуется подбор гиперпараметров. Для достижения наилучшей производительности модели необходимо подобрать оптимальные гиперпараметры.
- Неинтерпретируемость. LightGBM не обеспечивает полного понимания, как именно происходит принятие решения.

LightGBM реализован в библиотеке <a href="https://lightgbm.readthedocs.io/en/latest/">lightgbm</a>. В ней для задач классификации существует класс LGBMClassifier, а для задач регрессии — класс LGBMRegressor.

Основные параметры классов LGBMClassifier и LGBMRegressor:

-   objective — целевая функция, которую оптимизирует LightGBM.
    -    Поддерживаемые целевые функции для задач классификации: binary, multiclass, multiclassova, cross_entropy, cross_entropy_lambda, xentropy, xentlambda, lambdarank, rank_xendcg, rank_xendcg_5, rank_xendcg_10, rank_ndcg, rank_ndcg_5, rank_ndcg_10, regression, regression_l1, huber, fair, poisson, gamma, tweedie, quantile, mape, gamma_regression, tweedie_regression.
    -  Поддерживаемые целевые функции для задач регрессии: regression, regression_l1, huber, fair, poisson, quantile, mape, gamma, tweedie, gamma_regression, tweedie_regression.
- n_estimators — количество деревьев в градиентном бустинге. По умолчанию n_estimators=100.
- learning_rate — шаг обучения, который контролирует вклад каждого дерева. По умолчанию learning_rate=0.1.
- max_depth — максимальная глубина каждого дерева. По умолчанию max_depth=-1. Это означает, что деревья разрастаются до тех пор, пока не будет достигнуто минимальное количество элементов для разделения.
- num_leaves — максимальное количество листьев в каждом дереве. По умолчанию num_leaves=31.
- min_data_in_leaf — минимальное количество элементов, которые должны быть в листьях дерева. По умолчанию min_data_in_leaf=20.
- min_child_samples — минимальное количество элементов, необходимое для того, чтобы узел можно было разделить на два подузла. По умолчанию min_child_samples=20.
- feature_fraction — количество признаков, которые должны быть рассмотрены при каждом разделении. По умолчанию feature_fraction=1.0.
- bagging_fraction — доля элементов, которые должны быть использованы при построении каждого дерева. По умолчанию bagging_fraction=1.0.
- bagging_freq — частота использования случайных элементов для построения каждого дерева. По умолчанию bagging_freq=0.

Классы LGBMClassifier/LGBMRegressor имеют методы:

- fit(X, y) — для обучения модели на данных X и y;
- predict(X) — для предсказания целевых значений для новых данных X;
- score(X, y) и get_params() — для получения оценки точности модели и параметров модели соответственно.
