# Алгоритм Light Gradient Boosted Machine

В реализации этого алгоритма представлены две ключевые идеи: GOSS и EFB.
<div class = 'alert alert-box alert-success'>
    
> <b>Gradient-based One-Side Sampling, или сокращенно GOSS</b>, - это модификация метода градиентного бустинга, которая фокусирует внимание на тех обучающих примерах, которые приводят к большему градиенту, что, в свою очередь, ускоряет обучение и снижает вычислительную сложность метода. То бишь каждое следующее дерево обучается в первую очередь на тех экзмеплярах, на которых сильно ошиблось деревья предыдущие.
</div>

С помощью GOSS мы исключаем значительную часть примеров с малым градиентом, а оставшиеся используем только для оценки информационного выигрыша. Поскольку экземпляры данных с большими градиентами играют более важную роль в вычислении информационного выигрыша, GOSS может получить достаточно точную оценку информационного выигрыша при гораздо меньшем объеме данных.

<div class = 'alert alert-box alert-success'>
    
> <b>Exclusive Feature Bundling, или сокращенно EFB </b>, - это подход к объединению разреженных (в основном нулевых) взаимоисключающих признаков, таких как входы категориальных переменных, которые были закодированы в один момент времени. Как таковой, он представляет собой тип автоматического отбора признаков.
</div>

<i>Идея метода</i>:
EFB объединяет разреженные и взаимно исключающие признаки в один "связанный" признак, чтобы снизить количество признаков, обрабатываемых моделью. Это полезно в случае, если данные состоят в основном из нулевых значений (например, при one-hot кодировании категориальных переменных). Так как эти признаки являются взаимно исключающимися (в одном объекте только один из таких признаков может принимать ненулевое значение), их можно объединить в один признак, что существенно экономит ресурсы.

Пример:
Представьте категориальные данные с несколькими уникальными значениями, закодированные как one-hot. Это создаст множество бинарных признаков, которые будут в основном состоять из нулей, за исключением одного ненулевого значения для каждого примера. EFB объединяет эти признаки в один, сохраняя только ненулевые значения. В результате размерность данных уменьшается, что ускоряет обучение модели и снижает объем памяти, необходимой для хранения признаков.

Применение:
Алгоритм EFB работает, выявляя взаимно исключающие признаки и объединяя их. Он определяет, какие признаки никогда не будут одновременно ненулевыми для одного и того же примера, а затем объединяет их в новый признак, что снижает количество признаков, обрабатываемых моделью.

Вместе эти два изменения могут ускорить время обучения алгоритма до 20 раз. Таким образом, LightGBM можно считать градиентным бустинговым деревом решений (GBDT) с добавлением GOSS и EFB.

### Особенности LightGBM

#### 1. Алгоритм построения деревьев: **Leaf-wise** vs **Level-wise**

- LightGBM использует leaf-wise (<u>разделение по листьям</u>) построение деревьев, в то время как классический градиентный бустинг чаще всего применяет level-wise (<u>разделение по уровням</u>). В **leaf-wise** алгоритме на каждой итерации выбирается лист с наибольшей прибавкой к функции стоимости, что позволяет уменьшить ошибку быстрее и достичь лучшего качества. Однако этот подход может привести к переобучению на малых данных.<br>
- Классический бустинг (например, XGBoost) обычно использует **level-wise**, где дерево строится, добавляя новые уровни по всей ширине дерева одновременно. Это более сбалансированный метод, но он менее эффективен с точки зрения скорости и использования памяти.


### 2. Скорость и масштабируемость

LightGBM разработан для высокой производительности и может обрабатывать большие датасеты гораздо быстрее, чем традиционные реализации бустинга. Это достигается благодаря нескольким улучшениям:
- **Histogram-based алгоритм**: LightGBM использует гистограммы для оптимизации поиска лучшего разделения в дереве, что ускоряет обучение и снижает использование памяти.
- **Прореживание данных (Gradient-based One-Side Sampling, GOSS)**: этот метод позволяет отбирать данные с высоким градиентом для точного обучения и игнорировать менее значимые данные с малым градиентом, что также увеличивает скорость.


### Implementation

In [1]:
# Data
from sklearn.datasets import make_classification
X, y = make_classification(n_samples = 1000, n_features = 10, n_informative = 5, n_redundant = 5, random_state = 7)
print(X.shape, y.shape)

(1000, 10) (1000,)


In [2]:
# libraries
import pandas as pd
import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from lightgbm import LGBMClassifier

In [6]:
model = LGBMClassifier()

In [9]:
cv = RepeatedStratifiedKFold(n_splits = 5, n_repeats = 2, random_state = 1) # Don't work in jupyter, colab only

[LightGBM] [Info] Number of positive: 334, number of negative: 333
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.055295 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2225
[LightGBM] [Info] Number of data points in the train set: 667, number of used features: 10
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500750 -> initscore=0.002999
[LightGBM] [Info] Start training from score 0.002999
[LightGBM] [Info] Number of positive: 401, number of negative: 399
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.121903 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2550
[LightGBM] [Info] Number of data points in the train set: 800, number of used features: 10
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.501250 -> initscore=0.005000
[LightGBM] [Info] Start training from score 0.005000
[LightGBM] [Info] Number of 

In [8]:
n_scores = cross_val_score(model, X, y, scoring = 'accuracy', cv = cv, n_jobs=-1)

n_scores

[LightGBM] [Info] Number of positive: 334, number of negative: 333
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.080935 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2226
[LightGBM] [Info] Number of data points in the train set: 667, number of used features: 10
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500750 -> initscore=0.002999
[LightGBM] [Info] Start training from score 0.002999
[LightGBM] [Info] Number of positive: 334, number of negative: 333
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000173 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2228
[LightGBM] [Info] Number of data points in the train set: 667, number of used features: 10
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500750 -> initscore=0.002999
[LightGBM] [Info] Start training from score 0.002999


array([0.89 , 0.875, 0.935, 0.92 , 0.895, 0.905, 0.925, 0.885, 0.895,
       0.885])