**XGBoost (eXtreme Gradient Boosting)**<a class="anchor" id="xgb"></a><br>
[Видео с разбором алгоритма](https://youtu.be/OtD8wVaFm6E)

<img src="images_extra/xgb_tree.png" width=550px>

<center><h4><i>Похожесть</i></h4></center><br>
$$Similarity = \frac{(\sum{Resideal_i})^2}{\sum{[Prev Proba_i * (1 - Prev Proba_i)]} + \lambda}$$

$Similarity_{10} =\frac{(-0.5 + 0.5 + 0.5 -0.5)^2}{[(0.5 * (1 - 0.5)) + (0.5 * (1 - 0.5)) + (0.5 * (1 - 0.5)) + (0.5 * (1 - 0.5))] + 0} = 0$<br>
$Similarity_{11} =\frac{(-0.5 + 0.5 + 0.5)^2}{[(0.5 * (1 - 0.5)) + (0.5 * (1 - 0.5)) + (0.5 * (1 - 0.5))] + 0} = 0.33$<br>
$Similarity_{21} =\frac{(-0.5)^2}{0.5 * (1 - 0.5) + 0} = 1$

<center><h4><i>Прирост</i></h4></center><br>
$$Gain = Left_{Similarity} + Right_{Similarity} - Root_{Similarity}$$

$Gain = 0.33 + 1 - 0 = 1.33$

<center><h4><i>Стрижка деревьев</i></h4></center><br>
$$Gain - \gamma \geqslant 0 \Rightarrow оставляем$$
$$Gain - \gamma < 0 \Rightarrow убираем$$

$\lambda$ - регуляризация
    - default=1
$\gamma$ - минимальный прирост, чтобы не убирать разделение
    - default=0
    - range: [0,∞]
$\eta$ - learning rate (скорость обучения)
    - default=0.3
    - range: [0,1]

In [7]:
from xgboost import XGBClassifier, XGBRegressor

XGBClassifier(max_depth=3,
              n_estimators=100,
              learning_rate=0.2,
              gamma=0.5,
              reg_alpha=3)

XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, gamma=0.5,
              learning_rate=0.2, max_delta_step=0, max_depth=3,
              min_child_weight=1, missing=None, n_estimators=100, n_jobs=1,
              nthread=None, objective='binary:logistic', random_state=0,
              reg_alpha=3, reg_lambda=1, scale_pos_weight=1, seed=None,
              silent=None, subsample=1, verbosity=1)

## **LightGBM**


[Оригинальная статья](https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf)

<img src="images_extra/wise_growth.png">

*Gradient-based One-Side Sampling (GOSS)*

GOSS сохраняет наблюдения с большим градиентом и случайно сэмплирует выборку из наблюдений с маленькими градиентами.<br>
Итого, выбирается a$*$100% наблюдений из топа с большими градиентами.<br>
Рандомно b$*$100% наблюдений из остальной.<br>

*Exclusive Feature Bundling (EFB)*

Разряжённые данные значат, что многие признаки никогда ненулевые вместе. Это позволяет совместить ("bundle") эти фичи в одну без потери информации.<br>
Пример, у фичи А диапазон значений (0, 10) и у B - (0, 20). Добавляется смещение 10 к значениям фичи B, теперь их диапазон (10, 30). После, можно соединять A и B и использовать "feature bundle" с диапазоном (0, 30), чтобы заменить оригинальные A и B.

In [2]:
from lightgbm import LGBMClassifier, LGBMRegressor

LGBMClassifier(max_depth=3,
               n_estimators=100,
               class_weight={0:1, 1:5},
               learning_rate=0.1,
               reg_alpha=0.5)

LGBMClassifier(boosting_type='gbdt', class_weight={0: 1, 1: 5},
               colsample_bytree=1.0, importance_type='split', learning_rate=0.1,
               max_depth=3, min_child_samples=20, min_child_weight=0.001,
               min_split_gain=0.0, n_estimators=100, n_jobs=-1, num_leaves=31,
               objective=None, random_state=None, reg_alpha=0.0, reg_lambda=0.0,
               silent=True, subsample=1.0, subsample_for_bin=200000,
               subsample_freq=0)

## **CatBoost**
[Выступление от разработчиков](https://www.youtube.com/watch?v=8o0e-r0B5xQ)

<img src="images_extra/catboost.png">

- Предотвращение переобучения
    - Обучается несколько модель за одну итерацию и высчитываются остатки по наблюдениям на тех моделях, которые не видели его.
    - Высокий уровень рандома (перемешивание выборки и много случайности в начале построения дерева)
  
- Работа с категориальными признаками

<img src="images_extra/catboost_category.png">

In [6]:
from catboost import CatBoostClassifier, CatBoostRegressor

CatBoostClassifier(silent=True,
                   class_weights=[1, 5],
                   n_estimators=100,
                   learning_rate=0.2,
                   depth=10,
                   l2_leaf_reg=0.5,
                   eval_metric='F1',
                   cat_features=['education', 'eye_color'],
                   early_stopping_rounds=20,
                   custom_metric=['Precision', 'Recall'])

<catboost.core.CatBoostClassifier at 0x7fa500841b70>