### **XGBoost, LightGBM и CatBoost**

Среди существующих реализаций градиентного бустинга выделяются три наиболее эффективных и популярных алгоритма: XGBoost, LightGBM и CatBoost.

* Extreme Gradient Boosting ([XGBoost](https://xgboost.readthedocs.io/en/latest/), DMLC 2014 г.) — эффективный и гибкий алгоритм градиентного бустинга с поддержкой регуляризации и параллельного обучения, обеспечивающий высокую производительность и универсальность. Алгоритм требует предварительной обработки категориальных признаков (например, One-Hot кодирование).

* Light Gradient-Boosting Machine ([LightGBM](https://lightgbm.readthedocs.io/en/latest/), Microsoft 2016 г.) — алгоритм, который выделяется высокой скоростью обучения и масштабируемостью для больших объёмов данных и многомерных признаков. Алгоритм требует предварительной обработки категориальных признаков.


* Category Boosting ([CatBoost](https://catboost.ai/), Яндекс 2017 г.) — алгоритм, который специализируется на эффективной работе с категориальными признаками и обладает устойчивостью к переобучению благодаря симметричной структуре деревьев. Алгоритм не требует предварительной обработки категориальных признаков — реализована автоматическая обработка категориальных признаков.

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

estimator = GradientBoostingClassifier(random_state=RANDOM_STATE)
params = {
    'max_depth': range(1, 11),
    'n_estimators': range(50, 300),
    'learning_rate': np.linspace(0.05, 0.95, 100)
}

from xgboost import XGBClassifier

estimator = XGBClassifier(random_state=RANDOM_STATE)
params = {
    'max_depth': range(1, 11),
    'n_estimators': range(50, 300),
    'learning_rate': np.linspace(0.05, 0.95, 100)
}

from lightgbm import LGBMClassifier

estimator = LGBMClassifier(random_state=RANDOM_STATE, verbose=-1) # verbose=-1
params = {
    'max_depth': range(1, 11),
    'n_estimators': range(50, 300),
    'learning_rate': np.linspace(0.05, 0.95, 100)
}

from catboost import CatBoostClassifier

estimator = CatBoostClassifier(random_state=RANDOM_STATE, verbose=False, cat_features=empl_cat_feat)
params = {
    'max_depth': range(1, 11),
    'n_estimators': range(50, 300),
    'learning_rate': np.linspace(0.05, 0.95, 100)
}

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, IsolationForest

if_fraud = IsolationForest(n_estimators=500, random_state=RANDOM_STATE)

In [None]:
DecisionTreeClassifier(random_state=RANDOM_STATE)

params = {
    'max_depth': range(5, 15),
    'min_samples_split': range(2, 10),
    'min_samples_leaf': range(2, 10),
}

In [None]:
RandomForestClassifier(n_estimators=5, random_state=RANDOM_STATE)

params = {
    'n_estimators': range(5, 200),
    'min_samples_split': range(2, 10),
    'min_samples_leaf': range(2, 10),
}
n_iter = 50
scoring = 'roc_auc'
cv = 5

params = {
    'max_depth': range(1, 11),
    'n_estimators': range(50, 300)
}