# Supervised Learning with Light Gradient Boosting - Classification

Lo que pretendo es sentar las bases para un algoritmo ganador que valga para todo de tal manera que pueda centrar mas esfuerzos en:
- features engineering
- interpretability (SHAP)
- model evaluation (simple train-test is not enough)

El modelo escogido es Light Gradient Boosting por las siguientes razones:
- Gradient Boosting suele tener un **buen desempeño** en multiples tipos de problemas. En Kaggle el ranking de modelos ganadores es el siguiente: 1-Keras, 2-LightGBM, 3-GBoost.
- Al estar basado en arboles de decision:
    - **Es inmune a los missing values** por lo que no hay que preocuparse por su imputación (sólo tener en cuenta de NO admitir missing values en test si no los hay en el training).
    - **Simple categorical encoding**: Las variables categoricas pueden ser codificadas como ordinales. El one-hot-encoding no se suele sentar muy bien ante una elevada cardinalidad.
- La libreria lightgbm admite ademas features muy interesantes:
    - Pesado de label ante desbalanceo (no necesario under/over-fitting).
    - Posible seleccionar en multiples loss functions segun tipo de problema. Tb admite custom. 
    - Hiperparametros mas interesantes: num de arboles, learning rate. Los demas son para evitar el over-fitting de los propios arboles y los valores por defecto son suficientes. NOTA: no usar random-search para optimizacion de hiperparametros.
    - Admite Spark.
    - Monotone constrains.
- En el caso de que la mayoria de los features sean categoricos, puede ser usado CatBoost.

#### References:
- [GitHub - Light Gradient Boosting Machine](https://github.com/microsoft/LightGBM)
- [lightgbm - ReadDocs](https://lightgbm.readthedocs.io/en/latest/index.html)
- [MachineLearningMasgtery - Gradient Boosting with Scikit-Learn, XGBoost, LightGBM, and CatBoost
](https://machinelearningmastery.com/gradient-boosting-with-scikit-learn-xgboost-lightgbm-and-catboost/)
- [Paper - LightGBM: A Highly Efficient Gradient Boosting Decision Tree](https://papers.nips.cc/paper/2017/hash/6449f44a102fde848669bdd9eb6b76fa-Abstract.html) 

In [7]:
%pip freeze > requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [1]:
# check lightgbm version
import lightgbm
print(lightgbm.__version__)

3.2.1


### Test LightGBM Sklearn API (example by MachineLearningMastery)

In [8]:
# lightgbm for classification
from numpy import mean
from numpy import std
from sklearn.datasets import make_classification
from lightgbm import LGBMClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from matplotlib import pyplot
# define dataset
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=5, random_state=1)
# evaluate the model
model = LGBMClassifier()
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
n_scores = cross_val_score(model, X, y, scoring='f1', cv=cv, n_jobs=-1, error_score='raise')
print('F1: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))
# fit the model on the whole dataset
clf = LGBMClassifier()
clf.fit(X, y)
# make a single prediction
row = [[2.56999479, -0.13019997, 3.16075093, -4.35936352, -1.61271951, -1.39352057, -2.48924933, -1.93094078, 3.26130366, 2.05692145]]
yhat = clf.predict(row)
print('Prediction: %d' % yhat[0])

F1: 0.934 (0.022)
Prediction: 1
