<br/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="left"/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="right"/>
<div align="center">
<h2>Bootcamp Data Science - Módulo 3</h2><br/>
<h1>Boosting</h1>
<br/><br/>
    <b>Instructor Principal:</b> Patricio Olivares polivares@codingdojo.la <br/>
    <b>Instructor Asistente:</b> Daniela Blanco dblanco@codingdojo.la<br/><br/>
    <b>Coding Dojo</b>
</div>
<br>
Fuente: "Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow"

# Boosting

- Al igual que Bagging, el **Boosting** se encuentra en la categoría de métodos de **aprendizaje ensamblado**.
- Bagging entrena un mismo modelo con **diferentes subsets de datos de entrenamiento**. (ej. Random Forest)
- Boosting son aquellos métodos enfocados en **combinar** múltiples modelos débiles en un único modelo más robusto.
- Otra diferencia radica en que bagging realiza entrenamientos de sus modelos en **paralelo**, mientras que boosting entrena sus modelos de manera **secuencial**

**Bagging**
<img src="images/bagging.png" alt="" width="500px"/>

**Boosting**
<img src="images/boosting.png" alt="" width="500px"/>

# AdaBoost (Adaptive Boosting)

- Cada predictor corrige al predictor antecesor poniendo mayor atención a las instancias mal clasificadas.
- AdaBoost incrementa el peso relativo de los datos de entrenamiento mal clasificados por el predictor anterior (mayor importancia).

In [None]:
# Pre processing
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

cancer_data = load_breast_cancer(as_frame=True) 

X = cancer_data.data
y = cancer_data.target

scaler = StandardScaler()
X = pd.DataFrame(scaler.fit_transform(X), columns=cancer_data.feature_names)


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.linear_model import LogisticRegression

adb = AdaBoostClassifier(LogisticRegression(), n_estimators=100, random_state=42)

adb.fit(X_train, y_train)
print('Test score:', adb.score(X_test, y_test))
print('Train score', adb.score(X_train, y_train))
print('Test Target:', y_test.values)
print('Test prediction', adb.predict(X_test))

# Gradient Boosting

- A diferencia de AdaBoost, Gradient Boosting permite que cada predictor se ajuste a los **errores residuales** del predictor anterior.
- Ojo: Si bien, teóricamente es posible usar otros modelos con Gradient Boosting, la biblioteca de Scikit-Learn solo permite ser utilizada con Árboles de Decisión como predictor base.

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier(n_estimators=100, random_state=42)
gb.fit(X_train, y_train)
print('Train score:', gb.score(X_train, y_train))
print('Test score:', gb.score(X_test, y_test))
print('Test Target:', y_test.values)
print('Test prediction', gb.predict(X_test))

# XGBoost vs LightGBM

- La popularidad de Gradient Boosting ha generado múltiples implementaciones dirigidas a optimizar el cálculo de entrenamiento.
- Dos implementaciones populares de Gradient Boosting en esta línea son **XGBoost** y **LightGBM**
- **XGBoost** (eXtreme Gradient Boosting) es un algoritmo de boosting para árboles de decisión que aplica **crecimiento por nivel** (level-wise growth), el cual prioriza el crecimiento **horizontal** de los árboles
- **LightGBM** (Light Gradient Boosting Machine) es un algoritmo de boosting para árboles de decisión que aplica **crecimiento por hojas** (leaf-wise tree growth), el cual prioriza el crecimiento **vertical** de los árboles.
- Tanto XGBoost como LightGBM tienen sus **propias bibliotecas**, por lo que es necesario instalarlas previo uso.

### Crecimiento por nivel vs crecimiento por hojas
<img src="images/lightgb_xgboostm.png" alt="" width="900px"/>
<br>
Fuente https://felipesulser.github.io/ashrae-kaggle/

In [None]:
%%time 
# Esta sentencia permite visualizar el tiempo de ejecución de una celda
# XGBoost (pip install xgboost)

from xgboost import XGBClassifier

xgb = XGBClassifier(n_estimators=100, random_state=42)
xgb.fit(X_train, y_train)
print('Train score:', xgb.score(X_train, y_train))
print('Test score:', xgb.score(X_test, y_test))
print('Test Target:', y_test.values)
print('Test prediction', xgb.predict(X_test))

In [None]:
%%time
# LightGBM (pip install lightgbm)

from lightgbm import LGBMClassifier

lgbm = LGBMClassifier(n_estimators=100, random_state=42)
lgbm.fit(X_train, y_train)
print('Train score:', lgbm.score(X_train, y_train))
print('Test score:', lgbm.score(X_test, y_test))
print('Test Target:', y_test.values)
print('Test prediction', lgbm.predict(X_test))

# Actividad 7

- Utilice nuevamente el dataset California Housing presente en los dataset de Scikit-Learn (enlace [aquí](https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset)) y utilice los algoritmos de boosting para regresión de datos. 
- Compare los resultados obtenidos para cada algoritmo utilizando distintas métricas

In [None]:
from IPython.core.display import HTML
HTML("""
<style>
.output_png {
    display: table-cell;
    text-align: center;
    vertical-align: middle;
}
</style>
""")
#codigo extra, para que imagenes de matplotlib
#estén centradas en las diapositivas, ejecutar antes de lanzar los ejemplos.