# <font color=#003d5c>Boosting</font>
**Boosting** es una técnica de ensamblado donde los predictores no se construyen de forma independiente, sino de forma **secuencial**.

Esta técnica emplea la lógica donde **los predictores posteriores aprenden de los errores de los predictores previos**. Por lo tanto, las observaciones tienen una probabilidad desigual de aparecer en los modelos posteriores y las que tienen el error más alto aparecen más. (Por lo tanto, **las observaciones no se eligen según el proceso de arranque, sino según el error**).

<img src="images/boosting.png" width="600">

Los predictores se pueden elegir de una gama de modelos como árboles de decisión. Debido a que los nuevos predictores están aprendiendo de los errores cometidos por los predictores previos, se requieren menos tiempo o iteraciones para alcanzar las predicciones reales. 

Sin embargo tenemos que elegir cuidadosamente los criterios de detención o podríamos obtener un ajuste excesivo en los datos de entrenamiento (u overfitting). **Gradient Boosting** es un ejemplo de algoritmo del tipo Boosting.

## <font color=#003d5c>Intuición sobre los modelos Boosting</font>

Comenzaremos con un ejemplo simple. Queremos predecir la edad de una persona en función de si juegan videojuegos, disfrutan de la jardinería y si prefieren vestir sombreros. Nuestro objetivo es minimizar el error cuadrático. Tenemos estos nueve registros de entrenamiento para construir nuestro modelo.

In [None]:
import pandas as pd

In [None]:
df_base = pd.read_csv("data/boosting_dataset.csv")
df_base

In [None]:
predictores_base = ["LikesGardening", "PlaysVideoGames", "LikesHats"]
for col in predictores_base:
    df_base[col] = df_base[col].map({True: 1, False: 0})

In [None]:
df_base.head()

Intuitivamente, podríamos esperar que:
- Las personas a las que les gustan la jardinería son probablemente mayores.
- Las personas a las que les gustan los videojuegos son probablemente más jóvenes.
- La preferencia de usar sombrero es probablemente solo ruido aleatorio.

Podemos hacer una inspección rápida y profunda de los datos para verificar estas suposiciones:

|Variable|Falso|Verdadero|
|--------|-|-|
|LikesGardening|{13, 14, 15, 35}|{25, 49, 68, 71, 73}|
|PlaysVideoGames|{49, 71, 73}|{13, 14, 15, 25, 35, 68}|
|LikesHats|{14, 15, 49, 71}|{13, 25, 35, 68, 73}|

Ahora modelemos los datos con un árbol de regresión. Para comenzar, necesitaremos que los nodos terminales tengan al menos tres instancias. Con esto en mente, el árbol de regresión hará su primera y última división en LikesGardening.

In [None]:
from sklearn.tree import DecisionTreeRegressor

In [None]:
dtree = DecisionTreeRegressor(min_samples_leaf=3)
dtree.fit(df_base[predictores_base], df_base["Age"])

In [None]:
#!pip install graphviz

In [None]:
"""
from graphviz import Source
from sklearn.tree import export_graphviz
from IPython.display import SVG
"""

In [None]:
"""
graph = Source(export_graphviz(dtree, out_file=None, feature_names=predictores_base, filled=True))
SVG(graph.pipe(format='svg'))
"""

<img src="images/blog_gb_tree1_3.png" width="400">

Esto es bueno, pero le falta información valiosa de la característica LikesVideoGames. Intentemos dejar que los nodos terminales tengan 2 muestras.

In [None]:
dtree2 = DecisionTreeRegressor(min_samples_leaf=2)
dtree2.fit(df_base[predictores_base], df_base["Age"])

In [None]:
"""
graph = Source(export_graphviz(dtree2, out_file=None, feature_names=predictores_base, filled=True))
SVG(graph.pipe(format='svg'))
"""

<img src="images/gb_tree1B_4.png" width="800">

Esta vez utilizamos información de PlaysVideoGames, pero también recogemos información de LikesHats, una buena indicación de que estamos sobreajustados y de que nuestro árbol está dividiendo el ruido aleatorio.

Supongamos que medimos los errores de entrenamiento de nuestro primer árbol.

In [None]:
df_base

In [None]:
df_base["Tree1_Prediction"] = dtree.predict(df_base[predictores_base])
df_base["Tree1_Residual"] = df_base.apply(lambda row: row["Age"] - row["Tree1_Prediction"], axis=1)

In [None]:
df_base

Ahora podemos construir un segundo árbol de regresión en base a los residuos del primer árbol.

In [None]:
# ajustamos con el primer arbol que NO consideraba la division por LikesHats
dtree2 = DecisionTreeRegressor(min_samples_leaf=3)
dtree2.fit(df_base[predictores_base], df_base["Tree1_Residual"])

In [None]:
"""
graph = Source(export_graphviz(dtree2, out_file=None, feature_names=predictores_base, filled=True))
SVG(graph.pipe(format='svg'))
""""

<img src="images/blog_gb_tree2_3.png" width="400">

Tenga en cuenta que este árbol no incluye LikesHats, aunque nuestro árbol de regresión sobreajustado sí lo hizo. La razón es porque este árbol de regresión puede considerar LikesHats y PlaysVideoGames con respecto a todas las instancias de entrenamiento, contrariamente a nuestro árbol de regresión sobreajustado que solo consideró cada característica dentro de una pequeña región del espacio de entrada, permitiendo ruido aleatorio para seleccionar LikesHats como una característica de división.

Ahora podemos mejorar las predicciones de nuestro primer árbol agregando las predicciones de "corrección de errores" de este árbol.

In [None]:
df_base

In [None]:
df_base["Tree2_Residual_Prediction"] = dtree2.predict(df_base[predictores_base])

In [None]:
#del df_base["Tree2_Prediction"]
df_base

In [None]:
df_base["Combined_Prediction"] = df_base.apply(lambda row: row["Tree1_Prediction"] + row["Tree2_Residual_Prediction"], axis=1)

In [None]:
df_base

In [None]:
df_base["Final_Residual"] = df_base.apply(lambda row: row["Age"] - row["Combined_Prediction"], axis=1)

In [None]:
df_base

In [None]:
print("Tree1 SSE: {0}".format(int(df_base["Tree1_Residual"].apply(lambda x: x**2).sum())))
print("Tree Combined 1 SSE: {0}".format(int(df_base["Final_Residual"].apply(lambda x: x**2).sum())))

In [None]:
dtree3 = DecisionTreeRegressor(min_samples_leaf=3)
dtree3.fit(df_base[predictores_base], df_base["Final_Residual"])

In [None]:
"""
graph = Source(export_graphviz(dtree3, out_file=None, feature_names=predictores_base, filled=True))
SVG(graph.pipe(format='svg'))
"""

In [None]:
df_base["Tree3_Prediction"] = dtree3.predict(df_base[predictores_base])
df_base["Combined_2_Prediction"] = df_base.apply(lambda row: row["Combined_Prediction"] + row["Tree3_Prediction"], axis=1)
df_base["Final_2_Residual"] = df_base.apply(lambda row: row["Age"] - row["Combined_2_Prediction"], axis=1)

In [None]:
df_base

In [None]:
print("Tree Combined 2 SSE: {0}".format(int(df_base["Final_2_Residual"].apply(lambda x: x**2).sum())))

#### Primera Intuición

Inspirados por la idea anterior, creamos nuestra primera intuición sobre el Gradient Boosting. En pseudocódigo:

- Entrenar un modelo en base a los datos: F_1(x) = y
- Entrenar un modelo en base a los residuos: h_1(x) = y - F_1(x)
- Crear un nuevo modelo: F_2(x) = F_1(x) + h_1(x)

No es difícil ver cómo podemos generalizar esta idea insertando más modelos que corrijan los errores del modelo anterior.
Es decir:

$$ F(x) = F_{1}(x) \rightarrow F_{2}(x) = F_{1}(x) + h_{1}(x) ... \rightarrow F_{M}(x) = F_{M-1}(x) + h_{M-1}(x)$$

donde F_1(x) es el modelo inicial ajustado a **y**

Dado que inicializamos todo el procedimiento ajustando F_1 (x), nuestra tarea en cada paso es encontrar:
$$h_{m}(x) = y - F_{m} (x)$$

Pausemos un poco y notemos que h_m es sólo un modelo. No necesariamente tiene que ser un modelo basado en árbol. Este es una de las grandes ventajas del gradient boosting debido a que realmente es solo un marco para mejorar iterativamente cualquier weak model. En la práctica, sin embargo, h_m es casi siempre un modelo basado en árboles, por lo que está bien interpretar h_m como un árbol de regresión como el de nuestro ejemplo.

#### Segunda Intuición

Ahora modificaremos nuestro modelo para que se ajuste a la mayoría de las implementaciones de Gradient Boosting: inicializaremos el modelo con un único valor de predicción. Dado que nuestra tarea (por ahora) es minimizar el error cuadrático, inicializaremos **F** con la media de los valores Target de entrenamiento.

$$F_{0}(x) = \dfrac{1}{n}\sum_{i=1}^{n}y_{i}$$

Entonces podemos definir cada F_m subsiguiente recursivamente, como antes:

$$F_{m+1}(x) = F_{m}(x) + h_{m}(x) = y, m\geq0$$

donde h_m proviene de una clase de modelos bases **H** (por ejemplo, árboles de regresión).

En este punto, es posible que nos preguntemos cómo seleccionar el mejor valor para el hiperparámetro m del modelo. En otras palabras, ¿cuántas veces debemos iterar el procedimiento de corrección residual hasta que decidamos un modelo final, F? Esto se responde mejor al probar diferentes valores de m mediante validación cruzada.

#### Tercera Intuición
Hasta ahora hemos estado construyendo un modelo que minimiza el error cuadrático, pero ¿qué pasaría si quisiéramos minimizar el error absoluto?
Podríamos modificar nuestro modelo base (árbol de regresión) para minimizar el error absoluto, pero esto tiene un par de inconvenientes.

- Dependiendo del tamaño de los datos, esto podría ser muy costoso desde el punto de vista computacional. (Cada división considerada necesitaría buscar una mediana).
- Arruina nuestro sistema de "plug-in". Solo podríamos conectar modelos base que soporten la función objetiva que queremos usar.

Sin embargo, vamos a hacer algo mucho más rápido. Recordemos nuestro problema de ejemplo. Para determinar F_0, comenzamos eligiendo un minimizador de error absoluto. Esta será la mediana(y) = 35. Ahora podemos medir los residuos, y - F_0.

In [None]:
df_base1 = pd.read_csv("data/boosting_dataset.csv")
df_base1

In [None]:
predictores_base = ["LikesGardening", "PlaysVideoGames", "LikesHats"]
for col in predictores_base:
    df_base1[col] = df_base1[col].map({True: 1, False: 0})

In [None]:
df_base1["F0"] = df_base1["Age"].median()
df_base1["Residual0"] = df_base1.apply(lambda row: row["Age"] - row["F0"], axis=1)

In [None]:
df_base1

Considere la primera y cuarta instancia de entrenamiento. Tienen residuos F0 de -22 y -10 respectivamente. Ahora supongamos que podemos hacer que cada predicción esté 1 unidad más cerca de su objetivo. Las reducciones respectivas del error cuadrático serían 43 y 19, mientras que las respectivas reducciones de error absoluto serían 1 y 1.

In [None]:
print("SSE: {0}".format(int(df_base1["Residual0"].apply(lambda x: x**2).sum())))
print("SAE: {0}".format(int(df_base1["Residual0"].apply(lambda x: abs(x)).sum())))

In [None]:
df_base1.loc[0, "F0"] = 34
df_base1["Residual0"] = df_base1.apply(lambda row: row["Age"] - row["F0"], axis=1)

In [None]:
df_base1

In [None]:
print("SSE: {0}".format(int(df_base1["Residual0"].apply(lambda x: x**2).sum())))
print("SAE: {0}".format(int(df_base1["Residual0"].apply(lambda x: abs(x)).sum())))

In [None]:
df_base1.loc[3, "F0"] = 34
df_base1["Residual0"] = df_base1.apply(lambda row: row["Age"] - row["F0"], axis=1)

In [None]:
df_base1

In [None]:
print("SSE: {0}".format(int(df_base1["Residual0"].apply(lambda x: x**2).sum())))
print("SAE: {0}".format(int(df_base1["Residual0"].apply(lambda x: abs(x)).sum())))

Por lo tanto, un árbol de regresión, que por defecto minimiza el error cuadráctico, se enfocará fuertemente en reducir el residuo de la primera muestra de entrenamiento. Pero si queremos minimizar el error absoluto, mover cada predicción de una unidad más cerca del objetivo produce una reducción igual en la función de costo. Con esto en mente, supongamos que **en lugar de entrenar h_0 en base a los residuos de F_0, entrenamos h_0 en base a la gradiente de la función de costo, L(y, F_0 (x)) con respecto a los valores de predicción producidos por F_0 (x).**

Esencialmente, entrenaremos h_0 en base a la reducción de costos para cada muestra si el valor predicho se convirtiera en una unidad más cercana al valor observado. En el caso de error absoluto, h_m simplemente considerará el signo de cada F_m residual (muy diferente al error cuadráctico que consideraría la magnitud de cada residuo).

Después de agrupar las muestras h_m en hojas, se puede calcular un gradiente promedio y luego escalarlo por algún factor, **\gamma**, de modo que **F_m + \gamma*h_m** minimice la función de pérdida para las muestras en cada hoja. (Tenga en cuenta que en la práctica, se elige un factor diferente para cada hoja).

#### Descenso de Gradiente

Vamos a formalizar esta idea usando el concepto de Descenso de Gradiente. Considere una función diferenciable que queremos minimizar. Por ejemplo:

$$L(x_{1}, x{2}) = \frac{1}{2}(x_{1} - 15)^{2} + \frac{1}{2}(x_{2} - 25)^{2}$$

El objetivo aquí es encontrar el par (x_1, x_2) que minimice L. Tenga en cuenta que puedes interpretar esta función al calcular el error cuadrado para dos puntos de datos, 15 y 25 dados dos valores de predicción, x_1 y x_2. Aunque podemos minimizar esta función directamente, el descenso de gradiente nos permitirá minimizar las funciones de pérdida más complicadas que no podemos minimizar directamente.

Pasos de inicialización:
- Número de pasos de iteración: $$M = 100$$
- Punto de inicio: $$s^{0} = (0, 0)$$
- Tamaño de paso: $$\gamma = 0.1$$

Por cada iteración m=1 hasta M:
- Calcule el gradiente de L en el punto s^(m-1)
- "Paso" en la dirección del mayor descenso (el gradiente negativo) con el tamaño de paso \gamma. Es decir: $$s^{m} =  s^{m-1}-\gamma\nabla L(s^{(m-1)})$$

Si \gamma es pequeño y M es suficientemente grande, s^{M} será la ubicación del valor mínimo de L.

Para más detalle sobre el descenso de Gradiente, revisar el siguiente [link](https://en.wikipedia.org/wiki/Gradient_descent)

#### Descenso de Gradiente en Gradient Boosting

Ahora podemos usar el descenso de gradiente para nuestro modelo. La función objetivo que queremos minimizar es L. Nuestro punto de partida es F_0 (x). Para la iteración m = 1, calculamos el gradiente de L con respecto a F_0 (x).

Luego ajustamos un modelo a los componentes de la gradiente. El resultado es F_1. Entonces podemos repetir el proceso hasta que tengamos F_M. Modifiquemos nuestro algoritmo de aumento de gradiente para que funcione con cualquier función de pérdida diferenciable.

In [None]:
df_base2 = pd.read_csv("data/boosting_dataset.csv")

In [None]:
predictores_base = ["LikesGardening", "PlaysVideoGames", "LikesHats"]
for col in predictores_base:
    df_base2[col] = df_base2[col].map({True: 1, False: 0})

In [None]:
df_base2["F0"] = df_base2["Age"].mean()

In [None]:
df_base2

In [None]:
df_base2["PseudoResidual0"] = df_base2.apply(lambda row: row["Age"] - row["F0"], axis=1)

In [None]:
dtree0 = DecisionTreeRegressor(min_samples_leaf=3)
dtree0.fit(df_base2[predictores_base], df_base2["PseudoResidual0"])

In [None]:
df_base2

In [None]:
"""
graph = Source(export_graphviz(dtree0, out_file=None, feature_names=predictores_base, filled=True))
SVG(graph.pipe(format='svg'))
"""

In [None]:
df_base2["h0"] = dtree0.predict(df_base2[predictores_base])
df_base2["gamma0"] = 1

In [None]:
df_base2

In [None]:
df_base2["F1"] = df_base2.apply(lambda row: row["F0"] + row["gamma0"]*row["h0"], axis=1)

In [None]:
df_base2["PseudoResidual1"] = df_base2.apply(lambda row: row["Age"] - row["F1"], axis=1)

In [None]:
dtree1 = DecisionTreeRegressor(min_samples_leaf=3)
dtree1.fit(df_base2[predictores_base], df_base2["PseudoResidual1"])

In [None]:
df_base2

In [None]:
"""
graph = Source(export_graphviz(dtree1, out_file=None, feature_names=predictores_base, filled=True))
SVG(graph.pipe(format='svg'))
"""

In [None]:
df_base2["h1"] = dtree1.predict(df_base2[predictores_base])
df_base2["gamma1"] = 1

In [None]:
df_base2["F2"] = df_base2.apply(lambda row: row["F1"] + row["gamma1"]*row["h1"], axis=1)

In [None]:
df_base2

Para conocer más a detalle sobre los algoritmos del tipo Boosting revisar las siguientes referencias:
- [Boosting](http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting/)
- [XGBoost](http://www.kdd.org/kdd2016/papers/files/rfp0697-chenAemb.pdf)
- [LGBM](https://github.com/Microsoft/LightGBM)

## <font color=#003d5c>Aplicar al Dataset De Attrition</font>

In [None]:
import time
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [None]:
# Cargamos nuestra data de Attrition
df_train_clientes = pd.read_excel('data/train_clientes.xlsx')

In [None]:
df_train_clientes.head().T

In [None]:
df_train_clientes.info()

In [None]:
# Seleccionamos las variables categóricas
columns_cat = ["RANG_INGRESO", "RANG_SDO_PASIVO_MENOS0", "RANG_NRO_PRODUCTOS_MENOS0"]
labelEncoders = {}

# Hacemos el Label Encoding
for col in columns_cat:
    labelEncoders[col] = LabelEncoder()
    df_train_clientes['{0}_ENC'.format(col)] = labelEncoders[col].fit_transform(df_train_clientes[col].fillna('na'))

In [None]:
df_train_clientes = pd.concat([df_train_clientes, pd.get_dummies(df_train_clientes['FLAG_LIMA_PROVINCIA'], prefix = 'FLAG_LIMA_PROVINCIA', drop_first = True)], axis=1)

In [None]:
df_train_clientes.head()

In [None]:
# Eliminamos las variables del tipo object
df_train_clientes.drop(axis=1, labels=["RANG_INGRESO", "RANG_SDO_PASIVO_MENOS0", "RANG_NRO_PRODUCTOS_MENOS0", "FLAG_LIMA_PROVINCIA"], inplace=True)

In [None]:
df_train_clientes.info()

In [None]:
# Función para reducir la memoria que ocupa un DataFrame
def optimizar(df):
    float_cols = df.select_dtypes(include=['float'])
    int_cols = df.select_dtypes(include=['integer'])

    for var_f in float_cols.columns:
        df[var_f] = pd.to_numeric(df[var_f], downcast='float')
    for var_i in int_cols.columns:
        df[var_i] = pd.to_numeric(df[var_i], downcast='integer')
    
    return df

In [None]:
# Optimizamos la memoria del DataFrame
df_train_clientes = optimizar(df_train_clientes)

In [None]:
# Definir los predictores (variables independientes)
predictores = [c for c in df_train_clientes.columns if c not in ["ID_CORRELATIVO", "CODMES", "ATTRITION"]]

In [None]:
# Definir los DataFrames con las variables y el del Target
X = df_train_clientes[predictores]
y = df_train_clientes["ATTRITION"]

In [None]:
X.info()

## Selección de muestra de entrenamiento, prueba y validación
<br><img src="images/split_data.png">

In [None]:
# importar el método train_test_split del sub-módulo model_selection de Scikit-learn
from sklearn.model_selection import train_test_split

In [None]:
# Selección de muestra de entrenamiento y validación
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

Para aquellos algoritmos que tienen problemas al tratar con missings, vamos a crear un dataframe imputándolos con la media.

In [None]:
X_train_fillna = X_train.copy()
X_train_fillna["EDAD"].fillna(value=X_train_fillna["EDAD"].mean(), inplace=True)
X_train_fillna["ANTIGUEDAD"].fillna(value=X_train_fillna["ANTIGUEDAD"].mean(), inplace=True)
X_val_fillna = X_val.copy()
X_val_fillna["EDAD"].fillna(value=X_train_fillna["EDAD"].mean(), inplace=True)
X_val_fillna["ANTIGUEDAD"].fillna(value=X_train_fillna["ANTIGUEDAD"].mean(), inplace=True)

In [None]:
X_val_fillna.info()

In [None]:
X_val_fillna

## <font color=#003d5c>Instalación de librerías</font>

Instalemos las librerías que vamos a utilizar durante la clase:
- **xgboost**: Librería con los métodos de Xtreme Gradient Boosting Model.
- **lightgbm**: Librería con los métodos de Light Gradient Boosting Model.

### 1. XGBoost:
- Instalar [Git](https://git-scm.com/downloads).
- Una vez instalado, abrir el programa de línea de comandos **Git Bash**.
- Una vez abierto el programa, ubicarse en una carpeta donde se va a descargar la librería de **XGBoost** usando el comando: ***cd ruta_carpeta***
- Una vez que nos encontremos en la carpeta, clonemos el repositorio de XGBoost de Github usando el siguiente comando: ***git clone https://github.com/dmlc/xgboost.git***
- Ingresar al siguiente [link](http://www.picnet.com.au/blogs/guido/2016/09/22/xgboost-windows-x64-binaries-for-download/) y descargar el **.dll** más actual en la carpeta ***python-package/xgboost*** del directorio xgboost creado.
- Ubicarse en la carpeta ***python-package*** del directorio xgboost creado y ejecutar el comando ***python setup.py install***

### 2. LGBM:
- Ejecutar la siguiente línea de comando:

In [None]:
!pip install xgboost

In [None]:
!pip install lightgbm

## <font color=#003d5c>a) ExtraTrees (Bagging) </font>

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

In [None]:
start = time.time()
extra_tree_model = ExtraTreesClassifier()
extra_tree_model.fit(X_train_fillna, y_train)
print('Tiempo de entrenamiento: {0:.2f} segundos.'.format(time.time() - start))

In [None]:
from sklearn.metrics import accuracy_score, roc_auc_score, roc_curve

In [None]:
extra_tree_y_pred = extra_tree_model.predict(X_val_fillna)
extra_tree_y_prob_pred = extra_tree_model.predict_proba(X_val_fillna)[:, 1]

In [None]:
print('Accuracy de ExtraTree en el Dataset de Validación: {:.2f}'.format(accuracy_score(y_val, extra_tree_y_pred)))
print('AUC de ExtraTree en el Dataset de Validación: {:.4f}'.format(roc_auc_score(y_val, extra_tree_y_prob_pred)))

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
ex_roc_auc = roc_auc_score(y_val, extra_tree_y_pred)
fpr, tpr, thresholds = roc_curve(y_val, extra_tree_y_prob_pred)
plt.figure(figsize=(10,8))
plt.plot(fpr, tpr, label='ExtraTree (area = %0.4f)' % ex_roc_auc)
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Ratio de Falsos Positivos')
plt.ylabel('Ratio de Verdaderos Positivos')
plt.title('Receiver operating characteristic')
plt.legend(loc="lower right")
plt.savefig('Log_ROC')
plt.show()

In [None]:
# Plotear la importancia de variables
fig, ax = plt.subplots(figsize=(15, 20))
df_importancia = pd.DataFrame({'variable': predictores, 'importancia':extra_tree_model.feature_importances_})
df_importancia = df_importancia[["variable", "importancia"]].sort_values(by="importancia", ascending=True).reset_index(drop=True)
df_importancia.plot(kind='barh', x='variable', y='importancia', ax=ax)

## <font color=#003d5c>b) AdaBoost (Boosting) </font>

In [None]:
from sklearn.ensemble import AdaBoostClassifier

In [None]:
start = time.time()
ab_model = AdaBoostClassifier()
ab_model.fit(X_train_fillna, y_train)
print('Tiempo de entrenamiento: {0:.2f} segundos.'.format(time.time() - start))

In [None]:
from sklearn.metrics import accuracy_score, roc_auc_score, roc_curve

In [None]:
ab_y_pred = ab_model.predict(X_val_fillna)
ab_y_prob_pred = ab_model.predict_proba(X_val_fillna)[:, 1]

In [None]:
print('Accuracy de AdaBoost en el Dataset de Validación: {:.2f}'.format(accuracy_score(y_val, ab_y_pred)))
print('AUC de AdaBoost en el Dataset de Validación: {:.4f}'.format(roc_auc_score(y_val, ab_y_prob_pred)))

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
gb_roc_auc = roc_auc_score(y_val, ab_y_pred)
fpr, tpr, thresholds = roc_curve(y_val, ab_y_prob_pred)
plt.figure(figsize=(10,8))
plt.plot(fpr, tpr, label='AdaBoost (area = %0.4f)' % gb_roc_auc)
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Ratio de Falsos Positivos')
plt.ylabel('Ratio de Verdaderos Positivos')
plt.title('Receiver operating characteristic')
plt.legend(loc="lower right")
plt.savefig('Log_ROC')
plt.show()

In [None]:
# Plotear la importancia de variables
fig, ax = plt.subplots(figsize=(15, 20))
df_importancia = pd.DataFrame({'variable': predictores, 'importancia':ab_model.feature_importances_})
df_importancia = df_importancia[["variable", "importancia"]].sort_values(by="importancia", ascending=True).reset_index(drop=True)
df_importancia.plot(kind='barh', x='variable', y='importancia', ax=ax)

#### <font color=#003d5c>Ajuste o Tuning de Hiperparámetros</font>
<br><img src="images/tuning.jpeg" width="500" height="20">

#### <font color=#003d5c>Diferencia entre Hiperparámetros y Parámetros</font>
<br><img src="images/hyperparameter_concept.png" width="500" height="20">

- **Hiperparámetro:** Es lo que ajustamos para poder optimizar el rendimiento de nuestro modelo. Es como si giraramos (ajuste) las perillas de una Radio AM para obtener una señal clara (performance). Por ejemplo: El número de árboles y el número de variables para cada árbol en un Random Forest.

- **Parámetro:** Es lo que se aprende durante la fase de entrenamiento. No pueden ser manipulados. Por ejemplo: la pendiente y el intercepto en una regresión. En un Random Forest los parámetros serían las variables y los umbrales utilizados para cada árbol.


Scikit-Learn implementa un conjunto de hiperparámetros predeterminados razonables para todos los modelos, pero no se garantiza que sean óptimos para un problema. Los mejores hiperparámetros generalmente son imposibles de determinar con anticipación, y ajustar o hacer tuning de un modelo es donde el aprendizaje automático pasa de ser una ciencia a una ingeniería basada en prueba y error.

#### <font color=#003d5c>¿Cuál es el enfoque en el Tunning?</font>
<br><img src="images/Bias-Variance-Tradeoff.png" width="500" height="20">

In [None]:
from pprint import pprint

In [None]:
pprint(ab_model.get_params())

In [None]:
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV

In [None]:
n_estimators = [int(x) for x in np.linspace(start = 200, stop = 5000, num = 49)]
learning_rate = [10 ** (-e) for e in range(1, 5)]

In [None]:
print("Cuantos valores tengo de n_estimators: {0}".format(len(n_estimators)))
print("Cuantos valores tengo de learning_rate: {0}".format(len(learning_rate)))
print("Cuantos combinaciones tengo: {0}".format(len(learning_rate) * len(n_estimators)))

In [None]:
learning_rate

In [None]:
len(n_estimators) * len(learning_rate)

In [None]:
# Crear la grilla aleatoria
random_grid = {'n_estimators': n_estimators,
               'learning_rate': learning_rate
              }
pprint(random_grid)

Durante el proceso de Tuning, en cada iteración se debe escoger un conjunto diferente de Hiperparametros. En total en este caso existen 196 combinaciones, sin embargo el beneficio de la grilla aleatoria es que no necesitamos probar cada combinación, sino que se selecciona al azar para muestrear una amplia gama de valores.

In [None]:
start = time.time()
ab_b_model = AdaBoostClassifier()
ab_t_model = RandomizedSearchCV(estimator = ab_b_model, param_distributions = random_grid, n_iter = 50, cv = 5, verbose=2, random_state=42, n_jobs = -1)
ab_t_model.fit(X_train_fillna, y_train)
print('Tiempo de entrenamiento: {0:.2f} segundos.'.format(time.time() - start))

In [None]:
ab_t_model.best_estimator_

In [None]:
ab_y_t_pred = ab_t_model.best_estimator_.predict(X_val_fillna)
ab_y_t_prob_pred = ab_t_model.best_estimator_.predict_proba(X_val_fillna)[:, 1]

In [None]:
print('Accuracy de AdaBoost en el Dataset de Validación: {:.2f}'.format(accuracy_score(y_val, ab_y_t_pred)))
print('AUC de AdaBoost en el Dataset de Validación: {:.4f}'.format(roc_auc_score(y_val, ab_y_t_prob_pred)))

In [None]:
ab_t_model.best_params_

In [None]:
ab_t_model.best_score_

- n_iter: Número de combinaciones de hiperparámetros a probar.
- cv: Número de folds a usar para el cross validation.

La búsqueda aleatoria nos permitió reducir el rango para cada hiperparámetro. Ahora que sabemos dónde concentrar nuestra búsqueda, podemos especificar explícitamente cada combinación de configuraciones para probar. Hacemos esto con GridSearchCV, un método que, en lugar de tomar muestras al azar de una distribución, evalúa todas las combinaciones que definimos. Para usar la búsqueda de la grilla, haremos otra grilla basada en los mejores valores proporcionados por la búsqueda aleatoria.

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
n_estimators = [4700, 4750]
learning_rate = [0.1, 0.15]

In [None]:
# Crear la grilla aleatoria
param_grid = {'n_estimators': n_estimators,
               'learning_rate': learning_rate
              }
pprint(param_grid)

In [None]:
start = time.time()
ab_bg_model = AdaBoostClassifier()
ab_tg_model = GridSearchCV(estimator = ab_bg_model, param_grid = param_grid, cv = 5, verbose=2, n_jobs = -1)
ab_tg_model.fit(X_train_fillna, y_train)
print('Tiempo de entrenamiento: {0:.2f} segundos.'.format(time.time() - start))

In [None]:
ab_tg_model.best_estimator_

In [None]:
ab_y_tg_pred = ab_tg_model.best_estimator_.predict(X_val_fillna)
ab_y_tg_prob_pred = ab_tg_model.best_estimator_.predict_proba(X_val_fillna)[:, 1]

In [None]:
print('Accuracy de AdaBoost en el Dataset de Validación: {:.2f}'.format(accuracy_score(y_val, ab_y_tg_pred)))
print('AUC de AdaBoost en el Dataset de Validación: {:.4f}'.format(roc_auc_score(y_val, ab_y_tg_prob_pred)))

In [None]:
ab_tg_model.best_params_

In [None]:
ab_tg_model.best_score_

## <font color=#003d5c>b) XGBoost</font>

In [None]:
from xgboost import XGBClassifier

In [None]:
start = time.time()
xgb_model = XGBClassifier()
xgb_model.fit(X_train, y_train)
print('Tiempo de entrenamiento: {0:.2f} segundos.'.format(time.time() - start))

In [None]:
"""
import xgboost as xgb

xgb_train = xgb.DMatrix(X_train[predictores], label=y_train)
xgb_val = xgb.DMatrix(X_val[predictores], label=y_val)

param = {}
param['objective'] = 'binary:logistic'
param['eta'] = 0.1
param['max_depth'] = 6
param['silent'] = 1
param['nthread'] = 4
param['eval_metric'] = 'auc'
watchlist = [(xgb_train, 'train'), (xgb_val, 'test')]
num_boost_round = 400

xgb_model = xgb.train(params=param, dtrain=xgb_train, num_boost_round=num_boost_round, evals=watchlist)
"""

In [None]:
xgb_y_pred = xgb_model.predict(X_val)
xgb_y_prob_pred = xgb_model.predict_proba(X_val)[:, 1]

In [None]:
print('Accuracy de XGBoost en el Dataset de Validación: {:.2f}'.format(accuracy_score(y_val, xgb_y_pred)))
print('AUC de XGBoost en el Dataset de Validación: {:.4f}'.format(roc_auc_score(y_val, xgb_y_prob_pred)))

In [None]:
fig, ax = plt.subplots(figsize=(20,20))
xgb_ax = xgb.plot_importance(booster=xgb_model, ax=ax, importance_type="weight")

In [None]:
gb_roc_auc = roc_auc_score(y_val, xgb_y_pred)
fpr, tpr, thresholds = roc_curve(y_val, xgb_y_prob_pred)
plt.figure(figsize=(10,8))
plt.plot(fpr, tpr, label='XGBoost (area = %0.4f)' % gb_roc_auc)
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Ratio de Falsos Positivos')
plt.ylabel('Ratio de Verdaderos Positivos')
plt.title('Receiver operating characteristic')
plt.legend(loc="lower right")
plt.savefig('Log_ROC')
plt.show()

## <font color=#003d5c>c) LGBM</font>

In [None]:
import lightgbm as lgb

In [None]:
rounds = 500
deep = 8
eta = 0.05
seed_val = 0

In [None]:
params = {}
params["objective"] = "binary"
params['metric'] = 'auc'
#params['num_class'] = 2
params["max_depth"] = deep
params["min_data_in_leaf"] = 20
params["learning_rate"] = eta
params["bagging_fraction"] = 0.7
params["feature_fraction"] = 0.7
params["bagging_freq"] = 5
params["bagging_seed"] = seed_val
params["verbosity"] = 0
num_rounds = rounds
evals_result = {}

In [None]:
lgbm_train = lgb.Dataset(X_train, label=y_train)
lgbm_val = lgb.Dataset(X_val, label=y_val)

In [None]:
lgb_model = lgb.train(
    params=params,
    train_set=lgbm_train,
    num_boost_round=num_rounds,
    valid_sets=[lgbm_val],
    early_stopping_rounds=100,
    verbose_eval=20,
    evals_result=evals_result
)

In [None]:
fig, ax = plt.subplots(figsize=(20,20))
lgb_ax = lgb.plot_importance(lgb_model, ax=ax, importance_type="split")

In [None]:
from lightgbm import LGBMClassifier

In [None]:
start = time.time()
lgbm_model = LGBMClassifier()
lgbm_model.fit(X_train, y_train)
print('Tiempo de entrenamiento: {0:.2f} segundos.'.format(time.time() - start))

In [None]:
lgbm_y_pred = lgbm_model.predict(X_val)
lgbm_y_prob_pred = lgbm_model.predict_proba(X_val)[:, 1]

In [None]:
print('Accuracy de LGBM en el Dataset de Validación: {:.2f}'.format(accuracy_score(y_val, lgbm_y_pred)))
print('AUC de LGBM en el Dataset de Validación: {:.4f}'.format(roc_auc_score(y_val, lgbm_y_prob_pred)))

In [None]:
gb_roc_auc = roc_auc_score(y_val, lgbm_y_pred)
fpr, tpr, thresholds = roc_curve(y_val, lgbm_y_prob_pred)
plt.figure(figsize=(10,8))
plt.plot(fpr, tpr, label='LGBM (area = %0.4f)' % gb_roc_auc)
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Ratio de Falsos Positivos')
plt.ylabel('Ratio de Verdaderos Positivos')
plt.title('Receiver operating characteristic')
plt.legend(loc="lower right")
plt.savefig('Log_ROC')
plt.show()