In [None]:
# initial setup
%run "../../../common/0_notebooks_base_setup.py"


In [None]:
import pandas as pd
import numpy as np

<link rel="stylesheet" href="../../../common/dhds.css">
<div class="Table">
    <div class="Row">
        <div class="Cell grey left"> <img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_portada.png" align="center" width="70%"/></div>
        <div class="Cell right">
            <div class="div-logo"><img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/common/logo_DH.png" align="center" width=70% /></div>
            <div class="div-curso">DATA SCIENCE</div>
            <div class="div-modulo">MÓDULO 5</div>
            <div class="div-contenido">Boosting <br/> Gradient Boosting <br/> XGBoost</div>
        </div>
    </div>
</div>

## Agenda

---

- Boosting

- Gradient Boosting

- XGBoost



<div class="div-dhds-fondo-1"> Boosting
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_separador.png" align="center" />

</div>

## Introducción

---

<table><tr><td style="font-size:16px;width:55%;line-height:2;"><ul> 
<li>Con <b>Bagging y Random Forests</b> entrenamos modelos en subsets separados y luego combinamos su predicción. Estamos paralelizando el entrenamiento y luego combinando los resultados.</li>

<li> <b>Boosting</b> es otra técnica de ensamble en la que el entrenamiento es <b>secuencial</b>.</li>
</ul>    
</td>    
<td>
<img src = "https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_boosting_2.png"  />
</td>        
</tr>
</table>


<table><tr><td style="font-size:16px;width:55%;line-height:2;"><ul> 
<li>
<b>Boosting</b> es un <b>procedimiento iterativo</b> que va construyendo un modelo final en pasos.
</li>

<li>
En cada nuevo paso intentará aprender de los errores cometidos en los pasos previos. Se entrena una secuencia de modelos donde se da más peso a los ejemplos que fueron clasificados erróneamente por iteraciones anteriores. 
</li>

<li>    
<b>Trabaja sobre los errores del modelo anterior</b> o bien usándolos para cambiar la ponderación en el siguiente modelo o bien entrenando un modelo que prediga los mismos.
</li>

<li>Al igual que con bagging, las tareas de clasificación se resuelven con una mayoría ponderada de votos, y las tareas de regresión se resuelven con una suma ponderada para producir la predicción final.</li>
    
</ul>    
</td>    
<td>    
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_bagging_vs_boosting_1.png" align="center"/>
</td>        
</tr>
</table>

## Adaboost

---

<table><tr><td style="font-size:16px;width:55%;line-height:2;"><ul> 
<li>
La primera iteración utiliza <b>pesos uniformes</b> para todos los registros. En las iteraciones posteriores, los pesos se ajustan para <b>enfatizar los errores</b> en la iteración anterior.
</li>
<li>
La predicción final se construye mediante un <b>voto ponderado</b> de los distintos modelos base. Donde los pesos para cada modelo base dependen de su error de entrenamiento.
</li>
<li>
Adaboost toma un <b>modelo base débil</b> e intenta hacerlo fuerte al reentrenarlo en las muestras mal clasificadas.
</li>
        
</ul>    
</td>    
<td>    


<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_boosting_1.png" align="center"/>
</td>        
</tr>
</table>

## Algoritmo Adaboost

---

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_adaboost_1.png" align="center"/>



<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_adaboost_2.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_adaboost_3.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_adaboost_4.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_adaboost_5.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_adaboost_6.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_adaboost_7.png" align="center" />

## Ejemplo

---

Vamos a usar el dataset Hitters (que ya usamos en CART, Ensambles y Bagging) para entrenar un modelo de regresión usando AdaBoostRegressor para predecir el valor del `log(Salary)`. 

El modelo base que usaremos en una regresión lineal.

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostRegressor.html


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import AdaBoostRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

Leemos los datos y, para simplificar, nos quedamos sólo con los registros completos y las features numéricas.

In [None]:
data_raw = pd.read_csv("../Data/Hitters.csv")
print(data_raw.shape)
data_complete = data_raw.dropna()
print(data_complete.shape)

data_columns = ['AtBat', 'Hits', 'HmRun', 'Runs', 'RBI', 
                'Walks', 'Years', 'CAtBat', 'CHits', 'CHmRun', 
                'CRuns', 'CRBI', 'CWalks', 'PutOuts', 'Assists', 
                'Errors', 'Salary']

data = data_complete.loc[:, data_columns]
print(data.shape)

data.head()

Creamos los conjuntos de train y test

In [None]:
X = data.drop("Salary", axis = 1)
print(X.shape)

y = np.log(data.Salary)
print(y.shape)

X_train, X_test, y_train, y_test = train_test_split(X, y,random_state = 127)


Estandarizamos las features

In [None]:
scaler = StandardScaler()
X_train_scl = scaler.fit_transform(X_train)

X_test_scl = scaler.transform(X_test)

Observación: Hasta acá repetimos exactamente los mismo pasos que hicimos en la clase de modelos de ensamble.

Ahora creamos el modelos de boosting.

In [None]:
base_regressor = LinearRegression()

In [None]:
bost_linreg = AdaBoostRegressor(base_estimator = base_regressor, 
                            n_estimators = 200,
                            learning_rate = 0.8,           
                            loss = 'linear',
                            random_state = 127)

In [None]:
bost_linreg.fit(X_train_scl, y_train)

Evaluamos la performance en test mediante el error cuadrático medio

In [None]:
prediction = bost_linreg.predict(X_test_scl)
performance = mean_squared_error(y_test, prediction)
performance

<div class="div-dhds-fondo-1"> Gradient Boosting
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_separador.png" align="center" />

</div>

## Introducción

---

<table><tr><td style="font-size:16px;width:55%;line-height:2;"><ul> 
<li>

Gradient boosting es un algoritmo greedy que puede sobreajustar rápidamente al dataset de entrenamiento 
</li>
<li>    
Puede mejorar usando regularización
</li>
<li>    
Gradient boosting resuelve problemas de <b>aprendizaje supervisado</b>, que interpretan al boosting como un <b>problema de optimización, generando una función de pérdida y que buscan optimizar</b>. 
</li>
<li>    
Entrenamos <b>modelos débiles de forma secuencial</b> para ir minimizando la función de pérdida.
</li>
<li>    
La pérdida está representada por los residuos. 
</li>
<li>     
A <b>diferencia de Adaboost, el resultado incorrecto no recibe un mayor peso en gradient boosting</b>. En cambio, se minimiza la función de pérdida de los modelos débiles al obtener promedios de las predicciones.
</li> 
    
    
    
</ul>    
</td>    
<td>    
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_visualizing_gradient_boosting.jpg" align="center"/>
</td>        
</tr>
</table>
    
    

El objetivo de cualquier problema de aprendizaje supervisado es el de definir una función de pérdida y minimizarla. 

En el caso de regresión, por ejemplo tenemos el ECM, definido como:

$$Loss = MSE = \frac{1}{n} \sum(y_i - \hat{y_i})^2$$

donde 

$y_i$: es el valor target de la instancia i-ésima

$\hat{y_i}$: es el valor predicho por el modelo para la instancia i-ésima

$L(y_i, \hat{y_i})$: es la función de pérdida


**Queremos que nuestras predicciones minimicen nuestra función de pérdida.**

Debemos optimizar las funciones de pérdida para reducir los errores relacionados con la predicción. 



Usando descenso del gradiente podemos actualizar nuestras predicciones con una tasa de aprendizaje $\alpha$ de modo tal que la suma de los residuos tienda a cero: 

$$\hat{y_i} = \hat{y_i} + \alpha . \frac{\partial \sum(y_i - \hat{y_i})^2 }{\partial \hat{y_i}} $$

Obteniendo

$$\hat{y_i} = \hat{y_i} - \alpha . 2. \sum(y_i - \hat{y_i}) $$

Donde

$\alpha$ es la tasa de aprendizaje

$\sum(y_i - \hat{y_i})$ es la suma de los residuos

## Algoritmo gradient boosting

---

1. Ajustar **un modelo** utilizando a $X$ como features y a $y$ como target. Obtener las predicciones del modelo $y_{predicted}$

2. Calcular los residuos: $e1 = y$ - $y_{predicted}$

3. Ajustar **otro modelo** para los residuos $e1$: utilizando a $X$ como features y a $e1$ como target. Obtener las predicciones $e1_{predicted}$. 

4. Sumar los modelos:  $y_{predicted2} = y_{predicted} + alfa * e1_{predicted}$, donde $\alpha$ es el learning rate.

5. Ajustar **otro modelo** para los residuos $e2$: $e2 = y - y_{predicted2}$

Repetir los pasos 2 a 5 hasta que el modelo comience a sobre ajustar o la suma de los residuos sea constante. 

El overfitting puede controlarse verificando los valores de accuracy en el conjunto de validación.



<table><tr><td style="font-size:16px;width:45%;line-height:2;">
Analicémoslo paso por paso. En la primera iteración, se usa un modelo simple para ajustar a los datos. 
<br/>
Los residuos se pueden observan en el gráfico de la derecha. La función de pérdida busca minimizar estos residuos.
<br/>
Luego, se agregan modelos débiles para que se concentren en las áreas donde los modelos ya existentes performan mal.
<br/>
Vemos como después de 3 iteraciones el ensamble de modelos débiles ya comienza a performar mejor. 
    </td><td>

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_1.png" align="center" />
</td></tr></table>

<table><tr><td style="font-size:16px;width:45%;line-height:2;">
Luego de 20 iteraciones el modelo ajusta muy bien a los datos y los residuos cayeron prácticamente a cero.
</td><td>
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_2.png" align="center" />
</td></tr></table>

<table><tr><td style="font-size:16px;width:45%;line-height:2;">
Luego de 50 iteraciones todos los residuos son prácticamente cero.
</td><td>
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_3.png" align="center" />
</td></tr></table>

## Ejemplo

---

Continuemos el ejemplo anterior usando Gradient Boosting, y comparemos la performance en test con el modelo anterior.

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

In [None]:
gb_reg = GradientBoostingRegressor(loss = 'ls',
                                    learning_rate = 0.5,
                                    n_estimators=200, 
                                    subsample = 1,
                                    criterion='mse',
                                    max_depth = 4, 
                                    random_state = 127)

In [None]:
gb_reg.fit(X_train_scl, y_train)

Evaluamos la performance en test mediante el error cuadrático medio

In [None]:
prediction = gb_reg.predict(X_test_scl)
performance = mean_squared_error(y_test, prediction)
performance

Vemos que para este problema la perfomance que obtuvimos con gradient boosting es mejor que la obtenida con adaboost.

<div class="div-dhds-fondo-1"> XGBoost
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_separador.png" align="center" />

</div>

## Introducción

---


XGBoost son las siglas de Extreme Gradient Boosting; es una implementación específica del método Gradient Boosting que usa aproximaciones más precisas para encontrar el mejor modelo de árbol. Emplea una serie de mejoras, las mas importantes son:

1. Calcula gradientes de segundo orden, es decir, segundas derivadas parciales de la función de pérdida (similar al método de Newton), que proporciona más información sobre la dirección de los gradientes y cómo llegar al mínimo de nuestra función de pérdida. Mientras que gradient boosting usa la función de pérdida de nuestro modelo base (por ejemplo, árbol de decisión) como un proxy para minimizar el error del modelo general, XGBoost usa la derivada de segundo orden como una aproximación.

2. Regularización L1 y L2, que mejora la generalización del modelo.

XGBoost tiene ventajas adicionales: el entrenamiento es muy rápido y se puede paralelizar / distribuir entre clústeres.

El primer release de XGBoost nace en marzo de 2014 y se empieza a emplear en competencias de Kaggle en 2015, rápidamente convirtiéndose en el algoritmo más popular entre los ganadores en problemas con datasets estructurados. 

Este algoritmo es una reimplementación de Gradient Boosting, con importantes mejoras que veremos en esta presentación.

Fue diseñado por Tianqi Chen, de la Universidad de Washington, y rápidamente recibió numerosos colaboradores en su <a href="https://github.com/dmlc/xgboost" target="_blank">proyecto</a>.


¿Por qué usar XGBoost en lugar de Gradient Boosting?

1- Velocidad

XGBoost se impuso por lograr ajustes de modelos ampliamente más rápidos que los implementados en las librerías previamente existentes (Scikit Learn de Python, gbm de R, H20 y Spark MLLib)

2- Escalabilidad

La implementación de XGBoost permite entrenar usando muchísima más información ya que es muy eficiente en el uso de RAM.

3- Rendimiento

La capacidad de realizar una búsqueda de hiperparámetros más amplia en la misma cantidad de tiempo y de entrenar con más información, sumado a una mejora clave en la función objetivo, permite que con este algoritmo se obtengan mejores resultados.


XGBoost soporta las 3 principales implementaciones de Gradient Boosting:

1- Gradient Boosting

2- Stochastic Gradient Boosting, con sub-muestras en filas, columnas y columnas por split

3- Gradient Boosting con regularización, con normas L1 y L2



## XGBoost - Gradient Boosting con regularización

---

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_regularizacion_1.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_regularizacion_2.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_regularizacion_3.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_regularizacion_4.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_regularizacion_5.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_regularizacion_6.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_regularizacion_7.png" align="center" />

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_gradient_boosting_regularizacion_8.png" align="center" />

## Algoritmos para encontrar los splits

---

Una de las mejoras de XGBoost es el algoritmo para encontrar los splits. XGBoost implementa tres tipos de algoritmos:

* **Exact Greedy**: este algoritmo es el que empleaban previamente Scikit y GBM (R). Esencialmente es un método performante de probar todos los posibles puntos de split y quedarse con el mejor de todos. Este método es mucho más lento que los próximos dos.

* **Aproximado**: este algoritmo no prueba todos los posibles puntos de split sino que sólo toma los percentiles de cada variable y los prueba. Se recalculan los bins en cada iteración.

* **Histograma**: los valores de las variables continuas son almacenados en bins de un histograma, y reutilizados a lo largo de los cómputos. Luego, el split se hace entre los bins del histograma. Permite entre 2 y 256 bins.


## Mejoras adicionales

---

Además de las mejoras antes mencionadas, se incluyeron en el desarrollo de XGBoost:

* **Shrinkage (eta)**: básicamente este parámetro quita peso a cada nuevo árbol que se agrega al ensamble, multiplicando su influencia por una constante. 

* **Sampling de columnas**: de la misma forma que Random Forest, esta librería implementa el sampling de columnas para reducir el overfitting e incrementar la variabilidad de los árboles. 

* **Sampling de filas (subsample)**: permite definir qué proporción de las filas se usan para entrenar cada árbol. 

* **Ausencia de datos**: a los valores nulos XGBoost le asignará una dirección por default en cada nodo. Es decir, los agrupará con los valores de la izquierda o de la derecha del split, según cuál sea la dirección que da mejores resultados.


## Otras implementaciones

---

En febrero de 2016 surge la versión beta de <a href="https://github.com/Microsoft/LightGBM">LightGBM</a>, un proyecto desarrollado por Microsoft. 

Este algoritmo se caracteriza por ocupar mucha menos memoria RAM y ser, generalmente, mucho más rápido que el XGBoost original, obteniendo prácticamente los mismos resultados, si no mejores.

LightGBM emplea un algoritmo para buscar los splits diferentes llamado GOSS (Gradient-based one-side sampling). 

Este algoritmo hace lo siguiente:

* Para cada observación calcula el gradiente.

* Se seleccionan las instancias con un gradiente elevado y se samplea un porcentaje de las instancias con un gradiente bajo. La idea es que las observaciones con un gradiente bajo ya pueden ser bien predichas.

* Se entrena el árbol con este set de datos, y para evaluar los splits se multiplica por una constante las observaciones muestreadas.


En 2017 Yandex libera el proyecto de <a href="https://github.com/catboost">CatBoost</a>. 

Este algoritmo también es muy rápido y presenta resultados excelentes sin necesidades de costosas búsquedas de hiperparámetros.

* Permite transformar a one-hot encoding las variables que tengan menos valores distintos que una determinada cantidad, y tiene un manejo especial para las variables categóricas. En este segundo caso, el algoritmo implementa distintas métricas que se aplican en cada split para analizar la relación entre las categorías y el label. 

* Este algoritmo además implementa una alerta para detección temprana de overfitting que permite detener rápidamente el entrenamiento ante esta situación.




<div class="div-dhds-fondo-1"> Conclusiones
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_separador.png" align="center" />

</div>

* Generalmente, la performance obtenida con modelos de boosting es mejor que con modelos de bagging.

* El tiempo de entrenamiento de modelos de boosting es considerablemente mayor que el necesario para entrenar modelos de bagging.

* Existen varias implementaciones de gradient boosting que mejoran los tiempos de entrenamiento y disminuyen el costo computacional.

* Una de las mayores motivaciones al usar gradient boosting es que permite optimizar una función de costo especificada por el usuario, en lugar de una función de pérdida que generalmente ofrece menos control y no se corresponde esencialmente con aplicaciones del mundo real.


<div class="div-dhds-fondo-1"> Hands-on
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_separador.png" align="center" />

</div>

## Ejercicio

---

Vamos a usar el dataset Hitters para entrenar un modelo adaboost y un modelo gradient boosting para clasificar el valor de `Salary` en alto o bajo.

#### AdaBoostClassifier

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html

#### GradientBoostingClassifier
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html

Vamos a evaluar la performance de los dos ensambles usando 

* AUC

* Accuracy

* Matriz de confusion

Puntos 1 a 4 son idénticos a los de la clase de Modelos de Ensamble:

1. Leer los datos y, para simplificar, conservar sólo los registros completos y las features numéricas.

2. Crear una variable categórica, a partir de `Salary`, de valores alto / bajo representados como 1 / 0, usando como umbral un valor de Salary igual a 600

3. Crear los conjuntos de train y test

4. Estandarizar las features

Nuevo:

5. Entrenar los modelos de boosting y evaluar AUC, accuracy y matriz de confusión


## Solución

---


In [None]:
import pandas as pd
from sklearn.preprocessing import binarize
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import roc_auc_score, accuracy_score, confusion_matrix
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier

1 a 4.

In [None]:
data_raw = pd.read_csv("../Data/Hitters.csv")
print(data_raw.shape)
data_complete = data_raw.dropna()
print(data_complete.shape)

data_columns = ['AtBat', 'Hits', 'HmRun', 'Runs', 'RBI', 
                'Walks', 'Years', 'CAtBat', 'CHits', 'CHmRun', 
                'CRuns', 'CRBI', 'CWalks', 'PutOuts', 'Assists', 
                'Errors', 'Salary']

data = data_complete.loc[:, data_columns]
print(data.shape)

data.head()

In [None]:
salary_cat = binarize(pd.DataFrame(data.Salary), threshold = 600)

In [None]:
X = data.drop("Salary", axis = 1)
print(X.shape)

y = salary_cat
print(y.shape)

X_train, X_test, y_train, y_test = train_test_split(X, y,random_state = 127)


In [None]:
scaler = StandardScaler()
X_train_scl = scaler.fit_transform(X_train)

X_test_scl = scaler.transform(X_test)

5.

#### Adaboost

In [None]:
base_classifier = DecisionTreeClassifier(criterion='gini', 
                                    max_depth=3,
                                    max_features=5, 
                                    random_state=159)

In [None]:
boost_tree = AdaBoostClassifier(base_estimator = base_classifier, 
                            n_estimators = 200,
                            learning_rate = 0.8,                                       
                            random_state = 127)


In [None]:
y_train_boost_tree = y_train.reshape(y_train.shape[0], )
boost_tree.fit(X_train_scl, y_train_boost_tree)                            

Evaluamos la performance en test mediante accuracy, auc y matriz de confusión

In [None]:
prediction_bt = boost_tree.predict(X_test_scl)

accuracy_bt = accuracy_score(y_test, prediction_bt)
print(accuracy_bt)

conf_mat_bt = confusion_matrix(y_test, prediction_bt)
print(conf_mat_bt)

prediction_bt_proba = boost_tree.predict_proba(X_test_scl)
prediction_bt_class_1 = prediction_bt_proba[:, 1]
auc_bt = roc_auc_score(y_test, prediction_bt_class_1)
print(auc_bt)

#### Gradient Boosting

Ajusta árboles de regresión. Observemos que no recibe base_estimator como parámetro.

In [None]:
gb_classifier = GradientBoostingClassifier(loss = 'deviance',
                                           learning_rate=0.6,
                                           n_estimators = 200,
                                           subsample=1,
                                           criterion='mse',
                                           random_state = 127)

In [None]:
y_train_gb = y_train.reshape(y_train.shape[0], )
gb_classifier.fit(X_train_scl, y_train_gb)                            

Evaluamos la performance en test mediante accuracy, auc y matriz de confusión

In [None]:
prediction_gb = gb_classifier.predict(X_test_scl)

accuracy_gb = accuracy_score(y_test, prediction_gb)
print(accuracy_gb)

conf_mat_gb = confusion_matrix(y_test, prediction_gb)
print(conf_mat_gb)

prediction_gb_proba = gb_classifier.predict_proba(X_test_scl)
prediction_gb_class_1 = prediction_gb_proba[:, 1]
auc_gb = roc_auc_score(y_test, prediction_gb_class_1)
print(auc_gb)

<div class="div-dhds-fondo-1"> Referencias
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M5/CLASE_38_Boosting/M5_CLASE_38_separador.png" align="center" />

</div>

<a href="https://www.statlearning.com/">An Introduction to Statistical Learning. Cap. 8.3.4 Tree-Based Methods </a>

<a href="https://towardsdatascience.com/ensemble-methods-bagging-boosting-and-stacking-c9214a10a205" target="_blank">Ensemble methods: bagging, boosting and stacking</a>

#### Boosting

<a href="https://www.youtube.com/watch?v=GM3CDQfQ4sw" target="_blank">Boosting</a>

<a href="https://www.youtube.com/watch?v=LsK-xG1cLYA" target="_blank">StatQuest.AdaBoost, Clearly Explained</a>
 

#### Gradient Boosting


<a href="https://towardsdatascience.com/understanding-gradient-boosting-machines-9be756fe76ab" target="_blank">Understanding Gradient Boosting Machines</a>

<a href="https://blog.mlreview.com/gradient-boosting-from-scratch-1e317ae4587d" target="_blank">Gradient Boosting from scratch</a>

<a href="https://www.gormanalysis.com/blog/gradient-boosting-explained/" target="_blank">Gradient Boosting Explained</a>

<a href="https://explained.ai/gradient-boosting/" target="_blank">How to explain gradient boosting</a>

<a href="https://www.youtube.com/playlist?list=PLblh5JKOoLUJjeXUvUE0maghNuY2_5fY6" target="_blank">StatQuest.Gradient Boost</a>



#### XGBoost

<a href="https://machinelearningmastery.com/gentle-introduction-xgboost-applied-machine-learning/" target="_blank">A Gentle Introduction to XGBoost for Applied Machine Learning</a>


<a href="https://medium.com/data-design/xgboost-hi-im-gamma-what-can-i-do-for-you-and-the-tuning-of-regularization-a42ea17e6ab6" target="_blank">xgboost: “Hi I’m Gamma. What can I do for you?” — and the tuning of regularization</a>


<a href="https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031" target="_blank">Benchmarking LightGBM: how fast is LightGBM vs xgboost?</a>

<a href="https://www.youtube.com/watch?v=GrJP9FLV3FE" target="_blank">StatQuest.XGBoost in Python from Start to Finish</a>
