<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/algoritmos/bds_gradient_boosting_001_00.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Gradient Boosting con `sklearn`</font>**

<p align="justify">
Un modelo <b>Gradient Boosting</b> está formado por un conjunto (ensamble) de árboles de decisión individuales, <mark>entrenados de forma secuencial</mark>. Cada nuevo árbol emplea información del árbol anterior para aprender de sus errores, mejorando iteración a iteración.
<br><br>
Repasemos los conceptos de ensamble y boosting.

 ## **<font color="DeepPink">Ensamble</font>**

<p align="justify">
Los métodos de ensamble en machine learning son técnicas que combinan múltiples modelos de aprendizaje para mejorar la precisión y robustez de las predicciones. Estos métodos se basan en el principio de que la combinación de múltiples modelos puede generar mejores resultados que utilizar un único modelo.
<br><br>
Existen diferentes enfoques para construir ensambles en machine learning, siendo los más comunes:
<ul align="justify">
<li> <b>Bagging</b>: se ajustan múltiples modelos, cada uno con un subconjunto distinto de los datos de entrenamiento.  El ejemplo más popular de algoritmo de ensamble basados en Bagging es <b>Random Forest</b>.
<br><br>
<li> <b>Boosting</b>: a diferencia del bagging, se basa en construir una secuencia de modelos donde cada uno se enfoca en mejorar los errores del modelo anterior. Algunos ejemplos populares de algoritmos de Boosting son <b>AdaBoost, Gradiente Boosting Machine, XGBoost, LightGBM</b> y <b>CatBoost</b>. Cada algoritmo de Boosting tiene su propio enfoque para ajustar los pesos de las instancias y combinar las predicciones, pero todos comparten la idea general de construir una secuencia de modelos que se mejoren consecutivamente.

 ## **<font color="DeepPink">Procedimiento Bagging</font>**



<ol align="justify">
    <li>Se toma una muestra aleatoria simple con reemplazo del conjunto de datos original. Esta muestra se llama "bag" o "bolsa". La muestra tiene el mismo tamaño que el conjunto de datos original.
    <br><br>
    <li>Se realiza una muestra aleatoria simple de las variables predictoras. Esto significa que se seleccionan aleatoriamente un subconjunto de variables predictoras del conjunto de variables disponibles.
    <br><br>
    <li>Se construye un árbol de decisión utilizando la muestra de la bolsa y las variables predictoras seleccionadas en el paso anterior. El árbol se construye sin poda, es decir, sin limitar su crecimiento.
    <br><br>
    <li>Se realizan las predicciones utilizando las observaciones que no se incluyeron en la bolsa, es decir, las observaciones que quedaron fuera de la muestra seleccionada. Estas predicciones se conocen como "out-of-bag".
    <br><br>
    <li>Se repiten los pasos 1 al 4 tantas veces como árboles se deseen construir. Cada iteración genera una nueva muestra de la bolsa, una nueva selección de variables predictoras y un nuevo árbol de decisión.
    <br><br>
    <li>Las predicciones de cada árbol se combinan para obtener una predicción final. En el caso de la regresión, esto implica promediar las predicciones de los modelos base. En la clasificación, se puede utilizar una votación mayoritaria para determinar la clase final.
</ol>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/random%20forest.jpg?raw=true" width="350">
</p>

 ## **<font color="DeepPink">Procedimiento Boosting</font>**

<ol align="justify">
<li>Se toma una muestra aleatoria simple sin reemplazo del conjunto de datos original para formar el conjunto de entrenamiento inicial. Se asigna un peso inicial igual a cada instancia.
<br><br>
<li>Se entrena un modelo base (árbol de decisión) con el conjunto de entrenamiento.
<br><br>
<li>Se evalúa el rendimiento del modelo base en el conjunto de entrenamiento. Se asignan pesos a las instancias según los errores de predicción cometidos por el modelo base. Las instancias mal clasificadas o con errores más altos reciben mayor peso para enfocarse en ellas en las iteraciones posteriores.
<br><br>
<li>Se actualizan los pesos de las instancias en el conjunto de entrenamiento.
<br><br>
<li>Se repiten los pasos 2 a 4 varias veces, donde en cada iteración se construye un nuevo modelo base utilizando el conjunto de entrenamiento actualizado.
<br><br>
<li>Durante cada iteración, se ajustan los pesos de las instancias nuevamente en función de los errores cometidos por los modelos base anteriores.
<br><br>
<li>Finalmente, se realiza una combinación ponderada de las predicciones de todos los modelos base para obtener una predicción final. Los modelos con mejor rendimiento tienen mayor peso en la combinación de predicciones. </ol><br>
<p align="justify">
El Boosting se caracteriza por enfocarse en instancias difíciles y corregir los errores de los modelos anteriores en cada iteración. De esta manera, el modelo final tiene en cuenta los patrones que no fueron correctamente aprendidos en etapas anteriores.

 ## **<font color="DeepPink">Gradient Boosting en Python</font>**

<p align="justify">
En Python, existen varios algoritmos de <b>Gradient Boosting</b> disponibles:
<ul align="justify">
<br>
<li> <b>Gradient Boosting Machine</b>: es una implementación básica y genérica del Gradient Boosting. Utiliza el algoritmo del descenso del gradiente para ajustar los modelos base.
<br><br>
<li> <b>XGBoost (Extreme Gradient Boosting)</b>: ofrece mejoras en términos de velocidad de entrenamiento y capacidad de manejo de conjuntos de datos grandes. También proporciona una amplia variedad de hiperparámetros para ajustar el modelo y opciones de regularización.
<a href="https://xgboost.readthedocs.io/en/stable/"> Documentación XGBoost</a>
<br><br>
<li> <b>LightGBM</b>: se enfoca en la eficiencia y escalabilidad en términos de velocidad de entrenamiento y uso eficiente de memoria. Utiliza el enfoque de separación de hojas por nivel, lo que permite una mayor eficiencia en la construcción de árboles y puede ser especialmente beneficioso para grandes conjuntos de datos.
<a href="https://lightgbm.readthedocs.io/en/stable/"> Documentación LightGBM</a>
<br><br>
<li> <b>CatBoost</b>: se destaca por su capacidad para manejar variables categóricas sin requerir una codificación previa. También incluye características como la detección automática de interacciones entre las variables explicativas y manejo automático de valores faltantes.
<a href="https://catboost.ai/en/docs/"> Documentación CatBoost</a>











 # **<font color="DeepPink">Carga de las librerías básicas</font>**

In [None]:
import numpy as np
import pandas as pd

In [None]:
import plotly.express as px
import plotly.graph_objects as go

 # **<font color="DeepPink">Conjunto de datos</font>**

In [None]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/Ecommerce_Customers.csv"

In [None]:
datos = pd.read_csv(url)

In [None]:
datos.head()

Unnamed: 0,Email,Address,Avatar,Avg. Session Length,Time on App,Time on Website,Length of Membership,Yearly Amount Spent
0,mstephenson@fernandez.com,"835 Frank Tunnel\nWrightmouth, MI 82180-9605",Violet,34.497268,12.655651,39.577668,4.082621,587.951054
1,hduke@hotmail.com,"4547 Archer Common\nDiazchester, CA 06566-8576",DarkGreen,31.926272,11.109461,37.268959,2.664034,392.204933
2,pallen@yahoo.com,"24645 Valerie Unions Suite 582\nCobbborough, D...",Bisque,33.000915,11.330278,37.110597,4.104543,487.547505
3,riverarebecca@gmail.com,"1414 David Throughway\nPort Jason, OH 22070-1220",SaddleBrown,34.305557,13.717514,36.721283,3.120179,581.852344
4,mstephens@davidson-herman.com,"14023 Rodriguez Passage\nPort Jacobville, PR 3...",MediumAquaMarine,33.330673,12.795189,37.536653,4.446308,599.406092


<p align="justify">
Es una empresa de comercio electrónico con sede en la ciudad de Nueva York que vende ropa en línea, pero también tienen sesiones de asesoramiento sobre estilo y ropa en la tienda. Los clientes que vienen a la tienda, tienen sesiones/reuniones con un estilista personal, luego pueden ordenar a través de una aplicación móvil o sitio web la ropa que desean.
<br>
<br>
Intentan identificar si debe enfocarse en mejorar su experiencia de aplicación movil o en su página web.
<br>
<br>
Este es un conjunto de datos de los clientes de la empresa. El cual tiene información del cliente, como correo electrónico, dirección postal y su color de avatar. También tiene columnas de valores numéricos:

* **Avg. Session Length**: duración promedio de sesiones de asesoramiento de estilo en la tienda.

* **Time on App**: tiempo promedio de permanencia en la aplicación en minutos.

* **Time on Website**: tiempo promedio de permanencia en el sitio web en minutos.

* **Length of Membership**: cuántos años ha sido miembro el cliente.

* **Yearly Amount Spent**: monto anual gastado en la plataforma.





In [None]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Email                 500 non-null    object 
 1   Address               500 non-null    object 
 2   Avatar                500 non-null    object 
 3   Avg. Session Length   500 non-null    float64
 4   Time on App           500 non-null    float64
 5   Time on Website       500 non-null    float64
 6   Length of Membership  500 non-null    float64
 7   Yearly Amount Spent   500 non-null    float64
dtypes: float64(5), object(3)
memory usage: 31.4+ KB


<p align="justify">
Con el método <code>drop()</code> de <code>Pandas</code> se eliminan las columnas del <code>DataFrame</code> que ya no son útiles. Descartamos <code>Avatar</code>, <code>Email</code> y <code>Address</code>.

In [None]:
datos = datos.drop(["Avatar","Email","Address"], axis=1)

<p align="justify">
Se renombran las columnas para asignarles nombres más descriptivos y significativos. Es posible utilizar el método <code>rename()</code>.

In [None]:
# Renombramos columnas:
datos.rename(columns={"Avg. Session Length": "Tiempo_sesión",
                      "Time on App":"Tiempo_app",
                      "Time on Website":"Tiempo_web",
                      "Length of Membership":"Años_miembro",
                      "Yearly Amount Spent":"Gasto_anual"},inplace=True)

In [None]:
datos.head()

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro,Gasto_anual
0,34.497268,12.655651,39.577668,4.082621,587.951054
1,31.926272,11.109461,37.268959,2.664034,392.204933
2,33.000915,11.330278,37.110597,4.104543,487.547505
3,34.305557,13.717514,36.721283,3.120179,581.852344
4,33.330673,12.795189,37.536653,4.446308,599.406092


 ## **<font color="DeepPink">Separamos la variable objetivo y las variables explicativas</font>**

In [None]:
y = datos.Gasto_anual

In [None]:
X = datos.drop(columns='Gasto_anual')
X.head()

Unnamed: 0,Tiempo_sesión,Tiempo_app,Tiempo_web,Años_miembro
0,34.497268,12.655651,39.577668,4.082621
1,31.926272,11.109461,37.268959,2.664034
2,33.000915,11.330278,37.110597,4.104543
3,34.305557,13.717514,36.721283,3.120179
4,33.330673,12.795189,37.536653,4.446308


 ## **<font color="DeepPink">Conjunto de entrenamiento y conjunto de prueba</font>**

👀 Dividimos en conjunto de entrenamiento y prueba

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

 # **<font color="DeepPink">Gradient Boosting para regresión</font>**

 ## **<font color="DeepPink">Creación y ajuste del modelo</font>**

<p align="justify">
Se ajusta un modelo empleando como variable respuesta <code>Gasto_anual</code> y como variables predictoras todas las otras variables disponibles.
<br><br>
La clase <code>GradientBoostingRegressor</code> del módulo <code>ensemble</code> permite entrenar modelos Gradient Boosting para problemas de regresión.
Puede encontrarse una descripción detallada de todos los hiperparámetros en <a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html"> sklearn.ensemble.GradientBoostingRegressor</a>. En la práctica, cabe prestar especial atención a aquellos que controlan el crecimiento de los árboles, la velocidad de aprendizaje del modelo, y los que gestionan la parada temprana para evitar overfitting:
<ul align="justify">
<li><code>learning_rate</code>: es el porcentaje de cambio con el que se actualizan los coeficientes de pesos en cada iteración. Es decir, cada vez que se realiza una iteración en el proceso de entrenamiento se actualizan los pesos de las variables explicativas para dar cada vez una mejor aproximación.
<br>
<li><code>n_estimators</code>: es el número de árboles incluidos en el modelo.
<br>
<li><code>max_depth</code>: es la profundidad máxima que pueden alcanzar los árboles.
<br>
<li><code>min_samples_split</code>: es el número mínimo de muestras o datos que debe de tener un nodo para que pueda dividirse.
<br>
<li><code>min_samples_leaf</code>: es el número mínimo de muestras requeridas en un nodo hoja.
<br>
<li><code>max_leaf_nodes</code>: es el número máximo de nodos hoja para cada árbol.
<br>
<li><code>max_features</code>: es el número de variables predictoras consideradas en cada división.
<br>
<li><code>tol</code>: es el porcentaje mínimo de mejora entre dos iteraciones consecutivas por debajo del cual se considera que el modelo no ha mejorado.
<br>
<li><code>validation_fraction</code>: proporción de datos separados del conjunto entrenamiento y empleados como conjunto de validación para determinar la parada temprana (early stopping).
<br>
<li><code>n_iter_no_change</code>: número de iteraciones consecutivas en las que no se debe superar el tol para que el algoritmo se detenga (early stopping). Si su valor es None se desactiva la parada temprana.
<br>
<li><code>random_state</code>: semilla para que los resultados sean reproducibles. Tiene que ser un valor entero.

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

<p align="justify">
Se crea un modelo de Gradient Boosting para regresión utilizando la biblioteca  <code>sklearn</code>. El hiperparámetro <code>n_estimators = 10</code> indica que el modelo tendrá 10 árboles de decisión.

In [None]:
model_GBR = GradientBoostingRegressor(
            n_estimators = 10,
            random_state = 123,
            )

<p align="justify">
Una vez creado el modelo, se ajusta con los datos de entrenamiento: <code>X_train</code> (variables explicativas) e <code>y_train</code> (variable objetivo).

In [None]:
model_GBR.fit(X_train, y_train)

 ## **<font color="DeepPink">Predicción y evaluación del modelo</font>**

<p align="justify">
Después de entrenar el modelo, se realizan las predicciones sobre nuevos datos (<code>X_test</code>).

In [None]:
prediction = model_GBR.predict(X_test)
prediction[:10]

array([468.71086828, 519.02246474, 504.91080311, 499.07152535,
       468.71086828, 524.14241589, 499.34515578, 509.66171487,
       451.12046008, 499.20411396])

<p align="justify">
Por último, se evalua el rendimiento del modelo usando la métrica del Error Absoluto Medio (Mean Absolute Error o MAE). El MAE calcula las diferencias en valores absolutos entre las etiquetas reales (<code>y_test</code>) y las predicciones realizadas por el modelo (<code>prediction</code>).


In [None]:
from sklearn.metrics import mean_absolute_error
MAE = round(mean_absolute_error(y_test, prediction),2)
print("MAE: {}".format(MAE))


MAE: 29.97


<p align="justify">
Un <b>MAE</b> de 29.97 significa que, en promedio, las predicciones del modelo difieren en aproximadamente 29.97 dólares anuales de los valores reales.

 ## **<font color="DeepPink">Optimización de hiperparámetros</font>**

<p align="justify">
El modelo inicial se ha entrenado utilizando 10 árboles (<code>n_estimators=10</code>) manteniendo el resto de hiperparámetros con su valor por defecto. Al ser hiperparámetros, no se puede saber de antemano cuál es el valor más adecuado.
<br><br>
A continuación se busca encontrar el valor óptimo de uno o más hiperparámetros para mejorar el rendimiento del modelo. Pero antes repasemos los conceptos de conjunto de <b>entrenamiento</b>, <b>validación</b> y <b>prueba</b> utilizando el siguiente gráfico:

<p align="justify">


<p align="center">
<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png" width="500">
</p>


<ul align="justify">
<li><b>Conjunto de entrenamiento</b>: es el conjunto más grande de datos y se utiliza para entrenar el modelo. El modelo aprende a partir de los patrones y relaciones presentes en estos datos.
<br><br>
<li><b>Conjunto de validación</b>: se utiliza durante el proceso de ajuste de hiperparámetros y la selección del mejor modelo.
<br><br>
<li><b>Conjunto de prueba</b>: una vez que se ha seleccionado el modelo final y se han ajustado los hiperparámetros, se evalúa el rendimiento del modelo en el conjunto de prueba.

 ### **<font color="DeepPink">1. Número de árboles</font>**

<p align="justify">
En Gradient Boosting, el número de árboles (<code>n_estimators</code>) es un hiperparámetro crítico en cuanto que, conforme se añaden árboles, se incrementa el riesgo de <i>overfitting</i>.

In [None]:
# Validación empleando k-cross-validation y neg_mean_absolute_error
train_scores = []
val_scores = []

# Valores evaluados
estimator_range = range(1, 500, 25)

In [None]:
from sklearn.model_selection import cross_val_score

# Bucle para entrenar un modelo con cada valor de n_estimators y extraer su error de entrenamiento y de validación.
for n_estimator in estimator_range:

    model_GBR = GradientBoostingRegressor(
                n_estimators = n_estimator,
                random_state = 123,
                )

    # Error de entrenamiento
    model_GBR.fit(X_train, y_train)
    prediction = model_GBR.predict(X_train)
    mae = mean_absolute_error(y_true  = y_train,
                              y_pred  = prediction)
    train_scores.append(mae)

    # Error de validación
    scores = cross_val_score(estimator = model_GBR,
                             X         = X_train,
                             y         = y_train,
                             scoring   = 'neg_mean_absolute_error')
    val_scores.append(-1 * scores.mean())                                       # Se agregan los scores de cross_val_score() y se pasa a positivo

In [None]:
fig = go.Figure()

fig.add_trace(go.Scatter(x = list(estimator_range),
                         y = train_scores,
                         name = 'Train scores'))

fig.add_trace(go.Scatter(x = list(estimator_range),
                         y = val_scores,
                         name = 'Validation scores'))

fig.update_layout(template="gridon",
                  title_text="Evolución de los errores según el número árboles",
                  xaxis_title='Número de árboles',
                  yaxis_title='Mean Absolute Error')

fig.show()

Según los valores del error de validación, a partir de los 51 árboles, el error del modelo se estabiliza.

 ### **<font color="DeepPink">2. Profundidad de los árboles</font>**

<p align="justify">
La profundidad de los árboles (<code>max_depth</code>) en los modelos Gradient Boosting suele ser un valor muy bajo, haciendo así que cada árbol solo pueda aprender un pequeña parte de la relación entre las variables predictoras y la variable respuesta.

In [None]:
# Validación empleando k-cross-validation y neg_mean_absolute_error
train_scores = []
val_scores = []

# Valores evaluados
max_depths = [1, 3, 5, 10, 20]

# Bucle para entrenar un modelo con cada valor de n_estimators y extraer su error de entrenamiento y de prueba.
for max_depth in max_depths:

    model_GBR = GradientBoostingRegressor(
                n_estimators = 51,
                max_depth    = max_depth,
                random_state = 123,
                )

    # Error de entrenamiento
    model_GBR.fit(X_train, y_train)
    predictions = model_GBR.predict(X_train)
    mae = mean_absolute_error(y_true  = y_train,
                              y_pred  = predictions)
    train_scores.append(mae)

    # Error de validación
    scores = cross_val_score(estimator = model_GBR,
                             X         = X_train,
                             y         = y_train,
                             scoring   = 'neg_mean_absolute_error')
    val_scores.append(-1 * scores.mean())

In [None]:
fig = go.Figure()

fig.add_trace(go.Scatter(x = max_depths,
                         y = train_scores,
                         name = 'Train scores'))

fig.add_trace(go.Scatter(x = max_depths,
                         y = val_scores,
                         name = 'Validation scores'))

fig.update_layout(template="gridon",
                  title_text="Evolución de los errores según el número árboles",
                  xaxis_title='Número de árboles',
                  yaxis_title='Mean Absolute Error')

fig.show()

Según los valores del error de validación, el valor óptimo de `max_depth` es 3.

 ### **<font color="DeepPink">3. Grid Search</font>**

<p align="justify">
En la siguiente búsqueda de hiperparámetros, se emplea la estrategia de no incluir el número de árboles como hiperparámetro en el grid. En su lugar, se utiliza por defecto un número muy elevado.

<p align="justify">
Definimos una grilla de hiperparámetros para ajustar un modelo <code>GradientBoostingRegressor</code>.
<br><br>
Los hiperparámetros considerados son:

- <code>max_features</code> : número máximo de variables explicativas que se considerarán al buscar la mejor división para construir cada árbol. "None" indica que todas las características se considerarán, mientras que "sqrt" y "log2" representan la raíz cuadrada y el logaritmo en base 2 del número total de variables predictoras, respectivamente.

- <code>max_depth</code> : representa la profundidad máxima de los árboles. Los valores posibles son None, 1, 3, 5, 10.

- <code>learning_rate</code> : el algoritmo probará tres tasas de aprendizaje diferentes: 0.001, 0.01 y 0.1.

Durante la búsqueda de hiperparámetros, se probarán todas las combinaciones posibles de estos valores para encontrar la combinación óptima que resulte en el mejor rendimiento del modelo.

In [None]:
# Grid de hiperparámetros evaluados
param_grid = {'max_features'  : [None, 'sqrt', 'log2'],
              'max_depth'     : [None, 1, 3, 5, 10],
              'learning_rate' : [0.001, 0.01, 0.1]
             }

<p align="justify">
La clase <code>GridSearchCV</code> de <code>sklearn</code> ajusta los hiperparámetros del modelo para encontrar la combinación óptima que produce el mejor rendimiento en nuevos datos.

In [None]:
# Búsqueda por grid search
from sklearn.model_selection import GridSearchCV

grid = GridSearchCV(estimator = GradientBoostingRegressor(n_estimators        = 1000,
                                                          random_state        = 123,
                                                          # Activación de la parada temprana
                                                          tol                 = 0.0001,
                                                          validation_fraction = 0.1,
                                                          n_iter_no_change    = 5),
                    param_grid = param_grid,
                    scoring    = 'neg_mean_absolute_error',
                    n_jobs     = 2,
                    refit      = True)

grid.fit(X_train, y_train)

<p align="justify">
Podemos inspeccionar todos los resultados que se almacenan en el atributo <code>cv_results_</code> de la búsqueda en grid-search. Eliminamos algunas columnas de estos resultados.

In [None]:
cv_results = pd.DataFrame(grid.cv_results_).sort_values('mean_test_score', ascending = False)
cv_results["mean_test_error"] = -cv_results["mean_test_score"]
cv_results = cv_results.drop(columns=['mean_test_score','std_test_score','rank_test_score','params','split0_test_score','split1_test_score','split2_test_score','split3_test_score','split4_test_score','mean_fit_time','std_fit_time','mean_score_time','std_score_time'])
cv_results.head()

Unnamed: 0,param_learning_rate,param_max_depth,param_max_features,mean_test_error
33,0.1,1,,11.859834
35,0.1,1,log2,11.901023
34,0.1,1,sqrt,11.901023
22,0.01,3,sqrt,12.665232
23,0.01,3,log2,12.665232


<p align="justify">
Es posible obtener los hiperparámetros óptimos utilizando el atributo <code>best_params_</code> de la búsqueda en grid-search. Además, mediante los atributos <code>best_score_</code> y <code>scoring</code>, podemos acceder al valor del rendimiento óptimo y a la métrica de evaluación respectivamente, asociados con los hiperparámetros obtenidos.

In [None]:
print("Mejores hiperparámetros encontrados")
print(grid.best_params_, ":", grid.best_score_, grid.scoring)

Mejores hiperparámetros encontrados
{'learning_rate': 0.1, 'max_depth': 1, 'max_features': None} : -11.859834349941561 neg_mean_absolute_error


<p align="justify">
Aunque se ha indicado que <code>n_estimator = 1000</code>, debido a la activación de la parada temprana, el entrenamiento puede detenerse antes.

In [None]:
print(f"Número de árboles del modelo: {grid.best_estimator_.n_estimators_}")

Número de árboles del modelo: 302


Número de árboles del modelo final (bebido a la activación de la parada temprana) es 302.

<p align="justify">
Una vez identificados los mejores hiperparámetros, se reentrena el modelo indicando los valores óptimos en sus argumentos. Si en el <code>GridSearchCV</code> se indica <code>refit=True</code>, este reentrenamiento se hace automáticamente y el modelo resultante se encuentra almacenado en el atributo <code>best_estimator_</code>.

In [None]:
final_model = grid.best_estimator_

 ## **<font color="DeepPink">Predicción y evaluación del modelo</font>**

In [None]:
predictions = final_model.predict(X = X_test)
predictions[:10]

array([419.99237014, 541.90152311, 428.95666433, 509.1631067 ,
       410.52332851, 572.4465513 , 537.66188483, 507.79171027,
       417.24631696, 474.93208275])

In [None]:
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_true = y_test,
                          y_pred = predictions)
mae

10.251274345949103

<p align="justify">
Un <b>MAE</b> de 10.25 significa que, en promedio, las predicciones del modelo difieren en aproximadamente 10.25 dólares anuales de los valores reales.

 ## **<font color="DeepPink">Importancia de las variables predictoras</font>**

<p align="justify">
El atributo <code>feature_importances_</code> se utiliza para obtener la importancia de las variables explicativas utilizadas por el modelo para realizar predicciones.

In [None]:
importancia_predictores = pd.DataFrame(
                            {'predictor': X.columns,
                             'importancia': grid.best_estimator_.feature_importances_}
                            )
importancia_predictores

Unnamed: 0,predictor,importancia
0,Tiempo_sesión,0.100497
1,Tiempo_app,0.233144
2,Tiempo_web,0.000441
3,Años_miembro,0.665918


In [None]:
fig = px.bar(importancia_predictores.sort_values(by='importancia'),
             x = 'importancia',
             y = 'predictor')

fig.update_layout(template="gridon",
                  title_text="Importancia de las variables predictoras",
                  xaxis_title='',
                  yaxis_title='',
                  yaxis=dict(tickfont=dict(size=10))
                  )

fig.show()

<p align="justify">
Las 2 variables que más contribuyen al rendimiento general del modelo son <code>Años_miembto</code> y <code>Tiempo_app</code>.  

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:
<br><br>
✅ Revisamos los conceptos de conjunto de entrenamiento, validación y prueba.
<br>
✅ Utilizamos la biblioteca <code>scikit_learn</code> para entrenar un modelo de gradient boosting en el contexto de un problema de regresión.
<br>
✅ Optimizamos los hiperparámetros del modelo predictivo.
<br>
✅ Analizamos la importancia de las variables explicativas mediente el atributo <code>feature_importances_</code>.



<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
