# Boosting para la regresión

En este notebook afrontamos la predicción del número de likes de una publicación empleando técnicas de boosting. El boosting suele ser el modelo más potente en términos de precisión si logramos combatir el overfitting. Veremos si es capaz de mejorar los resultados en nuestro problema. En este notebook emplearemos los siguientes módulos:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

Cargamos los datos ya limpios de las publicaciones:

In [None]:
data_fb = pd.read_csv('./data/cleaned_facebook.csv')

Comprobamos que los datos se han cargado de manera correcta:

In [None]:
data_fb.head()

In [None]:
data_fb.shape

Separamos las variables predictoras de la etiqueta o variable objetivo:

In [None]:
X = data_fb.drop('like', axis=1)
y = data_fb['like']

Como siempre dividimos nuestros datos en entrenamiento y validación para poder evaluar de manera objetiva nuestro modelo:

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=21)

## Construcción del modelo

Como siempre comenzamos instanciando el modelo con los parámetros predeterminados:

In [None]:
from sklearn.ensemble import GradientBoostingRegressor
boost_regressor = GradientBoostingRegressor()

Ajustamos este modelo inicial a los datos de entrenamiento:

In [None]:
boost_regressor.fit(X_train, y_train)

Predecimos sobre el conjunto de entrenamiento y validación para calcular el R2:

In [None]:
y_boost_pred_train = boost_regressor.predict(X_train)

In [None]:
from sklearn.metrics import r2_score
r2_score(y_train, y_boost_pred_train)

In [None]:
y_boost_pred_test = boost_regressor.predict(X_test)
r2_score(y_test, y_boost_pred_test)

Obtenemos un R2 más alto que de costumbre y parece que un cierto overfitting. Intentamos reducirlo jugando con el ratio de aprendizaje:

In [None]:
boost_regressor_tuned = GradientBoostingRegressor(learning_rate=0.1)

Ajustamos un nuevo modelo con un ratio de aprendizaje de 0.1:

In [None]:
boost_regressor_tuned.fit(X_train, y_train)

Comprobamos de nuevo el R2:

In [None]:
y_boost_tuned_pred_train = boost_regressor_tuned.predict(X_train)

In [None]:
r2_score(y_train, y_boost_tuned_pred_train)

In [None]:
y_boost_tuned_pred_test = boost_regressor_tuned.predict(X_test)

In [None]:
r2_score(y_test, y_boost_tuned_pred_test)

Aunque parece que no hemos conseguido reducir el sobreajuste si calculamos el error medio cuadrático observamos que:

In [None]:
from sklearn.metrics import mean_squared_error
mse_test = mean_squared_error(y_test, y_boost_tuned_pred_test)
np.sqrt(mse_test)

Hemos conseguido reducir el error de manera increíble y aunque siga siendo un error bastante alto al menos no asciende a los valores vistos hasta ahora en esta sección.

Como siempre podemos observar cuáles han sido las variables que más relevancia han tenido para esta predicción:

In [None]:
importancia_predictores = pd.DataFrame(
                            {'Variable predictora': X_train.columns,
                             'Importancia': boost_regressor_tuned.feature_importances_}
                            )
importancia_predictores.sort_values('Importancia', ascending=False)

En este caso la fecha de publicación parece cobrar importancia desplazando al número total de likes de la página a la tercera posición.

### Ideas de mejora

* Generar nuevas variables.
* Recabar más datos.
* Realizar pruebas con subconjuntos de variables.

__Nota.__ Ver vídeo de comparación de modelo para ver desarrolladas las ideas de mejora.