# Random Forest Regresión

En este notebook vamos a plantear un modelo de Random Forest para la predicción del número de likes en los post de Facebook. Los modelos que hemos construido hasta ahora no han dado muy buenos resultados. Que el bagging no haya dado buenos resultados suele ser un indicador de que tampoco lo hará random forest pero por fines didácticos vamos a comprobarlo. Emplearemos los siguientes módulos:

In [None]:
import pandas as pd
import numpy as  np
import matplotlib.pyplot as plt

Comenzamos cargando los datos, verificando su correcta lectura:

In [None]:
data_fb = pd.read_csv('./data/cleaned_facebook.csv')
data_fb.head()

In [None]:
data_fb.shape

Separamos la etiqueta de las variables predictoras:

In [None]:
X = data_fb.drop('like', axis=1)
y = data_fb['like']

Dividimos los datos en datos de entrenamiento y datos de validación para poder evaluar el modelo de manera objetiva:

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=21)

## Construcción del modelo

Como siempre comenzamos instanciando el modelo:

In [None]:
from sklearn.ensemble import RandomForestRegressor
rf_regressor = RandomForestRegressor(random_state = 21)

Y una vez instanciado lo ajustamos a los datos de entrenamiento:

In [None]:
rf_regressor.fit(X_train, y_train)

Calculamos como siempre el R2 para medir la calidad del modelo:

In [None]:
y_rf_pred_train = rf_regressor.predict(X_train)

In [None]:
from sklearn.metrics import r2_score
r2_score(y_train, y_rf_pred_train)

In [None]:
y_rf_pred_test = rf_regressor.predict(X_test)
r2_score(y_test, y_rf_pred_test)

Observamos de nuevo que el modelo presenta un R2 muy bajo en validación por lo que vamos a intentar mejorarlo:

In [None]:
rf_regressor_tuned = RandomForestRegressor(n_estimators = 200, max_depth = 150, random_state = 21)

In [None]:
rf_regressor_tuned.fit(X_train, y_train)

Calculamos de nuevo el R2 en entrenamiento y validación:

In [None]:
y_rf_pred_tuned_train = rf_regressor_tuned.predict(X_train)
r2_score(y_train, y_rf_pred_train)



In [None]:
y_rf_pred_tuned_test = rf_regressor_tuned.predict(X_test)
r2_score(y_test, y_rf_pred_tuned_test)

Calculamos como siempre el error medio cuadrático:

In [None]:
from sklearn.metrics import mean_squared_error
mse_test = mean_squared_error(y_test, y_rf_pred_tuned_test)
np.sqrt(mse_test)

Por último podemos examinar la importancia de las variables:

In [None]:
importancia_predictores = pd.DataFrame(
                            {'Variable predictora': X_train.columns,
                             'Importancia': rf_regressor_tuned.feature_importances_}
                            )
importancia_predictores.sort_values('Importancia', ascending=False)

De nuevo los likes totales de la página son el mayor indicador a la hora de predecir.