In [1]:
import pandas as pd
import plotly.express as px

from sklearn.ensemble import RandomForestRegressor

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_percentage_error

#cross validation
from sklearn.model_selection import cross_val_score

# Librerias para regresion
from sklearn.linear_model import LinearRegression, RidgeCV, LassoCV, BayesianRidge
from sklearn.ensemble import AdaBoostRegressor, RandomForestRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_percentage_error

import numpy as np

# Laboratorio 3: Prediciendo la popularidad de un artículo online

La base de datos `OnlinePop.csv` contiene características sobre artículos publicados por [Mashable](https://mashable.com/) en un período de dos años. El objetivo es predecir el número de *shares* en las redes sociales (popularidad).

El documento `attribute_information.txt` contiene la descripción de cada una de las variables de la base de datos.

Este laboratorio será una competencia. El objetivo es obtener la mejor predicción del número de shares para los artículos en la base de datos `final_test_set.csv`. Este archivo **no** tiene a la variable `_shares`.

## Parte 1

Cree un modelo de Random Forest (RandomForestRegressor) para predecir la variable `_shares`. Reporte el MAPE obtenido. Puede usar la función `cross_val_score()` para utilizar validación cruzada de k-fold para estudiar la calidad de su modelo.

Ejemplo de validación cruzada:

```{python}
modelo = RandomForestRegressor()
scores = cross_val_scores(modelo, X, y, cv=5, scoring='neg_mean_absolute_percentage_error')
```

En `scores` quedarán los resultados del -MAPE para cada "fold".

In [2]:
OnlinePop = pd.read_csv('OnlinePop.csv')

# Eliminar filas con valores NaN en X y y
OnlinePop = OnlinePop.dropna()
X = OnlinePop.drop(['_shares', 'url'], axis=1)
y = OnlinePop['_shares']

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=0)

In [4]:
# Creamos una instancia del modelo Random Forest con los parámetros deseados
modelo = RandomForestRegressor(n_estimators=10, max_depth=5)

In [5]:
# Realizamos la validación cruzada del modelo
scores = cross_val_score(modelo, X, y, cv=5, scoring='neg_mean_absolute_percentage_error')

In [6]:
# Imprimimos la puntuación media y la desviación estándar de las puntuaciones
print('Puntuación media:', np.mean(scores))
print('Desviación estándar:', np.std(scores))

Puntuación media: -1.8732145049264166
Desviación estándar: 0.2760543729329835


In [7]:
# Entrenamos el modelo con todos los datos
modelo.fit(X, y)

In [8]:
# Hacemos predicciones en nuevas muestras
final_test_set = pd.read_csv('final_test_set.csv')
X1 = final_test_set.drop('url', axis=1)
X1
predicciones_final_test= modelo.predict(X1)

In [9]:
# Imprimimos las predicciones
print('Predicciones:', predicciones_final_test)

Predicciones: [  3272.31184795   2118.5258651    2648.12958513   5529.89044084
   2603.77743101   2455.59928755   1722.01261241   5156.61040323
   1949.61290392   2697.26970324   2516.58494752   2081.55899072
   2544.49252473   3442.69137627   2523.3043829    1722.01261241
   1949.61290392   4089.79664453   2052.70935712   2081.55899072
   4352.18218342   5263.6317643    3978.60662596   3037.04813661
   2964.69963385   1964.5824788    3407.10765522   3978.60662596
   1883.79639594   2124.46922445   2856.23477233   1894.10591176
   3045.17268196   3751.50834325   4741.74463301   5316.81437154
   3751.50834325   9727.90001873   1997.20236496   2777.74275134
   2839.67160877   1722.01261241   1722.01261241   5527.96936251
   2886.29387328   4316.01436003   2700.81364268   1825.73619724
   1828.28940378   1828.28940378   2936.70782044   2553.38371147
   3751.50834325   3562.36981442   3272.31184795   1722.01261241
   4445.16817882   4687.79596128   1949.61290392   2600.23349157
   2620.340

In [10]:
predicciones_entrenamiento = modelo.predict(X)
mape = mean_absolute_percentage_error(y, predicciones_entrenamiento)
print('MAPE:', mape)

MAPE: 1.8461850331288379


## Parte 2

Entrene un modelo que permita ganar la competencia!

Su objetivo es conseguir las mejores predicciones (según el MAPE) para los artículos en la base de datos `final_test_set.csv`. Estas predicciones deben ser subidas a la competencia en Kaggle para su evaluación (el profesor le explicará cómo funciona).

Note que hay 3 caminos para mejorar su modelo en la Parte 1:

* Calibrar el modelo usando hiperparámetros.
* Seleccionando variables de la base de datos.
* Ensamblando su modelo con otros modelos (y, por ejemplo, usando el promedio de las predicciones entregadas por cada modelo).

Usted y su grupo tienen total libertad para elegir el camino que quiera, pero debe entregar un notebook en donde se muestre claramente qué camino tomaron y cuál fue el modelo final que usaron para hacer sus predicciones.

El plazo de entrega para este trabajo es el próximo jueves 18 de mayo a las 14:00.

Éxito!

In [None]:
OnlinePop = pd.read_csv('OnlinePop.csv')

# Eliminar filas con valores NaN en X y y
OnlinePop = OnlinePop.dropna()
X = OnlinePop.drop(['_shares', 'url'], axis=1)
y = OnlinePop['_shares']

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=0)

# Creamos una instancia del modelo Random Forest con los parámetros deseados
modelo = RandomForestRegressor(n_estimators=300, max_depth=None, max_features='sqrt' ,n_jobs = -1)

# Realizamos la validación cruzada del modelo
scores = cross_val_score(modelo, X, y, cv=5, scoring='neg_mean_absolute_percentage_error')

# Imprimimos la puntuación media y la desviación estándar de las puntuaciones
print('Puntuación media:', np.mean(scores))
print('Desviación estándar:', np.std(scores))

# Entrenamos el modelo con todos los datos
modelo.fit(X, y)

# Hacemos predicciones en nuevas muestras
final_test_set = pd.read_csv('final_test_set.csv')
X1 = final_test_set.drop('url', axis=1)
X1
predicciones_final_test= modelo.predict(X1)

# Imprimimos las predicciones
print('Predicciones:', predicciones_final_test)


In [18]:
predicciones_entrenamiento = modelo.predict(X)
mape = mean_absolute_percentage_error(y, predicciones_entrenamiento)
print('MAPE:', mape)

MAPE: 0.736416685946638


In [19]:
X1

Unnamed: 0.1,Unnamed: 0,_timedelta,_n_tokens_title,_n_tokens_content,_n_unique_tokens,_n_non_stop_words,_n_non_stop_unique_tokens,_num_hrefs,_num_self_hrefs,_num_imgs,...,_avg_positive_polarity,_min_positive_polarity,_max_positive_polarity,_avg_negative_polarity,_min_negative_polarity,_max_negative_polarity,_title_subjectivity,_title_sentiment_polarity,_abs_title_subjectivity,_abs_title_sentiment_polarity
0,16459,413.0,8.0,181.0,0.692737,1.0,0.808333,5.0,4.0,1.0,...,0.480000,0.100000,1.00,-0.283333,-0.4,-0.166667,1.000000,0.000000,0.500000,0.000000
1,10887,524.0,10.0,199.0,0.540816,1.0,0.635659,7.0,5.0,1.0,...,0.374394,0.160000,0.50,-0.251389,-0.4,-0.166667,0.400000,0.250000,0.100000,0.250000
2,1665,703.0,7.0,182.0,0.624309,1.0,0.801980,5.0,2.0,0.0,...,0.343723,0.136364,0.75,-0.496875,-1.0,-0.125000,0.300000,-0.500000,0.200000,0.500000
3,38216,34.0,13.0,0.0,0.000000,0.0,0.000000,0.0,0.0,0.0,...,0.000000,0.000000,0.00,0.000000,0.0,0.000000,0.950000,0.500000,0.450000,0.500000
4,36610,58.0,10.0,1394.0,0.378457,1.0,0.530048,3.0,3.0,6.0,...,0.389535,0.050000,1.00,-0.336868,-0.9,-0.025000,0.625000,-0.208333,0.125000,0.208333
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,24089,259.0,15.0,144.0,0.678322,1.0,0.752475,2.0,2.0,1.0,...,0.377273,0.136364,0.75,-0.280556,-0.4,-0.155556,0.133333,0.083333,0.366667,0.083333
996,24126,259.0,8.0,295.0,0.723881,1.0,0.824468,2.0,2.0,0.0,...,0.531778,0.160000,1.00,-0.304881,-0.6,-0.100000,0.000000,0.000000,0.500000,0.000000
997,19269,350.0,11.0,344.0,0.603077,1.0,0.657143,25.0,1.0,0.0,...,0.379339,0.100000,0.80,-0.316667,-0.5,-0.200000,0.000000,0.000000,0.500000,0.000000
998,7207,597.0,13.0,202.0,0.633166,1.0,0.796610,2.0,1.0,0.0,...,0.272960,0.033333,0.80,-0.235714,-0.4,-0.071429,0.454545,0.136364,0.045455,0.136364


In [20]:
pd.DataFrame({'_shares': predicciones_final_test}, index = X1['Unnamed: 0'].values).to_csv("prediction_06.csv")