<center>
<h4>Diplomatura en CDAAyA 2020 - FaMAF - UNC</h4>
<h1>¿Caro o Barato? Análisis de Precios de Almacen en un Contexto Inflacionario</h1>
<h3>Introducción al Aprendizaje Automático & Aprendizaje Automático Supervisado</h3>
</center>
</left>
<h4>Sofía Luján y Julieta Bergamasco</h4>
</left>

## Introducción

En la siguiente notebook se presentará la consigna a seguir para el tercer práctico del proyecto, correspondiente a las materias Introducción al Aprendizaje Automático y Aprendizaje Automático Supervisado. El objetivo consiste en explorar la aplicación de diferentes métodos de aprendizaje supervisado aprendidos en el curso, así como también de métodos de _ensemble learning_, a través de experimentos reproducibles, y evaluando a su vez la conveniencia de uno u otro, así como la selección de diferentes hiperparámetros a partir del cálculo de las métricas pertinentes.

En el caso de nuestro proyecto, podemos plantear diferentes tipos de problemas, como la agrupación de productos, la estimación de un precio o la identificación de precios anómalos. Sin embargo, a los fines de este práctico, nos enfocaremos en la predicción de precios relativos.

Para ello, comenzaremos con las importaciones pertinentes.

## Importaciones

In [55]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
# Puede que nos sirvan también
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
#import plotly.express as px
import sklearn as skl
from io import StringIO

from sklearn import preprocessing
from sklearn.utils import shuffle #, print_eval
from sklearn.metrics import accuracy_score, confusion_matrix, mean_squared_error, classification_report, roc_curve, auc
from sklearn import ensemble #RandomForestClasifier, VotingClassifier
from sklearn import svm #LinearSVC, SVC
from sklearn import neural_network
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV

np.random.seed(0)  # Para mayor determinismo

In [None]:
pd.set_option('display.max_columns', 1500)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)

## Consigna

### I. Preprocesamiento

A los fines de realizar este práctico, se utilizará el dataset limpio obtenido en la etapa anterior. La división entre train y test será realizada en este mismo práctico.
A continuación se detallan los pasos a seguir para el preprocesamiento de los datos.

#### 1. Obtención del Dataset

Cargar los datasets originales.

#### 2. Aplicar Script de Curación

Inicialmente, con el objetivo de preparar los datos que alimentarán los modelos de aprendizaje automático (ML) propuestos, deberán aplicar el script de curación obtenido en el práctico anterior.
En esta etapa, pueden adicionar los atributos que crean pertinentes a priori o que hayan encontrado interesantes por tener mayor correlación con la variable de interés (precio, precio relativo).

#### 3. Correlación Entre Variables Numéricas

Dado que inicialmente eran pocas las variables numéricas y ahora contamos con un grupo más amplio de estas caracteristicas, se propone obtener la correlación entre todas las variables numéricas. Representarla gráficamente utilizando un mapa de calor (heatmap).
¿Cuáles son las features más correlacionadas con el precio?

#### 4. Multicolinealidad Exacta

Las variables explicativas no deben estar muy correlacionadas entre ellas, ya que la variabilidad de una y otra estarán explicando la misma parte de variabilidad de la variable dependiente. Esto es lo que se conoce como multicolinealidad, lo cual deriva en la imposibilidad de estimar los parámetros cuando la misma es exacta o en estimaciones muy imprecisas cuando la misma es aproximada.
En el caso de encontrar multicolinealidad, responder: ¿Cómo se puede solucionar? ¿Qué decisión tomarían al respecto?

#### 5. Normalización de Atributos

Es posible que sea necesario normalizar las features de nuestro dataset, dado que muchos de los algoritmos de aprendizaje supervisado lo requieren. ¿En qué casos tendrá que implementarse normalización?

Aplicar a los datasets la normalización de atributos que consideren adecuada.

#### 6. Mezca Aleatória y División en Train/Test

Finalmente, están en condiciones de **dividir el dataset en Train y Test**, utilizando para este último conjunto un 20% de los datos disponibles. Previo a esta división, es recomendable que mezclen los datos aleatoriamente.
De este modo, deberán obtener cuatro conjuntos de datos, para cada uno de los datasets: ```X_train```, ```X_test```, ```y_train``` y ```y_test```.

Pensar si hacer de esta forma la división puede afectar la distribución espacial y temporal de los datos.
¿Cuáles pueden ser las consecuencias?


---

A modo de ayuda, **en esta notebook encontrarán una especie de template** que sigue los pasos propuestos y que deberán ir completando.

Recuerden que la ciencia de datos es un **proceso circular, continuo y no lineal**. Es decir, si los datos requieren de mayor procesamiento para satisfacer las necesidades de algoritmos de ML (cualesquiera de ellos), vamos a volver a la etapa inicial para, por ejemplo, crear nuevas features, tomar decisiones diferentes sobre valores faltantes o valores atípicos (outliers), descartar features, entre otras.

### II. Aplicación de Modelos de Aprendizaje Supervisado

Una vez finalizada la etapa de preprocesamiento, se propone implementar diferentes modelos de predicción para el precio relativo, utilizando la librería Scikit-Learn:

1. Linear Support Vector Regression ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVR.html#sklearn.svm.LinearSVR))
2. Stochastic Gradient Descent ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#sklearn.linear_model.SGDRegressor))
3. Regression Based on k-nearest neighbors ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html#sklearn.neighbors.KNeighborsRegressor))
4. Gaussian Process Regression ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.gaussian_process.GaussianProcessRegressor.html#sklearn.gaussian_process.GaussianProcessRegressor))
5. Prediction Voting Regressor ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingRegressor.html#sklearn.ensemble.VotingRegressor))

Para cada uno de ellos, se pide responder las siguientes consignas:
- Agregar vector de Bias, cuando lo crean pertinente. Cuándo hace falta y cuándo no? Por qué?
- Obtener MSE, MAE, RMSE, R Square

De estos tipos de modelos, cuál creen que es el más adecuado para nuestro caso de aplicación?

**Elegir el modelo que consideren que mejor aplica a nuestro problema.** Para ello, recuerden que los pasos a seguir en la selección pueden esquematizarse como sigue:

#### 1. Descripción de la Hipótesis

¿Cuál es nuestro problema? ¿Cómo se caracteriza? ¿Cuál es la hipótesis?

#### 2. Selección de Regularizador

 ¿Utilizarán algún regularizador?¿Cuál?

#### 3. Selección de Función de Costo

¿Cuál será la función de costo utilizada?

#### 4. Justificación de las Selecciones

¿Por qué eligieron el modelo, el regularizador y la función de costo previas?

Finalmente, para el modelo selecionado:

- Utilizar el método *Grid Search*, o de búsqueda exahustiva, con *cross-validation* para profundizar en la búsqueda y selección de hiperparámetros.
- Calcular métricas sobre el conjunto de entrenamiento y de evaluación para los mejores parámetros obtenidos:
    + MSE, MAE, RMSE, R Square
    + Comparar las métricas obtenidas en cada modelo y obtener conclusiones.

---

Si encuentran cualquier otro modelo que consideren apropiado y deseen aplicar, pueden hacerlo con total libertad.

**Opcional**
- Aplicar PCA para reducción de dimensionalidad (manteniendo *n* componentes principales) y entrenar nuevamente el modelo seleccionado como el más apropiado.

### Entregables

El entregable de este práctico consiste en **esta misma Notebook**, pero con el preprocesamiento aplicado y los modelos implementados, agregando las explicaciones que crean pertinentes y las decisiones tomadas, en caso de corresponder.

Sintetizar las conclusiones en un archivo de texto, como lo vienen haciendo con los anteriores prácticos.

**Fecha de Entrega: 31/08**

# Resolución

## I. Preprocesamiento

### 1. Carga de Datos

Para comenzar, importamos los datos que vamos a utilizar:

In [2]:
#precios_20200412_20200413 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200412_20200413.csv')
#precios_20200419_20200419 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200419_20200419.csv')
#precios_20200426_20200426 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200426_20200426.csv')
#precios_20200502_20200503 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200502_20200503.csv')
#precios_20200518_20200518 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200518_20200518.csv')
#productos = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/productos.csv')
#sucursales = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/sucursales.csv')

In [3]:
#precios_20200412_20200413.head()

<div class="alert alert-block alert-info">
El dataset ya está **listo para trabajar!**
</div>

### 2. Aplicar Script de Curación

El siguiente paso implica aplicar el script que resultó del práctico anterior. También pueden adicionar campos calculados en base a otros atributos, según lo consideren pertinente.

In [4]:
#import nltk
#nltk.download('punkt')

In [5]:
#%run -i precioclaros_ultimo.py

In [6]:
file ='sucursal_producto_precio_v2.pkl'

In [7]:
df = pd.read_pickle(file)

In [8]:
df.shape

(2039215, 311)

In [9]:
df.columns

Index(['precio', 'producto_id', 'sucursal_id', 'fecha', 'marca', 'nombre',
       'presentacion', 'categoria1', 'categoria2', 'categoria3',
       ...
       'dummy_sucursal_tipo_hipermercado', 'dummy_sucursal_tipo_supermercado',
       'dummy_region_cuyo', 'dummy_region_norte_grande',
       'dummy_region_patagonia', 'sucursal_id_2', 'bienNumerico',
       'precioRelativo', 'priorPrecioRelativo', 'priorMedia'],
      dtype='object', length=311)

In [10]:
#gsort=df.sort_values(by=['producto_id','sucursal_id','fecha'],ascending=False)
#g = gsort.groupby(['producto_id','sucursal_id']).nth(-2).reset_index()

In [11]:
#g.shape

In [12]:
#aux = g[['producto_id','sucursal_id','precioRelativo']]
#aux.rename(columns = {'precioRelativo': 'priorPrecioRelativo'}, inplace = True)

In [14]:
#df.shape

In [15]:
#df = pd.merge(df,aux,how='left')

In [16]:
#df.shape

In [17]:
#df['priorPrecioRelativo'].isna().sum()

In [18]:
#gsort_media=df.sort_values(by=['nom_provincia','producto_id','fecha'],ascending=False)
#g_media = gsort_media.groupby(['nom_provincia','producto_id']).nth(-2).reset_index()

In [19]:
#aux_media = g_media[['nom_provincia','producto_id','media']]
#aux_media.rename(columns = {'media': 'priorMedia'}, inplace = True)
#df = pd.merge(df,aux_media,how='left')
#df['priorPrecioRelativo'].fillna(df['priorMedia']/df['bienNumerico'],inplace=True)

In [20]:
#df['priorPrecioRelativo'].isna().sum()

In [21]:
#df['priorPrecioRelativo'].fillna(df['media']/df['bienNumerico'],inplace=True)

In [22]:
#df['priorPrecioRelativo'].isna().sum()

In [23]:
#df.head(5)

In [24]:
#correlation_target=df.corr('pearson')['precioRelativo'].to_frame()
#correlation_target['abs_corr']=correlation_target['precioRelativo'].abs()
#correlation_target.sort_values(by='abs_corr',ascending=False)

In [13]:
#Borramos las columnas que ya sabemos que no nos vana servir para implementar los modelos.
df = df.drop(columns=['Unnamed:_0','producto_id','precioXUnidad','sucursal_id','sucursal_id_2','precio','bienNumerico','cantidad','unidad','nuevaUnidad','media','priorMedia','mediana','desvio','q1','q3','IQR','comercioId','banderaId','banderaDescripcion','comercioRazonSocial','provincia','localidad','direccion','lat','lng','sucursalNombre','sucursalTipo','fecha','marca','nombre','presentacion','presentacion_depurada','um_depurada','cantidad_depurada','nombre_depurado','presentacion_en_nombre','factor_homogenea','nom_provincia','region', 'categoria1','categoria2', 'categoria3', 'marcas_frecuentes'], axis=1)

In [32]:
df.shape

(2039215, 267)

**Nota: Solo si estamos entrenando local seleccionamos un subset de datos**

In [30]:
from random import shuffle

In [34]:
#df = shuffle(df)
#df=df.iloc[0:3000]

In [35]:
df_pca=df.copy()           

In [36]:
df.head(5)

Unnamed: 0,dummy_um_homogenea_lt,dummy_um_homogenea_mt,dummy_um_homogenea_pack,dummy_um_homogenea_un,dummy_vino,dummy_queso,dummy_chocolate,dummy_galletitas,dummy_leche,dummy_dulce,dummy_tinto,dummy_crema,dummy_jabon,dummy_blanco,dummy_polvo,dummy_desodorante,dummy_liquido,dummy_fideos,dummy_pan,dummy_shampoo,dummy_vainilla,dummy_jugo,dummy_pollo,dummy_light,dummy_bandeja,dummy_frutilla,dummy_naranja,dummy_malbec,dummy_limpiador,dummy_acondicionador,dummy_jamon,dummy_agua,dummy_aceite,dummy_limon,dummy_arroz,dummy_cerdo,dummy_tono,dummy_yogur,dummy_doypack,dummy_manzana,dummy_mermelada,dummy_mani,dummy_lata,dummy_sal,dummy_salsa,dummy_alimento,dummy_natural,dummy_extra,dummy_aerosol,dummy_carne,dummy_cabernet,dummy_te,dummy_coloracion,dummy_cerveza,dummy_saquitos,dummy_cremoso,dummy_sabor,dummy_trozado,dummy_tintura,dummy_gel,dummy_mate,dummy_durazno,dummy_novillo,dummy_frasco,dummy_saborizada,dummy_sauvignon,dummy_aceitunas,dummy_tapas,dummy_vacio,dummy_esponja,dummy_dental,dummy_novillito,dummy_gas,dummy_panal,dummy_cocido,...,dummy_galletas,dummy_bolsas,dummy_n,dummy_tradicional,dummy_syrah,dummy_blanca,dummy_protector,dummy_feteado,dummy_whisky,dummy_asado,dummy_gatos,dummy_antibacterial,palabras_nombre,total_dummies,otras_palabras,dummy_marca_alicante,dummy_marca_arcor,dummy_marca_carrefour,dummy_marca_colgate,dummy_marca_cooperativa,dummy_marca_coto,dummy_marca_dia,dummy_marca_dove,dummy_marca_glade,dummy_marca_great_value,dummy_marca_ilolay,dummy_marca_issue,dummy_marca_jumbo,dummy_marca_knorr,dummy_marca_la_anonima,dummy_marca_la_paulina,dummy_marca_la_serenisima,dummy_marca_loreal,dummy_marca_marolio,dummy_marca_nivea,dummy_marca_otras,dummy_marca_paladini,dummy_marca_pampers,dummy_marca_pantene,dummy_marca_primer_precio,dummy_marca_sancor,dummy_marca_sedal,dummy_marca_ser,dummy_marca_sin_marca,dummy_marca_vea,dummy_provincia_chaco,dummy_provincia_chubut,dummy_provincia_ciudad_autonoma_de_buenos_aires,dummy_provincia_cordoba,dummy_provincia_corrientes,dummy_provincia_entre_rios,dummy_provincia_formosa,dummy_provincia_jujuy,dummy_provincia_la_pampa,dummy_provincia_la_rioja,dummy_provincia_mendoza,dummy_provincia_misiones,dummy_provincia_neuquen,dummy_provincia_provincia_de_buenos_aires,dummy_provincia_rio_negro,dummy_provincia_salta,dummy_provincia_san_juan,dummy_provincia_san_luis,dummy_provincia_santa_cruz,dummy_provincia_santa_fe,dummy_provincia_santiago_del_estero,dummy_provincia_tierra_del_fuego,dummy_provincia_tucuman,dummy_sucursal_tipo_hipermercado,dummy_sucursal_tipo_supermercado,dummy_region_cuyo,dummy_region_norte_grande,dummy_region_patagonia,precioRelativo,priorPrecioRelativo
0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,2,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0.03,0.03
1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,5,3,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,3.89,3.7
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,3,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,3.89,3.7
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,4.64,4.29
4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0.93,0.83


### 3. Correlación Entre Variables Numéricas

In [37]:
#Agrando la cantidad de filas para trabajar con el data set
pd.set_option('display.max_row', None)

In [38]:
# Hints: pueden usar df.corr() y sns.heatmap() Opcionanl
c = df.corr('pearson').abs()

s = c.unstack()
so = s.sort_values(kind="quicksort")


In [39]:
so2 = so[(abs(so) > 0.5)&(abs(so) <= 1)]

In [40]:
data_frame_corr = so2.to_frame()

In [41]:
data_frame_corr

Unnamed: 0,Unnamed: 1,0
dummy_aerosol,dummy_desodorante,0.5
dummy_desodorante,dummy_aerosol,0.5
dummy_provincia_salta,dummy_region_norte_grande,0.5
dummy_region_norte_grande,dummy_provincia_salta,0.5
dummy_malbec,dummy_vino,0.51
dummy_vino,dummy_malbec,0.51
dummy_tinto,dummy_cabernet,0.52
dummy_cabernet,dummy_tinto,0.52
dummy_espumante,dummy_brut,0.52
dummy_brut,dummy_espumante,0.52


In [42]:
plt.figure(figsize=(30,30))
#sns.heatmap(df.corr('pearson'), annot=True, vmin=-1, vmax=1, center= 0, cmap= 'coolwarm')
sns.heatmap(df.corr('pearson'), vmin=-1, vmax=1, center= 0, cmap= 'coolwarm')
plt.show()

KeyboardInterrupt: 

<Figure size 2160x2160 with 0 Axes>

In [None]:
correlation_target=df.corr('pearson')['precioRelativo'].to_frame()
correlation_target['abs_corr']=correlation_target['precioRelativo'].abs()
correlation_target.sort_values(by='abs_corr',ascending=False)

In [None]:
#Dividimos el dataFrame con la variable target y las features, para pode eliminar las variables correlacionadas 

In [58]:
y=df.pop('precioRelativo')

**Nota: eliminamos las siguientes columnas por su correlación**

In [59]:
X=df.copy()

In [60]:
X = X.drop(columns=['dummy_entero',
 'dummy_marca_pampers',
 'dummy_antitranspirante',
 'dummy_marca_glade',
 'dummy_perros',
 'dummy_tono',
 'dummy_region_patagonia',
 'dummy_region_cuyo',
 'dummy_cabernet',
 'dummy_brut',
 'dummy_malbec',
 'dummy_polvo',
 'dummy_oliva',
 'dummy_marca_colgate',
 'dummy_gatos',
 'dummy_gas',
 'dummy_vacio',
 'dummy_saquitos',
 'dummy_region_cuyo',
 'dummy_rubia',
 'dummy_tinto',
 'dummy_verdes',
 'dummy_fritas',
 'dummy_higienico',
 'dummy_tono',
 'dummy_mate',
 'dummy_port'],axis = 1)

In [None]:
plt.figure(figsize=(30,30))
#sns.heatmap(df.corr('pearson'), annot=True, vmin=-1, vmax=1, center= 0, cmap= 'coolwarm')
sns.heatmap(X.corr('pearson'), vmin=-1, vmax=1, center= 0, cmap= 'coolwarm')
plt.show()

### 4. Multicolinealidad Exacta

¿Existe multicolinealidad en nuestro dataset? ¿Cómo podemos saberlo?

In [34]:
#Determinamos una muestra para poder trabajar el aspecto de multicolinealidad
porcentaje_muestra = 0.2
N = int((len(df) * porcentaje_muestra) / 100)
df_sample = df.sample(n=N, weights='precioRelativo', random_state=1).reset_index(drop=True)

In [35]:
from sklearn.linear_model import LinearRegression

def calculate_vif_pandas(df, columnas):
    VIF = {}
    for col in columnas:
        cols = columnas.copy()
        cols.remove(col)
        model = LinearRegression().fit(df[cols].values, df[col].values)
        clave = col
        denom = (1 - model.score(df[cols], df[col]))
        if denom != 0:
            valor = (1 / denom)
            VIF[clave] = valor
    return VIF

In [36]:
df_sample.shape

(4078, 267)

In [37]:
lista= list(df_sample.columns.values)

In [38]:
VIF2 = calculate_vif_pandas(df_sample,lista)

In [39]:
df2 = pd.DataFrame([[key, VIF2[key]] for key in VIF2.keys()], columns=['Columnas', 'VIF'])

In [40]:
data_frame = df2.sort_values('VIF',ascending=False)

In [41]:
#data_frame.to_csv('VIP_20P.csv',sep='|',index=False)

In [42]:
max_vif = 5

In [43]:
while df2.VIF.max() > max_vif:
    col = df2[df2.VIF == df2.VIF.max()].Columnas.values[0]
    
    print('Elimina columna:', col, 'con VIF', df2.VIF.max())
    lista.remove("{}".format(col))
    VIF2 = calculate_vif_pandas(df_sample, lista)
    df2 = pd.DataFrame([[key, VIF2[key]] for key in VIF2.keys()], columns=['Columnas', 'VIF'])

Elimina columna: dummy_marca_otras con VIF 155.27726409858312
Elimina columna: priorPrecioRelativo con VIF 109.12885883816047
Elimina columna: dummy_sucursal_tipo_hipermercado con VIF 7.692966527106981


In [44]:
df.to_pickle("./df_original.pkl")

In [47]:
df.shape

(2039215, 267)

In [63]:
X.drop(columns=['dummy_marca_otras','dummy_sucursal_tipo_hipermercado'],inplace=True)

KeyError: "['dummy_marca_otras' 'dummy_sucursal_tipo_hipermercado'] not found in axis"

In [64]:
df.shape

(2039215, 264)

In [53]:
df.to_pickle("./df_final.pkl")

### 5. Normalización de Atributos


Aplicar al dataset la normalización de atributos que consideren adecuada.

In [None]:
# Pueden utilizar los siguientes métodos, por ejemplo:

#min_max_scaler = preprocessing.MinMaxScaler()
#standard_scaler = preprocessing.StandardScaler()

#from sklearn.preprocessing import MinMaxScaler
#X = MinMaxScaler().fit_transform(X)
#X=pd.DataFrame(X)

In [None]:
#Se realiza solamente la normalización para la variable del producto id, ya que el resto son dummys de 0 y 1. Matriz Rala
#name_var = X.producto_id
#scaler = preprocessing.StandardScaler().fit(name_var.values.reshape(-1, 1))
#feature = scaler.transform(name_var.values.reshape(-1, 1))
#X['producto_id_normalizado'] = feature

In [None]:
# Se elimina el la columna producto_id porque generamos el producto_id_normalizado para evitar correlación de variables
#X = X.drop(columns=['producto_id'],axis = 1)

### 7. Mezca Aleatória y División en Train/Test

Primeramente, deberán mezclar los datos aleatoriamente. Luego, para dividir en Train/Test el dataset, aplicar el split utilizando un 20% de datos para este último.

En este punto, deberán obtener cuatro conjuntos de datos, para ambos datasets: ```X_train```, ```X_test```, ```y_train``` y ```y_test```.

In [56]:
X.shape

(2039215, 242)

In [65]:
# Para dividir el dataset, utilizar el siguiente módulo:

#_ds_shuff = shuffle(_ds)

# Y luego el módulo:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

# Notar que X e y son np.arrays. Además, pueden usar el parámetro que incluye train_test_split para mezclar.

In [66]:
X_train.shape, X_test.shape

((1631372, 239), (407843, 239))

## II. Aplicación de Modelos de Regresión

Utilizando los datos de train y test obtenidos, se aplicarán diferentes modelos de regresión para predecir el precio relativo.

### 1. Linear Support Vector Regression ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVR.html#sklearn.svm.LinearSVR))

A continuación se aplicará el modelo

In [67]:
from sklearn.svm import LinearSVR
from sklearn.metrics import mean_absolute_error 
from sklearn.metrics import r2_score


In [68]:
def svr_results(y_test, X_test, fitted_svr_model):
    
    print("C: {}".format(fitted_svr_model.C))
    print("Epsilon: {}".format(fitted_svr_model.epsilon))
    
    print("Intercept: {:,.3f}".format(fitted_svr_model.intercept_[0]))
    print("Coefficient: {:,.3f}".format(fitted_svr_model.coef_[0]))
    
    mae = mean_absolute_error(y_test, fitted_svr_model.predict(X_test))
    
    print("MAE = {:,.2f}".format(1000*mae))
    
    perc_within_eps = 100*np.sum(y_test - fitted_svr_model.predict(X_test) < eps) / len(y_test)
    print("Percentage within Epsilon = {:,.2f}%".format(perc_within_eps))
    

In [69]:
def print_metrics(y_test,y_preds):
    print("MSE: {}".format(mean_squared_error(y_test, y_preds, squared=True)))
    print("RMSE:{}".format(mean_squared_error(y_test, y_preds, squared=False)))
    print("R Square:{}".format(r2_score(y_test, y_preds)))
    print("MAE:{}".format(mean_absolute_error(y_test, y_preds)))
    
#(MSE) – Error cuadrático medio -> Cuanto mayor sea este valor, peor es el modelo. Nunca es negativo, ya que estamos cuadrando los errores de predicción individuales antes de sumarlos, pero sería cero para un modelo perfecto.
#(RMSE) -Error cuadrático medio
#(MAE) -Error absoluto medio
#(R²) – R al cuadrado
#R cuadrado ajustado (R²)
#(MSPE) – Error de porcentaje cuadrático medio
#(MAPE) – Error porcentual absoluto medio
#(RMSLE) – Error logarítmico cuadrático medio


In [70]:
# En principio, pueden utilizar el módulo que sigue, con los parámetros por defecto y los que definan a continuación:
eps = 0
c_value = 0.3

svr = LinearSVR(epsilon=eps, C=c_value, fit_intercept=True,max_iter=10000)
svr.fit(X_train, y_train)
svr_results(y_test, X_test, svr)



C: 0.3
Epsilon: 0
Intercept: 0.000
Coefficient: -0.000
MAE = 33.41
Percentage within Epsilon = 49.16%


In [71]:
# Para la búsqueda de los mejores parámetros, por ejemplo de Linear Support Vector Regression, pueden usar:
exploring_params = {
    'epsilon': [0.5, 0], # 
    'C': [1, 10, 100],  # Regularization parameter. The strength of the regularization is inversely proportional to C. Must be strictly positive.
    'max_iter': [150000], #, 5000, 10000],# The maximum number of iterations to be run.
    'tol':[ 1e-5, 1e-4],
    'loss':['epsilon_insensitive','squared_epsilon_insensitive']
    
}

#'gamma': [1,0.1,0.01,0.001],'kernel': ['rbf', 'poly', 'sigmoid']

#m = LinearSVR(epsilon, C, max_iter, fit_intercept=True)
m = LinearSVR(fit_intercept=True)
n_cross_val = 3  # Seleccionar folds
scoring = 'neg_mean_squared_error' # https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter
model = GridSearchCV(m, exploring_params, cv=n_cross_val, scoring=scoring)
model.fit(X_train, y_train)
print("Mejor conjunto de parámetros:")
print(model.best_params_, end="\n\n")
print("Mejor parámetro: {}".format(model))
print("Puntajes de la grilla:", end="\n\n")
means = model.cv_results_['mean_test_score']
stds = model.cv_results_['std_test_score']
print("Means = {a} y stds = {b}".format(a=means,b=stds))
print("================================================", end="\n\n")



KeyboardInterrupt: 

In [None]:
print_metrics(y_test,model.predict(X_test))

In [None]:
print("Score: {score}".format(score = model.score(X_test,model.predict(X_test))))

In [None]:
df_resultados_lineal = pd.DataFrame(model.cv_results_)
df_resultados_lineal.sample(5)

In [None]:
print("Mejor estimador: {best_estimador}".format(best_estimador = model.best_estimator_ ))

In [None]:
clfBest=model.best_params_['classifier']
print("Mejores parámetros: ".format(clfBest))
#print("Mejores parámetros: {best_param}".format(best_param = model.best_params_['classifier']))

In [None]:
#Se ejecuta nuevamente el modelo con los mejores prametros:
svr=LinearSVR(clfBest)
svr.fit(X_train, y_train)
svr_results(y_test, X_test, svr)
y_preds = svr.predict(X_test)

In [None]:
print_metrics(y_test,svr.predict(X_test))

### 2. Stochastic Gradient Descent ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#sklearn.linear_model.SGDRegressor))

In [None]:
import numpy as np
from sklearn.linear_model import SGDRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Always scale the input. The most convenient way is to use a pipeline.


In [None]:
#Primer modelo de prueba
max_iter = 2000
tol = 1e-3
reg = make_pipeline(SGDRegressor(max_iter=max_iter, tol=tol))
reg.fit(X_train, y_train)
y_predict = reg.predict(X_test)
print_metrics(y_test,y_predict)

In [None]:
mae = mean_absolute_error(y_test, y_predict)

In [None]:
#Modelo para buscar los mejores parámetros
model = SGDRegressor()
# Grid search - this will take about 1 minute.
param_grid = {
    'alpha': 10.0 ** -np.arange(1, 7),
    'learning_rate' : ['invscaling'],
    'loss': ['squared_loss', 'huber', 'epsilon_insensitive'],
    'fit_intercept' :[True], 
    'power_t' : [0.25],
    'penalty': ['l2', 'l1', 'elasticnet'],
    'learning_rate': ['constant', 'optimal', 'invscaling'],
     'max_iter': [150000] 
}

clf = GridSearchCV(model, param_grid)
clf.fit(X_train, y_train)
y_predict = clf.predict(X_test)
print_metrics(y_test,y_predict)

In [None]:
print("Score: {score}".format(score = clf.score(X_test,y_predict)))

In [None]:
df_resultados_regressor = pd.DataFrame(clf.cv_results_)
df_resultados_regressor.sample(5)

In [None]:
print("Mejor estimador: {best_estimador}".format(best_estimador = clf.best_estimator_ ))

In [None]:
print("Mejores parámetros: {best_param}".format(best_param = clf.best_params_))

### 3. Regression Based on K-Nearest Neighbors ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html#sklearn.neighbors.KNeighborsRegressor))

In [72]:
from sklearn.neighbors import KNeighborsRegressor

In [73]:
n_neighbors = 2
weights = 'uniform'
algorithm = 'auto'

neigh = KNeighborsRegressor(n_neighbors=n_neighbors, weights= weights, algorithm=algorithm)
neigh.fit(X_train, y_train)

KNeighborsRegressor(n_neighbors=2)

In [74]:
y_predict = neigh.predict(X_test)

In [75]:
print_metrics(y_test,y_predict)

MSE: 0.1469550406157871
RMSE:0.383347154177238
R Square:0.986722434958314
MAE:0.04230714855627249


Con una muestra de 3000 filas obtenermos 
MSE: 8.006919330290778
RMSE:2.8296500367166924
R Square:0.08320213747303451
MAE:0.6466390994233203

### 4. Gaussian Process Regression ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.gaussian_process.GaussianProcessRegressor.html#sklearn.gaussian_process.GaussianProcessRegressor))

In [None]:
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C, ExpSineSquared as Exp

In [None]:
np.random.seed(42)

# Instantiate a Gaussian Process model
#kernel = C()*Exp(length_scale=24,periodicity=1)
kernel = C(1.0, (1e-3, 1e3)) * RBF(10, (1e-2, 1e2)) #If None is passed, the kernel “1.0 * RBF(1.0)” is used as default. Note that the kernel’s hyperparameters are optimized during fitting.

gp = GaussianProcessRegressor(kernel=kernel, alpha=1e-4,n_restarts_optimizer=9)

# Fit to data using Maximum Likelihood Estimation of the parameters
gp.fit(X_train, y_train)

# Make the prediction on the meshed x-axis (ask for MSE as well)
y_pred, sigma = gp.predict(X_test, return_std=True)

In [None]:
print_metrics(y_test,y_pred)

Con una muestra de 3000 filas y kernel kernel = C(1.0, (1e-3, 1e3)) * RBF(10, (1e-2, 1e2)) #If None is passed, the kernel “1.0 * RBF(1.0)” is used as default. Note that the kernel’s hyperparameters are optimized during fitting. obtenermos 
MSE: 8.968133650561574
RMSE:2.9946842321957043
R Square:-0.02685757437154246
MAE:0.6766460506203239

Con una muestra de 3000 filas  kernel = C()*Exp(length_scale=24,periodicity=1) 
MSE: 10.138683855212037
RMSE:3.184129999734941
R Square:-0.1608863913653904
MAE:0.7476861180331589

In [None]:
def f(x):
    """The function to predict."""
    return x * np.sin(x)

### 5. Prediction Voting Regressor ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingRegressor.html#sklearn.ensemble.VotingRegressor))

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import VotingRegressor
r1 = LinearRegression()
r2 = RandomForestRegressor(n_estimators=10, random_state=15)
voting = VotingRegressor([('linear', r1), ('rf', r2)])
voting.fit(X_train, y_train)
y_voting= voting.predict(X_test)
print_metrics(y_test,y_voting)
print('')

#Ajustamos hiperparámetros del voting
params = [{'rf__criterion':['mae','mse']}]
from sklearn.model_selection import GridSearchCV
grid = GridSearchCV(estimator=voting, param_grid=params, cv=2)
grid.fit(X_train,y_train)
y_grid=grid.predict(X_test)
print_metrics(y_test,y_grid)

MSE: 0.11367678195898391
RMSE:0.3371598759624044
R Square:0.9897291657375935
MAE:0.03459883421702706



**Metodo Alternativo RandomForrestRegressor**

In [None]:
from sklearn.ensemble import RandomForestRegressor
rf=RandomForestRegressor(n_estimators=10, random_state=42)
rf.fit(X_train, y_train)
y_rf = rf.predict(X_test)
#y_rf_train=rf.predict(X_train)

print('Metricas de test',rf.get_params())
print_metrics(y_test,y_rf)

**Metodo Alternativo 2 XGBoostRegresor**

In [None]:
import xgboost as xgb
from sklearn.metrics import mean_squared_error
import pandas as pd
import numpy as np
data_dmatrix = xgb.DMatrix(data=X_train,label=y_train)
xg_reg = xgb.XGBRegressor(objective ='reg:squarederror', colsample_bytree = 0.3, learning_rate = 0.1,
                max_depth = 5, alpha = 10, n_estimators = 10)
xg_reg.fit(X_train,y_train)

y_pred = xg_reg.predict(X_test)
print_metrics(y_test,y_pred)

### 4. Selección del Modelo

#### 4.1. Selección y Descripción de Hipótesis

Describir el problema y la hipótesis del modelo.

Respuesta: Nuestro problema central (el eje de la mentoría) consiste en analizar si existen regiones o provincias que sean más caras que otras en términos de los productos de consumo que habitualmente se comercializan en supermercados.
En esta sección del trabajo, nuestra hipótesis es que el precio relativo de los diferentes bienes puede ser estimado utilizando variables que identifican la región, unidad de medida, palabras frecuentes vinculada al producto, provincia y tipo de establecimiento en que se comercializan, que son las variables que entendemos definen que un producto pueda llegar a ser mas caro en una provincia u otra.
Los datos que disponemos son extracciones periodicas de 5 días de la pagina de Precios Claros, que fueron curados mediante un script propio.
En linea con nuestra hipotesis, y dada la características dicotómica de gran parte de nuestra base de datos, entendemos que el mejor modelo para estimar el precio relativo es una Random Forest.

#### 4.2. Selección de Regularizador

 ¿Utilizarán algún regularizador?¿Cuál?
 
 Respuesta:
No se utiliza ningún regularizador ya que el modelo Random Forest Regressor no permite utilizar dicho parámetro

#### 4.3. Selección de Función de Costo

¿Cuál será la función de costo utilizada?

La función de costo utilizada es L1 - MAE-, que corresponde a error absoluto.

#### 4.4. Justificación de las Selecciones

A continuación, se justifican las elecciones previas.

Justifiación de acciones y decisiones realizadas:

-Los resultados obtenidos se hicieron corriendo un sub-conjunto de datos.

-Eliminación de variables: En la sección de analisis de correlación se decidió eliminar una de las dummies vinculada variables que tenían correlación mayor que 0.5, entendiendo que son variables que muy probablemente tengan alta inflación de varianza (por cuestiones de computo no pudimos calcular y quitar todas las variables según el metodo de inflación de varianza).

-Normalización de atributos de producto_id: Sobre producto_id se aplica dado que entendemos que puede ser de utilidad poder aplicar información relativa al codigo de producto para estimar los diferente precios relativos, como una suerte de proxy de la categoría. Por otro lado, el intervalo se eligió a los fines de poder realizar los cómputos necesarios.

-Metodos alternativos: Se probaron metodos alternativos (Random Forest Regressor y XGBOOST) para evaluar alternativas de resultados. En uno de esos métodos (RF) se encontraron mejores resultados que en otros modelos sugeridos.

-Elección del modelo a estimar: La elección del Random Forest se origina en que los resultados obtenidos son similares a KNN y XGBOOST, sumado a que se considera que mejorandose el script de curación en procesos sucesivos se logrará mejorar los resultados observados. A su vez, dada la características de los datos, entendemos que un random forest puede generar un mejor estimador.
 
-La función de costo utlizada: L1, que está asociada a criterio de splits utilizando MAE, dado que entendemos que los valores que puedan ser considerados outliers no deben ser "sobre-castigados" al momento de estimar el Random Forest, esto ultimo ya que en pasos previos hemos eliminado varios valores que se consideraban outliers de la base de datos (utilizando Z-score y cuartiles).

### 5. Selección de Parámetros y Métricas Sobre el Conjunto de Evaluación

Para la selección de hiperparámetros, pueden utilizar GridSearch. Además, deben calcular las métricas solicitadas.

In [None]:
# Para la búsqueda de los mejores parámetros, por ejemplo de Linear Support Vector Regression, pueden usar:

exploring_params = {
        'epsilon': [0.5, 0], # 
        'C': [1, 10, 100],  # Regularization parameter. The strength of the regularization is inversely proportional to C. Must be strictly positive.
        'max_iter': [1000, 5000, 10000]   # The maximum number of iterations to be run.
    }

#m = LinearSVR(epsilon, C, max_iter, fit_intercept=True)
m = LinearSVR(exploring_params)
n_cross_val = 3  # Seleccionar folds
scoring = 'neg_mean_squared_error' # https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter
model = GridSearchCV(m, exploring_params, cv=n_cross_val, scoring=scoring)
model.fit(X_train, y_train)
    
model.fit(X_train, y_train)

print("Mejor conjunto de parámetros:")
print(model.best_params_, end="\n\n")
print()
print("Puntajes de la grilla:", end="\n\n")
print(model.cv_results_)
#means = model.cv_results_['mean_test_score']
#stds = model.cv_results_['std_test_score'])
print()
print("================================================", end="\n\n")

**Selección de parametros sobre random forrest** 

In [None]:
from sklearn import ensemble
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import r2_score

In [None]:
#rfc=RandomForestRegressor(random_state=42)
#param_grid = { 
#    'n_estimators': [10, 200, 500],
#    'max_features': ['auto', 'sqrt', 'log2'],
#    'max_depth' : [4,5,6,7,8]
#}
#CV_rfc = GridSearchCV(estimator=rfc, param_grid=param_grid, cv= 5)
#CV_rfc.fit(X_train, y_train)

In [None]:
#CV_rfc.best_params_

In [None]:
#rfc1=RandomForestRegressor(**CV_rfc.best_params_)

In [None]:
#rfc1.fit(X_train, y_train)

In [None]:
#y_pred=rfc1.predict(X_test)

In [None]:
#print_metrics(y_test,y_pred)

In [None]:
#rfc1.score(X_test, y_pred)

In [None]:
from sklearn.ensemble import RandomForestRegressor

model_RF = RandomForestRegressor(n_estimators = 100) 

# Applying Grid Search to find the best model and the best parameters 
from sklearn.model_selection import GridSearchCV

parameters = [{'n_estimators':[200,300,400], 'min_samples_split':[3,9,15],'min_samples_leaf':[3,5,7],'max_features': ['auto', 'sqrt', 'log2']},
             {'n_estimators':[50, 60, 70], 'max_depth': [5, 7, 9], 'min_samples_leaf': [30, 40, 50],'max_features': ['auto', 'sqrt', 'log2']}]

grid_search = GridSearchCV(estimator = model_RF,
                           param_grid = parameters,
                           scoring = 'neg_mean_absolute_error',
                           cv = 5,           
                           n_jobs = -1)      

grid_search = grid_search.fit(X_train, y_train)

best_scoring = grid_search.best_score_
rmse_regress = np.sqrt(np.abs(best_scoring))  # In above, I selected the 'mean_squared_error: mse' scoring. 
print(rmse_regress)

best_parameters = grid_search.best_params_
print("best_parameters:",best_parameters)

In [None]:
grid_search.best_params_

In [None]:
rfc2=RandomForestRegressor(**grid_search.best_params_)

In [None]:
rfc2.fit(X_train, y_train)

In [None]:
y_pred=rfc2.predict(X_test)

In [None]:
print_metrics(y_test,y_pred)

## Cálculo de Métricas y Conclusiones

In [None]:
# Las métricas solicitadas son: MSE, MAE, RMSE, R Square

#LinearSVR
#MSE: 2.687013187766611
#RMSE:1.6392111480119367
#R Square:0.27162502476722095
#MAE:0.699306307138762

#SGDRegressor 
#MSE: 2.64808926672091
#RMSE:1.6272950767211551
#R Square:0.282176223457537
#MAE:0.6687595873528248

#KNeighborsRegressor

#MSE: 2.282497855873744
#RMSE:1.510793783371425
#R Square:0.38127794578382523
#MAE:0.40775785433287937


#GaussianProcessRegressor

#MSE: 6.073306115826309
#RMSE:2.4644078631237787
#R Square:-0.6463053519186162
#MAE:0.6718460354386487

#VotingRegressor

#MSE: 2.10289463004732
#RMSE:1.4501360729418877
#R Square:0.42996341400505955
#MAE:0.5190555472111581


#Random Forrest Regressor (Best Model)

#MSE: 2.198303872245153
#RMSE:1.482667822624189
#R Square:0.4041006066547963
#MAE:0.39799869524094367

#AGREGANDO PRECIO ANTERIOR Y MEDIA CUANDO ES NULO
#MSE: 0.19025136350891156
#RMSE:0.43617813277250794
#R Square:0.9718848048026147
#MAE:0.0545686361303221
    
#XGBoostRegressor

#MSE: 2.282497855873744
#RMSE:1.510793783371425
#R Square:0.38127794578382523
#MAE:0.40775785433287937


## Opcional: Aplicar PCA

In [None]:
df_pca.head()

In [None]:
y = df_pca.pop('precioRelativo')

In [None]:
X = df_pca.copy()

In [None]:
X.shape, y.shape

**Obtenemos el nro de componentes que representa el 90% de la varianza**

In [None]:
#from sklearn.preprocessing import MinMaxScaler
#X_std = MinMaxScaler().fit_transform(X)
X_std=X

In [None]:
pd.DataFrame(X_std).head(5)

In [None]:
from sklearn.decomposition import PCA
pca = PCA(0.9)

In [None]:
pca.fit(X_std)

In [None]:
pca.n_components_

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_std, y, test_size=0.20, random_state=42)

In [None]:
train_pca = pca.transform(X_train)
test_pca = pca.transform(X_test)

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
train_pca.shape, test_pca.shape

In [None]:
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(n_jobs=-1)

In [None]:
estimators = np.arange(10, 200, 10)
scores = []
for n in estimators:
    model.set_params(n_estimators=n)
    model.fit(X_train, y_train)
    scores.append(model.score(X_test, y_test))
plt.title("Effect of n_estimators")
plt.xlabel("n_estimator")
plt.ylabel("score")
plt.plot(estimators, scores)

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import accuracy_score

rf=RandomForestRegressor(n_estimators=130, random_state=42)
rf.fit(train_pca, y_train)
y_pred = rf.predict(test_pca)

print('Metricas de test',rf.get_params())
print_metrics(y_test,y_pred)

In [None]:
model_RF_pca = RandomForestRegressor(n_estimators = 100) 

# Applying Grid Search to find the best model and the best parameters 

parameters = [{'n_estimators':[200,300,400], 'min_samples_split':[3,9,15],'min_samples_leaf':[3,5,7]},
             {'n_estimators':[50, 60, 70], 'max_depth': [5, 7, 9], 'min_samples_leaf': [30, 40, 50]}]

grid_search_pca = GridSearchCV(estimator = model_RF_pca,
                           param_grid = parameters,
                           scoring = 'neg_mean_absolute_error',
                           cv = 5,           
                           n_jobs = -1)      

grid_search_pca = grid_search_pca.fit(X_train, y_train)

best_scoring = grid_search_pca.best_score_
rmse_regress = np.sqrt(np.abs(best_scoring))  # In above, I selected the 'mean_squared_error: mse' scoring. 
print(rmse_regress)

best_parameters = grid_search_pca.best_params_
print("best_parameters:",best_parameters)

In [None]:
grid_search_pca.best_params_

In [None]:
rfc_pca=RandomForestRegressor(random_state=42,min_samples_leaf=3,min_samples_split=3,n_estimators=400)
rfc_pca.fit(X_train, y_train)
y_pred=rfc_pca.predict(X_test)
print_metrics(y_test,y_pred)

In [None]:
rfc_pca.score(X_test, y_test)