<center>
<h4>Diplomatura en CDAAyA 2020 - FaMAF - UNC</h4>
<h1>¿Caro o Barato? Análisis de Precios de Almacen en un Contexto Inflacionario</h1>
<h3>Introducción al Aprendizaje Automático & Aprendizaje Automático Supervisado</h3>
</center>
</left>
<h4>Sofía Luján y Julieta Bergamasco</h4>
</left>

## Introducción

En la siguiente notebook se presentará la consigna a seguir para el tercer práctico del proyecto, correspondiente a las materias Introducción al Aprendizaje Automático y Aprendizaje Automático Supervisado. El objetivo consiste en explorar la aplicación de diferentes métodos de aprendizaje supervisado aprendidos en el curso, así como también de métodos de _ensemble learning_, a través de experimentos reproducibles, y evaluando a su vez la conveniencia de uno u otro, así como la selección de diferentes hiperparámetros a partir del cálculo de las métricas pertinentes.

En el caso de nuestro proyecto, podemos plantear diferentes tipos de problemas, como la agrupación de productos, la estimación de un precio o la identificación de precios anómalos. Sin embargo, a los fines de este práctico, nos enfocaremos en la predicción de precios relativos.

Para ello, comenzaremos con las importaciones pertinentes.

## Importaciones

In [None]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
# Puede que nos sirvan también
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import plotly.express as px
import sklearn as skl
from io import StringIO

from sklearn import preprocessing
from sklearn.utils import shuffle, print_eval
from sklearn.metrics import accuracy_score, confusion_matrix, mean_squared_error, classification_report, roc_curve, auc
from sklearn import ensemble #RandomForestClasifier, VotingClassifier
from sklearn import svm #LinearSVC, SVC
from sklearn import neural_network
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV

np.random.seed(0)  # Para mayor determinismo

In [None]:
pd.set_option('display.max_columns', 150)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)

## Consigna

### I. Preprocesamiento

A los fines de realizar este práctico, se utilizará el dataset limpio obtenido en la etapa anterior. La división entre train y test será realizada en este mismo práctico.
A continuación se detallan los pasos a seguir para el preprocesamiento de los datos.

#### 1. Obtención del Dataset

Cargar los datasets originales.

#### 2. Aplicar Script de Curación

Inicialmente, con el objetivo de preparar los datos que alimentarán los modelos de aprendizaje automático (ML) propuestos, deberán aplicar el script de curación obtenido en el práctico anterior.
En esta etapa, pueden adicionar los atributos que crean pertinentes a priori o que hayan encontrado interesantes por tener mayor correlación con la variable de interés (precio, precio relativo).

#### 3. Correlación Entre Variables Numéricas

Dado que inicialmente eran pocas las variables numéricas y ahora contamos con un grupo más amplio de estas caracteristicas, se propone obtener la correlación entre todas las variables numéricas. Representarla gráficamente utilizando un mapa de calor (heatmap).
¿Cuáles son las features más correlacionadas con el precio?

#### 4. Multicolinealidad Exacta

Las variables explicativas no deben estar muy correlacionadas entre ellas, ya que la variabilidad de una y otra estarán explicando la misma parte de variabilidad de la variable dependiente. Esto es lo que se conoce como multicolinealidad, lo cual deriva en la imposibilidad de estimar los parámetros cuando la misma es exacta o en estimaciones muy imprecisas cuando la misma es aproximada.
En el caso de encontrar multicolinealidad, responder: ¿Cómo se puede solucionar? ¿Qué decisión tomarían al respecto?

#### 5. Normalización de Atributos

Es posible que sea necesario normalizar las features de nuestro dataset, dado que muchos de los algoritmos de aprendizaje supervisado lo requieren. ¿En qué casos tendrá que implementarse normalización?

Aplicar a los datasets la normalización de atributos que consideren adecuada.

#### 6. Mezca Aleatória y División en Train/Test

Finalmente, están en condiciones de **dividir el dataset en Train y Test**, utilizando para este último conjunto un 20% de los datos disponibles. Previo a esta división, es recomendable que mezclen los datos aleatoriamente.
De este modo, deberán obtener cuatro conjuntos de datos, para cada uno de los datasets: ```X_train```, ```X_test```, ```y_train``` y ```y_test```.

Pensar si hacer de esta forma la división puede afectar la distribución espacial y temporal de los datos.
¿Cuáles pueden ser las consecuencias?


---

A modo de ayuda, **en esta notebook encontrarán una especie de template** que sigue los pasos propuestos y que deberán ir completando.

Recuerden que la ciencia de datos es un **proceso circular, continuo y no lineal**. Es decir, si los datos requieren de mayor procesamiento para satisfacer las necesidades de algoritmos de ML (cualesquiera de ellos), vamos a volver a la etapa inicial para, por ejemplo, crear nuevas features, tomar decisiones diferentes sobre valores faltantes o valores atípicos (outliers), descartar features, entre otras.

### II. Aplicación de Modelos de Aprendizaje Supervisado

Una vez finalizada la etapa de preprocesamiento, se propone implementar diferentes modelos de predicción para el precio relativo, utilizando la librería Scikit-Learn:

1. Linear Support Vector Regression ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVR.html#sklearn.svm.LinearSVR))
2. Stochastic Gradient Descent ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#sklearn.linear_model.SGDRegressor))
3. Regression Based on k-nearest neighbors ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html#sklearn.neighbors.KNeighborsRegressor))
4. Gaussian Process Regression ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.gaussian_process.GaussianProcessRegressor.html#sklearn.gaussian_process.GaussianProcessRegressor))
5. Prediction Voting Regressor ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingRegressor.html#sklearn.ensemble.VotingRegressor))

Para cada uno de ellos, se pide responder las siguientes consignas:
- Agregar vector de Bias, cuando lo crean pertinente. Cuándo hace falta y cuándo no? Por qué?
- Obtener MSE, MAE, RMSE, R Square

De estos tipos de modelos, cuál creen que es el más adecuado para nuestro caso de aplicación?

**Elegir el modelo que consideren que mejor aplica a nuestro problema.** Para ello, recuerden que los pasos a seguir en la selección pueden esquematizarse como sigue:

#### 1. Descripción de la Hipótesis

¿Cuál es nuestro problema? ¿Cómo se caracteriza? ¿Cuál es la hipótesis?

#### 2. Selección de Regularizador

 ¿Utilizarán algún regularizador?¿Cuál?

#### 3. Selección de Función de Costo

¿Cuál será la función de costo utilizada?

#### 4. Justificación de las Selecciones

¿Por qué eligieron el modelo, el regularizador y la función de costo previas?

Finalmente, para el modelo selecionado:

- Utilizar el método *Grid Search*, o de búsqueda exahustiva, con *cross-validation* para profundizar en la búsqueda y selección de hiperparámetros.
- Calcular métricas sobre el conjunto de entrenamiento y de evaluación para los mejores parámetros obtenidos:
    + MSE, MAE, RMSE, R Square
    + Comparar las métricas obtenidas en cada modelo y obtener conclusiones.

---

Si encuentran cualquier otro modelo que consideren apropiado y deseen aplicar, pueden hacerlo con total libertad.

**Opcional**
- Aplicar PCA para reducción de dimensionalidad (manteniendo *n* componentes principales) y entrenar nuevamente el modelo seleccionado como el más apropiado.

### Entregables

El entregable de este práctico consiste en **esta misma Notebook**, pero con el preprocesamiento aplicado y los modelos implementados, agregando las explicaciones que crean pertinentes y las decisiones tomadas, en caso de corresponder.

Sintetizar las conclusiones en un archivo de texto, como lo vienen haciendo con los anteriores prácticos.

**Fecha de Entrega: 31/08**

# Resolución

## I. Preprocesamiento

### 1. Carga de Datos

Para comenzar, importamos los datos que vamos a utilizar:

In [None]:
precios_20200412_20200413 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200412_20200413.csv')
precios_20200419_20200419 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200419_20200419.csv')
precios_20200426_20200426 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200426_20200426.csv')
precios_20200502_20200503 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200502_20200503.csv')
precios_20200518_20200518 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200518_20200518.csv')
productos = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/productos.csv')
sucursales = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/sucursales.csv')

In [None]:
precios_20200412_20200413.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,1663,2-1-014
1,29.9,2288,2-1-032
2,39.9,2288,2-1-096
3,499.99,205870,9-1-686
4,519.99,205870,9-2-248


<div class="alert alert-block alert-info">
El dataset ya está **listo para trabajar!**
</div>

### 2. Aplicar Script de Curación

El siguiente paso implica aplicar el script que resultó del práctico anterior. También pueden adicionar campos calculados en base a otros atributos, según lo consideren pertinente.

### 3. Correlación Entre Variables Numéricas

In [None]:
# Hints: pueden usar df.corr() y sns.heatmap()

### 4. Multicolinealidad Exacta

¿Existe multicolinealidad en nuestro dataset? ¿Cómo podemos saberlo?

### 5. Normalización de Atributos


Aplicar al dataset la normalización de atributos que consideren adecuada.

In [None]:
# Pueden utilizar los siguientes métodos, por ejemplo:

min_max_scaler = preprocessing.MinMaxScaler()
standard_scaler = preprocessing.StandardScaler()


### 7. Mezca Aleatória y División en Train/Test

Primeramente, deberán mezclar los datos aleatoriamente. Luego, para dividir en Train/Test el dataset, aplicar el split utilizando un 20% de datos para este último.

En este punto, deberán obtener cuatro conjuntos de datos, para ambos datasets: ```X_train```, ```X_test```, ```y_train``` y ```y_test```.

In [None]:
# Para dividir el dataset, utilizar el siguiente módulo:

_ds_shuff = shuffle(_ds)

# Y luego el módulo:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

# Notar que X e y son np.arrays. Además, pueden usar el parámetro que incluye train_test_split para mezclar.

## II. Aplicación de Modelos de Regresión

Utilizando los datos de train y test obtenidos, se aplicarán diferentes modelos de regresión para predecir el precio relativo.

### 1. Linear Support Vector Regression ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVR.html#sklearn.svm.LinearSVR))

A continuación se aplicará el modelo

In [None]:
from sklearn.svm import LinearSVR
from sklearn.metrics import mean_absolute_error 

In [None]:
# En principio, pueden utilizar el módulo que sigue, con los parámetros por defecto y los que definan a continuación:

eps = 
c_value = 

svr = LinearSVR(epsilon=eps, C=c_value, fit_intercept=True)
svr.fit(X_train, y_train)
svr_results(y_test, X_test, svr)

In [None]:
def svr_results(y_test, X_test, fitted_svr_model):
    
    print("C: {}".format(fitted_svr_model.C))
    print("Epsilon: {}".format(fitted_svr_model.epsilon))
    
    print("Intercept: {:,.3f}".format(fitted_svr_model.intercept_[0]))
    print("Coefficient: {:,.3f}".format(fitted_svr_model.coef_[0]))
    
    mae = mean_absolute_error(y_test, fitted_svr_model.predict(X_test))
    
    print("MAE = ${:,.2f}".format(1000*mae))
    
    perc_within_eps = 100*np.sum(y_test - fitted_svr_model.predict(X_test) < eps) / len(y_test)
    print("Percentage within Epsilon = {:,.2f}%".format(perc_within_eps))
    
    

### 2. Stochastic Gradient Descent ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#sklearn.linear_model.SGDRegressor))

In [None]:
import numpy as np
from sklearn.linear_model import SGDRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Always scale the input. The most convenient way is to use a pipeline.

max_iter = 
tol = 
reg = make_pipeline(SGDRegressor(max_iter=max_iter, tol=tol))
reg.fit(X_train, y_train)



Pipeline(memory=None,
         steps=[('sgdregressor',
                 SGDRegressor(alpha=0.0001, average=False, early_stopping=False,
                              epsilon=0.1, eta0=0.01, fit_intercept=True,
                              l1_ratio=0.15, learning_rate='invscaling',
                              loss='squared_loss', max_iter=1000,
                              n_iter_no_change=5, penalty='l2', power_t=0.25,
                              random_state=None, shuffle=True, tol=0.001,
                              validation_fraction=0.1, verbose=0,
                              warm_start=False))],
         verbose=False)

In [None]:
y_predict = reg.predict(X_test)

In [None]:
mae = mean_absolute_error(y_test, y_predict)

### 3. Regression Based on K-Nearest Neighbors ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html#sklearn.neighbors.KNeighborsRegressor))

In [None]:
from sklearn.neighbors import KNeighborsRegressor

In [None]:
n_neighbors = 2
weights = 'uniform'
algorithm = 'auto'

neigh = KNeighborsRegressor(n_neighbors=n_neighbors, weights= weights, algorithm=algorithm)
neigh.fit(X_train, y_train)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=2, p=2,
                    weights='uniform')

In [None]:
y_predict = neigh.predict(X_test)

array([0.])

### 4. Gaussian Process Regression ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.gaussian_process.GaussianProcessRegressor.html#sklearn.gaussian_process.GaussianProcessRegressor))

In [None]:
from klearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C

In [None]:
np.random.seed(1)

# Instantiate a Gaussian Process model
kernel = C(1.0, (1e-3, 1e3)) * RBF(10, (1e-2, 1e2)) #If None is passed, the kernel “1.0 * RBF(1.0)” is used as default. Note that the kernel’s hyperparameters are optimized during fitting.
gp = GaussianProcessRegressor(kernel=kernel, n_restarts_optimizer=9)

# Fit to data using Maximum Likelihood Estimation of the parameters
gp.fit(X, y)

# Make the prediction on the meshed x-axis (ask for MSE as well)
y_pred, sigma = gp.predict(x, return_std=True)

### 5. Prediction Voting Regressor ([Doc](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingRegressor.html#sklearn.ensemble.VotingRegressor))

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import VotingRegressor

r1 = LinearRegression()
r2 = RandomForestRegressor(n_estimators=10, random_state=1)
voting = VotingRegressor([('linear', r1), ('rf', r2)])
voting.fit(X_train, y_train)

### 4. Selección del Modelo

#### 4.1. Selección y Descripción de Hipótesis

Describir el problema y la hipótesis del modelo.

#### 4.2. Selección de Regularizador

 ¿Utilizarán algún regularizador?¿Cuál?

#### 4.3. Selección de Función de Costo

¿Cuál será la función de costo utilizada?

#### 4.4. Justificación de las Selecciones

A continuación, se justifican las elecciones previas.

### 5. Selección de Parámetros y Métricas Sobre el Conjunto de Evaluación

Para la selección de hiperparámetros, pueden utilizar GridSearch. Además, deben calcular las métricas solicitadas.

In [None]:
# Para la búsqueda de los mejores parámetros, por ejemplo de Linear Support Vector Regression, pueden usar:

exploring_params = {
        'epsilon': [0.5, 0], # 
        'C': [1, 10, 100],  # Regularization parameter. The strength of the regularization is inversely proportional to C. Must be strictly positive.
        'max_iter': [1000, 5000, 10000]   # The maximum number of iterations to be run.
    }

m = LinearSVR(epsilon, C, max_iter, fit_intercept=True)
n_cross_val =   # Seleccionar folds
scoring = 'neg_mean_squared_error' # https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter
model = GridSearchCV(m, exploring_params, cv=n_cross_val, scoring=scoring)
    model.fit(X_train, y_train)
    
model.fit(X_train, y_train)

print("Mejor conjunto de parámetros:")
print(model.best_params_, end="\n\n")
print()
print("Puntajes de la grilla:", end="\n\n")
means = model.cv_results_['mean_test_score']
stds = model.cv_results_['std_test_score'])
print()
print("================================================", end="\n\n")

## Cálculo de Métricas y Conclusiones

In [None]:
# Las métricas solicitadas son: MSE, MAE, RMSE, R Square




## Opcional: Aplicar PCA

In [None]:
from sklearn.decomposition import PCA
n = 
pca = PCA(n_components=n)
reduc_dim = pca.fit(X)
reduc_dim.components_
reduc_dim.explained_variance_