##### <img src="mioti.png" style="height: 100px">

# Challenge S5: Modelos regresivos aplicados a series temporales

## Objetivo

El objetivo de este challenge es usar nuestro dataframe de ventas en retail y hacer un modelo para la predicción de ventas para un artículo distinto del que vimos en el worksheet.

Tendréis que explorar los datos para ver el comportamiento del artículo elegido y las peculiaridades que pueda tener.

Luego tendréis que hacer un modelo que pueda predecir las ventas de este artículo usando todo lo aprendido anteriormente, probando distintos modelos, hiperparametrizándolos y por último añadiendo todas las variables sintéticas que veáis convenientes para que el modelo aprenda mejor del comportamiento de las unidades vendidas del producto.

## 1. Configuración del entorno

Cargamos los paquetes que vamos a utilizar en la sesión.

In [None]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_log_error
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler

## 2. Carga de los datos, filtrado de nuestro artículo y visualización de los datos
 



**Carga el dataframe**

In [None]:
dataRetail = pd.read_csv('Dataframe_Retail.csv', delimiter=',')
print(dataRetail['Referencia'].unique())

**Usa una máscara para filtrar el artículo sobre el que queremos realizar las predicciones**

In [None]:
dataSku = dataRetail[dataRetail['Referencia']=='']
dataSku['Fecha'] = pd.to_datetime(dataSku['Fecha'], format='%Y-%m-%d')

** Ya que hemos cogido un producto que tiene huecos vamos a hacer una limpieza del dataframe ya que esos huecos originarían errores más tarde**

In [None]:
dataSku=dataSku.set_index('Fecha')

In [None]:
fechaMin = dataSku.index.min()
print(fechaMin)

In [None]:
fechaMax = dataSku.index.max()
print(fechaMax)

In [None]:
range = pd.date_range(start=fechaMin, end=fechaMax,freq='d')
dataSku = dataSku.reindex(range)
dataSku['Unidades']=dataSku['Unidades'].fillna(value=0)
dataSku['Ventas']=dataSku['Ventas'].fillna(value=0)
dataSku['Referencia']=dataSku['Referencia'].fillna(method='ffill')
dataSku=dataSku.reset_index()
dataSku=dataSku.rename(columns={'index':'Fecha Format'})
#dataSku['OffsetDays']=dataSku['OffsetDays'].astype(int)
dataSku['OffsetDays'] = dataSku.index

In [None]:
dataSku.info()

In [None]:
dataSku.tail(30)

In [None]:
dataSku[dataSku['Unidades']==0]

In [None]:
dataSku.plot()

## 3. Prueba de la predicción sobre nuestras unidades vendidas con distintos modelos

** Con la función de evaluación puedes probar el funcionamiento de distintos modelos**

In [None]:
def rmsle(ytrue, ypred):
    return np.sqrt(mean_squared_log_error(ytrue, ypred))
def calculoEvaluacionModelo(modelo,df,norm):

    xPredicted = []
    yPredicted = []
    ySpotted = []
    mean_error = []

    for day in range(800,861):
        train = df[df['OffsetDays'] < day]
        val = df[df['OffsetDays'] == day]       
        
        xtr, xts = train.drop(['Unidades'], axis=1), val.drop(['Unidades'], axis=1)
        
        if(norm==True):
            sc = StandardScaler()  
            xtr = sc.fit_transform(xtr)  
            xts = sc.transform(xts)  
        ytr, yts = train['Unidades'].values, val['Unidades'].values  

        mdl = modelo
        mdl.fit(xtr, ytr)

        p = mdl.predict(xts)

        xPredicted=xPredicted + [day]
        yPredicted=yPredicted + [p[0]]
        ySpotted = ySpotted + [yts[0]]

        error = rmsle(yts, p)
        print('Month %d - Error %.5f' % (day, error))
        mean_error.append(error)

    print('Mean Error = %.5f' % np.mean(mean_error))
    prediction = pd.DataFrame(
        {'Sold units predicted': yPredicted,
         'Sold units actually spotted': ySpotted
        },index=xPredicted)
    prediction.plot()

** Elige el modelo que más te haya gustado o mejor haya funcionado e hiperparametrizalo si quieres**

In [None]:
norma=False
dataSku_simple = dataSku[['OffsetDays','Unidades']].copy()
dataSku_simple.info()
calculoEvaluacionModelo(RandomForestRegressor(n_estimators=20, random_state=0),dataSku_simple,norma)

In [None]:
dataSku_simple.info()

## 4. Complementar el dataframe con variables sintéticas

** En base a lo que hayas observado en el comportamiento de las unidades vendidas de tu referencia crea variables sintéticas que creas que ayuden al modelo a mejorar la predicción**