In [None]:
try:
    # settings colab:
    import google.colab
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

<img src='../../../common/logo_DH.png' align='left' width=35%/>

# Series de Tiempo - Checkpoint

<br/> 

<div id="caja11" style="float:left;width: 100%;">
  <div style="float:left;width: 9%;"><img src="../../../common/icons/haciendo_foco.png" style="align:left"/> </div>
  <br>
  <div style="float:left;width: 85%;">
      <label>Vamos a poner en práctica lo aprendido en la notebook de práctica guiada.</label>
  <div style="float:left;width: 85%;">
      <label>Es importante que antes de la clase resuelvan esta notebook ya que es fundamental que sepan utilizar las herramientas que vimos en la práctica guiada para después trabajar el caso práctico en la clase.</label>        
</div>    
</div>

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.tsa.api as smt

from scipy import stats
from statistics import mode

from sklearn.model_selection import train_test_split

from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.stattools import acf, pacf
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.arima_model import ARIMA

import warnings
warnings.filterwarnings('ignore')

from checkpoint_series_tiempo import *

#### Empecemos con algunas preguntas conceptuales.

Ejecutá las celdas de abajo para hacer el test multiple choice:

In [None]:
test_1()

In [None]:
test_2()

In [None]:
test_3()

In [None]:
test_4()

#### Ahora pongamos en práctica las herramientas que vimos en la práctica guiada: 

En este caso, nuestra variable de interés el el precio de la cebolla en India. Contamos con un dataset con información desagregada por ciudad. 

In [None]:
df = pd.read_csv('../Data/cebolla_india.csv')
df.shape

In [None]:
df.head()

El dataset tiene tres columnas (features o variables) sobre la ubicación del mercado mayorista donde se vendió cebolla:

* **state**: esta es la abreviatura de 2/3 letras para el estado en India (PB es Punjab, etc.)
* **ciudad**: esta es la ciudad en India (ABOHAR, BANGALORE y así sucesivamente)
* **mercado**: esta es una cadena con la combinación del estado y la ciudad

Tres están relacionados con la fecha de la transacción: 

* **mes**: mes en enero, febrero y así sucesivamente
* **año**: año (YYYY)
* **fecha**: la combinación de los dos anteriores

Cuatro son acerca de la cantidad y el precio en este mercado mayorista (todas numéricas).

* **cantidad**: la cantidad de cebolla que llega al mercado en ese mes en quintales (100 kg)
* **priceMin**: el precio mínimo en el mes en Rs./quintal
* **priceMax**: el precio máximo en el mes en Rs./quintal
* **priceMod**: el precio modal en el mes en Rs./quintal

Fijate de qué tipo son las columnas del DataFrame:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Podés observar que "date" es un object. Transformala a un datetime:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Vamos a analizar el volumen de ventas por ciudad. Hacé un groupby por ciudad y sumá las cantidades vendidas ('quantity'):

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Vamos a restringir nuestro análisis solamente a la ciudad de Bangalore. Generá un DataFrame nuevo conservando solamente a la serie de tiempo de Bangalore:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Hacé un sort del DataFrame para que las observaciones queden ordenadas en el tiempo:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Reindexá el DataFrame para que el index sea "date" con frecuencia mensual:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Vamos a definir una función que plotea series de tiempo:

In [None]:
# Función que plotea la serie:
def plot_df(df, x, y, title="", xlabel='Fecha', ylabel='Valor', dpi=100):
    plt.figure(figsize=(16,5), dpi=dpi)
    plt.plot(x, y, color='tab:red')
    plt.gca().set(title=title, xlabel=xlabel, ylabel=ylabel)
    plt.show()

Vamos a trabajar usando la serie **priceMod**.

Usá la función que acabamos de definir para plotear 'priceMod'. Recordá que las x tienen que tener un formato de datetime. 

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Ahora creá una dummy de tiempo para modelar la tendencia lineal:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Ahora creá las dummies de mes y hacé el join con el DataFrame.

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Hacé el split entre train y test dejando los últimos 12 meses en el set de testeo. Luego corroborá la continuidad entre el set de entrenamiento y de testeo. 

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Creá las transformaciones logarítmicas de priceMod tanto para el set de entrenamiento como para el set de testeo.

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Ploteá la serie logarítmica:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Vemos que la disperción de la serie se estabilizó significativamente en t. 

Ahora entrená un modelo lineal entre la serie transformada y la dummy de tiempo y analizá el summary.

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Agregá las predicciones del modelo en el set de entrenamiento y de testeo con y sin back-transformation:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Ploteá las predicciones vs. las series reales, tanto en el set de entrenamiento como en el de testeo.

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Creamos la función para calcular el RMSE:

In [None]:
def RMSE(predicted, actual):
    mse = (predicted - actual) ** 2
    rmse = np.sqrt(mse.sum() / mse.count())
    return rmse

Guardá el resultado en un DataFrame:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Ahora entrená un modelo agregando variables de estacionalidad mensual y agregá el RMSE en el DataFrame de resultados. 

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Comentario: recordá que podés usar el método precict del modelo para realizar predicciones.
Al método le tenés que pasar el DataFrame y especificar las columnas a incluir. 

Hacé las predicciones en el set de entrenamiento y testo y almacená los resultados en ambos DataFrames:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Comentario: recordá que para hacer back transformation de una transformación logarítmica tenés que usar la función exponencial. 

Almacená en tus DataFrames los modelos con back transformation. 

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Plotea el modelo con y sin back transformation para el set de entrenamiento:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Plotea el modelo con y sin back transformation para el set de testeo:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Calculá el RMSE del modelo con transformación logarítmica y estacionalidad mensual y agregala al DataFrame de resultados: 

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Ahora, calculá el resíduo del último modelo, plotealo y realizá el test ADF. Evaluá en primer lugar si el residuo de la serie original y el modelo con back transformation es estacionario. Si lo es, podés trabajar con los ciclos directamente con esa serie.

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
test_5()

Vamos a definir una función que va a plotear una serie y nos va a dar información sobre su estacionariedad y sobre sus ACF y PACF:

In [None]:
def tsplot(y, lags=None, figsize=(12, 7), style='bmh'):
    """ 
        Plotea la serie de tiempo, el ACF y PACF y el test de Dickey–Fuller
        
        y - serie de tiempo
        lags - cuántos lags incluir para el cálculo de la ACF y PACF
        
    """
    if not isinstance(y, pd.Series):
        y = pd.Series(y)
        
    with plt.style.context(style):    
        fig = plt.figure(figsize=figsize)
        layout = (2, 2)
        
        # definimos ejes
        ts_ax = plt.subplot2grid(layout, (0, 0), colspan=2)
        acf_ax = plt.subplot2grid(layout, (1, 0))
        pacf_ax = plt.subplot2grid(layout, (1, 1))
        
        y.plot(ax=ts_ax)
        
        # obtengo el p-value con h0: raiz unitaria presente
        p_value = sm.tsa.stattools.adfuller(y)[1]
        
        ts_ax.set_title('Análisis de la Serie de Tiempo\n Dickey-Fuller: p={0:.5f}'\
                        .format(p_value))
        
        # plot de autocorrelacion
        smt.graphics.plot_acf(y, lags=lags, ax=acf_ax)
        # plot de autocorrelacion parcial
        smt.graphics.plot_pacf(y, lags=lags, ax=pacf_ax)
        plt.tight_layout()

Ejecutá esta función con el residuo del modelo Log+Est y 36 lags:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Corré un modelo ARIMA(p,d,q) según los resultados del gráfico. ¿Cuáles van a ser los valores de p, d y q?

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Ahora analizá los resultados del modelo ploteando el summary:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Vas a encontrar que algunos coeficientes no son significativos. Volvé a entrenar el modelo de acuerdo a los resultados que hayas encontrado.

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Hacé un gráfico del residuo y del modelo ARIMA:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Usá el método plot_predict() para hacer un gráfico 

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Ahora calculá el residuo de nuestro modelo ARIMA y generá los gráficos que analizan la serie de tiempo. 

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:



Crea las predicciiones en el set de testeo con el método .forecast() del modelo estimado:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Agregá a los DataFrames de entrenamiento y testeo los modelos completos que incluyan el modelo con tendencia, estacionalidad y el modelo ARIMA. Después graficá la serie original y la predicción tanto en el set de entrenamiento como de testeo. 

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:


Agregá el RMSE en el DataFrame de resultados:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:
