In [None]:
try:
    # settings colab:
    import google.colab
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

<img src='../../../common/logo_DH.png' align='left' width=35%/>

# Series de Tiempo - Práctica independiente


#### En esta práctica independiente vas a poner en práctica tu conocimiento de series de tiempo. 

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.tsa.api as smt

from scipy import stats
from statistics import mode

from sklearn.model_selection import train_test_split

from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.stattools import acf, pacf
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.arima_model import ARIMA

import warnings
warnings.filterwarnings('ignore')


En este caso, nuestra variable de interés en la cantida de pasajeros de una compañía aérea.

Aplicá lo que aprendiste en la clase de series de tiempo y desarrolla un modelo para esta serie de tiempo.

In [None]:
df = pd.read_csv('../Data/AirPassengers.csv')
df.shape

In [None]:
df.head()

In [None]:
df.dtypes

In [None]:
df.rename(columns={'#Passengers':'Passengers', 'Month':'Date'}, inplace=True)

df.head()

In [None]:
df['Date'] = pd.to_datetime(df['Date'])

df['Date'].dtype

In [None]:
df = df.sort_values(by = "Date")

In [None]:
df['Month'] = pd.DatetimeIndex(df['Date']).month
df.head()

In [None]:
df.index = pd.PeriodIndex(df.Date, freq='M')
df.head()

Vamos a definir una función que plotea series de tiempo:

In [None]:
# Función que plotea la serie:
def plot_df(df, x, y, title="", xlabel='Fecha', ylabel='Valor', dpi=100):
    plt.figure(figsize=(16,5), dpi=dpi)
    plt.plot(x, y, color='tab:red')
    plt.gca().set(title=title, xlabel=xlabel, ylabel=ylabel)
    plt.show()

In [None]:
plot_df(df, x=df.Date, y=df.Passengers, title="Passengers")

In [None]:
df["timeIndex"] = pd.Series(np.arange(len(df['Passengers'])), index=df.index)
df.head()

In [None]:
df.tail()

In [None]:
dummies_mes = pd.get_dummies(df['Month'], drop_first=True, prefix='Month')
df = df.join(dummies_mes)
df.sample(10)

In [None]:
df_train, df_test = train_test_split(df, test_size=12, random_state=42, shuffle=False)

In [None]:
df_train.tail()

In [None]:
df_test.head()

Creá las transformaciones logarítmicas de priceMod tanto para el set de entrenamiento como para el set de testeo.

In [None]:
df_train['log_Passengers'] = np.log(df_train['Passengers'])
df_test['log_Passengers'] = np.log(df_test['Passengers'])

In [None]:
plot_df(df_train, x=df_train.Date, y=df_train['log_Passengers'],\
    title='Log de Passengers del train set')

Vemos que la disperción de la serie se estabilizó significativamente en t. 

Ahora entrená un modelo lineal entre la serie transformada y la dummy de tiempo y analizá el summary.

In [None]:
model_log = smf.ols('log_Passengers ~ timeIndex',\
                          data = df_train).fit()

In [None]:
model_log.summary()

Agregá las predicciones del modelo en el set de entrenamiento y de testeo con y sin back-transformation:

In [None]:
df_train['model_log'] = model_log.predict(df_train[["timeIndex"]])
df_test['model_log'] = model_log.predict(df_test[["timeIndex"]])

In [None]:
df_train['back_model_log'] = np.exp(df_train['model_log'])
df_test['back_model_log'] = np.exp(df_test['model_log'])

Ploteá las predicciones vs. las series reales, tanto en el set de entrenamiento como en el de testeo.

In [None]:
df_train.plot(kind = "line", x = "Date", y = ['log_Passengers', 'model_log']);

In [None]:
df_train.plot(kind = "line", x = "Date", y = ['Passengers', 'back_model_log']);

In [None]:
df_test.plot(kind = "line", x = "Date", y = ['log_Passengers', 'model_log']);

In [None]:
df_test.plot(kind = "line", x = "Date", y = ['Passengers', 'back_model_log']);

Creamos la función para calcular el RMSE:

In [None]:
def RMSE(predicted, actual):
    mse = (predicted - actual) ** 2
    rmse = np.sqrt(mse.sum() / mse.count())
    return rmse

Guardá el resultado en un DataFrame:

In [None]:
# POR FAVOR COMPLETÁ CON TU CÓDIGO:
df_Results = pd.DataFrame(columns = ["Model", "RMSE"])
df_Results.loc[0, "Model"] = "Log"
df_Results.loc[0, "RMSE"] = RMSE(df_test.back_model_log, df_test.Passengers)
df_Results

Ahora entrená un modelo agregando variables de estacionalidad mensual y agregá el RMSE en el DataFrame de resultados. 

In [None]:
model_log_est = smf.ols('log_Passengers ~ timeIndex + Month_3 + Month_4 + Month_5 + Month_6 + Month_7 + Month_8 + Month_9 + Month_11',\
                          data = df_train).fit()


In [None]:
model_log_est.summary()

Comentario: recordá que podés usar el método precict del modelo para realizar predicciones.
Al método le tenés que pasar el DataFrame y especificar las columnas a incluir. 

Hacé las predicciones en el set de entrenamiento y testo y almacená los resultados en ambos DataFrames:

In [None]:
df_train['model_log_est'] = model_log_est.predict(df_train[["timeIndex",\
                                              "Month_3", "Month_4", "Month_5", "Month_6",\
                                               "Month_7","Month_8", "Month_9", "Month_11"]])


df_test['model_log_est'] = model_log_est.predict(df_test[["timeIndex",\
                                              "Month_3", "Month_4", "Month_5", "Month_6",\
                                               "Month_7","Month_8", "Month_9", "Month_11"]])

Comentario: recordá que para hacer back transformation de una transformación logarítmica tenés que usar la función exponencial. 

Almacená en tus DataFrames los modelos con back transformation. 

In [None]:
df_train['back_model_log_est'] = np.exp(df_train['model_log_est'])
df_test['back_model_log_est'] = np.exp(df_test['model_log_est'])

Plotea el modelo con y sin back transformation para el set de entrenamiento:

In [None]:
df_train.plot(kind = "line", x = "Date", y = ['log_Passengers', 'model_log_est']);

In [None]:
df_train.plot(kind = "line", x = "Date", y = ['Passengers', 'back_model_log_est']);

Plotea el modelo con y sin back transformation para el set de testeo:

In [None]:
df_test.plot(kind = "line", x = "Date", y = ['log_Passengers', 'model_log_est']);

In [None]:
df_test.plot(kind = "line", x = "Date", y = ['Passengers', 'back_model_log_est']);

Calculá el RMSE del modelo con transformación logarítmica y estacionalidad mensual y agregala al DataFrame de resultados: 

In [None]:
df_Results.loc[1, "Model"] = "Log + Est"
df_Results.loc[1, "RMSE"] = RMSE(df_test.back_model_log_est, df_test.Passengers)
df_Results

In [None]:
residuo = df_train['Passengers'] - df_train['back_model_log_est']

plt.plot(df_train.timeIndex, residuo, '-');

In [None]:
result = adfuller(residuo)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
for key, value in  result[4].items():
    print('Valor crítico %s: %.2f' % (key,value))

In [None]:
residuo_log = df_train['log_Passengers'] - df_train['model_log_est']

plt.plot(df_train.timeIndex, residuo_log, '-');

In [None]:
result = adfuller(residuo_log)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
for key, value in  result[4].items():
    print('Valor crítico %s: %.2f' % (key,value))

In [None]:
def tsplot(y, lags=None, figsize=(12, 7), style='bmh'):
    """ 
        Plotea la serie de tiempo, el ACF y PACF y el test de Dickey–Fuller
        
        y - serie de tiempo
        lags - cuántos lags incluir para el cálculo de la ACF y PACF
        
    """
    if not isinstance(y, pd.Series):
        y = pd.Series(y)
        
    with plt.style.context(style):    
        fig = plt.figure(figsize=figsize)
        layout = (2, 2)
        
        # definimos ejes
        ts_ax = plt.subplot2grid(layout, (0, 0), colspan=2)
        acf_ax = plt.subplot2grid(layout, (1, 0))
        pacf_ax = plt.subplot2grid(layout, (1, 1))
        
        y.plot(ax=ts_ax)
        
        # obtengo el p-value con h0: raiz unitaria presente
        p_value = sm.tsa.stattools.adfuller(y)[1]
        
        ts_ax.set_title('Análisis de la Serie de Tiempo\n Dickey-Fuller: p={0:.5f}'\
                        .format(p_value))
        
        # plot de autocorrelacion
        smt.graphics.plot_acf(y, lags=lags, ax=acf_ax)
        # plot de autocorrelacion parcial
        smt.graphics.plot_pacf(y, lags=lags, ax=pacf_ax)
        plt.tight_layout()

In [None]:
tsplot(residuo_log, lags=36)

Corré un modelo ARIMA(p,d,q) según los resultados del gráfico. ¿Cuáles van a ser los valores de p, d y q?

In [None]:
model_ARIMA = ARIMA(residuo_log, order=(1,0,4))

# Estimo el modelo:
results_ARIMA = model_ARIMA.fit()
results_ARIMA.fittedvalues.head()

Ahora analizá los resultados del modelo ploteando el summary:

In [None]:
print(results_ARIMA.summary())

Hacé un gráfico del residuo y del modelo ARIMA:

In [None]:
plt.figure(figsize=(7,3.5))
residuo_log.plot()
results_ARIMA.fittedvalues.plot();

Usá el método plot_predict() para hacer un gráfico 

In [None]:
results_ARIMA.plot_predict(end=len(df['Passengers']));

Ahora calculá el residuo de nuestro modelo ARIMA y generá los gráficos que analizan la serie de tiempo. 

In [None]:
res_ARIMA =  results_ARIMA.fittedvalues - residuo_log

In [None]:
tsplot(res_ARIMA, lags=36)

Crea las predicciiones en el set de testeo con el método .forecast() del modelo estimado:

In [None]:
predictions_ARIMA, se, conf = results_ARIMA.forecast(len(df_test['Passengers']), alpha=0.05)

In [None]:
df_train['log_model_ARIMA'] = df_train['model_log_est'] + results_ARIMA.fittedvalues

df_test['log_model_ARIMA'] = df_test['model_log_est'] + predictions_ARIMA

In [None]:
df_train.plot(kind = "line", y = ['log_Passengers', 'log_model_ARIMA']);

In [None]:
df_test.plot(kind = "line", y = ['log_Passengers', 'log_model_ARIMA']);

In [None]:
df_train['back_log_model_ARIMA'] = np.exp(df_train['log_model_ARIMA'])

df_test['back_log_model_ARIMA'] = np.exp(df_test['log_model_ARIMA'])

In [None]:
df_train.plot(kind = "line", y = ['Passengers', 'back_log_model_ARIMA']);

In [None]:
df_test.plot(kind = "line", y = ['Passengers', 'back_log_model_ARIMA']);

In [None]:
df_Results.loc[2, "Model"] = "Log Model + est + ARIMA"
df_Results.loc[2, "RMSE"] = RMSE(df_test['back_log_model_ARIMA'], df_test['Passengers'])
df_Results