# Presentación 13:

En esta presentación veremos cómo ajustar y realizar pronósticos con un modelo ARIMA($p$, $d$, $q$) en Python.

Antes de comenzar veamos cómo pasar de una sucesión de números a una serie de tiempo introduciendo ruido en la sucesión. Carguemos primero algunos paquetes que necesitaremos más adelante:

In [None]:
import numpy as np # Para trabajar con vectores y matrices
from matplotlib import pyplot as plt # Para graficar
import pandas as pd # Para trabajar con bases de datos
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.stattools import acf, pacf
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.stattools import adfuller
plt.style.use('fivethirtyeight') # Para dar un estilo distinto a los gráficos

In [None]:
# Esto es una sucesión NO una serie de tiempo:

xt = []  # Lista vacía
xt.append(0) # Valor inicial
n = 40 # Tamaño de la sucesión

for t in range(1, n, 1):
    xt.append( 1.4  + 0.6*xt[t-1] ) 

xt = np.array(xt) # Lo transformamos en vector
xt

In [None]:
plt.plot(xt, marker="o")

Introduzcamos un ruido blanco normal con media $0$ y varianza $\sigma_w^2=1.3^2$ 

In [None]:
sigma_w = 1.3
np.random.seed(324) # Semilla para que obtengan lo mismo en su PC
n = 40 # Tamaño de la serie
wt = np.random.normal(0, sigma_w, n)
wt

In [None]:
# Esto SÍ es una serie de tiempo:

xt = []  # Lista vacía
xt.append(0) # Valor inicial


for t in range(1, n, 1):
    xt.append( 1.4  + 0.6*xt[t-1] + wt[t]) 

xt = np.array(xt) # Lo transformamos en vector
xt

In [None]:
plt.plot(xt, marker="o")

__PREGUNTA:__ Si nos dan la serie de tiempo $\{X_t\}$ de la línea anterior, ¿cómo procedemos para separar el ruido de la parte deterministica (la sucesión)?

Para responder esto, procedamos como lo hemos hecho en el curso:

1. Realice los gráficos ACF y PACF para tratar de identificar los órdenes $p$, $d$ y $q$ del modelo ARIMA($p$, $d$, $q$).

2. Aplique la prueba de Dickey-Fuller para ver si es necesario tomar diferencias (valor de $d$). 

3. Aplique varios modelos y use un criterio de selección (AIC, BIC) para seleccionar el "mejor".

4. Verifique si existe autocorrelación en los residuales del modelo seleccionado utilizando el gráfico ACF y complementando con la prueba de Ljung-Box.

5. Verifique si hay normalidad en los residuales del modelo.

6. Si todo lo anterior se cumple entonces puede realizar pronósticos con el "mejor" modelo ajustado.

Procedamos entonces:
    
1. Gráficos ACF y PACF para tratar de identificar los órdenes $p$, $d$ y $q$ del modelo ARIMA($p$, $d$, $q$).

In [None]:
acf(xt, nlags=10)

In [None]:
pacf(xt, method='ywm', nlags=10)

In [None]:
plot_acf(xt)
plt.show()
plot_pacf(xt, method='ywm')
plt.show()

Según los gráficos el modelo tentativo es un AR(1).

2. Aplicamos la prueba de Dickey-Fuller:

In [None]:
adfuller(xt)

In [None]:
# Para obtener información ejecutamos:
adfuller?

El p-valor es:
    

In [None]:
adfuller(xt)[1]

Aceptamos la hipótesis nula de que existe una raíz nula, lo cual indica que debemos tomar una diferencia. Sin embargo, no lo haremos en este caso ya que sabemos que estamos simulando un AR(1).

3. Aplicamos varios modelos:

In [None]:
modelo1 = ARIMA(xt, order=(1,0,0)).fit()
modelo2 = ARIMA(xt, order=(2,0,0)).fit() 
modelo3 = ARIMA(xt, order=(1,0,1)).fit() 

In [None]:
modelo1.summary()

In [None]:
modelo2.summary()

In [None]:
modelo3.summary()

Como era de esperarse, según los AIC y BIC, el "mejor" modelo es el __modelo1__. Los coeficientes estimados son:

In [None]:
modelo1.summary().tables[1]

Vemos que los parámetros del intercepto es $\widehat{\mu}=3.8085$, de donde, $\widehat{\phi}_0=\widehat{\mu}*(1-\widehat{\phi}_1)=3.8085*(1-0.7965)=0.775$,  $\widehat{\phi}_1=0.7965$, son las estimaciones de $\phi_0=1.4$, $\phi_1=0.6$ (¿será que si aumentamos el tamaño de muestra $n$ se parecen más?). La varianza del ruido blanco es $\sigma_w^2=1.3^2=1.69$ y su estimador es igual a $\widehat{\sigma}_w^2=1.7246$

4. Observando las Pruebas de Ljung Box y Jarque-Bera del __modelo1__, los p-valores son iguales a 0.88 ($H_0$: autocorrelación nula) y 0.54 ($H_0$: Normalidad), corroboran que los residuales son no correlacionados y tienen distribución normal con un nivel de confianza del 95%.

5. Realizamos un diagnóstico de los residuales:

In [None]:
modelo1.plot_diagnostics(figsize=(15, 12))
plt.show()

Como era de esperarse los residuales son no correlacionados (se ve en el gráfico de la ACF con todos los valores dentro de la banda de confianza), oscilan alrededor del cero con varianza constante (primer gráfico) y se observa gráficamente que siguen una distribución normal.

6. Realizamos entonces pronósticos. Existen dos funciones o procesos: __get_prediction__ (permite hacer predicciones de toda la serie y del futuro de la misma desde un punto inicial hasta un punto final) y __get_forecast__ (solo permite realizar predicciones futuras). En escencia el  __get_forecast__ es un caso particular del __get_prediction__.

In [None]:
pred.conf_int?

In [None]:
pred = modelo1.get_prediction(start=40, end=45, dynamic=False) # dynamic=False evita que las predicciones futuras
                                                               # se conviertan en datos de la muestra para predicciones 
                                                               # que van más adelante.
pred_ci = pred.conf_int(alpha=0.05) # Intervalo de confianza 
pred_ci

In [None]:
pred.predicted_mean # Valores predichos a futuro.

In [None]:
fore = modelo1.get_forecast(6) # Obtenemos lo mismo que con el proceso anterior
fore_ci = fore.conf_int()
fore_ci

In [None]:
fore.predicted_mean # Valores predichos a futuro.

In [None]:
xt_pred = np.concatenate((xt, fore.predicted_mean)) # Adicionamos a la serie original las predicciones.
xt_pred

In [None]:
xt_pred[40:46]

In [None]:
plt.figure(figsize=(16,8))  #  Graficamos:
plt.plot(xt_pred, marker="o")
plt.plot(range(40,46,1),xt_pred[40:46], marker="o")
plt.plot(range(40,46,1), pred_ci[:,0], marker="o", color="green")
plt.plot(range(40,46,1), pred_ci[:,1], marker="o", color="green")
plt.show()

## Incrementemos el tamaño de muestra:

Pasemos de $n=40$ a $n=200$:

In [None]:
sigma_w = 1.3
np.random.seed(65456) # Semilla para que obtengan lo mismo en su PC
n = 200 # Tamaño de la serie
wt = np.random.normal(0, sigma_w, n)
xt = []  # Lista vacía
xt.append(0) # Valor inicial

for t in range(1, n, 1):
    xt.append( 1.4  + 0.6*xt[t-1] + wt[t]) 

xt = np.array(xt) # Lo transformamos en vector

plt.plot(xt, marker="o")

In [None]:
plot_acf(xt)
plt.show()
plot_pacf(xt, method='ywm')
plt.show()

In [None]:
adfuller(xt)

Con este p-valor=4.293377833514544e-05 rechazamos ahora la hipótesis nula con un nivel de confianza del 95% y nos quedamos con la alternativa: $H_a$: No hay raíces unitarias. __NOTE QUE:__ Con un tamaño de muestra mayor, el proceso simulado AR(1), con los parámetros seleccionados para que fuera estacionario, efectivamente resultó serlo. En general, en series de tiempo se requiere tener una cantidad suficiente de información para obtener inferencias correctas.

In [None]:
modelo1b = ARIMA(xt, order=(1,0,0)).fit()
modelo1b.summary()

__NOTE QUE:__ Con aumentar el tamaño de muestra de $n=40$ a $n=200$, las estimaciones del intercepto es $\widehat{\mu}=3.6591$, de donde, $\widehat{\phi}_0=\widehat{\mu}*(1-\widehat{\phi}_1)=3.6591*(1-0.5762)=1.551$,  $\widehat{\phi}_1=0.5762$, son las estimaciones de $\phi_0=1.4$, $\phi_1=0.6$. La varianza del ruido blanco es $\sigma_w^2=1.3^2=1.69$ y su estimador es igual a $\widehat{\sigma}_w^2=1.7275$. Con una serie mayor, mayor es la información y por tanto, la estimación de los parámetros reales mejora.

# Trabajemos ahora con una serie de tiempo real:

Analicemos en Python los datos relacionados con la Tasa Representativa del Mercado (TRM).

In [None]:
from datetime import datetime # Módulo para dar formato a las fechas
dateparse = lambda x: datetime.strptime(x, '%d/%m/%Y') # Función auxiliar para dar formato a fechas

trm = pd.read_csv("../../DATOS/trm_historico.csv", parse_dates=['VIGENCIADESDE', 'VIGENCIAHASTA'], date_parser=dateparse)

In [None]:
trm.head()

In [None]:
trm.tail()

In [None]:
trm.sort_values(by="VIGENCIADESDE", inplace=True) # Ordenar por VIGENCIADESDE

In [None]:
trm.dtypes

Podemos extraer días, meses, años, etc. de las fechas:

In [None]:
trm["dia"] = pd.DatetimeIndex(trm["VIGENCIADESDE"]).day
trm["dia_sem"] = pd.DatetimeIndex(trm["VIGENCIADESDE"]).weekday # 0 es lunes, 1 es martes, ...,  domingo es 6
# Podemos cambiarlo con:
dia_aux1 = trm.dia_sem.unique() # Solo hay valores de 0 a 5
dia_aux2 = ["Lunes", "Martes", "Miércoles", "Jueves", "Viernes", "Sábado"] # Solo hay días de lunes a sábado

trm.dia_sem.replace(to_replace=dia_aux1, value=dia_aux2, inplace=True)
trm["mes"] = pd.DatetimeIndex(trm["VIGENCIADESDE"]).month
trm["year"] = pd.DatetimeIndex(trm["VIGENCIADESDE"]).year

In [None]:
trm.set_index("VIGENCIADESDE", inplace=True)

In [None]:
trm_aux = trm[["VALOR"]].squeeze("columns")
trm_aux

In [None]:
trm_aux.plot(figsize=(15, 6))
plt.show()

In [None]:
acf(trm_aux)

In [None]:
plot_acf(trm_aux)
plt.show()

In [None]:
pacf(trm_aux, method="ywm")

In [None]:
plot_pacf(trm_aux, method="ywm")
plt.show()

In [None]:
adfuller(trm_aux)

Como el p-valor=0.9343293479786797 > 0.05=$\alpha$ entonces nos quedamos con la hipótesis nula $H_0:$ Existe una raíz unitaria. Esto implica que debemos tomar una diferencia:

In [None]:
trm_aux_dif = trm_aux.diff()

In [None]:
trm_aux_dif.dropna(inplace=True)

In [None]:
adfuller(trm_aux_dif)

Como el p-valor=2.905813432233147e-27 < 0.05=$\alpha$ entonces nos quedamos con la hipótesis alternativa $H_a:$ No existe una raíz unitaria. Esto implica que no debemos tomar una segunda diferencia y el parámetro d=1 en el modelo ARIMA(p, d, q). 

In [None]:
trm_aux_dif.plot(figsize=(15, 6))
plt.show()

In [None]:
acf(trm_aux_dif)

In [None]:
plot_acf(trm_aux_dif)
plt.show()

In [None]:
pacf(trm_aux_dif, method="ywm")

In [None]:
plot_pacf(trm_aux_dif, method="ywm")
plt.show()

Proponemos varios modelos:

In [None]:
modelo_trm1 = ARIMA(trm_aux, order=(1,1,0)).fit()
modelo_trm2 = ARIMA(trm_aux, order=(0,1,1)).fit()
modelo_trm3 = ARIMA(trm_aux, order=(1,1,1)).fit()

In [None]:
modelo_trm1.summary()

In [None]:
modelo_trm2.summary()

In [None]:
modelo_trm3.summary()

Aparentemente, el __modelo_trm1__ es el "mejor" entre los modelos ajustados, ya que tiene el menor AIC y BIC. A pesar de esto, el test de Jarque-Bera muestra que no hay normalidad en los residuales, a pesar de que el test de Ljung-Box sí evidencia no autocorrelación. La no-normalidad se confirma con el diagnóstico del modelo:

In [None]:
modelo_trm1.plot_diagnostics(figsize=(15, 12))
plt.show()

## Filtremos los datos de TRM solo al año 2021:

In [None]:
trm_2021 = trm.query("year==2021")

In [None]:
trm_2021_aux = trm_2021[["VALOR"]]
#trm_2021_aux = trm_2021[["VALOR"]].squeeze("columns")
#trm_2021_aux.index = trm_2021_aux.index.to_period(freq='D')

In [None]:
trm_2021_aux

In [None]:
trm_2021_aux.plot(figsize=(15, 6))
plt.show()

In [None]:
adfuller(trm_2021_aux)

In [None]:
adfuller(trm_2021_aux.diff().dropna())

In [None]:
plot_acf(trm_2021_aux.diff().dropna())
plt.show()
plot_pacf(trm_2021_aux.diff().dropna(), method='ywm')
plt.show()

Redefinimos los indices para ajustar el modelo ARIMA:

In [None]:
trm_2021_aux.reset_index(inplace=True)
trm_2021_aux

In [None]:
modelo_trm_2021 = ARIMA(trm_2021_aux["VALOR"], order=(1,1,0)).fit()
modelo_trm_2021.summary()

In [None]:
modelo_trm_2021.plot_diagnostics(figsize=(15, 12))
plt.show()

In [None]:
trm_2021_aux.reset_index(inplace=True)

In [None]:
fore = modelo_trm_2021.get_forecast(8)
fore_ci = fore.conf_int()
fore_ci

In [None]:
fore.predicted_mean

In [None]:
trm_2021_pred = np.concatenate((trm_2021_aux["VALOR"], fore.predicted_mean)) # Adicionamos a la serie original las predicciones.
trm_2021_pred[238:246]

In [None]:
plt.figure(figsize=(16,8))  #  Graficamos:
plt.plot(trm_2021_pred, marker="o")
plt.plot(range(238, 246,1),trm_2021_pred[238:246], marker="o")
plt.plot(range(238, 246,1), fore_ci.iloc[:,0], marker="o", color="green") # Debemos usar .iloc porque fore_ci es un data frame
plt.plot(range(238, 246,1), fore_ci.iloc[:,1], marker="o", color="green") # Debemos usar .iloc porque fore_ci es un data frame
plt.show()