# Taller de manejo y visualización de series de tiempo. Sesión 2
El taller aborda los fundamentos para manejo de series de tiempo con Python. El objetivo es otorgar los conocimientos fundamentales al estudiante para el procesamiento, manejo y visualización de bases de datos con series de tiempo en Python. Los códigos de Python se escribirán y ejecutarán en Jupyter Notebook. Se brindará a los estudiantes con las bases de datos para que puedan ejecutar los códigos.

### Sesión: 2 - Miércoles 25 de octubre
### Hora: 10am- 12pm
### Docente: Esteban Cabrera (esteban.cabrera@pucp.edu.pe)

- <a href='#t1'>1. Obtener bases de datos de la web</a>
     - <a href='#1.1.'>1.1. BCRP Scrapping </a>
     - <a href='#1.2.'>1.2. Importar datos de Yahoo finance </a>
- <a href='#t2'>2. ACP y PACF </a>
     - <a href='#2.1.'>2.1. Autocorrelación </a>
     - <a href='#2.2.'>2.2. Autocorrelación parcial  </a>
- <a href='#t3'>3. Series de tiempo univariadas </a> 
     - <a href='#3.1.'>3.1. Ruido blanco (white noise)</a>
     - <a href='#3.2.'>3.2. Paseo aleatorio (random walk)</a>
     - <a href='#3.3.'>3.3. Prueba de raíz unitaria</a>
     - <a href='#3.3.'>3.4. Estacionariedad</a>
- <a href='#t4'>4. Modelos AR </a>
     - <a href='#4.1.'>4.1. Proceso Autoregresivo (AR) </a>
     - <a href='#4.2.'>4.2. Estimación de procesos autoregresivos (AR)</a>
     - <a href='#4.3.'>4.3. Pronóstico de procesos autoregresivos (AR)</a>
     - <a href='#4.4.'>4.4. Estimar el orden de un proceso AR: PACF </a>
     - <a href='#4.5.'>4.5. Estimar el orden de un proceso AR: Criterios de información </a>
- <a href='#t5'>5. Modelos MA </a>
    - <a href='#5.1.'>5.1. Procesos moving average (MA) </a>
    - <a href='#5.2.'>5.2. Estimación de procesos moving average (MA) </a>
    - <a href='#5.3.'>5.3. Pronóstico de procesos moving average (MA)</a>
    - <a href='#5.4.'>5.4. Estimar el orden de un proceso MA: PACF </a>
    - <a href='#5.5.'>5.5. Estimar el orden de un proceso AR: Criterios de información </a>
    - <a href='#5.6.'>5.6. Equivalencia de un AR(1) con un MA($\infty$) </a>
     
     
     
     
      


#  <a id='t1'> 1. Obtener bases de datos de la web</a>

## <a id='1.1.'> 1.1. BCRP Scrapping </a> 
Se refiere a la práctica de extraer datos del Banco Central de Reserva del Perú (BCRP). El scrapping de BCRP puede ser útil para analistas financieros, economistas y otras partes interesadas que deseen realizar un seguimiento de la economía peruana o realizar investigaciones basadas en datos económicos actualizados. 

Existen múltiples formas de hacer BCRP Scrapping, en esta ocasión primero estamos utilizando la provista por la librería bcrpscrapper cuyo autor es Dereck Amesquita
https://dereckamesquita-bcrp-scrapper-streamlist-bcrp-hxd0fl.streamlit.app/

In [1]:
!pip install altair
!pip install requests



In [2]:
!pip install pandas_datareader



In [3]:
import warnings
warnings.filterwarnings("ignore")

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import requests
from scipy import stats
from pandas_datareader import data

In [4]:
url = "https://raw.githubusercontent.com/dereckamesquita/bcrp-scrapper/main/bcrp_scrapper.py"
response = requests.get(url)

In [5]:
# Importamos la librería bcrp_scrapper de Dereck Amesquita
from bcrp_scrapper import *

Si queremos buscar alguna base de datos de la página de estadísticas del BCRP, utilizamos bcrp_find()

Los argumentos de la función son el nombre de la serie ('Inflación', 'Reservas', 'etc') y la frecuencia ('D', 'M', 'A')

In [6]:
bcrp_find('Reservas', 'A')

Unnamed: 0,Código,Categoría,Serie,Fecha Inicio,Fecha Fin,Última Actualización,Frecuencia
9314,PM06089MA,Cuentas monetarias de las sociedades de depósi...,"Crédito Interno - Capital, Reservas, Provision...",2001,2022,25-05-2023,A
9373,PM06207MA,Cuentas monetarias de las empresas bancarias\t...,"Crédito Interno - Capital, Reservas, Provision...",2003,2022,25-05-2023,A
9439,PM06121MA,Cuentas monetarias del Banco Central de Reserv...,"Crédito Interno - Capital, Reservas, Provision...",1922,2022,25-05-2023,A
9469,PM06102MA,Reservas internacionales\t\t\t\t\t -...,Reservas Internacionales Netas (millones S/),2001,2022,25-05-2023,A
9470,PM06103MA,Reservas internacionales\t\t\t\t\t -...,Reservas Internacionales Netas (millones US$),1959,2022,25-05-2023,A
9471,PM06104MA,Reservas internacionales\t\t\t\t\t -...,Reservas Internacionales Netas - Activos (mill...,1959,2022,25-05-2023,A
9472,PM06105MA,Reservas internacionales\t\t\t\t\t -...,Reservas Internacionales Netas - Pasivos (mill...,1959,2022,25-05-2023,A
9473,PD10006MA,Reservas internacionales\t\t\t\t\t -...,Reservas Internacionales Brutas (millones US$),1959,2021,10-05-2022,A
9474,PD31897MA,Reservas internacionales\t\t\t\t\t -...,Depósitos de Intermediarios Financieros (mill....,1998,2020,30-03-2022,A
9475,PD31898MA,Reservas internacionales\t\t\t\t\t -...,Depósitos del sector público en el BCRP (mill....,1978,2021,02-08-2022,A


In [7]:
bcrp_find('Inflación', 'M')

Unnamed: 0,Código,Categoría,Serie,Fecha Inicio,Fecha Fin,Última Actualización,Frecuencia
4349,PN01296PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Bienes,Feb-1992,Jun-2023,06-07-2023,M
4350,PN01297PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Bienes - Alimentos y Be...,Feb-1992,Jun-2023,06-07-2023,M
4351,PN01298PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Bienes - Textiles y Cal...,Feb-1992,Jun-2023,06-07-2023,M
4352,PN01299PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Bienes - Aparatos Elect...,Feb-1992,Jun-2023,06-07-2023,M
4353,PN01300PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Bienes - Resto de Produ...,Feb-1992,Jun-2023,06-07-2023,M
4354,PN01301PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Servicios,Feb-1992,Jun-2023,06-07-2023,M
4355,PN01302PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Servicios - Comidas Fue...,Feb-1992,Jun-2023,06-07-2023,M
4356,PN01303PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Servicios - Educación,Feb-1992,Jun-2023,06-07-2023,M
4357,PN01304PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Servicios - Salud,Feb-1992,Jun-2023,06-07-2023,M
4358,PN01305PM,Índice de precios al consumidor Lima Metropoli...,Inflación Subyacente - Servicios - Alquileres,Feb-1992,Jun-2023,06-07-2023,M


Con la función bcrpscrapper creamos un dataframe, colocamos los códigos de las bases que necesitamos en una lista. 

Utilizamos T para transponerla (de lo contrario saldría una tabla wide en lugar de long)

In [8]:
df = bcrpscrapper(['PN01296PM', 'PN01297PM', 'PN01298PM', 'PN01299PM', 'PN01300PM', 'PN01301PM', 'PN01302PM', 'PN01303PM']).T

In [9]:
df.head()

Unnamed: 0_level_0,Inflación Subyacente - Bienes,Inflación Subyacente - Bienes - Alimentos y Bebidas,Inflación Subyacente - Bienes - Textiles y Calzado,Inflación Subyacente - Bienes - Aparatos Electrodomésticos,Inflación Subyacente - Bienes - Resto de Productos Industriales,Inflación Subyacente - Servicios,Inflación Subyacente - Servicios - Comidas Fuera del Hogar,Inflación Subyacente - Servicios - Educación
Periodo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1992-02-01,2.194088,2.448909,1.843643,-0.571582,2.258342,3.757522,3.558846,10.580495
1992-03-01,5.924866,8.556717,3.894855,-0.941453,3.958967,8.989502,9.560532,29.728958
1992-04-01,2.342226,1.381586,2.76544,4.60647,3.385033,3.654905,3.154975,2.78436
1992-05-01,2.572653,1.242195,3.287789,10.204088,3.608657,3.461168,3.536849,1.411235
1992-06-01,2.367416,1.134429,3.055222,3.964122,3.592214,3.714429,3.474948,1.921424


In [10]:
display(df.head())

Unnamed: 0_level_0,Inflación Subyacente - Bienes,Inflación Subyacente - Bienes - Alimentos y Bebidas,Inflación Subyacente - Bienes - Textiles y Calzado,Inflación Subyacente - Bienes - Aparatos Electrodomésticos,Inflación Subyacente - Bienes - Resto de Productos Industriales,Inflación Subyacente - Servicios,Inflación Subyacente - Servicios - Comidas Fuera del Hogar,Inflación Subyacente - Servicios - Educación
Periodo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1992-02-01,2.194088,2.448909,1.843643,-0.571582,2.258342,3.757522,3.558846,10.580495
1992-03-01,5.924866,8.556717,3.894855,-0.941453,3.958967,8.989502,9.560532,29.728958
1992-04-01,2.342226,1.381586,2.76544,4.60647,3.385033,3.654905,3.154975,2.78436
1992-05-01,2.572653,1.242195,3.287789,10.204088,3.608657,3.461168,3.536849,1.411235
1992-06-01,2.367416,1.134429,3.055222,3.964122,3.592214,3.714429,3.474948,1.921424


In [11]:
# Podemos trabajar con él como cualquier otro dataframe
df.iloc[:,2:]

Unnamed: 0_level_0,Inflación Subyacente - Bienes - Textiles y Calzado,Inflación Subyacente - Bienes - Aparatos Electrodomésticos,Inflación Subyacente - Bienes - Resto de Productos Industriales,Inflación Subyacente - Servicios,Inflación Subyacente - Servicios - Comidas Fuera del Hogar,Inflación Subyacente - Servicios - Educación
Periodo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1992-02-01,1.843643,-0.571582,2.258342,3.757522,3.558846,10.580495
1992-03-01,3.894855,-0.941453,3.958967,8.989502,9.560532,29.728958
1992-04-01,2.765440,4.606470,3.385033,3.654905,3.154975,2.784360
1992-05-01,3.287789,10.204088,3.608657,3.461168,3.536849,1.411235
1992-06-01,3.055222,3.964122,3.592214,3.714429,3.474948,1.921424
...,...,...,...,...,...,...
2024-01-01,0.114675,0.192676,0.095245,0.061288,0.250516,0.000000
2024-02-01,0.120094,0.196877,0.383461,0.364777,0.338287,0.288488
2024-03-01,0.108579,0.049981,0.165662,1.163366,0.500050,4.198990
2024-04-01,0.004337,0.237587,0.182240,0.169380,0.294230,0.164660


In [12]:
# Sacamos algunas estadísticas descriptivas de las series de tiempo
df.describe()

Unnamed: 0,Inflación Subyacente - Bienes,Inflación Subyacente - Bienes - Alimentos y Bebidas,Inflación Subyacente - Bienes - Textiles y Calzado,Inflación Subyacente - Bienes - Aparatos Electrodomésticos,Inflación Subyacente - Bienes - Resto de Productos Industriales,Inflación Subyacente - Servicios,Inflación Subyacente - Servicios - Comidas Fuera del Hogar,Inflación Subyacente - Servicios - Educación
count,388.0,388.0,388.0,388.0,388.0,388.0,388.0,388.0
mean,0.459334,0.488945,0.420726,0.308452,0.467876,0.567813,0.577647,0.763858
std,0.770367,0.921208,0.690612,1.081733,0.807881,0.876884,0.842632,2.105848
min,-0.168546,-0.755792,-0.2611,-1.986517,-0.799217,-0.052695,-0.070318,-0.269976
25%,0.129404,0.111337,0.098352,-0.118894,0.102161,0.143642,0.157656,0.0
50%,0.247457,0.291401,0.198948,0.098895,0.236863,0.265043,0.361425,0.097704
75%,0.491772,0.559097,0.384324,0.34931,0.528704,0.565562,0.630465,0.512624
max,5.924866,8.556717,4.975013,10.803875,6.366779,8.989502,9.560532,29.728958


Otra manera de realizar BCRP Scrapper aprovechando la interfaz API

Mayor información:
https://estadisticas.bcrp.gob.pe/estadisticas/series/ayuda/api

### Obtener información para una variable

In [13]:
url_base  = 'https://estadisticas.bcrp.gob.pe/estadisticas/series/api/'
cod_var   = 'RD13377DM' 
form_out  = '/json'
period    = '/2003-1/2019-12'
url_final = url_base+cod_var+form_out+period
print(url_final) 

resp = requests.get(url_final)
print(resp)

https://estadisticas.bcrp.gob.pe/estadisticas/series/api/RD13377DM/json/2003-1/2019-12
<Response [200]>


Si se obtiene una respuesta de [200] entonces corroboramos que el formato existe, cualquier otro número implica un error 

In [14]:
resp_json = resp.json()
print(resp_json) 

{'config': {'title': 'Arribos a los establecimientos de hospedaje según departamentos (número)', 'series': [{'name': 'Arribos a los establecimientos de hospedaje según departamentos (número) - Lima', 'dec': '0'}]}, 'periods': [{'name': 'Ene.2003', 'values': ['825382']}, {'name': 'Feb.2003', 'values': ['779307']}, {'name': 'Mar.2003', 'values': ['836631']}, {'name': 'Abr.2003', 'values': ['798698']}, {'name': 'May.2003', 'values': ['814885']}, {'name': 'Jun.2003', 'values': ['761941']}, {'name': 'Jul.2003', 'values': ['842663']}, {'name': 'Ago.2003', 'values': ['833470']}, {'name': 'Sep.2003', 'values': ['773980']}, {'name': 'Oct.2003', 'values': ['813908']}, {'name': 'Nov.2003', 'values': ['825090']}, {'name': 'Dic.2003', 'values': ['852893']}, {'name': 'Ene.2004', 'values': ['803894']}, {'name': 'Feb.2004', 'values': ['784283']}, {'name': 'Mar.2004', 'values': ['834051']}, {'name': 'Abr.2004', 'values': ['808172']}, {'name': 'May.2004', 'values': ['819079']}, {'name': 'Jun.2004', 'val

In [15]:
for para in resp_json.keys(): # Mediante el siguiente código vemos los parámetros del diccionario
    print(para)

config
periods


In [16]:
url_base  = 'https://estadisticas.bcrp.gob.pe/estadisticas/series/api/'
cod_var   = ['PD04692MD','PD31893DD','PD04637PD', 'PD04638PD', 'PD04647PD', 'PD04648PD', 'PD38026MD', 'PD38027MD', 'PD04696MD', 'PD04701XD', 'PD04702XD', 'PD04703XD', 'PD04704XD', 'PD04705XD', 'PD04718XD', 'PD04719XD', 'PD04720XD', 'PD04709XD', 'PD04708XD', 'PD04721XD']
form_out  = '/json'
period    = '/1997-01-01/2023-01-01'

month_s = ['Ene','Feb','Mar','Abr','May','Jun','Jul','Ago','Set','Oct','Nov','Dic']
month_d = ['01','02','03','04','05','06','07','08','09','10','11','12']

df_diario = pd.DataFrame()

for j in cod_var:
    url_aux   = url_base + j + form_out + period
    resp      = requests.get(url_aux)
    resp_json = resp.json()
    periods   = resp_json['periods']
    
    value = []
    dates = []
    
    for i in periods:
        aux_dat = i['name']
        aux_val = i['values']
        dates.append(aux_dat)
        value.append(float(aux_val[0]))
    
    dict_aux = {'Fecha' : dates, 
                 resp_json['config']['series'][0]['name'] : value}
    df_aux = pd.DataFrame(dict_aux)

    df_aux['Fecha'] = df_aux['Fecha'].str.replace('.','-')
    for (s,d) in zip(month_s,month_d):
        df_aux['Fecha'] = df_aux['Fecha'].str.replace(s,d)
    df_aux['Fecha'] = pd.to_datetime(df_aux['Fecha'])

    
    df_aux.set_index(df_aux['Fecha'], inplace=True)
    df_aux = df_aux.drop(columns=['Fecha'])
    df_diario    = pd.concat([df_diario, df_aux], axis=1)

display(df_diario)

ValueError: could not convert string to float: 'n.d.'

In [None]:
url_base  = 'https://estadisticas.bcrp.gob.pe/estadisticas/series/api/'
cod_var   = ['PD37940PQ', 'PN39352BQ', 'PN02516AQ', 'PN02529AQ', 'PN02530AQ', 'PN02531AQ','PN02536AQ', 'PN02537AQ', 'RD14428DQ', 'RD14378DQ']
form_out  = '/json'
period    = '/1992-T1/2019-T3'

df_trimestral= pd.DataFrame()

for j in cod_var:
    url_aux   = url_base + j + form_out + period
    resp      = requests.get(url_aux)
    resp_json = resp.json()
    periods   = resp_json['periods']
    
    value = []
    dates = []
    
    for i in periods:
        aux_dat = i['name']
        aux_val = i['values']
        dates.append(aux_dat)
        value.append(float(aux_val[0]))
    
    dict_aux = {'Fecha' : dates, 
                 resp_json['config']['series'][0]['name'] : value}
    df_aux = pd.DataFrame(dict_aux)
    df_aux.set_index(df_aux['Fecha'], inplace=True)
    df_aux = df_aux.drop(columns=['Fecha'])
    df_trimestral    = pd.concat([df_trimestral, df_aux], axis=1)

display(df_trimestral)

In [None]:
# Sacamos algunas estadísticas descriptivas
df_trimestral.describe()

In [None]:
bcrp_find('PBI', 'M')

In [None]:
PBI = bcrpscrapper('PN01770AM').T  # PBI no ajustado por la estacionalidad
# lo descartamos por tener una comportamiento no deseado

In [None]:
PBI_sa = bcrpscrapper('PN01773AM').T # PBI ajustado por la estacionalidad
PBI_sa

In [None]:
PBI_sa[PBI_sa['PBI Desestacionalizado - mensual'] == PBI_sa.max()[0]] # En qué momento alcanzó su máximo, respecto al índice de 2007

## <a id='1.2.'> 1.2. Importar datos de Yahoo Finance </a> 

In [None]:
!pip install yfinance
import yfinance as yf

In [None]:
apple = yf.download("AAPL", start="2002-01-01", end="2021-12-31")

In [None]:
apple.head()

In [None]:
apple = apple['Close']

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))
apple.plot(y='Close', ax=ax)
ax.set_title('APPL daily closing price')

#  <a id='t2'> 2. ACF y PACF</a>

## <a id='2.1.'> 2.1. Autocorrelación (ACF) </a>
La autocorrelación mide la relación entre los valores de una serie de tiempo con sus rezagos. Es decir, con sus valores pasados en el tiempo. Una autocorrelación positiva sugiere una relación positiva entre los valores pasados y presentes, mientras que una autocorrelación negativa sugiere una relación negativa. Esta es medida en una escala de -1 a 1.

Cuando una serie de tiempo tiene un componente autorregresivo (AR), la ACF suele tener la forma de una "escalera" que decae lentamente.
En caso la serie de tiempo no tenga componente AR, entonces cae inmediatamente 

Utilizaremos la función plot_acf() del módulo tsaplots para realizar el ploteo de la ACF

Esta función incluye líneas de confianza en el gráfico para ayudar a identificar si los valores de autocorrelación son estadísticamente significativos. Estas líneas de confianza a menudo se basan en pruebas de hipótesis y ayudan a determinar si la autocorrelación en un rezago específico es significativa 

In [None]:
from statsmodels.graphics import tsaplots

In [None]:
fig = tsaplots.plot_acf(PBI_sa, lags = 40)

In [None]:
fig = tsaplots.plot_acf(apple, lags = 100)

## <a id='2.2.'> 2.2. Autocorrelación parcial (PACF) </a>
La autocorrelación parcial mide la relación entre los valores de una serie de tiempo con sus rezagos, tomando en cuenta y eliminando la influencia de los rezagos intermedios. Esto ayuda a identificar la correlación directa entre los valores en diferentes momentos en el tiempo, sin la influencia de los rezagos intermedios.

Cuando una serie tiene un componente AR, la PACF tiene la forma de una "escalera" que se quiebra intempestivamente. El quiebre indica la cantidad de rezagos AR que se deben considerar para modelar la serie de tiempo.

Cuando la serie tiene un componente MA, la PACF tiene la forma de una "escalera" que cae suavemente.

Utilizaremos la función plot_pacf() para graficar la PACF. Esta gráfica incluye líneas de confianza en el gráfico que ayuda a identificar si los valores de autocorrelación parcial son estadísticamente significativos o no.

In [None]:
fig = tsaplots.plot_pacf(PBI_sa, lags = 40)

In [None]:
fig = tsaplots.plot_pacf(apple, lags = 30)

### Resumen de cómo ver el orden de un modelo:

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

#  <a id='t3'> 3. Series de tiempo univariadas </a>

In [None]:
from statsmodels.tsa.stattools import acf
from statsmodels.tsa.stattools import pacf
from statsmodels.graphics.tsaplots import plot_acf

## <a id='3.1.'> 3.1. Ruido blanco (white noise) </a>
Un ruido blanco es una secuencia de valores independientes e idénticamente distribuidos (i.i.d.) que siguen usualmente con una distribución normal (gaussiana). El ruido blanco en series de tiempo se utiliza a menudo para representar la variabilidad aleatoria no explicada en un conjunto de datos, es decir, son usados como término de error, y es un componente común en la modelización y el análisis de series temporales.  

In [None]:
noise = np.random.normal(loc=0, scale=1, size=1000) # Indicamos media 0 y varianza 1

In [None]:
plt.plot(noise)

In [None]:
print('mean: ', np.mean(noise))
print('std: ', np.std(noise))

In [None]:
tsaplots.plot_acf(noise, lags = 50, zero=False)
plt.show()

In [None]:
tsaplots.plot_pacf(noise, lags = 50, zero=False)
plt.show()


In [None]:
acf(noise)

In [None]:
pacf(noise)

## <a id='3.2.'> 3.2. Paseo aleatorio (random walk) </a>
![image.png](attachment:image.png)

En econometría, el término "Random Walk" se refiere a un modelo estadístico que describe una serie de tiempo en la que cada observación es igual a la observación anterior más un término de error aleatorio, es decir, un ruido blanco. En este modelo, no se incluyen otras variables explicativas o determinísticas que expliquen los cambios en la serie de tiempo, y los cambios en la serie se deben únicamente a la aleatoriedad.

Sus principales características son:
1. No hay tendencia determinística: No se incluyen variables determinísticas (como tendencias lineales o estacionales) que expliquen los cambios en la serie de tiempo. Cualquier cambio en la serie se atribuye al término de error aleatorio.

2. Independencia: Cada cambio en la serie es independiente de los cambios anteriores. No hay autocorrelación en los errores.

3. No estacionario: Es un proceso no estacionario, lo que significa que la media y la varianza de la serie cambian con el tiempo. Esto lo diferencia de los procesos estacionarios donde la media y la varianza son constantes.

In [None]:
# Generar un Random Walk para modelar los precios de las acciones bursátiles

# Genera 500 pasos aleatorios con media=0 y desviación estándar=1
steps = np.random.normal(loc=0, scale=1, size=500)

# Poner el primer elemento a 0
steps[0]=0

# Simular los precios de las acciones, P con un precio inicial de 100 (modelo con drift = 100)
P = 100 + np.cumsum(steps)

# Graficamos la simulación de los precios de las acciones bursátiles
plt.plot(P)
plt.title("Simulación de Random Walk")
plt.show()

Cada vez que hagamos click en "Run" se simulará un random walk distinto

In [None]:
tsaplots.plot_acf(P, lags = 12)
plt.show()

In [None]:
tsaplots.plot_pacf(P, lags = 12)
plt.show()

## <a id='3.3.'> 3.3. Prueba de raíz unitaria </a>

Una prueba de raíz unitaria evalúa si una serie temporal muestra una tendencia a largo plazo o si es estacionaria en torno a una media constante. Si se encuentra evidencia de raíz unitaria, se pueden aplicar técnicas de diferenciación para eliminar la tendencia y hacer que los datos sean estacionarios

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### Vamos a aprender a hacer la prueba de Dickey-Fuller aumentada. No obstante, para ello usaremos la siguiente especificación a partir del modelo en (3)
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### Para nuestro modelo de precios de las acciones bursátiles, entonces, estaríamos testeando: 
![image.png](attachment:image.png)

In [None]:
# ImportaMOS el módulo adfuller de statsmodels
from statsmodels.tsa.stattools import adfuller

# Ejecutamos la prueba ADF sobre la serie de precios e imprimimos los resultados
results = adfuller(P)
print(results)

In [None]:
# Imprimimos los resultados
print(' H0: Raíz unitaria', '\n', 'H1: No hay raíz unitaria')
print('El t-statistic del test en P es: ' + str(results[0]) + ' y un valor crítico de '+ str(results[4]['10%']))
print('El p-value del test en P es: ' + str(results[1]))
print('Dado que el t-estadístico calculado no supera en valor absoluto el valor crítico al 10%, no rechazamos H0. Hay raíz unitaria')
print('Dado que el p-value no es próximo a cero, no rechazamos H0. Hay raíz unitaria')

## <a id='3.4.'> 3.4. Estacionariedad </a>

Utilizaremos una base de datos de los precios de las acciones de Amazon, descargadas de Yahoo Finance con la librería mostrada al inicio de la clase

In [None]:
amazon = yf.download("AMZN", start="2002-01-01", end="2022-12-31")

In [None]:
amazon.describe()

In [None]:
plt.plot(amazon['Adj Close']) # Serie en niveles

In [None]:
plt.plot(np.log(amazon['Adj Close'])) # Serie en logatirmos

In [None]:
plt.plot(np.log(amazon['Adj Close'].diff())) # Serie en diferencias

In [None]:
# Ejecutamos la prueba ADF sobre la serie en niveles
results_1 = adfuller(amazon['Adj Close'])
print(results_1)

In [None]:
# Imprimimos los resultados
print(' H0: Raíz unitaria', '\n', 'H1: No hay raíz unitaria')
print('El t-statistic del test en Amazon es: ' + str(results_1[0]) + ' y un valor crítico de '+ str(results_1[4]['5%']))
print('El p-value del test en Amazon es: ' + str(results_1[1]))
print('Dado que el t-estadístico calculado no supera en valor absoluto el valor crítico al 5%, no rechazamos H0. Hay raíz unitaria')
print('Dado que el p-value no es próximo a cero, no rechazamos H0. Hay raíz unitaria')

In [None]:
# Ejecutamos la prueba ADF para la serie en logaritmos
results_2 = adfuller(np.log(amazon['Adj Close']))
print(results_2)

In [None]:
# Imprimimos el p-value
print(' H0: Raíz unitaria', '\n', 'H1: No hay raíz unitaria')
print('El t-statistic del test en Amazon es: ' + str(results_2[0]) + ' y un valor crítico de '+ str(results_2[4]['5%']))
print('El p-value del test en Amazon es: ' + str(results_2[1]))
print('Dado que el t-estadístico calculado no supera en valor absoluto el valor crítico al 5%, no rechazamos H0. Hay raíz unitaria')
print('Dado que el p-value no es próximo a cero, no rechazamos H0. Hay raíz unitaria')

In [None]:
# Ejecutamos la prueba ADF para la serie en diferencias
results_3 = adfuller(amazon['Adj Close'].diff().fillna(0))
print(results_3)

In [None]:
# Imprimimos el p-value
print(' H0: Raíz unitaria', '\n', 'H1: No hay raíz unitaria')
print('El t-statistic del test en Amazon es: ' + str(results_3[0]) + ' y un valor crítico de '+ str(results_3[4]['5%']))
print('El p-value del test en Amazon es: ' + str(results_3[1]))
print('El t-estadístico calculado supera en valor absoluto el valor crítico al 5%, rechazamos H0. No hay raíz unitaria')
print('El p-value es próximo a cero, rechazamos H0. No hay raíz unitaria.')

Observamos que tanto la serie en niveles como en logaritmos presentan raíz unitaria. No obstante, la serie en diferencias ya no es estacionaria. Por tanto, si queremos pasar de una serie no estacionaria a no estacionaria, no basta con sacar los logaritmos a la serie, debemos diferenciarla. 

# <a id='4.'> 4. Modelos AR </a>

## <a id='4.1.'> 4.1. Procesos autoregresivos (AR) </a>
 En un modelo AR, se asume que el valor actual de una serie temporal depende linealmente de sus valores pasados y de un término de error estocástico. 
 
Entre sus características clave:
1. Dependencia temporal: En un modelo AR(p), donde "p" es el orden del modelo, el valor actual de la serie temporal depende de sus "p" valores anteriores, ponderados por coeficientes autorregresivos. Esto implica que los modelos AR capturan la memoria a corto plazo de la serie.
2. Los coeficientes autorregresivos ($\phi_1$, ... , $\phi_p$) son parámetros que indican cuánta influencia tienen los valores pasados en el valor actual. Su valor va de $-1<\phi<1$ , pero no llegan a ser exactamente la unidad, dado que en ese caso estaríamos lidiando con un random walk (un proceso no estacionario) Los coeficientes deben estimarse a partir de los datos.
3. El orden del modelo. Este es usualmente elegido gráficamente mediante el análisis visual de los ACF y PACF, o a través de los criterios de información

Dada la siguiente especificación
![image.png](attachment:image.png)
Dependiendo del valor de $\phi$
![image-3.png](attachment:image-3.png)
Mientras más cercano es $\phi$ a 1, más parece el proceso un random walk, mientras más cercano está a 0, más parece un ruido blanco.

Sus respectivas ACFs serían
![image-4.png](attachment:image-4.png)
donde los AR con $\phi$ negativo muestran una autocorrelación positiva, seguida de una negativa, e intercalando constantemente 

Asimismo, los modelos $AR(p)$ de mayor orden $p$ vendrían representados por
![image-5.png](attachment:image-5.png)
y en general, un $AR(p)$
![image-6.png](attachment:image-6.png)

### Simular un modelo AR
Simularemos y trazaremos algunas series temporales AR(1), cada una con un parámetro diferente, utilizando el módulo arima_process de statsmodels. Importamos ArmaProcess y le añadimos dos arrays, uno con el componente AR y otro con el componente MA, que por el momento dejamos en 1 y trataremos a detalle en la sección 5.

In [None]:
from statsmodels.tsa.arima_process import ArmaProcess

# Plot 1: AR parameter = +0.9
plt.subplot(2,1,1)
ar1 = np.array([1, -0.9])
ma1 = np.array([1])
AR_object1 = ArmaProcess(ar1, ma1)
simulated_data_1 = AR_object1.generate_sample(nsample=1000)
plt.plot(simulated_data_1)

In [None]:
# Plot 2: AR parameter = -0.9
plt.subplot(2,1,2)
ar2 = np.array([1, +0.9])
ma2 = np.array([1])
AR_object2 = ArmaProcess(ar2, ma2)
simulated_data_2 = AR_object2.generate_sample(nsample=1000)
plt.plot(simulated_data_2)
plt.show()

In [None]:
# Plot 3: AR parameter = +0.3
ar3 = np.array([1, -0.3])
ma3 = np.array([1])
AR_object3 = ArmaProcess(ar3, ma3)
simulated_data_3 = AR_object3.generate_sample(nsample=1000)
plt.plot(simulated_data_3)

In [None]:
# Plot 4: AR parameter = -0.3
ar4 = np.array([1, 0.3])
ma4 = np.array([1])
AR_object4 = ArmaProcess(ar4, ma4)
simulated_data_4 = AR_object4.generate_sample(nsample=1000)
plt.plot(simulated_data_4)

### Comparar el ACF de los procesos AR

In [None]:
# Plot 1: AR parameter = +0.9
plot_acf(simulated_data_1, alpha=1, lags=20)
plt.show()

# Plot 2: AR parameter = -0.9
plot_acf(simulated_data_2, alpha=1, lags=20)
plt.show()

# Plot 3: AR parameter = +0.3
plot_acf(simulated_data_3, alpha=1, lags=20)
plt.show()

# Plot 4: AR parameter = -0.3
plot_acf(simulated_data_4, alpha=1, lags=20)
plt.show()

## <a id='4.2.'> 4.2. Estimación de procesos autoregresivos (AR) </a>

![image.png](attachment:image.png)

In [None]:
# Primero transformamos a dataframes los arrays de las variables simuladas
simulated_data_1 = pd.DataFrame(simulated_data_1)
simulated_data_1.columns = ['Data']

simulated_data_2 = pd.DataFrame(simulated_data_2)
simulated_data_2.columns = ['Data']

simulated_data_3 = pd.DataFrame(simulated_data_3)
simulated_data_3.columns = ['Data']

simulated_data_4 = pd.DataFrame(simulated_data_4)
simulated_data_4.columns = ['Data']

In [None]:
# Importa el módulo ARIMA de statsmodels
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.arima_model import ARMA

# Ajusta un modelo AR(1) a los primeros datos simulados
model = ARIMA(simulated_data_1, order=(1, 0, 0))
results = model.fit()

# Imprime información de resumen sobre el ajuste
print(results.summary())

# Imprime la estimación para phi
print("Cuando el valor verdadero de phi=0.9, la estimación de phi es:")
print(results.params[1])


In [None]:
# Ajusta un modelo AR(1) a los datos simulados
model = ARIMA(simulated_data_2, order=(1, 0, 0))
results = model.fit()

# Imprime información de resumen sobre el ajuste
print(results.summary())

# Imprime la estimación para phi
print("Cuando el valor verdadero de phi=-0.9, la estimación de phi es:")
print(results.params[1])

In [None]:
# Ajusta un modelo AR(1) a los datos simulados
mod = ARIMA(simulated_data_3, order=(1, 0, 0))
res = mod.fit()

# Imprime información de resumen sobre el ajuste
print(res.summary())

# Imprime la estimación para phi
print("Cuando el valor verdadero de phi=0.3, la estimación de phi es:")
print(res.params[1])

In [None]:
# Ajusta un modelo AR(1) a los datos simulados
mod = ARIMA(simulated_data_4, order=(1, 0, 0))
res = mod.fit()

# Imprime información de resumen sobre el ajuste
print(res.summary())

# Imprime la estimación para phi
print("Cuando el valor verdadero de phi=-0.3, la estimación de phi es:")
print(res.params[1])

## <a id='4.3.'> 4.3. Pronóstico de procesos autoregresivos (AR) </a>
Además de estimar los parámetros de un modelo, como se hizo en el ejercicio anterior, también se pueden hacer pronósticos, tanto dentro como fuera de la muestra, utilizando modelos estadísticos. La previsión dentro de la muestra es una previsión del siguiente punto de datos utilizando los datos hasta ese punto, y la previsión fuera de la muestra es una previsión de cualquier número de puntos de datos en el futuro. Puede trazar los datos pronosticados utilizando la función plot_predict(). Debe indicar el punto inicial de la predicción y el punto final, que puede ser cualquier número de puntos de datos después de que finalice el conjunto de datos.

In [None]:
# Importamos ARIMA plot_predict de statsmodels
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.graphics.tsaplots import plot_predict

# Forecast para el modelo AR(1)
model = ARIMA(simulated_data_1, order=(1,0,0))
results = model.fit()

# Gráfica de la data y el forecast fuera de la muestra
fig, ax = plt.subplots()
simulated_data_1.loc[950:].plot(ax=ax)
plot_predict(results, start=999, end=1010, ax=ax)
plt.show()

In [None]:
# Importamos ARIMA plot_predict de statsmodels
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.graphics.tsaplots import plot_predict

# Forecast para el modelo AR(1)
mod = ARIMA(simulated_data_1, order=(1,0,0))
res = mod.fit()

# Gráfica de la data y el forecast dentro de la muestra
fig, ax = plt.subplots()
simulated_data_1.loc[800:].plot(ax=ax)
plot_predict(res, start=950, end=1000, ax=ax)
plt.show()

In [None]:
# Forecast para el modelo AR(1)
mod = ARIMA(simulated_data_2, order=(1,0,0))
res = mod.fit()

# Gráfica de la data y el forecast
fig, ax = plt.subplots()
simulated_data_2.loc[950:].plot(ax=ax)
plot_predict(res, start=1000, end=1010, ax=ax)
plt.show()

In [None]:
# Forecast para el modelo AR(1)
mod = ARIMA(simulated_data_4, order=(1,0,0))
res = mod.fit()

# Gráfica de la data y el forecast
fig, ax = plt.subplots()
simulated_data_4.loc[950:].plot(ax=ax)
plot_predict(res, start=1000, end=1010, ax=ax)
plt.show()

## <a id='4.4.'> 4.4. Estimar el orden de un proceso AR: PACF </a>
Una herramienta para determinar el orden de un modelo autoregresivo (AR) es analizar la Función de Autocorrelación Parcial (PACF). En este ejercicio, se generarán dos series temporales simuladas, una con un proceso AR(1) y otra con un proceso AR(2), y se calculará la PACF muestral para cada una de ellas. Se podrá observar que en el caso de un modelo AR(1), la PACF debe mostrar un valor significativo en el retraso 1 y aproximadamente valores cercanos a cero para los retrasos posteriores. En el caso de un modelo AR(2), la PACF muestral debe revelar valores significativos en los retrasos 1 y 2, seguidos de valores cercanos a cero en los retrasos posteriores.

In [None]:
from statsmodels.tsa.arima_process import ArmaProcess
from statsmodels.graphics.tsaplots import plot_pacf

# Simulamos un AR(1) con phi=+0.6
ar = np.array([1, -0.6])
ma = np.array([1])
Ar_object = ArmaProcess(ar, ma)
simulated_data_1 = Ar_object.generate_sample(nsample = 5000)

# Graficamos el PACF para el AR(1)
plot_pacf(simulated_data_1, lags = 20, alpha = 0.05)
plt.show()

In [None]:
# Simulamos un AR(2) para phi1=+0.6, phi2=+0.3
ar = np.array([1, -0.6, -0.3])
ma = np.array([1])
Ar_object = ArmaProcess(ar, ma)
simulated_data_2 = Ar_object.generate_sample(nsample = 5000)

# Graficamos el PACF para AR(2)
plot_pacf(simulated_data_2, lags = 20)
plt.show()

In [None]:
# Simulamos un AR(3) para phi1=+0.4, phi2=+0.3, phi3=+0.1
ar = np.array([1, -0.4, -0.3, -0.1])
ma = np.array([1])
Ar_object = ArmaProcess(ar, ma)
simulated_data_3 = Ar_object.generate_sample(nsample = 5000)

# Graficamos el PACF para AR(3)
plot_pacf(simulated_data_3, lags = 20, zero=False)
plt.show()

## <a id='4.5.'> 4.5. Estimar el orden de un proceso AR: Criterios de información </a>
Otra herramienta para identificar el orden de un modelo es observar el Criterio de Información de Akaike (AIC) y el Criterio de Información Bayesiano (BIC). Estas medidas calculan la bondad del ajuste con los parámetros estimados, pero aplican una función de penalización sobre el número de parámetros del modelo.
![image.png](attachment:image.png)

In [None]:
from statsmodels.tsa.arima.model import ARIMA

BIC = np.zeros(7)
AIC = np.zeros(7)
HQIC = np.zeros(7)

# Fiteamos los data para un AR(p) para p = 0,...,6 , y lo guardamos en el BIC, AIC y HQIC
for p in range(7):
    mod = ARIMA(simulated_data_2, order = (p, 0, 0)) # Usamos el AR(3)
    results = mod.fit()
    # Save BIC for AR(p)    
    BIC[p] = results.bic
    AIC[p] = results.aic
    HQIC[p] = results.hqic


In [None]:
# Graficamos el criterio de información BIC
plt.plot(range(1,7), BIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Bayesian Information Criteria')
plt.show()

In [None]:
plt.plot(range(1,7), AIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Akaike Information Criteria')
plt.show()

In [None]:
plt.plot(range(1,7), HQIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Hanan-Quinn Information Criteria')
plt.show()

In [None]:
# Graficamos los 3 criterios de información
plt.subplot(3,1,1)
plt.plot(range(1,7), BIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Bayesian Information Criteria')
plt.show()

plt.subplot(3,1,2)
plt.plot(range(1,7), AIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Akaike Information Criteria')
plt.show()

plt.subplot(3,1,3)
plt.plot(range(1,7), HQIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Hanan-Quinn Information Criteria')
plt.show()

# <a id='5.'> 5. Modelos MA y ARMA </a>

## <a id='5.1.'> 5.1. Procesos moving average (MA) </a>
Una serie promedio móvil o moving average se refiere a aquella en la que cada valor en la serie temporal es el resultado de una combinación lineal de valores de error anteriores. En otras palabras, el valor actual de la serie se calcula como una suma ponderada de los errores de predicción anteriores.

Sea un MA(1):
![image-2.png](attachment:image-2.png)
tal que
![image-3.png](attachment:image-3.png)

Podemos comparar las ACFs para distintos valores de $\theta$
![image-4.png](attachment:image-4.png)

Asimismo, los modelos $MA(q)$ de mayor orden $q$ vendrían representados por:
![image-5.png](attachment:image-5.png)
y en general
![image-7.png](attachment:image-7.png)

### Simulación de series temporales MA(1)
Simularemos y trazaremos algunas series temporales MA(1), cada una con un parámetro diferente, utilizando el módulo arima_process de statsmodels. Importamos ArmaProcess y le añadimos dos arrays, uno con el componente AR y otro con el componente MA

In [None]:
# Plot 1: MA parameter = -0.9
plt.subplot(3, 1, 1)
ar1 = np.array([1])
ma1 = np.array([1, -0.9])
Arma_object1 = ArmaProcess(ar1, ma1)
simulated_data_1 = Arma_object1.generate_sample(nsample = 1000)
plt.plot(simulated_data_1)

# Plot 2: MA parameter = +0.9
plt.subplot(3, 1 , 2)
ar2 = np.array([1])
ma2 = np.array([1, +0.9])
Arma_object2 = ArmaProcess(ar2, ma2)
simulated_data_2 = Arma_object2.generate_sample(nsample = 1000)
plt.plot(simulated_data_2)


# Plot 2: MA parameter = +0.5
plt.subplot(3, 1 , 3)
ar3 = np.array([1])
ma3 = np.array([1, +0.5])
Arma_object3 = ArmaProcess(ar3, ma3)
simulated_data_3 = Arma_object3.generate_sample(nsample = 1000)
plt.plot(simulated_data_3)

### Comparar el PACF de los procesos AR

In [None]:
# Plot 1: MA parameter = -0.9
plot_pacf(simulated_data_1, lags=20)
plt.show()

# Plot 2: MA parameter = 0.9
plot_pacf(simulated_data_2, lags = 20)
plt.show()

## <a id='5.2.'> 5.2. Estimación de procesos moving average (MA) </a>

In [None]:
# Importar el módulo ARIMA de statsmodels
from statsmodels.tsa.arima.model import ARIMA

# Ajustar un modelo MA(1) a los primeros datos simulados
mod = ARIMA(simulated_data_1, order = (0, 0, 1))
res = mod.fit()

# Imprimir información resumida sobre el ajuste
print(res.summary())

# Imprimir la estimación de la constante y de theta
print("Cuando theta verdadero=-0.9, la estimación de theta es:")
print(res.params[1])

In [None]:
# Ajustar un modelo MA(1) a los primeros datos simulados
mod = ARIMA(simulated_data_2, order = (0, 0, 1))
res = mod.fit()

# Imprimir información resumida sobre el ajuste
print(res.summary())

# Imprimir la estimación de la constante y de theta
print("Cuando theta verdadero=0.9, la estimación de theta es:")
print(res.params[1])

In [None]:
# Ajustar un modelo MA(1) a los primeros datos simulados
mod = ARIMA(simulated_data_3, order = (0, 0, 1))
res = mod.fit()

# Imprimir información resumida sobre el ajuste
print(res.summary())

# Imprimir la estimación de la constante y de theta
print("Cuando theta verdadero=0.5, la estimación de theta es:")
print(res.params[1])

## <a id='5.3.'> 5.3. Pronóstico de procesos moving average (MA) </a>
Al igual que hicimos con los modelos AR, se pueden utilizar los modelos MA para pronosticar datos dentro y fuera de la muestra utilizando la función plot_predict() en statsmodels.

In [None]:
# Primero transformamos a dataframes los arrays de las variables simuladas
simulated_data_1 = pd.DataFrame(simulated_data_1)
simulated_data_1.columns = ['Data']

simulated_data_2 = pd.DataFrame(simulated_data_2)
simulated_data_2.columns = ['Data']

simulated_data_3 = pd.DataFrame(simulated_data_3)
simulated_data_3.columns = ['Data']

In [None]:
# Forecast del modelo MA(1)
mod = ARIMA(simulated_data_1, order = (0, 0, 1))
res = mod.fit()

# Graficamos la data y el forecast
fig, ax = plt.subplots()
simulated_data_1.loc[950:].plot(ax=ax)
plot_predict(res, start = 999 , end = 1010 , ax=ax)
plt.show()

In [None]:
# Forecast del modelo MA(1)
mod = ARIMA(simulated_data_2, order = (0, 0, 1))
res = mod.fit()

# Graficamos la data y el forecast
fig, ax = plt.subplots()
simulated_data_1.loc[950:].plot(ax=ax)
plot_predict(res, start = 999 , end = 1010 , ax=ax)
plt.show()

In [None]:
# Forecast del modelo MA(1)
mod = ARIMA(simulated_data_3, order = (0, 0, 1))
res = mod.fit()

# Graficamos la data y el forecast
fig, ax = plt.subplots()
simulated_data_1.loc[950:].plot(ax=ax)
plot_predict(res, start = 999 , end = 1010 , ax=ax)
plt.show()

## <a id='5.4.'> 5.4 Estimar el orden de un proceso MA: ACF </a>

In [None]:
from statsmodels.tsa.arima_process import ArmaProcess
from statsmodels.graphics.tsaplots import plot_acf

# Simulamos un MA(1) con theta=+0.6
ar = np.array([1])
ma = np.array([1, +0.6])
Ar_object = ArmaProcess(ar, ma)
simulated_data_1 = Ar_object.generate_sample(nsample = 5000)

# Graficamos el PACF para el AR(1)
plot_acf(simulated_data_1, lags = 20, alpha = 0.05)
plt.show()

In [None]:
# Simulamos un MA(2) con theta=+0.6, theta=+0.4
ar = np.array([1])
ma = np.array([1, +0.6, +0.4])
Ar_object = ArmaProcess(ar, ma)
simulated_data_2 = Ar_object.generate_sample(nsample = 5000)

# Graficamos el PACF para el AR(1)
plot_acf(simulated_data_2, lags = 20, alpha = 0.05)
plt.show()

In [None]:
# Simulamos un MA(3) con theta=+0.6, theta=+0.4, theta=-0.2
ar = np.array([1])
ma = np.array([1, +0.6, +0.4, -0.2])
Ar_object = ArmaProcess(ar, ma)
simulated_data_3 = Ar_object.generate_sample(nsample = 5000)

# Graficamos el PACF para el AR(1)
plot_acf(simulated_data_3, lags = 20, alpha = 0.05)
plt.show()

## <a id='5.5.'> 5.5 Estimar el orden de un proceso MA: Criterios de información </a>

In [None]:
from statsmodels.tsa.arima.model import ARIMA

BIC = np.zeros(7)
AIC = np.zeros(7)
HQIC = np.zeros(7)

# Fiteamos los data para un AR(p) para p = 0,...,6 , y lo guardamos en el BIC, AIC y HQIC
for q in range(7):
    mod = ARIMA(simulated_data_3, order = (0, 0, q)) # Usamos el AR(3)
    res = mod.fit()
    # Guardamos el criterio de información para el MA(q)
    BIC[q] = res.bic
    AIC[q] = res.aic
    HQIC[q] = res.hqic

In [None]:
# Graficamos el criterio de información BIC
plt.plot(range(1,7), BIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Bayesian Information Criteria')
plt.show()

In [None]:
# Graficamos los 3 criterios de información
plt.subplot(3,1,1)
plt.plot(range(1,7), BIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Bayesian Information Criteria')
plt.show()

plt.subplot(3,1,2)
plt.plot(range(1,7), AIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Akaike Information Criteria')
plt.show()

plt.subplot(3,1,3)
plt.plot(range(1,7), HQIC[1:7], marker='o')
plt.xlabel('Order of AR model')
plt.ylabel('Hanan-Quinn Information Criteria')
plt.show()

## <a id='5.6.'> 5.6. Equivalencia de un AR(1) con un MA($\infty$) </a>

In [None]:
# Importar los módulos para simular datos y graficar la ACF (Función de Autocorrelación)
from statsmodels.tsa.arima_process import ArmaProcess
from statsmodels.graphics.tsaplots import plot_acf

# Construir una lista de parámetros MA 
ma = [.8**i for i in range(30)]

# Simular el modelo MA(30)
ar = np.array([1])
AR_object = ArmaProcess(ar, ma)
simulated_data = AR_object.generate_sample(nsample=5000)

# Graficar la ACF 
plot_acf(simulated_data, lags=30)
plt.show()


In [None]:
# Simular el modelo AR(1) con phi=+0.8
ma = np.array([1])
ar = np.array([1, -0.8])
AR_object = ArmaProcess(ar, ma)
simulated_data = AR_object.generate_sample(nsample=5000)

# Graficar la ACF 
plot_acf(simulated_data, lags=30)
plt.show()