# Laboratorio 2 - Series de tiempo
- Diego Jose Franco 20240
- Juan Diego Avila 20090

## 1.1 - Precios Promedio Nacionales Diarios

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


# Cargamos los datos
precios_promedio_2021 = pd.read_csv('./Data/Precios-Promedio-Nacionales-Diarios-2021.csv')
precios_promedio_2022 = pd.read_csv('./Data/Precios-Promedio-Nacionales-Diarios-2022.csv')
precios_promedio_2023 = pd.read_csv('./Data/Precios-Promedio-Nacionales-Diarios-2023.csv')

# Se renombra la ultima columna a Glp Cilindro Lbs.
precios_promedio_2021.rename(columns={'Unnamed: 7': 'Glp Cilindro Lbs.'}, inplace=True)
precios_promedio_2022.rename(columns={'Unnamed: 7': 'Glp Cilindro Lbs.'}, inplace=True)
precios_promedio_2023.rename(columns={'Unnamed: 7': 'Glp Cilindro Lbs.'}, inplace=True)

# Se unen los tres dataframes en uno solo
precios_promedio = pd.concat([precios_promedio_2021, precios_promedio_2022, precios_promedio_2023])

# Se eliminan las columnas que no se van a utilizar
precios_promedio = precios_promedio.drop(columns=['Bunker'])

In [2]:
cuantitativas = [
    "Tipo de Cambio",
    "Superior",
    "Regular",
    "Diesel",
    "Glp Cilindro 25Lbs.",
    "Glp Cilindro Lbs."
]


In [3]:
meses_dict = {
    'ene': '01', 'feb': '02', 'mar': '03', 'abr': '04', 'may': '05', 'jun': '06',
    'jul': '07', 'ago': '08', 'sep': '09', 'oct': '10', 'nov': '11', 'dic': '12'
}

def reemplazar_mes(fecha):
    partes = fecha.split('-')
    partes[1] = meses_dict[partes[1]]
    return '-'.join(partes)

precios_promedio['FECHA'] = precios_promedio['FECHA'].apply(reemplazar_mes)
print(precios_promedio['FECHA'])
    

precios_promedio['FECHA'] = pd.to_datetime(precios_promedio['FECHA'], format='%d-%m-%y')
precios_promedio['AÑO'] = precios_promedio['FECHA'].dt.year
precios_promedio['MES'] = precios_promedio['FECHA'].dt.month

0      1-01-21
1      2-01-21
2      3-01-21
3      4-01-21
4      5-01-21
        ...   
213    2-08-23
214    3-08-23
215    4-08-23
216    5-08-23
217    6-08-23
Name: FECHA, Length: 948, dtype: object


  grupo = precios_promedio.groupby(['AÑO']).mean()


## 1.2 - Consumo de Combustible

In [5]:
import numpy as np
import pandas as pd

# Cargamos los datos
consumo = pd.read_csv('./Data/CONSUMO.csv')

In [6]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

cuantitativas = ["Gasolina regular", "Gasolina superior", "Diesel alto azufre", "Gas licuado de petróleo", "Total"]

# casteamos las variables a float
for col in cuantitativas:
    consumo[col] = consumo[col].str.replace(',', '').astype(float)

consumo_numericas = consumo[cuantitativas]



In [7]:

años_dict = {
    '00': '2000', '01': '2001', '02': '2002', '03': '2003', '04': '2004', '05': '2005',
    '06': '2006', '07': '2007', '08': '2008', '09': '2009', '10': '2010', '11': '2011',
    '12': '2012', '13': '2013', '14': '2014', '15': '2015', '16': '2016', '17': '2017',
    '18': '2018', '19': '2019', '20': '2020', '21': '2021', '22': '2022', '23': '2023',
}

meses_dict = {
    'ene': '01', 'feb': '02', 'mar': '03', 'abr': '04', 'may': '05', 'jun': '06',
    'jul': '07', 'ago': '08', 'sep': '09', 'oct': '10', 'nov': '11', 'dic': '12'
}

def reemplazar_mes(fecha):
    partes = fecha.split('-')
    partes[0] = meses_dict[partes[0]]
    partes[1] = años_dict[partes[1]]
    return '-'.join(partes)

consumo['Fecha'] = consumo['Fecha'].apply(reemplazar_mes)

consumo['Fecha'] = pd.to_datetime(consumo['Fecha'], format='%m-%Y')

In [12]:

consumo['AÑO'] = consumo['Fecha'].dt.year
consumo['MES'] = consumo['Fecha'].dt.month

In [13]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.tsa as tsa
import statsmodels as sm
from datetime import datetime
import os
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.stattools import acf, pacf
import tensorflow as tf
from sklearn.preprocessing import StandardScaler
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM

In [14]:
tf.random.set_seed(123)
años_dict = {
    '00': '2000', '01': '2001', '02': '2002', '03': '2003', '04': '2004', '05': '2005',
    '06': '2006', '07': '2007', '08': '2008', '09': '2009', '10': '2010', '11': '2011',
    '12': '2012', '13': '2013', '14': '2014', '15': '2015', '16': '2016', '17': '2017',
    '18': '2018', '19': '2019', '20': '2020', '21': '2021', '22': '2022', '23': '2023',
}

meses_dict = {
    'ene': '01', 'feb': '02', 'mar': '03', 'abr': '04', 'may': '05', 'jun': '06',
    'jul': '07', 'ago': '08', 'sep': '09', 'oct': '10', 'nov': '11', 'dic': '12'
}

def dateparse(fecha):
    partes = fecha.split('-')
    partes[0] = meses_dict[partes[0]]
    partes[1] = años_dict[partes[1]]
    return pd.to_datetime('-'.join(partes), format='%m-%Y')

consumo = pd.read_csv('./Data/CONSUMO.csv', parse_dates=['Fecha'], index_col='Fecha',date_parser=dateparse)
print ('\n Parsed Data:')
consumo.head()

# casteamos las variables a float
for col in cuantitativas:
    consumo[col] = consumo[col].str.replace(',', '').astype(float)

train_size = int(len(consumo) * 0.7)
train_consumo, test_consumo = consumo[0:train_size], consumo[train_size:len(consumo)]

tr_consumo = train_consumo.copy()



 Parsed Data:


In [15]:
# precios_promedio

def dateparse(fecha):
    partes = fecha.split('-')
    partes[1] = meses_dict[partes[1]]
    return pd.to_datetime('-'.join(partes), format='%d-%m-%y')

precios_promedio_2021 = pd.read_csv('./Data/Precios-Promedio-Nacionales-Diarios-2021.csv', parse_dates=['FECHA'], index_col='FECHA',date_parser=dateparse)
precios_promedio_2022 = pd.read_csv('./Data/Precios-Promedio-Nacionales-Diarios-2022.csv', parse_dates=['FECHA'], index_col='FECHA',date_parser=dateparse)
precios_promedio_2023 = pd.read_csv('./Data/Precios-Promedio-Nacionales-Diarios-2023.csv', parse_dates=['FECHA'], index_col='FECHA',date_parser=dateparse)

pp = pd.concat([precios_promedio_2021, precios_promedio_2022, precios_promedio_2023])

# Se eliminan las columnas que no se van a utilizar
pp = pp.drop(columns=['Bunker'])

print ('\n Parsed Data:')
train_size = int(len(pp) * 0.7)
train_precios, test_precios = pp[0:train_size], pp[train_size:(len(pp))]
tr_precios = train_precios.copy()


 Parsed Data:


### 3.1 Consumo mensual gasolina regular

In [16]:
# for column in cuantitativas:
print('Resultados del Test de Dicker-Fuller para la variable Gasolina regular')
dfTest = adfuller(tr_consumo['Gasolina regular'], autolag='AIC')
salidaDf = pd.Series(dfTest[0:4], index=['Estadístico de prueba','p-value','# de retardos usados','# de observaciones usadas'])
for key,value in dfTest[4].items():
        salidaDf['Critical Value (%s)'%key] = value
print(salidaDf)
    

Resultados del Test de Dicker-Fuller para la variable Gasolina regular
Estadístico de prueba          2.335407
p-value                        0.998977
# de retardos usados          12.000000
# de observaciones usadas    183.000000
Critical Value (1%)           -3.466598
Critical Value (5%)           -2.877467
Critical Value (10%)          -2.575260
dtype: float64


In [20]:
consumo_diff = tr_consumo.diff()
consumo_diff.dropna(inplace=True)

# for column in cuantitativas:
print('Resultados del Test de Dickey Fuller para una diferenciación de la serie')
dfTest = adfuller(consumo_diff['Gasolina regular'])
salidaDf = pd.Series(dfTest[0:4], index=['Estadístico de prueba','p-value','# de retardos usados','# de observaciones usadas'])
for key,value in dfTest[4].items():
        salidaDf['Critical Value (%s)'%key] = value
print(salidaDf)

consumo_log = tr_consumo.copy()

Resultados del Test de Dickey Fuller para una diferenciación de la serie
Estadístico de prueba         -3.948106
p-value                        0.001708
# de retardos usados          11.000000
# de observaciones usadas    183.000000
Critical Value (1%)           -3.466598
Critical Value (5%)           -2.877467
Critical Value (10%)          -2.575260
dtype: float64


In [21]:
consumo_log_diff = pd.DataFrame(columns = cuantitativas)

# for column in cuantitativas:

consumo_log_diff_act = consumo_log['Gasolina regular'].diff().diff()
consumo_log_diff_act.dropna(inplace = True)
consumo_log_diff['Gasolina regular'] = consumo_log_diff_act
tsa_acf = acf(consumo_log_diff_act, nlags=5,fft=False)
tsa_pacf = pacf(consumo_log_diff_act, nlags=36)



In [22]:
consumo_log_D = consumo_log.diff(12)
consumo_log_D.dropna(inplace=True)

Luego de hacer la diferenciacion se puede ver que se anulan los coeficientes despues de p = 4. Se probara con p = 4, d = 3, q = 2

In [23]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

modelo141 = SARIMAX(consumo_log['Gasolina regular'], order=(1,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m141 = modelo141.fit()
print(resultado_m141.summary().tables[1])

print("Resultados de AIC (Akaike information criterion)")
print("Modelo 141=",resultado_m141.aic)
print("Resultados de BIC (Bayesian information criterion)")
print("Modelo 141=",resultado_m141.bic)


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ar.L1         -0.7093      0.101     -7.007      0.000      -0.908      -0.511
ma.L1         -0.9649      0.029    -33.848      0.000      -1.021      -0.909
ar.S.L12      -0.6394      0.145     -4.421      0.000      -0.923      -0.356
ar.S.L24      -0.3632      0.156     -2.332      0.020      -0.668      -0.058
sigma2      5.276e+09   6.58e-12   8.02e+20      0.000    5.28e+09    5.28e+09
Resultados de AIC (Akaike information criterion)
Modelo 141= 3845.4161401764086
Resultados de BIC (Bayesian information criterion)
Modelo 141= 3860.6332657610046


Los residuos de las columnas tienen una distribucion normal y en el correlograma hay pocas autocorrelaciones significativas, por lo que se puede decir que el modelo es bueno.

In [24]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

modelo441 = SARIMAX(consumo_log['Gasolina regular'], order=(4,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m441 = modelo441.fit()
print(resultado_m441.summary().tables[1])

print("Resultados de AIC (Akaike information criterion)")
print("Modelo 441=",resultado_m441.aic)
print("Resultados de BIC (Bayesian information criterion)")
print("Modelo 441=",resultado_m441.bic)

  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ar.L1         -1.6044      0.206     -7.790      0.000      -2.008      -1.201
ar.L2         -1.5651      0.350     -4.474      0.000      -2.251      -0.879
ar.L3         -0.8964      0.308     -2.908      0.004      -1.501      -0.292
ar.L4         -0.3595      0.177     -2.030      0.042      -0.707      -0.012
ma.L1         -0.9126      0.074    -12.322      0.000      -1.058      -0.767
ar.S.L12      -0.5989      0.185     -3.231      0.001      -0.962      -0.236
ar.S.L24      -0.2638      0.200     -1.319      0.187      -0.656       0.128
sigma2      2.592e+09   4.35e-11   5.96e+19      0.000    2.59e+09    2.59e+09
Resultados de AIC (Akaike information criterion)
Modelo 441= 3654.8727185715566
Resultados de BIC (Bayesian information criterion)
Modelo 441= 3679.0637627383267


In [25]:

modelo441 = SARIMAX(consumo_log['Gasolina regular'], order=(4,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m441 = modelo441.fit()

pred = resultado_m441.get_prediction(start=test_consumo['Gasolina regular']['2021':].index[0], dynamic=False)
pred_ci = pred.conf_int()
# ax = test_consumo['Gasolina regular']['2021':].plot(label='observed')
# pred.predicted_mean.plot(ax=ax, label='One-step ahead Forecast', alpha=.7, figsize=(14, 4))
# ax.fill_between( pred_ci.iloc[:,0],
#                 pred_ci.iloc[:,1], color='k', alpha=.2)

# # plt.xlim(test_consumo[column]['2023':].index[0], pred_ci.index[-1])
# plt.title('Consumo de Gasolina regular')
# plt.legend()
# plt.show()



  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


In [26]:

modelo441 = SARIMAX(consumo_log['Gasolina regular'], order=(4,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m441 = modelo441.fit()

pred = resultado_m441.get_prediction(start=test_consumo['Gasolina regular']['2023':].index[0], dynamic=False)
pred_ci = pred.conf_int()
# ax = test_consumo['Gasolina regular']['2023':].plot(label='observed')
# pred.predicted_mean.plot(ax=ax, label='One-step ahead Forecast', alpha=.7, figsize=(14, 4))
# plt.title('Consumo de Gasolina regular')
# plt.legend()
# plt.show()

  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


### 3.2 Consumo mensual gasolina superior

In [27]:
print('Resultados del Test de Dicker-Fuller para la variable Gasolina superior')
dfTest = adfuller(tr_consumo['Gasolina superior'], autolag='AIC')
salidaDf = pd.Series(dfTest[0:4], index=['Estadístico de prueba','p-value','# de retardos usados','# de observaciones usadas'])
for key,value in dfTest[4].items():
        salidaDf['Critical Value (%s)'%key] = value
print(salidaDf)

Resultados del Test de Dicker-Fuller para la variable Gasolina superior
Estadístico de prueba          0.466725
p-value                        0.983826
# de retardos usados          12.000000
# de observaciones usadas    183.000000
Critical Value (1%)           -3.466598
Critical Value (5%)           -2.877467
Critical Value (10%)          -2.575260
dtype: float64


In [28]:
consumo_diff = tr_consumo.diff()
consumo_diff.dropna(inplace=True)

# for column in cuantitativas:
print('Resultados del Test de Dickey Fuller para una diferenciación de la serie')
dfTest = adfuller(consumo_diff['Gasolina superior'])
salidaDf = pd.Series(dfTest[0:4], index=['Estadístico de prueba','p-value','# de retardos usados','# de observaciones usadas'])
for key,value in dfTest[4].items():
        salidaDf['Critical Value (%s)'%key] = value
print(salidaDf)

Resultados del Test de Dickey Fuller para una diferenciación de la serie
Estadístico de prueba         -4.253410
p-value                        0.000534
# de retardos usados          11.000000
# de observaciones usadas    183.000000
Critical Value (1%)           -3.466598
Critical Value (5%)           -2.877467
Critical Value (10%)          -2.575260
dtype: float64


In [29]:
consumo_log_diff = pd.DataFrame(columns = cuantitativas)

consumo_log_diff_act = consumo_log['Gasolina superior'].diff().diff()
consumo_log_diff_act.dropna(inplace = True)
consumo_log_diff['Gasolina superior'] = consumo_log_diff_act
tsa_acf = acf(consumo_log_diff_act, nlags=5,fft=False)
tsa_pacf = pacf(consumo_log_diff_act, nlags=36)

In [30]:
consumo_log_D = consumo_log.diff(12)
consumo_log_D.dropna(inplace=True)

Luego de hacer la diferenciacion se puede ver que se anulan los coeficientes despues de p = 4. Se probara con p = 4, d = 3, q = 2

In [31]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

modelo141 = SARIMAX(consumo_log['Gasolina superior'], order=(1,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m141 = modelo141.fit()
print(resultado_m141.summary().tables[1])

# resultado_m141.plot_diagnostics(figsize=(18, 8))
# plt.show()


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ar.L1         -0.6747      0.100     -6.779      0.000      -0.870      -0.480
ma.L1         -0.9583      0.019    -51.241      0.000      -0.995      -0.922
ar.S.L12      -0.5655      0.121     -4.660      0.000      -0.803      -0.328
ar.S.L24      -0.3114      0.151     -2.060      0.039      -0.608      -0.015
sigma2      5.942e+09   4.07e-12   1.46e+21      0.000    5.94e+09    5.94e+09


In [32]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

modelo441 = SARIMAX(consumo_log['Gasolina superior'], order=(4,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m441 = modelo441.fit()
print(resultado_m441.summary().tables[1])

# resultado_m441.plot_diagnostics(figsize=(18, 8))
# plt.show()

print("Resultados de AIC (Akaike information criterion)")
print("Modelo 441=",resultado_m441.aic)
print("Resultados de BIC (Bayesian information criterion)")
print("Modelo 441=",resultado_m441.bic)

print("Resultados de AIC (Akaike information criterion)")
print("Modelo 141=",resultado_m141.aic)
print("Resultados de BIC (Bayesian information criterion)")
print("Modelo 141=",resultado_m141.bic)

  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ar.L1         -1.4547      0.174     -8.361      0.000      -1.796      -1.114
ar.L2         -1.3600      0.317     -4.293      0.000      -1.981      -0.739
ar.L3         -0.7682      0.328     -2.339      0.019      -1.412      -0.124
ar.L4         -0.2777      0.214     -1.299      0.194      -0.697       0.141
ma.L1         -0.9979      0.083    -11.975      0.000      -1.161      -0.835
ar.S.L12      -0.3624      0.143     -2.540      0.011      -0.642      -0.083
ar.S.L24      -0.1097      0.209     -0.525      0.599      -0.519       0.300
sigma2      3.516e+09   5.63e-11   6.25e+19      0.000    3.52e+09    3.52e+09
Resultados de AIC (Akaike information criterion)
Modelo 441= 3700.0819191731657
Resultados de BIC (Bayesian information criterion)
Modelo 441= 3724.272963339936
Resultados de AIC (Akaike information criterion)


#### Prediccion con el modelo 441

In [33]:
modelo441 = SARIMAX(consumo_log['Gasolina superior'], order=(4,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m441 = modelo441.fit()

pred = resultado_m441.get_prediction(start=test_consumo['Gasolina superior']['2021':].index[0], dynamic=False)
pred_ci = pred.conf_int()
# ax = test_consumo['Gasolina superior']['2021':].plot(label='observed')
# pred.predicted_mean.plot(ax=ax, label='One-step ahead Forecast', alpha=.7, figsize=(14, 4))
# ax.fill_between( pred_ci.iloc[:,0],
#                 pred_ci.iloc[:,1], color='k', alpha=.2)

# # plt.xlim(test_consumo[column]['2023':].index[0], pred_ci.index[-1])
# plt.title('Consumo de Gasolina superior')
# plt.legend()
# plt.show()

  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


In [34]:
modelo441 = SARIMAX(consumo_log['Gasolina superior'], order=(4,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m441 = modelo441.fit()

pred = resultado_m441.get_prediction(start=test_consumo['Gasolina superior']['2023':].index[0], dynamic=False)
pred_ci = pred.conf_int()
# ax = test_consumo['Gasolina superior']['2023':].plot(label='observed')
# pred.predicted_mean.plot(ax=ax, label='One-step ahead Forecast', alpha=.7, figsize=(14, 4))
# plt.title('Consumo de Gasolina superior')
# plt.legend()
# plt.show()

  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


### 3.3 Precios Promedio Nacionales de gasolina superior

In [35]:
mediaMovil = tr_precios['Superior'].rolling(window=12).mean()
desviacionMovil = tr_precios['Superior'].rolling(window=12).std()

# original = plt.plot(tr_precios['Superior'], color='blue', label='Original')
# media = plt.plot(mediaMovil, color='red', label='Media Movil')
# desviacion = plt.plot(desviacionMovil, color='green', label='Desviacion Estandar Movil')
# plt.legend(loc='best')
# plt.title('Media y Desviacion Estandar Movil')
# plt.show(block=False)

In [None]:
print('Resultados del Test de Dicker-Fuller para la variable Gasolina superior')
dfTest = adfuller(tr_precios['Superior'], autolag='AIC')
salidaDf = pd.Series(dfTest[0:4], index=['Estadístico de prueba','p-value','# de retardos usados','# de observaciones usadas'])
for key,value in dfTest[4].items():
        salidaDf['Critical Value (%s)'%key] = value
print(salidaDf)

Resultados del Test de Dicker-Fuller para la variable Gasolina superior
Estadístico de prueba         -1.777205
p-value                        0.391836
# de retardos usados           7.000000
# de observaciones usadas    655.000000
Critical Value (1%)           -3.440373
Critical Value (5%)           -2.865963
Critical Value (10%)          -2.569125
dtype: float64


In [38]:
precios_diff = tr_precios.diff()
precios_diff.dropna(inplace=True)

# for column in cuantitativas:
print('Resultados del Test de Dickey Fuller para una diferenciación de la serie')
dfTest = adfuller(precios_diff['Superior'])
salidaDf = pd.Series(dfTest[0:4], index=['Estadístico de prueba','p-value','# de retardos usados','# de observaciones usadas'])
for key,value in dfTest[4].items():
        salidaDf['Critical Value (%s)'%key] = value
print(salidaDf)

precios_log = tr_precios.copy()

Resultados del Test de Dickey Fuller para una diferenciación de la serie
Estadístico de prueba       -7.455076e+00
p-value                      5.539811e-11
# de retardos usados         6.000000e+00
# de observaciones usadas    6.550000e+02
Critical Value (1%)         -3.440373e+00
Critical Value (5%)         -2.865963e+00
Critical Value (10%)        -2.569125e+00
dtype: float64


In [39]:
precios_log_diff = pd.DataFrame(columns = cuantitativas)

precios_log_diff_act = precios_log['Superior'].diff().diff()
precios_log_diff_act.dropna(inplace = True)
precios_log_diff['Superior'] = precios_log_diff_act
tsa_acf = acf(precios_log_diff_act, nlags=5,fft=False)
tsa_pacf = pacf(precios_log_diff_act, nlags=36)

In [40]:
precios_log_D = precios_log.diff(12)
precios_log_D.dropna(inplace=True)

In [41]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

modelo121 = SARIMAX(precios_log['Superior'], order=(1,2,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m121 = modelo121.fit()
print(resultado_m121.summary().tables[1])

# resultado_m121.plot_diagnostics(figsize=(18, 8))
# plt.show()


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ar.L1          0.0056      0.072      0.077      0.939      -0.136       0.148
ma.L1         -1.0000      4.033     -0.248      0.804      -8.904       6.904
ar.S.L12      -0.6826      0.021    -31.981      0.000      -0.724      -0.641
ar.S.L24      -0.3144      0.021    -14.803      0.000      -0.356      -0.273
sigma2         0.2045      0.826      0.248      0.804      -1.414       1.823


In [42]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

modelo221 = SARIMAX(precios_log['Superior'], order=(4,4,1), seasonal_order=(2,1,0,12), enforce_stationarity=False, enforce_invertibility=False)
resultado_m221 = modelo221.fit()
print(resultado_m221.summary().tables[1])

# resultado_m221.plot_diagnostics(figsize=(18, 8))
# plt.show()

print("Resultados de AIC (Akaike information criterion)")
print("Modelo 121=",resultado_m121.aic)
print("Resultados de BIC (Bayesian information criterion)")
print("Modelo 121=",resultado_m121.bic)
print("Resultados de AIC (Akaike information criterion)")
print("Modelo 221=",resultado_m221.aic)
print("Resultados de BIC (Bayesian information criterion)")
print("Modelo 221=",resultado_m221.bic)

  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ar.L1         -1.3708      0.025    -54.170      0.000      -1.420      -1.321
ar.L2         -1.2205      0.046    -26.633      0.000      -1.310      -1.131
ar.L3         -0.7994      0.045    -17.575      0.000      -0.889      -0.710
ar.L4         -0.3085      0.030    -10.350      0.000      -0.367      -0.250
ma.L1         -1.0000     18.058     -0.055      0.956     -36.393      34.393
ar.S.L12      -0.6936      0.027    -25.579      0.000      -0.747      -0.640
ar.S.L24      -0.3096      0.026    -12.139      0.000      -0.360      -0.260
sigma2         0.3692      6.672      0.055      0.956     -12.708      13.446
Resultados de AIC (Akaike information criterion)
Modelo 121= 796.1954395001527
Resultados de BIC (Bayesian information criterion)
Modelo 121= 818.3761913419999
Resultados de AIC (Akaike information criterion)
M

#### Prediccion con el modelo 121

In [43]:
pred = resultado_m121.get_prediction(start=test_precios['Superior']['2021':].index[0], dynamic=False)
pred_ci = pred.conf_int()
# ax = test_precios['Superior']['2021':].plot(label='observed')
# pred.predicted_mean.plot(ax=ax, label='One-step ahead Forecast', alpha=.7, figsize=(14, 4))
# ax.fill_between( pred_ci.iloc[:,0],
#                 pred_ci.iloc[:,1], color='k', alpha=.2)

# # plt.xlim(test_consumo[column]['2023':].index[0], pred_ci.index[-1])
# plt.title('Precios de Gasolina superior')
# plt.legend()
# plt.show()

In [44]:
pred = resultado_m121.get_prediction(start=test_precios['Superior']['2023':].index[0], dynamic=False)
pred_ci = pred.conf_int()
# ax = test_precios['Superior']['2023':].plot(label='observed')
# pred.predicted_mean.plot(ax=ax, label='One-step ahead Forecast', alpha=.7, figsize=(14, 4))
# plt.title('Precios de Gasolina superior')
# plt.legend()
# plt.show()