<img src="mioti.png" style="height: 100px">
<center style="color:#888">Data science fundamentals<br/>Asignatura Predictive Analytics</center>

# Worksheet S3: Modelos ARIMA

## Estacionariedad en las series temporales

Tenemos un dataframe con el registro del índice de producción de una fábrica de caramelos

In [None]:
import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import pandas as pd
candy = pd.read_csv('candy_production.csv', index_col='date', parse_dates=True)
candy

In [None]:
fig, ax = plt.subplots()
candy.plot(ax=ax) 
plt.show()

**P: ¿ Qué componentes tiene esta serie temporal ?**

**P: ¿Estamos ante una serie temporal estacionaria ?**

### Augmented Dicky-Fuller test

In [None]:
# Importar la funcion del test de dickey fuller
from statsmodels.tsa.stattools import adfuller
# Realizamos el test sobre nuestra serie
result = adfuller(candy['IPG3113N'])
# Imprimimos el valor del test estadístico
print(result[0])
# Imprimimos el valor p
print(result[1])

El valor p  de, test no da por debajo de 0.05, con lo cual nuestra serie no es estacionaria

**P: ¿ Podemos hacer algo al respecto ?**

In [None]:
candy2 = candy.diff(1).dropna()

In [None]:
fig, ax = plt.subplots()
candy2.plot(ax=ax) 
plt.show()

In [None]:
result = adfuller(candy2['IPG3113N'])
# Imprimimos el valor del test estadístico
print(result[0])
# Imprimimos el valor p
print(result[1])

### Otro ejemplo

Población de una ciudad a lo largo de los años

In [None]:
city = pd.read_csv('city_population.csv')
city.index = pd.to_datetime(city.date,format='%Y-%m-%d')
city=city.drop(columns=['date'])

In [None]:
fig, ax = plt.subplots()
city.plot(ax=ax)
plt.show()

**P: ¿ Qué componentes tiene esta serie temporal ?**

**P: ¿Estamos ante una serie temporal estacionaria ?**

In [None]:
result = adfuller(city['city_population'])
print('ADF Test estadístico:', result[0])
print('Valor p:', result[1])

**P: ¿ Podemos hacer alguna transformación para cambiar la situación ?**

In [None]:
city_stationary = city.diff(1).dropna()
result = adfuller(city_stationary['city_population'])
fig, ax = plt.subplots()
city_stationary.plot(ax=ax)
plt.show()
print('ADF Test estadístico:', result[0])
print('Valor p:', result[1])

In [None]:
city_stationary = city.diff().diff().dropna()
result = adfuller(city_stationary['city_population'])
fig, ax = plt.subplots()
city_stationary.plot(ax=ax)
plt.show()
print('ADF Test estadístico:', result[0])
print('Valor p:', result[1])

### Otras transformaciones

In [None]:
import numpy as np
amazon=pd.read_csv('amazon.csv')
amazon.index = pd.to_datetime(amazon.date,format='%Y-%m-%d')
amazon=amazon.drop(columns=['date'])
fig, ax = plt.subplots()
amazon.plot(ax=ax)
plt.show()

In [None]:
# Calculamos la primera diferenciación y eliminamos los nans
amazon_diff = amazon.diff().dropna()
result_diff = adfuller(amazon_diff['close'])
print(result_diff[0])
print(result_diff[1])

In [None]:
fig, ax = plt.subplots()
amazon_diff.plot(ax=ax)
plt.show()

In [None]:
amazon_log = np.log(amazon/amazon.shift()).dropna()
fig, ax = plt.subplots()
amazon_log.plot(ax=ax)
plt.show()

In [None]:
# Run test and print
result_log = adfuller(amazon_log['close'])
print(result_log[0])
print(result_log[1])

### Generando procesos ARMA

In [None]:
from statsmodels.tsa.arima_process import arma_generate_sample
np.random.seed(1)

ar_coefs = [1]
ma_coefs = [1,0.5]

ma1 = arma_generate_sample(ar_coefs, ma_coefs, nsample=100, sigma=0.5, )

plt.plot(ma1)
plt.ylabel(r'$y_t$')
plt.xlabel(r'$t$')
plt.show()

In [None]:
from statsmodels.tsa.arima_process import arma_generate_sample
np.random.seed(2)


ar_coefs = [1,-0.3,-0.5]
ma_coefs = [1]


ar2 = arma_generate_sample(ar_coefs, ma_coefs, nsample=100, sigma=0.5, )

plt.plot(ar2)
plt.ylabel(r'$y_t$')
plt.xlabel(r'$t$')
plt.show()

In [None]:
# Import data generation function and set random seed
from statsmodels.tsa.arima_process import arma_generate_sample
np.random.seed(3)

# Set coefficients
ar_coefs = [1,0.2]
ma_coefs = [1,0.3,0.4]

# Generate data
arma = arma_generate_sample(ar_coefs, ma_coefs, nsample=100, sigma=0.5, )

plt.plot(arma)
plt.ylabel(r'$y_t$')
plt.xlabel(r'$t$')
plt.show()

In [None]:
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
fig, (ax1, ax2) = plt.subplots(2,1, figsize=(12,8))
plot_acf(arma, lags=15, zero=False, ax=ax1)
plot_pacf(arma, lags=15, zero=False, ax=ax2)

# Show plot
plt.show()

### Entrenando modelos ARMA

In [None]:
from statsmodels.tsa.arima_model import ARMA
earthquake = pd.read_csv('earthquake.csv')

In [None]:
fig, ax = plt.subplots()
earthquake.plot(ax=ax) 
plt.show()

In [None]:
# Instanciar el modelo
model = ARMA(earthquake['earthquakes_per_year'], order=[3,1])
# Entrenar el modelo
results = model.fit()
print(results.summary())

### Proceso ARMAX

Modelo ARMA con adición de alguna variable exógena para que modele nuestra serie temporal

In [None]:
hospital=pd.read_csv('hospital.csv')
model = ARMA(hospital['wait_times_hrs'], order=[2,1],exog=hospital['nurse_count'])
results = model.fit()
print(results.summary())

### Obteniendo predicciones 

In [None]:
amazon=pd.read_csv('amazon.csv')
amazon['date'] = pd.to_datetime(amazon.date,format='%Y-%m-%d')
amazon=amazon.sort_values(by='date')
amazon.index = amazon.date
amazon=amazon.drop(columns=['date'])

In [None]:
amazon.head(10)

In [None]:
fig, ax = plt.subplots()
amazon.plot(ax=ax) 
plt.show()

In [None]:
from statsmodels.tsa.statespace.sarimax import SARIMAX 
model = SARIMAX(amazon, order=(2,0,3), trend='c') 
results = model.fit()
print(results.summary())

In [None]:
one_step_forecast = results.get_prediction(start=-30)
mean_forecast = one_step_forecast.predicted_mean 
confidence_intervals = one_step_forecast.conf_int()
lower_limits = confidence_intervals.loc[:,'lower close']
upper_limits = confidence_intervals.loc[:,'upper close']

In [None]:
plt.figure(figsize=(16,8))
plt.plot(amazon.index, amazon, label='observed')
plt.plot(mean_forecast.index, mean_forecast, color='r', label='forecast')
plt.fill_between(lower_limits.index, lower_limits, 
               upper_limits, color='pink')
plt.xlabel('Date')
plt.ylabel('Amazon Stock Price - Close USD')
plt.legend()
plt.show()

In [None]:
arima = SARIMAX(amazon, order=(2,1,2))
arima_results = arima.fit()
arima_value_forecast = arima_results.get_forecast(steps=10).predicted_mean
print(arima_value_forecast)

### ¿ MA, AR o  ARMA ? ¿ Cómo ver a qué tipo de modelo se ajusta un dato ?

In [None]:
df = pd.read_csv('df_1.csv', index_col='date', parse_dates=True)
fig, (ax1, ax2) = plt.subplots(2,1, figsize=(12,8))
plot_acf(df, lags=10, zero=False, ax=ax1)
plot_pacf(df, lags=10, zero=False, ax=ax2)
plt.show()

**P: ¿ Qué tipo de modelo se ajustaría mejor ?**

In [None]:
earthquake = pd.read_csv('earthquake.csv', index_col='date', parse_dates=True)
fig, (ax1, ax2) = plt.subplots(2,1, figsize=(12,8))
plot_acf(earthquake, lags=15, zero=False, ax=ax1)
plot_pacf(earthquake, lags=15, zero=False, ax=ax2)
plt.show()

**P: ¿ Qué tipo de modelo se ajustaría mejor ?**

### Buscar los parámetros que mejor se ajusten usando los criterios de información

In [None]:
order_aic_bic=[]
for p in range(3):
    for q in range(3):
        model = SARIMAX(df, order=(p,0,q))
        results = model.fit()
        order_aic_bic.append((p,q,results.aic, results.bic))

In [None]:
print(order_aic_bic)

## Eligiendo el orden usando criterios AIC y BIC


Ahora que hemos creado muchos modelos, vamos evaluar los resultados para ver qué combinación es mejor para nuestra serie temporal.

In [None]:
order_df = pd.DataFrame(order_aic_bic,columns=['p', 'q', 'AIC', 'BIC'])
print(order_df.sort_values('AIC'))
print(order_df.sort_values('BIC'))

Ambos criterios coinciden en el modelo ARMA(1,2) pero no siempre será el caso

### Criterio AIC/BIC vs ACF/PACF

Vamos a aplicar ahora los criterios de información para buscar los paramétros óptimos para nuestro modelo ARMA, antes observando las funciones de autocorrelación y autocorrelación forzada determinamos que era AR(1)

Vamos a ver que pasa cuando hacemos la búsqueda de los parámetros basada en los criterios de información.


In [None]:
for p in range(3):
    for q in range(3):      
        try:
            model = SARIMAX(earthquake,order=(p,0,q))
            results = model.fit()
            print(p, q, results.aic, results.bic)            
        except:
            print(p, q, None, None)

Si vemos los resultados que hemos imprimido por pantalla vemos que nos indica un modelo ARMA(1,1), no era lo que esperabamos ver inicialmente después de observar la ACF y la PACF, pero vamos que los valores de los lags 2 y 3 están muy cerca de ser significativos.

### Diagnóstico sobre el resumen de las estadísticas

Los residuos no están correlados si el valor p es menor que 0.05

Para ver si están correlados y distribuidos de forma normal Prob(Q) debe ser menor de 0.05

In [None]:
model1 = SARIMAX(df, order=(1,1,1))
results1 = model1.fit()
print(results1.summary())

In [None]:
results1.plot_diagnostics(figsize=(12, 10)) 
plt.show()

**P: ¿ Podríamos mejorar algo ?**

In [None]:
model2 = SARIMAX(df, order=(3,0,1))
results2=model2.fit()
print(results2.summary())

In [None]:
results2.plot_diagnostics(figsize=(12, 10)) 
plt.show()

In [None]:
model = SARIMAX(df, order=(2,1,2))
results=model.fit()
results.plot_diagnostics(figsize=(12, 10)) 
plt.show()

# Box Jenkings

Vamos a cargar un dataframe con los ahorros de los ciudadanos estadounidenses en miles de dólares para llevar a cabo nuestra metodología de Box Jenkings

In [None]:
savings = pd.read_csv('savings.csv', index_col='date', parse_dates=True)
savings.plot()
plt.show()

### Identificación

**P: ¿Estamos ante una serie temporal estacionaria ?**

In [None]:
result = adfuller(savings['savings'])
print(result[0])
print(result[1])

**P: ¿ Qué tipo de modelo es mi serie ?**

In [None]:
fig, (ax1, ax2) = plt.subplots(2,1, figsize=(12,8))
plot_acf(savings, lags=10, zero=False, ax=ax1)
plot_pacf(savings, lags=10, zero=False, ax=ax2)
plt.show()

Podría tratarse de un modelo ARMA o AR 

### Estimación

In [None]:
for p in range(4):
    for q in range(4):
      try:
        model = SARIMAX(savings, order=(p,0,q), trend='c')
        results = model.fit()
        print(p,q,results.aic,results.bic)        
      except:
        print(p, q, None, None)

AR(3) o ARMA(2,2)

### Diagnóstico

In [None]:
model = SARIMAX(savings, order=(2,0,2), trend='c')
results = model.fit()
results.plot_diagnostics(figsize=(12, 10)) 
plt.show()
print(results.summary())

# Trabajando con series con estacionalidad

Usando un modelo de tipo SARIMA además de hacer el modelo regresivo al que estabamos acostumbrados podemos modelar tambien los efectos de la estacionalidad modelizando mediante coeficientes de igual forma que para el modelo ARIMA añadiendo también una supuesta periodicidad de esta estacionalidad de datos.

In [None]:
timeseries = pd.read_csv('IPG2211A2N.csv', index_col='DATE', parse_dates=True)

In [None]:
timeseries.head()

In [None]:
timeseries = timeseries.asfreq('M', method='pad', how='start')
timeseries = timeseries['2008-01-01':]
timeseries.plot(title='Industrial Production Index 2008-2018');

In [None]:
timeseries.head()

In [None]:
test_result = adfuller(timeseries['IPG2211A2N'])
dfoutput = pd.Series(test_result[0:2], index=['Test Statistic','p-value'])
print(dfoutput)
if dfoutput[1] <= 0.05:
    print('La serie temporal es estacionaria')
else:
    print("La serie temporal no es estacionaria")

In [None]:
timeseries_diff = timeseries.diff()
timeseries_diff.dropna(inplace=True)
timeseries_diff.head(10)

In [None]:
test_result = adfuller(timeseries_diff['IPG2211A2N'])
dfoutput = pd.Series(test_result[0:2], index=['Test Statistic','p-value'])
print(dfoutput)
if dfoutput[1] <= 0.05:
    print('La serie temporal es estacionaria')
else:
    print("La serie temporal no es estacionaria")

In [None]:
aic_list = []
p_range = d_range = q_range = range(0, 3)
for p in p_range:
    for d in d_range:
        for q in q_range:
            for P in p_range:
                for D in d_range:
                    for Q in q_range:
                        model = SARIMAX(timeseries,
                                        enforce_stationarity=False,
                                        enforce_invertibility=False,
                                        seasonal_order=(P,D,Q,12),
                                        order=(p, d, q),
                                        freq='M')
                        # fit the model
                        ret = model.fit()
                        
                        # store the result of this model
                        aic_list.append((ret.aic, p, d, q, P, D, Q))

In [None]:
sorted_list = sorted(aic_list, key=lambda x: x[0])

In [None]:
sorted_list[0]

In [None]:
training_data = timeseries
model = SARIMAX(training_data,
                enforce_stationarity=False,
                enforce_invertibility=False,
                seasonal_order=(0,2,2,12),
                order=(0, 1, 2),
                freq='M')
ret = model.fit()
print(ret.summary())

In [None]:
plt.figure(figsize=(16,8))
plt.plot(timeseries['2012':], color='black', label='Original Data', linewidth=1)
plt.plot(ret.fittedvalues['2012':], color='red', label='Fitted Data', linewidth=1)
plt.legend()
plt.title('Fitted Data vs Original');


In [None]:
ret.plot_diagnostics(figsize=(12, 10))

In [None]:
plt.figure(figsize=(16,8))
prediction = ret.get_prediction(start='2012-12-31',
                                end='2022-12-31')
fig = training_data.plot();
prediction.predicted_mean.plot(ax=fig)

prediction_confidence_interval = prediction.conf_int()
fig.fill_between(prediction_confidence_interval.index,
                 prediction_confidence_interval.iloc[:,0],
                 prediction_confidence_interval.iloc[:,1], alpha=0.5);