In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

import statsmodels.api as sm

In [None]:
def tsplot(y, lags=None, figsize=(15, 10), style='bmh', title = 'Time Series Analysis Plots' ):
    '''Esta función muestra el gráfico de la serie y de las funciones ACF y PACF.'''
    if not isinstance(y, pd.Series):
        y = pd.Series(y)
    with plt.style.context(style):    
        fig = plt.figure(figsize=figsize)
        #mpl.rcParams['font.family'] = 'Ubuntu Mono'
        layout = (2, 2)
        ts_ax = plt.subplot2grid(layout, (0, 0), colspan=2)
        acf_ax = plt.subplot2grid(layout, (1, 0))
        pacf_ax = plt.subplot2grid(layout, (1, 1))
        
        y.plot(ax=ts_ax)
        ts_ax.set_ylabel(r'$y_t$')
        ts_ax.set_xlabel(r'$t$')
        ts_ax.set_title(title)
        sm.graphics.tsa.plot_acf(y, lags=lags, ax=acf_ax, alpha=0.05)
        sm.graphics.tsa.plot_pacf(y, lags=lags, ax=pacf_ax, alpha=0.05)
        
        plt.tight_layout()
    return

## Actividad 1: Visualización de series



In [None]:
spy = pd.read_csv('SPY.csv', index_col = 'Date', parse_dates = True)
spy['High'].plot(figsize=(10,5), label = 'SPY')
plt.legend(loc = 'upper left')
plt.show()

In [None]:
eurusd = pd.read_csv('EURUSD.csv', index_col = 'Date', parse_dates = True)
eurusd['Adj Close'].plot(figsize=(10,5), label = 'EURUSD', color = 'red')
plt.legend(loc = 'upper left')
plt.show()

In [None]:
vix = pd.read_csv('^VIX.csv', index_col = 'Date', parse_dates = True)
vix['Open'].plot(figsize=(10,5), label = 'VIX', color = 'orange')
plt.legend(loc = 'upper left')
plt.show()

## Actividad 2: Test de Dickey Fuller augmentado

En esta actividad se aplicará el test ADF para testear estacionariedad. 
En primer lugar graficaremos la serie de tipo de cambio GBP/USD en el archivo "GBPUSD.csv", correspondiente al período 2009-2014.

¿Tendría argumentos para decir que esta serie sigue un patrón de una serie no estacionaria?

In [None]:

gbpusd = pd.read_csv('GBPUSD.csv', index_col= 'Date', parse_dates = True)
gbpusd["Close"].plot()


Para tener mayor seguridad y posteriormete poder realizar mejores predicciones, aplicaremos el test de Dickey Fuller. 

En esta actividad se aplicará el test ADF para testear estacionariedad. 
En primer lugar graficaremos la serie de tipo de cambio GBP/USD en el archivo "GBPUSD.csv", correspondiente al período 2009-2014.

¿Tendría argumentos para decir que esta serie sigue un patrón de una serie no estacionaria?

In [None]:

gbpusd = pd.read_csv('GBPUSD.csv', index_col= 'Date', parse_dates = True)
gbpusd["Close"].plot()


Para tener mayor seguridad y posteriormete poder realizar mejores predicciones, aplicaremos el test de Dickey Fuller. 

1. Importe la función adfuller() desde statsmodels.
2. Corra la función adfuller() a la columna "Adj Close" del data frame de la serie.
3. Imprima: 
    - el valor del estadístico
    - el p-valor
    - los valores críticos.

In [None]:
# Importar ADF
from statsmodels.tsa.stattools import ____

# Correr el test
result = ____

# Imprimir el valor del estadístico.
print(____)

# Imprimir el p-valor
print(____)

# Imprimir los valores críticos.
print(____) 

Aplicaremos ahora el test ADF a cada una de las series visualizadas en la Actividad 1: SPY, EURUSD y VIX, esta vez para la columna de precios ajustados "Adj Close". ¿Qué conclusiones obtiene?

In [None]:
# Correr el test para SPY
result = ____

# Imprimir el valor del estadístico.
print(____)

# Imprimir el p-valor
print(____)

# Imprimir los valores críticos.
print(____) 

In [None]:
# Correr el test para EURUSD
result = ____

# Imprimir el valor del estadístico.
print(____)

# Imprimir el p-valor
print(____)

# Imprimir los valores críticos.
print(____) 

In [None]:
# Correr el test para VIX
result = ____

# Imprimir el valor del estadístico.
print(____)

# Imprimir el p-valor
print(____)

# Imprimir los valores críticos.
print(____) 

Para aquellas series que no tienen evidencia de "no ser estacionarias", aplicaremos la primera diferencia, eliminando los valores NaN. Asignar esta serie diferenciada a "nombre de serie"_diff y volver a correr el test.

In [None]:
 # Calcular la primera diferencia 
serie_diff = ______

# Correr el test ADF a la serie diferenciada.
result = adfuller(____['Adj Close'].dropna())

# Graficar la serie diferenciada
fig, ax = plt.subplots()
serie_diff['Adj Close'].plot(ax=ax)
plt.show()

# Imprimir el valor del estadístico y el p-valor de la serie diferenciada.
print('ADF Statistic:', ____)
print('p-value:', ____)

In [None]:
## Repetir para las demás series si corresponde.

### Otras transformaciones.

Una forma de transformar una serie de precios de acciones es tomando el log-retorno de los precios. Esto se calcula como:

$$\log\left(\frac{P_t}{P_{t-1}}\right)$$

Así por ejemplo, si se trata de la serie de 'AAPL.csv' utilizaremos las funciones:

 $y_t$ <-- data_aapl

 $y_{t-1}$ <--data_aapl.shift(1)
 
 $log( )$ <-- np.log()

En el siguiente ejercicio le pedimos analizar la existencia de una raíz unitaria para la serie AAPL, y para las transformaciones de log-retorno y las diferencias de primer orden para la serie de AAPL. 

In [None]:
## Aplicar el test ADF a la serie.
aapl = pd.read_csv('AAPL.csv', index_col='Date', parse_dates = True)
result_aapl = adfuller(aapl['Adj Close'])
print('Estadístico', result_aapl[0])
print('p-valor', result_aapl[1])

Calcular la primera diferencia de la serie temporal para testear estacionariedad.

In [None]:
# Calcular la primera diferencia y eliminar los valores NaN.
aapl_diff = ____.____()
aapl_diff = aapl_diff.dropna()

# Correr el test ADF e imprimir.
result_diff = adfuller(aapl_diff['Adj Close'])
print(result_diff)

In [None]:
# Calcular los log-retornos y eliminar los NaN.
aapl_log = _____
aapl_log = _____.dropna()

# Correr el test e imprimir.
result_log = adfuller(aapl_log['Adj Close'])
print(result_log)

## Actividad 3: Generación de datos ARMA



En esta actividad generaremos datos correspondientes a un modelo AR, MA o ARMA. 

Para ello es posible usar la función arma_generate_sample().

Recordar, para cualquier modelo ARMA(p,q):

- La lista de los coeficientes "ar" son de la forma $[1, -a_1, -a_2, ..., -a_p]$.
- La lista de los coeficientes "ma" son de la forma $[1, m_1, m_2, ..., m_q]$,
donde los $a_i$ y $m_j$ son los coeficientes de los retardos $i$ de la parte AR y los retardos $j$ de la parte MA del modelo, respectivamente.

### Modelo MA(1)
Construir un modelo MA(1) que responda a la fórmula:
$$ y_t = a_t - 0.7 a_{t-1}$$
Generar una serie de tiempo con 300 valores.



In [None]:
# Importar la función para generar la serie.
from statsmodels.tsa.arima_process import arma_generate_sample
np.random.seed(1)

# Inicializar los coeficientes del modelo.
ar_coefs = []
ma_coefs = []

burn_in = 500
# Generar la serie.
y = arma_generate_sample(_____, ______, nsample= _____, scale=0.5, burnin= burn_in)

plt.plot(y)
plt.ylabel(r'$y_t$')
plt.xlabel(r'$t$')
plt.show()

### Modelo AR(1)
Repetir la actividad anterior para el modelo: 
$y_t = -0.7y_{t-1} + \epsilon_t $.
Graficarlo.


In [None]:
#### 
np.random.seed(1)

# Inicializar los coeficientes del modelo.
ar_coefs = [___]
ma_coefs = [___]

# Generar la serie.
y = arma_generate_sample(ar_coefs, ma_coefs, nsample=500, scale=0.5, burnin = 200) 
plt.plot(y, label = r'$y_t = -0.7 y_{t-1} + \epsilon_t$')
plt.legend()
tsplot(y, lags = 20)

### Modelo ARMA(p,q)
Repetir la actividad anterior para el modelo: 
$y_t = -0.2y_{t-1} + 0.3 a_t + 0.4 a_{t-1}$.
Graficarlo.

In [None]:
### Resolver acá

##  Ajuste y predicción

En las siguientes celdas crearemos un modelo ARIMA(1,0,1), y luego lo ajustaremos a este modelo.

In [None]:
## Crear un ARMA(1,1)
np.random.seed(1)

# Inicializar los coeficientes del modelo.
ar_coefs = [1, 0.7]
ma_coefs = [1, 0.5 ]

# Generar la serie.
y = arma_generate_sample(ar_coefs, ma_coefs, nsample=300, scale=0.5, burnin = 500)



In [None]:

#Damos estructura de pandas a la serie.
y = pd.DataFrame(y, columns=['Serie'])



En la siguiente celda, ajustaremos el modelo a un ARIMA(1,0,1). 

In [None]:
# Importamos el modelo ARIMA 
from statsmodels.tsa.arima.model import ARIMA
# Instanciamos el modelo
model = ARIMA(y, order= (1,0,1))

# Ajustamos el modelo
results = model.fit()


In [None]:
## Imprimimos el resumen estadístico
print(results.summary())

Y ahora analizaremos la predicción de nuestro modelo dentro y fuera de la muestra.

In [None]:

from statsmodels.graphics.tsaplots import plot_predict


fig, ax = plt.subplots(figsize = (15,5))
y.iloc[220:300].plot(ax=ax)

plot_predict(results, 280, 310,  ax = ax)
plt.show()


In [None]:
spy = pd.read_csv('SPY.csv', index_col = 'Date', parse_dates = True)
spy_lrets = np.log(spy/spy.shift(1)).dropna()
model_fit = ARIMA(spy_lrets['Adj Close'], order = (1,0,1)).fit()
print(model_fit.summary())


In [None]:
fig, ax = plt.subplots(figsize = (15,5))
spy_lrets['Adj Close'].iloc[-100:].plot(ax=ax)
#model_fit.fittedvalues.iloc[-100:].plot( ax=ax, label = 'Fitted values')
plt.legend()
plot_predict(model_fit,start = spy_lrets.index[-100], end = spy_lrets.index[-1], ax = ax)
plt.show()

In [None]:
fig, ax = plt.subplots(figsize = (15,5))
spy_lrets.dropna()['Adj Close'].iloc[-200:].plot(ax=ax)
x = model_fit.fittedvalues
#x.iloc[-200:].plot(ax=ax, label = 'Fitted values')
plt.legend()
plot_predict(model_fit,start = aapl_lrets.index[-200], end = aapl_lrets.index[-1], ax = ax)
plt.show()