# Stationary & Lags

## Stationary
Para poder modelar una serie temporal necesitamos que sea estacionaria, lo que significa que sus estadísticos no cambien con el tiempo. Estadísticos como la media, varianza y covarianza.

Veamos en un ejemplo de cómo comprobar si la serie es estacionaria y en caso contrario qué tenemos que hacer para convertirla.

Cargamos datos:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

series = pd.read_csv('data/FB.csv', header=0, index_col=0)
series.head()

Representamos la serie

In [None]:
#### CODE #### 

Vemos que no es estacionaria. Presenta una tendencia y no es lo mismo la varianza en cada zona de la serie temporal

Calculamos sus estadísticos

In [None]:
series['Close'].describe()

Ejecutamos el test de Dickey-Fuller para comprobar si la serie temporal es estacionaria.

El test de DF plantea la hipótesis nula de que la serie NO es estacionaria. Se trata de comprobar sus p-values, si quedan por encima o por debajo su nivel de significación (0.05). Si queda por encima de su nivel de significación, aceptamos la hipótesis nula y concluimos que la serie NO es estacionaria. En caso contrario, rechazaríamos la hipótesis nula, en favor de la hipótesis alternativa, con la que concluiremos que la serie es estacionaria.

In [None]:
#### CODE #### 

Para solucionar esto, diferenciamos la serie. Normalmente con una diferenciación de 1 es suficiente.

In [None]:
series2 = series[['Close']].copy()
#### CODE #### 

Representamos la diferenciación de 1

In [None]:
series2['close_diff_1'].plot(figsize=(15,6));

Ahora calculamos sus estadísticos

In [None]:
series2['close_diff_1'].describe()

Ya que hemos diferenciado, y supuestamente ahora la serie es estacionaria, vamos a volver a probar con el test de Dickey-Fuller

In [None]:
#### CODE #### 

#### Ejemplo AVG TEM ANUAL
Ahora utilizaremos los datos 'Mean_Temp_IMD_2017.csv'

In [None]:
series_tmp = pd.read_csv('data/Mean_Temp_IMD_2017.csv', header=0, index_col=0)
series_tmp.head()

In [None]:
series_tmp['ANNUAL_AVG_TEMPRATURE'].plot(figsize=(15,6));

In [None]:
print("DF test:", round(adfuller(series_tmp['ANNUAL_AVG_TEMPRATURE'])[1], 4))

diferencio_tmp = series_tmp['ANNUAL_AVG_TEMPRATURE'].diff().dropna()
print("DF test diff:", round(adfuller(diferencio_tmp)[1], 4))
diferencio.plot(figsize=(15,6));

## Lag
Un lag es un retraso en el tiempo. Se utiliza este concepto para ver la relación que tiene cada instante de un time series con instantes anteriores.

Se pueden calcular mediante shift

In [None]:
#### CODE #### 

Como los algoritmos de regresión en time series dependen de instantes anteriores, hay que intentar evitar que los lags estén muy autocorrelados, por que sino sufriremos de multicolinearidad.

Vamos a comprobar cuánto de correlados están los lags

In [None]:
#### CODE #### 

In [None]:
#### CODE #### 

## Autocorrelation plot
Tengo que ver cómo es la gráfica de autocorrelación, ya que si voy a utilizar una regresión lineal, no queremos que los lags estén muy correlacionados, unos con otros.

In [None]:
from statsmodels.graphics.tsaplots import plot_acf

series = pd.read_csv('data/FB.csv', header=0, index_col=0)

plot_acf(series_tmp['ANNUAL_AVG_TEMPRATURE'], lags=100);

¿Cómo interpreto esto? Correlación muy alta entre cada dato y sus lags. Esto es debido a que la serie no es estacionaria.

Diferenciando, perdemos esa correlación entre los lags, y conseguimos una serie temporal más adecuada para entrenar nuestros modelos.

In [None]:
diferencio = series_tmp['ANNUAL_AVG_TEMPRATURE'].diff().dropna()

plot_acf(diferencio, lags=100);

Probamos la autocorrelacion con los datos de bolsa y sus lags, sin diferenciar

In [None]:
series2 = series[['Close']].copy()
series2['lag1'] = series2['Close'].shift(1)
series2['lag2'] = series2['Close'].shift(2)
series2['lag3'] = series2['Close'].shift(3)
series2['lag4'] = series2['Close'].shift(4)
series2['lag5'] = series2['Close'].shift(5)
series2.head()

In [None]:
series2.corr()

In [None]:
lag_plot(series2['Close']);

In [None]:
plot_acf(series2['Close'], lags=100);

Diferenciando, me baja mucho la correlación, que es lo que estamos buscando.

In [None]:
diferencio = series2['Close'].diff().dropna()

plot_acf(diferencio, lags=100);