# Practice: Estacionalidad de Temperaturas en Alemania

### Este ejercicio ha sido propuesto y creado íntegramente por el equipo de AI Saturdays Euskadi (thanks [@MaialenBerrondo](https://www.linkedin.com/in/maialen-berrondo-43197b94/)!)

Un ejemplo típico de estacionalidad y análisis de series temporales es la predicción de la temperatura en un entorno. Por ello, vamos a tomar un caso de estudio de datos de temperaturas de Alemania, y vamos a aplicar una serie de funciones comentadas en la sesión de Time Series Analysis para comprender si existe una estacionalidad real en el caso de las temperaturas de Alemania, y si así se trata, de hacer predicciones de dichas temperaturas.

In [1]:
!pip install pypr

Collecting pypr
  Downloading PyPR-0.1.1.tar.gz (757 kB)
Building wheels for collected packages: pypr
  Building wheel for pypr (setup.py): started
  Building wheel for pypr (setup.py): finished with status 'done'
  Created wheel for pypr: filename=PyPR-0.1.1-py3-none-any.whl size=40933 sha256=8f523c905296f4290847373ebc00f894f0b74c3d577e1a8253239fea2c1c5b4f
  Stored in directory: c:\users\alumno\appdata\local\pip\cache\wheels\48\93\7c\b8303cd0f4442085459ee778f03922e4c492b13818cca628c0
Successfully built pypr
Installing collected packages: pypr
Successfully installed pypr-0.1.1


### Nota importante (Añadida desde el equipo de AI Saturdays Euskadi):

Para que te funcione la librería ```ljungbox``` (que permite ejecutar el Q-Test Ljung-Box para encontrar autocorrelación residual), necesitarás hacer el siguiente ajuste en tu instalación de la librería ```pypr```.

[Este enlace contiene la documentación en la que se basa la explicación. Esta explicación aplica a instalaciones hechas en Windows, para sistemas MacOS o Ubuntu habría que validar si el cambio planteado es correcto.](https://gist.github.com/betterxys/1def38e1fcbb7f3b2dab2393bcea52f0)

1. Las librerías que instalas en tu entorno Conda (ya sea mediante el instalador gráfico de Anaconda o mediante comandos pip) se almacenan en una carpeta específica. Navega a la siguiente ruta de tu ordenador: ```{DISCO}\Users\{NOMBRE_USUARIO}\anaconda3\envs\fastai\Lib\site-packages\pypr\stattest```
2. Dentro de esa carpeta verás una carpeta y varios ficheros: ```__pycache__```, ```__init__.py```, ```ljungbox.py``` y ```model.select.py```. Abre el fichero ```__init__.py``` con un editor de texto (Notepad, Notepad++, Sublime Text, vim, nano, etc.).
3. Edita el contenido del fichero para que quede de esta manera:

`
from .ljungbox import *
from .model_select import *
`

¡Y listo! Haz el guardado del contenido editado y ya puedes volver a este Notebook.

In [None]:
import itertools
import matplotlib.pylab as plt
import numpy as np
import pandas as pd
import statsmodels.api as sm
import warnings
from pypr.stattest.ljungbox import * # If there are problems with the library, it just shows the last plot
from pylab import rcParams
from statsmodels.graphics.tsaplots import plot_pacf,plot_acf
from statsmodels.tsa.arima_model import ARMA
from statsmodels.tsa.arima_model import ARIMA
from statsmodels.tsa.stattools import adfuller

In [None]:
%matplotlib inline
rcParams['figure.figsize'] = 15, 10
warnings.filterwarnings('ignore')

## Load & Clean Data

Como en todo proceso de Análisis de Datos, hay que hacer cierto EDA + Cleaning, para entender lo que tenemos por aquí. Así que carga el fichero CSV y empieza a ver patrones.

Para el propósito de este ejercicio, quédate con aquellos valores del dataset a partir del 1970-01-01 (esa misma fecha inclusive).

In [None]:
# Cargado y lectura de fichero

file_path = 
df_germany =

In [None]:
# Ver que hay en el fichero



In [None]:
# Limpiar todos los datos que hagan falta (eliminar nulos, etc.)


In [None]:
# Tomar datos a partir de 1970-01-01 (esta fecha inclusive)



In [None]:
# Comprobar una vez mas que no haya valores nulos ni vacios



In [None]:
# Una vez hechas las limpiezas pertinentes, ver como ha quedado nuestro dataset

df_germany.describe()

In [None]:
df_germany.head(10)

In [None]:
df_germany.tail(10)

## Plot the data & Check stationarity

Y ahora vamos a averiguar si hay cierta estacionalidad implícita en los datos limpiados de temperaturas de Alemania.

In [None]:
# Hacer un plot de los datos que tenemos

plt.plot(df_germany.Avg_Temp)

In [None]:
# Definir la funcion que compruebe la estacionalidad

def stationarity_check(ts):
    # Determing rolling statistics
    roll_mean = ts.rolling(12).mean()
    # Plot rolling statistics:
    plt.plot(ts, color='green',label='Original')
    plt.plot(roll_mean, color='blue', label='Rolling Mean')
    plt.legend(loc='best')
    plt.title('Rolling Mean')
    plt.show(block=False)
    # Perform Augmented Dickey-Fuller test:
    print('Augmented Dickey-Fuller test:')
    df_test = adfuller(ts)
    df_output = pd.Series(df_test[0:4], index=['Test Statistic','p-value','#Lags Used','Number of Observations Used'])
    print("df_output: \n",df_output)
    for key,value in df_test[4].items():
        df_output['Critical Value (%s)'%key] = value
    print(df_output)

In [None]:
#Ejecutar dicha funcion

stationarity_check(df_germany.Avg_Temp)

In [None]:
# Hacer un plot de ACF (Autocorrelacion) y PACF (Autocorrelacion Parcial)

plot_acf(df_germany.Avg_Temp, lags=50)
plot_pacf(df_germany.Avg_Temp, lags=50)
plt.xlabel('lags')
plt.show()

## Select the parameters that fit best the models and forecast

Ahora que hemos visto cómo se comportan los valores que tenemos en el dataset, vamos a averiguar qué parámetros seleccionar para ajustar mejor los modelos.

Para ello, en base a estos parámetros establecidos que te dejamos a continuación, haz un cálculo de un modelo ARMA y ARIMA para poder compararlos, y en base al que mejor performance tenga, haz un ajuste y muéstralo en un gráfico.

In [None]:
# Parametros dados

p = q = range(1, 4)
print (p)

In [None]:
# Prueba de modelos ARMA



In [None]:
# Parametros dados

p = q = range(0, 4)
r = range(0,2)

In [None]:
# Prueba de modelos ARIMA



In [None]:
# Ajuste y prediccion de mejor modelo



In [None]:
# Plotteo de mejor modelo



## More forecasts (SARIMAX)

Finalmente, vamos a hacer una nueva predicción con un modelo distinto, que no sea ARMA o ARIMA, sino de tipo SARIMAX.

In [None]:
#Uso y ajuste de SARIMAX



Haz un plot de los diagnósticos del ajuste obtenido en tu modelo ajustado.

Y ahora, utiliza este modelo ajustado para predecir valores, y representa este plotting de manera visual.

Como se puede observar, el SARIMAX ha capturado mucho mejor las desviaciones de temperaturas, y por tanto permite hacer una predicción más fiel a la realidad que presenta el dataset.