# Time series prediction (Part 2 - 1.5 day)

**NB objectives**
- [ ] Get to use few prediction models
- [ ] Understand what CV is for

**Required librairies**
- [ ] matplotlib
- [ ] numpy
- [ ] pandas
- [ ] seaborn
- [ ] pmdarima

## Prediction models

ARIMA est un modèle statistique pour les séries temporelles, tout comme la régression linéaire est un modèle utilisé en machine learning. Il fonctionne bien pour des ensembles de données simples qui suivent des contraintes spécifiques et lorsque vous n'avez pas suffisamment de données pour entraîner un modèle de deep learning. Découvrons la prédiction sur séries temporelles et certains concepts mathématiques avec ARIMA. 

Tout au long de ce cahier, consultez et revenez régulièrement la documentation du package pdmarima. Elle contient beaucoup d'informations utiles.
Reference: http://alkaline-ml.com/pmdarima/#

### ARIMA (in French)

#### La théorie

Le modèle ARMA (AutoRegressive Moving Average, ou autorégressif et moyenne mobile en français), est un modèle adapté aux prédictions sur toute série temporelle dont la valeur $Y$ à l'instant $t$ peut s'expliquer par les valeurs précédentes et les perturbations (bruits) précédentes.

Avant de préciser ce qu'est un jeu de donnée suivant le modèle ARIMA, précisons un jeu de donnée suivant les conditions :  

##### **Autoregressif** :

le modèle peut prédire $Y$ à l'instant $t$, notée $Y_t$, à partir des valeurs précédentes de $Y$ selon un modèle de regression linéaire, c'est à dire $Y_{t-1}, Y_{t-2}, ..., Y_0$. On note $p$ le nombre de composantes utilisées pour prédire $Y_t$, avec

> $Y_t = \sum_{i=1}^p \varphi_i\,Y_{t-i} + \varepsilon_t + c$, avec $\varepsilon_t$ une perturbation, et c une constante.

En résumé, cela signifie que la dernière valeur dépend des valeurs précédentes, que la valeur d'aujourd'hui dépend des valeurs d'hier.

##### **Moyenne mobile**:

Le modèle peut prédire la valeur $Y_t$ à partir de ses erreurs précédentes entre ses prédictions et les données réelles. Pour un modèle avec une moyenne mobile d'ordre $q$, on peut exprimer $Y_t$ de la façon suivante :

> $Y_t = \mu + \varepsilon_t + \sum_{1}^{q}\theta_q\varepsilon_{t-q}$, avec $\mu$ une constante.

**ATTENTION** rien à voir avec la moyenne mobile habituelle d'un signal temporel, comme `pd.rolling()`.

En résumé, cela signifie que le modèle essaie de coller au mieux les données du passé, mais peut faire des erreurs de variance. C'est à dire que le modèle est bon en moyenne au cours du temps, mais le signal présente du bruit autour de cette moyenne "mobile". Le modèle incorpore alors cette "variation" dans sa prédiction pour être plus juste.

##### **Intégré** :

Un modèle ARMA est adapté à des jeux de données stationnaires, c'est à dire avec une moyenne et un écart type fixe au cours du temps. Il est rare que l'on observe de telles données. De nombreux jeux de données de séries temporelles présentent des tendances sur la moyenne ou encore des saisonnalités. Pour cela, il convient de stationnariser dans un premier temps le problème. On parle **d'intégration**. Un modèle **ARIMA** est dit :

L'intégration signifie que l'on peut corriger le jeu de donnée en réalisant le modèle sur $Y'_t = Y_t - Y_{t-1}$ pour une correction d'ordre 1 (d=1) ou encore $Y''_t = Y_t - Y_{t-1} - Y_{t-2}$ pour une correction d'ordre 2 (d=2), etc...  On note $d$ l'ordre de *correction par intégration* permet de supprimer les tendances polynomiales d'ordre $d$, avec:
    
> $Ycorr_t = Y_t - \sum_{1}^{d} Y_{t-d}$

Les modèles ARIMA sont souvent notés : ARIMA(p, d, q), soit **ARIMA(2, 1, 1)** signifie :
- un modèle autoregressif d'ordre 2,
- sur des données intégrées 1 fois,
- et avec une moyenne mobile d'ordre 1.

#### En définitive:

Tout modèle ARIMA est optimisé sur la base de ces trois hypothèses: *AR*, *MA* et *I*, c'est à dire qu'il est autoregressif, respecte les conditions de la moyenne mobile, et peut être stationnaire par intégration.

Le modèle est souvent optimisé à l'aide de la méthode des moindres carrées.

Vous n'avez rien compris ? Tant pis ! Pratiquons pour rendre les choses plus évidentes.  
Si vous êtes mathématicien, aidez vos camarades et l'animateur. 

### Bit of practice

#### Discover and prepare data

1. load the data then reply and plot it.
2. Is this time serie stationary or not?
3. What is its tendancy?
4. What about heteroskedasticity?

Reply below your figures.

In [2]:
#Import required packages (to be implemented if required)
from pandas import date_range
from pmdarima.datasets import load_airpassengers

In [3]:
START_DATE = '1949-01-01'
airline = load_airpassengers(as_series=True)

#there's no datetimeindex from the bundled dataset. So let's add one.
airline.index= date_range(START_DATE, periods=len(airline), freq='MS')

`reply here`

#### Stationarity and integration (*d*) of the data

Do not forget, ARIMA works only with stationary data. If a signal is not stationary, particulary if it has not a stable mean, you could integrate it.

Remind that to integrate a signal mean to look at the difference $Y'_t = Y_t - Y_{t-1}$ and not $Y_t$ anymore.

1. look at the signal $Y_t - Y_{t-1}$
1. What about the stationarity?
1. Propose a process to prove visually or statistically that the signal is or not stationary.
4. What about the variance and how to deal with it with? What is the mathematical function that can do the job?
5. What is the proper value for *d* to build the ARIMA model?

Reply below your figures

In [None]:
# your code for the figure

`reply here`

#### Train/Test split challenges

Same as one classical machine learning problem, you should put yourself in the position where you are the most closed to the production context. That means you should create a dataset without touching it. So, realize a train / test split.

The way we split the data for time series is different than the non TS data.

1. Explain how you have to do the train/test split for TS.
2. Explain why a complete random split is a nosense for TS.
3. write the code to apply the proper train/test TS split.

In [2]:
def ts_train_test_split(data, split_date):
    # your code here
    return train, test

In [None]:
# Hold back the last twelve months as a TEST set
# train, test = ts_train_test_split(airline / airline.index.days_in_month, '1959-01-01')

In [None]:
# Plot train and test sets

#### Déterminer P et Q

Afin de valider les paramètres $p$ (*AR*) et $q$ (*MA*) du modèle ARIMA, on peut calculer l'auto-corrélation des données temporelles.
- Pour déterminer $p$ nous utiliserons l'autocorrelation des données par une donnée passée avec un décalage temporel (appelé *lag* en anglais). On utilisera pour cela la PACF (*Partial Auto Correlation Function*). La fonction PACF cherche à déterminer la correlation entre les données $Y_t$ et $Y_{t-i}$. La valeur de $p$ est déterminée par $PACF_i \approx 0$  
- pour déterminer $q$, on utilisera l'ACF (*Auto Correlation Function*). La fonction ACF calcule la correlation entre la série temporelle et elle-même avec un décalage temporel. Soit calculer la correlation de $Y_(t, t-1, ...)$ avec $Y_(t-i, t-i-1, ...)$.


To validate the parameters $p$ (AR) and $q$ (MA) of the ARIMA model, one can compute the autocorrelation of the time series data.
- To determine $p$, we will use the autocorrelation of the data against a lagged version of itself. For this purpose, we will use the PACF (Partial Auto Correlation Function). The PACF seeks to determine the correlation between the data $Y_t$ and $Y_{t-i}$. The value of $p$ is determined by $PACF_i \approx 0$.
- To determine $q$, we will use the ACF (Auto Correlation Function). The ACF calculates the correlation between the time series and itself at a lagged time. This means calculating the correlation of $Y_{(t, t-1, ...)}$ with $Y_{(t-i, t-i-1, ...)}$.

Answer the questions:
1. Look at the documentation of pdmarima for acf and pacf.
2. Can you explain what you observe on this data? What means the value? If there is kind of periodicity, what does it means? Reply below your figures.
3. Create a figure with the ACF and the PACF for the data with explaination. Do it with Paint or something else to do it fast.
4. From your observation, what should be the parameter P, I and Q of the ARIMA model? Reply below your figures.

In [None]:
# ACF & PACF plots
from pmdarima.utils import acf, pacf
import matplotlib.pyplot as plt
import numpy as np

your_stationary_data = # your data
n_sample = len(your_stationary_data)
lag_acf = acf(your_stationary_data, nlags=25)
lag_pacf = pacf(your_stationary_data, nlags=25)

pct_95 = 1.96/np.sqrt(n_sample)

plt.figure(figsize=(15, 3))
# Plot ACF:
plt.subplot(121)
plt.stem(lag_acf)
plt.axhline(y=0, linestyle='--', color='gray')
plt.axhline(y=-pct_95, linestyle='--', color='gray')
plt.axhline(y=pct_95, linestyle='--', color='gray')
# plt.axvline(x=q, color='black', linestyle='--', label=f'q={q}')
# plt.legend()
plt.title('Autocorrelation Function')            

# Plot PACF
plt.subplot(122)
plt.stem(lag_pacf)
plt.axhline(y=0, linestyle='--', color='gray')
plt.axhline(y=-pct_95, linestyle='--', color='gray') # represent 95 % of a gaussian data
plt.axhline(y=pct_95, linestyle='--', color='gray') # represente 95 % of a gaussian data
# plt.axvline(x=p, color='black', linestyle='--', label=f'p={p}')
plt.title('Partial Autocorrelation Function')
# plt.legend()
plt.show()

`reply here`

## Your first ARIMA model

### Train and evaluate your model

1. Create your ARIMA model with pdmarima framework.
1. Train your model with proper treatment.
1. Create a plot with the original data and the prediction for test. Share your observation.
1. Evaluate your model with the good metric. Justify your choice!

In [None]:
# your code here

**Observations / Conclusion**:  
`write here`

### Cross-validation with ARIMA

1. Use the documentation of pdmarima to realize the CV and get the CV score.
2. What are the hyperparameters? What are their impacts?

In [None]:
# your code here

**Observations / Conclusion**:  
`write here`