# Objectifs

L'objectif de l'exercice d'aujourd'hui est de vous familiariser avec les modèles ARIMA, en apprenant étape par étape comment ils fonctionnent et comment ajuster un modèle ARIMA sur un ensemble de données en utilisant la bibliothèque *statsmodels*.

# AutoRegressive Integrated Moving Average (ARIMA)
Les modèles ARIMA offrent une autre approche pour la prévision de séries temporelles. Le lissage exponentiel et les modèles ARIMA sont les deux approches les plus utilisées pour la prévision de séries temporelles, et offrent des approches complémentaires au problème. Alors que les modèles de lissage exponentiel sont basés sur une description de la tendance et de la saisonnalité dans les données, les modèles ARIMA visent à décrire les autocorrélations dans les données.

Une série temporelle stationnaire est une série dont les propriétés statistiques ne dépendent pas du moment où la série est observée. Ainsi, les séries temporelles avec des tendances, ou avec de la saisonnalité, ne sont pas stationnaires - la tendance et la saisonnalité affecteront la valeur de la série temporelle à différents moments. D'autre part, une série de bruit blanc est stationnaire - peu importe quand vous l'observez, elle devrait avoir le même aspect à n'importe quel moment.

Certains cas peuvent être perturbants - une série temporelle avec un comportement cyclique (mais sans tendance ou saisonnalité) est stationnaire. C'est parce que les cycles ne sont pas d'une longueur fixe, donc avant d'observer la série, nous ne pouvons pas être sûrs de l'endroit où se trouveront les pics et les creux des cycles.

En général, une série temporelle stationnaire n'aura pas de motifs prévisibles à long terme. Les tracés temporels montreront la série comme étant approximativement horizontale (bien que certains comportements cycliques soient possibles), avec une variance constante.

Les fonctions d'autocorrélation partielle (PACF) sont utilisées pour mesurer le degré d'association entre les observations aux temps $t$ et $t - k$, $Y_t$ et $Y_{t-k}$, lorsque les effets des autres décalages temporels, $1, \ldots, k - 1$, sont supprimés. L'utilité des autocorrélations partielles peut être comprise dans l'exemple suivant. Supposons qu'il y ait une autocorrélation significative entre $Y_t$ et $Y_{t-1}$. Cela implique qu'il y a aussi une corrélation significative entre $Y_t$ et $Y_{t-2}$, puisqu'ils sont à un pas de temps l'un de l'autre. Il y a donc une autocorrélation significative entre $Y_t$ et $Y_{t-2}$, parce qu'ils sont tous deux corrélés avec $Y_{t-1}$. Cependant, on ne peut savoir s'il y a une relation indépendante entre $Y_t$ et $Y_{t-2}$ que si l'effet de $Y_{t-1}$ peut être partiellement éliminé. Les autocorrélations partielles calculent les vraies corrélations entre $Y_t$ et $Y_{t-1}$, $\ldots$, $Y_k$ en utilisant une équation de régression connue sous le nom d'autorégression (AR) :

$$
Y_t = b_0 + b_1Y_{t-1} + b_2Y_{t-2} + \ldots + b_kY_{t-k}
$$

## Importer pandas
Pandas est une bibliothèque de manipulation de données en Python. Elle fournit des structures de données et des fonctions nécessaires pour manipuler des données structurées. Elle est construite sur deux bibliothèques Python de base - Matplotlib pour la visualisation de données et NumPy pour les opérations mathématiques.

L'une des caractéristiques clés de Pandas est sa capacité à lire et à écrire des données à partir d'une variété de formats, y compris, mais sans s'y limiter, les fichiers CSV, les fichiers texte, les bases de données SQL et les feuilles de calcul Excel. La fonction `read_excel` est spécifiquement utilisée pour lire les fichiers Excel. Elle renvoie un DataFrame.

In [None]:
# Exercice
# Importe read_excel de pandas


<details>
<summary><b>Cliquez ici pour un indice</b></summary>

from p import x

</details>

In [None]:
# Exercice
# Utilisez la fonction read_excel pour charger le fichier "DowJones.xls" en mémoire. Utilisez la feuille Data2.
# Définissez "header" à 0 et parse_dates à True
series =

<details>
<summary><b>Cliquez ici pour un indice</b></summary>

series = function('nom_du_fichier', sheet_name='XYZ', header=0,  parse_dates=True)

</details>

In [None]:
# Exercice
# utilisez la fonction hist de pandas pour tracer les donnes de la colonne DowJones.

<details>
<summary><b>Cliquez ici pour un indice</b></summary>

dataframe['colonne'].hist(bins=100)

</details>

## Matplotlib pyplot
Pyplot est une collection de fonctions dans la populaire bibliothèque de visualisation Matplotlib en Python. Il fournit une interface similaire à MATLAB pour la création de graphiques et de diagrammes. Pyplot est couramment utilisé pour créer des graphiques linéaires, des graphiques à points, des graphiques à barres, des histogrammes, des graphiques 3D, et bien plus encore.

L'une des caractéristiques clés de Pyplot est sa capacité à créer facilement des graphiques avec seulement quelques commandes.

In [None]:
# Exercice
#Importe pyplot de matplotlib


In [None]:
# Exercice
# Créez un array DowJones_modified et remplissez-le avec la colonne DowJones du dataframe series et ajoutez 1000
# à chaque entrée dans une boucle for. Tracez ce nouveau tableau comme un histogramme

<details>
<summary><b>Cliquez ici pour un indice</b></summary>

array = []
    

for i in range(0,df['column1'].shape[0]):
    
    array.append(df['column1'].iloc[i]+ 1000)
    
pyplot.hist(array, bins=100)

</details>

In [None]:
# Exercice
# importe de  statsmodels les fonctions plot_acf, plot_pacf

<details>
<summary><b>Cliquez ici pour un indice</b></summary>

from statsmodels.graphics.tsaplots import x

</details>

In [None]:
# Exercice
# utilisez la fonction plot de pyplot pour tracer la colonne Dates de la série sur l'axe des x et DowJones sur l'axe des y
fig, ax = pyplot.subplots(figsize=(12,10))

# pyplot....

pyplot.title("Données Dow Jones vs temps")

<details>
<summary><b>Cliquez ici pour un indice</b></summary>

pyplot.plot(df['column1'],series['column2'])

</details>

Le graphique des données du Dow Jones par rapport au temps montre une saisonnalité et n'est donc pas stationnaire.

In [None]:
# Tracer l'ACF sur 50 décalages temporels
series = read_excel('DowJones.xls', sheet_name='Data2', header=0, index_col=0, parse_dates=True)
plot_acf(series, title='fonction d\'autocorrélation de la série temporelle Dow Jones', lags=50)

In [None]:
# Tracer le PACF sur 50 décalages temporels
plot_pacf(series, title='Autocorrélations partielles de la série temporelle Dow Jones', lags=50)
pyplot.show()

### Message à retenir
Le PACF, en conjonction avec l'ACF, a de nombreuses applications ; en particulier, il permet de déterminer si une série temporelle est un bruit blanc, stationnaire ou saisonnière. Les définitions du bruit blanc et de la stationnarité, ainsi que des illustrations connexes, sont fournies ci-dessous. De plus, l'ACF et le PACF peuvent être utiles pour identifier les modèles ARIMA, en particulier les modèles AR et MA purs.

# Un modèle de bruit blanc

Lors des tests d'adéquation, un modèle de prévision est considéré comme suffisamment adapté à une
application particulière si les erreurs de prévision sont purement aléatoires. Les résidus sont alors décrits comme
du bruit blanc. Un exemple simple d'un modèle de bruit blanc est donné par :

$$ Y_t = c + e_t $$

où :
- c représente un niveau constant global
- $e_t$ est une composante d'erreur aléatoire

Théoriquement, tous les coefficients d'autocorrélation pour les séries de nombres aléatoires doivent être nuls.
Mais comme nous avons des échantillons finis, chacune des autocorrélations de l'échantillon ne sera pas exactement nulle. Il
a été démontré que, si une série temporelle est un bruit blanc, les coefficients d'autocorrélation et les coefficients d'autocorrélation partielle
sont approximativement indépendants et normalement distribués avec une moyenne
zéro et un écart type $(\frac{1}{\sqrt{n}})$, où \(n\) est le nombre d'observations dans la série. Par conséquent, il
est utile de tracer l'**ACF** et le **PACF** avec une plage $(\pm \frac{1.96}{\sqrt{n}})$, lors de l'analyse des coefficients qui sont
significatifs ou pour déterminer si les données sont un bruit blanc. Si des coefficients se situent en dehors de cette plage,
les données ne sont probablement pas un bruit blanc.

In [None]:
# on importe les librairies nécessaires
from random import gauss
from random import seed
from pandas import Series

Exécutez la cellule ci-dessous pour générer des données pour une série temporelle de bruit blanc.

In [None]:
# initialiser le générateur de nombres aléatoires
seed(1)
# créer une série de bruit blanc
series = [gauss(0.0, 1.0) for i in range(1000)]

# Une fois créée, nous pouvons envelopper la liste dans une série Pandas pour plus de commodité.
series = Series(series)

# statistiques récapitulatives de la série générée artificiellement
print('Statistiques de la série générée artificiellement:')
print(series.describe())

# tracé de la série générée artificiellement
series.plot(title='Tracé temporel d\'un modèle de bruit blanc')
pyplot.show()

In [None]:
# Exercice
# créez le tracé de l'histogramme de la série générée artificiellement

<details>
<summary><b>Cliquez ici pour le code</b></summary>

series.hist()

</details>

In [None]:
# Exercice
# tracez le graphique ACF de la série temporelle du bruit blanc générée artificiellement, avec 50 décalages

<details>
<summary><b>Cliquez ici pour le code</b></summary>

plot_acf(series, title='ACF d\'un modèle de bruit blanc', lags=50)

</details>

In [None]:
# Exercice
# Tracer le PACF de la série temporelle du bruit blanc générée artificiellement, avec 50 décalages

# Suppression de la non-stationnarité : la méthode des différences

Il est important de supprimer les tendances, ou **non-stationnarité**, des données de séries temporelles avant la construction du modèle, car ces autocorrélations dominent l'ACF. Une façon de supprimer la non-stationnarité est par la méthode des différences. La série différenciée est définie comme le changement entre chaque observation dans la série temporelle originale :

$$Y_t' = Y_t - Y_{t-1}$$

Parfois, la prise de premières différences est insuffisante pour supprimer la non-stationnarité. Dans ce cas, les différences de second ordre produisent généralement l'effet désiré :

$$Y_t'' = Y_t' - Y_{t-1}'$$

In [None]:
# Exercice
# importez le fichier "Electricity.xls" qui a une feuille ELEC, sélectionnez header=0, index_col=0 et , parse_dates=True
series = 

# Tracés temporels, ACF et PACF pour les données originales
pyplot.plot(series)
pyplot.title('Tracé temporel des données originales')

In [None]:
# Exercice
# tracez l'ACF de la série avec 50 décalages (définissez comme titre 'Tracé ACF des données originales')

In [None]:
# Exercice
# tracez le PACF de la série avec 50 décalages (définissez comme titre 'Tracé PACF des données originales')

Exécutez maintenant la cellule ci-dessous et observez les tracés pour la série différenciée saisonnièrement.

In [None]:
# Différence saisonnière
X = series.values
SeasDiff = list()
for i in range(12, len(X)):
    value = X[i] - X[i - 12]
    SeasDiff.append(value)

# Tracés temporels, ACF et PACF pour la série différenciée saisonnièrement
pyplot.plot(SeasDiff)
pyplot.title('Tracé temporel de la série différenciée saisonnièrement')

In [None]:
# Exercice
# tracez l'ACF de SeasDiff avec 50 décalages (définissez comme titre 'Tracé ACF de la série différenciée saisonnièrement')

In [None]:
# Exercice
# tracez le PACF de SeasDiff avec 50 décalages (définissez comme titre 'Tracé PACF de la série différenciée saisonnièrement')

Exécutez la cellule ci-dessous et regardez les tracés pour la série différenciée saisonnièrement et en première différence.

In [None]:
### Différence saisonnière + première différence
Y = SeasDiff
SeasFirstDiff = list()
for i in range(1, len(Y)):
    value = Y[i] - Y[i - 1]
    SeasFirstDiff.append(value)
pyplot.plot(SeasFirstDiff)
pyplot.title('Tracé temporel de la série différenciée saisonnièrement et en première différence')
plot_acf(SeasFirstDiff, title='Tracé ACF de la série différenciée saisonnièrement et en première différence', lags=50)
plot_pacf(SeasFirstDiff, title='Tracé PACF de la série différenciée saisonnièrement et en première différence', lags=50)
pyplot.show()

# Modèles d'autorégression (AR)

Les modèles qui utilisent l'équation d'autorégression (AR) sont appelés modèles AR. Ils sont
classifiés par le nombre de décalages temporels, \(p\), utilisés dans l'autorégression. En général, un modèle AR
d'ordre \(p\), ou modèle AR(\(p\)), est écrit comme suit :

$$ Y_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + ... + \phi_p Y_{t-p} + e_t $$

où :
- c représente un niveau constant global.
- $(\phi_j)$ sont des paramètres à déterminer.
- $(e_t)$ est le terme d'erreur.

Il y a des contraintes sur les valeurs admissibles de $(\phi_j)$ :
- Pour $(p = 1)$, $(-1 < \phi_1 < 1)$.
- Pour $(p = 2$), $(-1 < \phi_2 < 1$), $(\phi_2 + \phi_1 < 1$), et $(\phi_2 - \phi_1 < 1$).
- Pour $(p \geq 3$), des conditions plus compliquées s'appliquent.

Un exemple de modèle AR(1) est :

$$ Y_t = 3 + 0.7 Y_{t-1} + e_t $$

où $(e_t$) suit une distribution normale de moyenne 0 et de variance 1. 

Exécutez la cellule ci-dessous pour regarder les tracés d'un exemple de modèle AR(1).

In [None]:
series = read_excel('DataAR1model.xls', sheet_name='ARdata', usecols = [1],
                    header=0)

# Tracés temporels, ACF et PACF pour les données originales
pyplot.plot(series)
pyplot.title('Tracé temporel des données AR1')
plot_acf(series, title='Tracé ACF des données AR1', lags=20)
plot_pacf(series, title='Tracé PACF des données AR1', lags=20)
pyplot.show()

Pour un modèle **AR(1)**, typiquement l'**ACF** montre des autocorrélations qui diminuent jusqu'à zéro, tandis qu'il n'y a qu'un seul pic dans le **PACF** au décalage 1. Avec des données empiriques ou de la vie réelle, les effets aléatoires donneront une image plus variée, comme le montre l'exemple de variance plus élevée ci-dessus.

L'expression générale du modèle **AR** peut être réécrite en notation de décalage arrière comme suit :

$$(1 - \phi_1 B - ... - \phi_p B^p)Y_t = c + e_t$$

# Modèles de moyenne mobile (MA)

En plus de la régression sur les observations à des décalages temporels précédents, comme dans les modèles AR, nous pouvons également faire une régression sur les termes d'erreur à des décalages temporels précédents. De tels modèles sont appelés modèles de moyenne mobile (MA) (rien à voir avec la moyenne mobile décrite au chapitre 2). Là encore, un modèle MA est classé par le nombre de décalages temporels, q, utilisés dans la régression. Un MA(q) général est écrit comme suit :

$ Y_t = c + e_t - \theta_1 e_{t-1} - \ldots - \theta_q e_{t-q} $

où :
- c est une constante,
- $(\theta_j$) sont des paramètres à déterminer, et
- $(e_t$) sont les termes d'erreur.

Comme pour les modèles AR, il y a des restrictions sur les valeurs admissibles de \(\theta_j\) :
- Pour $(q = 1$), $(-1 < \theta_1 < 1$).
- Pour $(q = 2$), $(-1 < \theta_2 < 1$), $(\theta_2 + \theta_1 < 1$), et $(\theta_2 - \theta_1 < 1$).
- Pour $(q \geq 3$), des conditions plus compliquées s'appliquent.

Un exemple de modèle MA(1) est :

$ Y_t = 10 + e_t - 0.7e_{t-1} $

où $(e_t$) suit une distribution normale de moyenne 0 et de variance 1. 

Exécutez la cellule ci-dessous pour regarder les tracés pour un exemple de modèle MA(1).

In [None]:
series = read_excel('DataMA1model.xls', sheet_name='MAdata', usecols = [1],
                    header=0)

# Tracés temporels, ACF et PACF pour les données originales
pyplot.plot(series)
pyplot.title('Tracé temporel des données MA1')
plot_acf(series, title='Tracé ACF des données MA1', lags=20)
plot_pacf(series, title='Tracé PACF des données MA1', lags=20)
pyplot.show()

Pour un modèle **MA(1)**, typiquement l'**ACF** ne montre qu'un seul pic au décalage 1, tandis que le **PACF** montre des autocorrélations partielles qui diminuent jusqu'à zéro. Avec des données empiriques ou de la vie réelle, les effets aléatoires donneront une image légèrement plus variée, comme avec l'exemple de variance plus élevée ci-dessus. Ainsi, on peut voir que le modèle **MA(1)** est l'image miroir du modèle **AR(1)**, en ce qui concerne l'ACF et le PACF.

L'expression générale du modèle **MA** peut être réécrite en notation de décalage arrière comme suit :

$$Y_t = c + (1 - \theta_1 B - ... - \theta_q B^q)e_t$$

# Modèles ARIMA
Les modèles AR et MA précédemment discutés peuvent être combinés avec la prise de différences pour donner la série de modèles **ARIMA(p, d, q)**, qui ont été discutés en détail en classe ce matin. Les cellules ci-dessous vous montrent un exemple de comment un modèle ARIMA est ajusté sur un ensemble de données décrivant un taux de production de matériaux de construction au fil du temps, en utilisant la méthode **tsa.statespace.SARIMAX** implémentée dans *statsmodel*.

Documentation : https://www.statsmodels.org/dev/generated/statsmodels.tsa.statespace.sarimax.SARIMAX.html

La fonction SARIMAX prend en entrée le dataframe pandas *df* avec les données, puis deux tuples spécifiant les paramètres *order* et *seasonal_order* pour le modèle. **Nous verrons dans le prochain cours comment choisir des valeurs optimales de ces paramètres**. Aujourd'hui, exécutez simplement les cellules ci-dessous et familiarisez-vous avec le code utilisé pour ajuster le modèle avec des paramètres donnés sur un ensemble de données donné et obtenir des prédictions.

In [None]:
import pandas as pd
from pandas import read_excel
import matplotlib.pyplot as plt
import statsmodels.api as sm
plt.style.use('fivethirtyeight')

#==================================================================
# Chargement de l'ensemble de données
df = read_excel('BuildingMaterials.xls', sheet_name='Data', header=0,
                index_col=0, parse_dates=True)
df.index.freq = 'MS'
#==================================================================

In [None]:
# Ajustement du modèle ARIMA et impression des statistiques associées
# ARIMA(0, 1, 1)(0,1,1)12 dans ce cas ;
# celui-ci est basé sur le modèle de template MA1
mod = sm.tsa.statespace.SARIMAX(df, order=(1,1,1), seasonal_order=(0,1,1,12))
results = mod.fit(disp=False)
print(results.summary())
#==================================================================

La cellule ci-dessous montre comment tracer, sur les données originales, la partie de la prévision qui est réellement ajustée aux données originales, pour l'évaluation de la précision.

In [None]:
# impression de la partie des prévisions ajustées aux données originales (pour l'évaluation de la précision)
# la date de début doit être fournie ; elle doit donc être un moment dans la série temporelle originale ;
# dans ce cas, il s'agit de commencer le 01 janvier 2000
pred = results.get_prediction(start=pd.to_datetime('2000-01-01'), dynamic=False)

# impression des prévisions à un pas en avant avec l'ensemble de données original ;
# donc, le point de départ (année) de l'ensemble de données est nécessaire
# afin de construire le tracé de la série originale
ax = df['1986':].plot(label='Données originales')
pred.predicted_mean.plot(ax=ax, label='Prévision à un pas en avant', alpha=.7)
plt.legend()
plt.show()

La cellule ci-dessous montre comment faire des prédictions 20 étapes à l'avance dans le futur en utilisant le modèle ARIMA ajusté, et les tracer après les données originales.

In [None]:
# Obtenir une prévision 20 étapes à l'avance dans le futur
pred_uc = results.get_forecast(steps=20)

# Tracer les prévisions à l'avance
ax = df.plot(label='Données originales')
pred_uc.predicted_mean.plot(ax=ax, label='Valeurs prévues', title='Tracé de prévision avec intervalle de confiance')
plt.legend()
plt.show()

Comme exercice, dans la cellule ci-dessous, obtenez les prévisions 100 étapes à l'avance, et tracez-les avec les données originales.

In [None]:
# Obtenir une prévision 100 étapes à l'avance dans le futur
pred_uc = 

# Tracer les prévisions à l'avance
ax = df.plot(

Enfin, les trois cellules ci-dessous utilisent le modèle ARIMA ajusté pour faire des prédictions, puis comparent les prédictions aux vraies données et évaluent la MSE (Mean Squared Error).

In [None]:
# Obtenir la prévision
y_forecasted = pred.predicted_mean
print(y_forecasted)

In [None]:
# Récupérer les vraies données du dataframe pandas
y_truth = df['2000-01-01':]
print(y_truth)

In [None]:
# Calculer l'erreur quadratique moyenne
MSE = ((y_forecasted.values - y_truth.values[:,0]) ** 2).mean()
print('L\'erreur quadratique moyenne des prévisions est {}'.format(round(MSE, 2)))