In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels as sm

In [3]:
df = pd.read_csv('data/hdf_daily.csv', index_col=0, parse_dates=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 3834 entries, 2012-12-31 00:00:00+00:00 to 2023-06-30 00:00:00+00:00
Data columns (total 1 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   consommation_brute_electricite_rte  3834 non-null   float64
dtypes: float64(1)
memory usage: 59.9 KB


In [4]:
df

Unnamed: 0_level_0,consommation_brute_electricite_rte
date_heure,Unnamed: 1_level_1
2012-12-31 00:00:00+00:00,5989.000000
2013-01-01 00:00:00+00:00,5412.687500
2013-01-02 00:00:00+00:00,6450.125000
2013-01-03 00:00:00+00:00,6668.416667
2013-01-04 00:00:00+00:00,6667.354167
...,...
2023-06-26 00:00:00+00:00,4589.083333
2023-06-27 00:00:00+00:00,4635.541667
2023-06-28 00:00:00+00:00,4759.458333
2023-06-29 00:00:00+00:00,4816.062500


## 3.1 Approche statistique avec statmodels

### Pourquoi est-on si attaché au fait que notre série temporelle soit stationnaire?

La stationnarité d'une série temporelle est une condition préalable importante pour les modèles ARIMA et SARIMA car ces modèles, qui sont des régressions linéaires, font des prévisions basées sur l'hypothèse que les propriétés statistiques de la série (telles que la moyenne et la variance) sont constantes dans le temps. Cela garantit que les prédictions futures sont fiables et que les erreurs ne s'accroissent pas au fil du temps. Une série temporelle stationnaire facilite également l'identification des modèles appropriés, car les relations entre les points de données restent constantes.

### Qu’est qu’un modèle AR, à quoi correspond le paramètre p?

Un modèle AR (AutoRegressive) est un type de modèle de série temporelle qui utilise les valeurs des périodes précédentes comme variables prédictives pour prévoir la valeur actuelle. Le paramètre `p` dans le modèle AR représente le nombre de retards (ou "lags") inclus dans le modèle, c'est-à-dire le nombre de valeurs précédentes qui sont utilisées pour prédire la valeur actuelle. Par exemple, un modèle AR avec `p = 3` utiliserait les trois dernières observations dans la série pour faire une prévision pour le moment actuel.

### Qu’est ce qu’un modèle MA, à quoi correspond le paramètre q?

Un modèle MA (Moving Average) est également un type de modèle de série temporelle, mais au lieu d'utiliser les valeurs passées de la série, il utilise les erreurs de prévision des périodes précédentes pour prévoir la valeur actuelle. Le paramètre `q` représente le nombre de termes d'erreur inclus dans le modèle, signifiant le nombre d'erreurs de prévision passées qui sont utilisées comme variables prédictives.

### Qu’est ce que le modèle ARIMA et à quoi correspond le paramètre d?

Le modèle ARIMA (AutoRegressive Integrated Moving Average) est une extension du modèle ARMA qui inclut également une composante d'intégration. Le paramètre `d` représente l'ordre de différenciation nécessaire pour rendre la série temporelle stationnaire. En d'autres termes, il indique le nombre de fois que nous devons différencier la série pour obtenir une série stationnaire. Une fois la série rendue stationnaire, le modèle ARIMA utilise à la fois les composants AR et MA pour faire des prévisions.

### Qu’est ce que le modèle SARIMA et à quoi correspond le paramètre s?

Le modèle SARIMA (Seasonal ARIMA) est une extension du modèle ARIMA qui prend également en compte la saisonnalité dans la série temporelle. Le paramètre `s` représente la périodicité saisonnière de la série. Par exemple, pour des données mensuelles avec un cycle saisonnier annuel, `s` serait 12, indiquant que chaque saison dure 12 mois. Le modèle SARIMA utilise cette information pour améliorer les prévisions en tenant compte des effets saisonniers.