# TP ‚Äî Mod√®les statistiques pour s√©ries temporelles (ARIMA, SARIMA, Auto-ARIMA) avec `statsmodels`

Ce notebook est con√ßu pour √™tre ex√©cut√© **en local** ou sur **Google Colab**.

üéØ Objectif : apprendre les bases des mod√®les statistiques de forecasting sur une **s√©rie standard**,
et comprendre l'impact des choix de mod√®les (ARIMA vs SARIMA) sur les performances.

Nous utiliserons le dataset classique **AirPassengers** (nombre de passagers a√©riens mensuels).
Il contient une tendance + une saisonnalit√© annuelle marqu√©e, id√©al pour d√©buter.

---

## Plan
1. Chargement et visualisation des donn√©es
2. D√©coupage train/test + m√©triques (MAE, RMSE, MAPE)
3. D√©composition (tendance / saisonnalit√© / r√©sidu)
4. Stationnarit√© et transformations (log, diff√©renciation)
5. Mod√®les : Baseline, ARIMA, SARIMA
6. **Auto-ARIMA / Auto-SARIMA** (s√©lection automatique des param√®tres)
7. Comparaison + interpr√©tation + exercices

> Conseils Colab : *Runtime ‚Üí CPU (suffisant)*


In [20]:

!pip install --upgrade numpy>=1.23

In [18]:
!pip cache purge

Files removed: 24


In [21]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import statsmodels.api as sm
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.statespace.sarimax import SARIMAX
from statsmodels.tsa.arima.model import ARIMA

import pmdarima as pm

plt.rcParams["figure.figsize"] = (12, 4)


AttributeError: module 'numpy._core._multiarray_umath' has no attribute '_blas_supports_fpe'

## 1) Charger un dataset standard : AirPassengers

Le dataset AirPassengers (mensuel) est souvent utilis√© pour illustrer :
- une **tendance** (le trafic augmente sur le long terme)
- une **saisonnalit√©** (pics r√©currents chaque ann√©e)

Nous allons : charger ‚Üí mettre un index temporel ‚Üí visualiser.


In [None]:
# Dataset AirPassengers via statsmodels
data = sm.datasets.airline.load_pandas().data.copy()
data.head()


In [None]:
# Pr√©parer un DataFrame propre avec un index datetime
df = data.rename(columns={"passengers": "y"})
df["month"] = pd.to_datetime(df["month"])
df = df.set_index("month").asfreq("MS")  # fr√©quence mensuelle (month start)
df.head()


In [None]:
# Visualiser la s√©rie
plt.plot(df.index, df["y"], label="Passagers")
plt.title("AirPassengers ‚Äî s√©rie mensuelle")
plt.xlabel("Date")
plt.ylabel("Nombre de passagers")
plt.grid(True, alpha=0.2)
plt.show()


## 2) D√©composition : tendance / saisonnalit√© / r√©sidu

Pour comprendre visuellement :
- tendance (long terme)
- saisonnalit√© (p√©riodique)
- bruit (r√©sidu)

Ici, une d√©composition **multiplicative** est adapt√©e (la variance augmente avec le niveau).


In [None]:
decomp = seasonal_decompose(df["y"], model="multiplicative", period=12)
decomp.plot()
plt.suptitle("D√©composition multiplicative (p√©riode = 12 mois)", y=1.02)
plt.show()


## 3) D√©coupage train/test + m√©triques

On garde les **derniers mois** comme test (simulation d'une vraie pr√©vision).

M√©triques :
- **MAE** : erreur absolue moyenne
- **RMSE** : p√©nalise plus les grosses erreurs
- **MAPE** : erreur en % (attention si valeurs proches de 0)

üëâ Baseline :
- **na√Øve** : la pr√©vision = derni√®re valeur observ√©e (r√©f√©rence minimale).


In [None]:
def mae(y_true, y_pred):
    y_true = np.asarray(y_true); y_pred = np.asarray(y_pred)
    return np.mean(np.abs(y_true - y_pred))

def rmse(y_true, y_pred):
    y_true = np.asarray(y_true); y_pred = np.asarray(y_pred)
    return np.sqrt(np.mean((y_true - y_pred)**2))

def mape(y_true, y_pred):
    y_true = np.asarray(y_true); y_pred = np.asarray(y_pred)
    eps = 1e-9
    return np.mean(np.abs((y_true - y_pred) / (y_true + eps))) * 100


In [None]:
# Split
TEST_SIZE = 24  # 24 derniers mois
train = df.iloc[:-TEST_SIZE].copy()
test  = df.iloc[-TEST_SIZE:].copy()

print("Train:", train.index.min(), "‚Üí", train.index.max(), "n=", len(train))
print("Test :", test.index.min(), "‚Üí", test.index.max(), "n=", len(test))


In [None]:
# Baseline naive: y_hat(t) = derni√®re valeur observ√©e
naive_pred = np.repeat(train["y"].iloc[-1], len(test))

print("Baseline naive")
print("MAE :", mae(test["y"], naive_pred))
print("RMSE:", rmse(test["y"], naive_pred))
print("MAPE:", mape(test["y"], naive_pred))


In [None]:
# Plot baseline
plt.plot(train.index, train["y"], label="train")
plt.plot(test.index, test["y"], label="test")
plt.plot(test.index, naive_pred, label="baseline naive")
plt.title("Baseline naive (derni√®re valeur)")
plt.grid(True, alpha=0.2)
plt.legend()
plt.show()


## 4) Stationnarit√© (intuition) + test ADF

ARIMA suppose que la s√©rie est (au moins approximativement) stationnaire apr√®s transformations.

Test ADF (Augmented Dickey-Fuller) :
- H0 : *la s√©rie a une racine unitaire* (non-stationnaire)
- si p-value < 0.05 ‚Üí on rejette H0 ‚Üí plut√¥t stationnaire

‚ö†Ô∏è C'est un indicateur, pas une v√©rit√© absolue.


In [None]:
def adf_test(series, name=""):
    result = adfuller(series.dropna(), autolag="AIC")
    print(f"ADF test {name}")
    print("  ADF statistic:", result[0])
    print("  p-value      :", result[1])
    print("  lags used    :", result[2])
    print("  nobs         :", result[3])
    print()

adf_test(train["y"], "sur y (train)")


### Transformations utiles : log + diff√©renciation

- **log(y)** stabilise la variance (utile quand l'amplitude augmente avec le niveau)
- **diff(log(y))** aide √† enlever la tendance (d=1)

On observe ensuite si la stationnarit√© s'am√©liore.


In [None]:
# Log-transform
train_log = np.log(train["y"])
test_log  = np.log(test["y"])

# Diff√©rence (d=1)
train_log_diff = train_log.diff()

adf_test(train_log, "log(y)")
adf_test(train_log_diff, "diff(log(y))")


In [None]:
plt.figure(figsize=(12,3))
plt.plot(train_log, label="log(y)")
plt.title("Train ‚Äî log(y)")
plt.grid(True, alpha=0.2)
plt.legend()
plt.show()

plt.figure(figsize=(12,3))
plt.plot(train_log_diff, label="diff(log(y))")
plt.title("Train ‚Äî diff(log(y))")
plt.grid(True, alpha=0.2)
plt.legend()
plt.show()


## 5) ARIMA (non saisonnier)

Notation : ARIMA(p, d, q)

Pour d√©buter, on choisit un mod√®le simple : **ARIMA(1,1,1)** sur **log(y)**, puis on revient √† l'√©chelle originale via `exp`.


In [None]:
order_arima = (1, 1, 1)

model_arima = ARIMA(train_log, order=order_arima)
res_arima = model_arima.fit()
print(res_arima.summary())


In [None]:
# Forecast ARIMA
fc_arima_log = res_arima.get_forecast(steps=len(test)).predicted_mean
fc_arima = np.exp(fc_arima_log)

print("ARIMA", order_arima)
print("MAE :", mae(test["y"], fc_arima))
print("RMSE:", rmse(test["y"], fc_arima))
print("MAPE:", mape(test["y"], fc_arima))


In [None]:
plt.plot(train.index, train["y"], label="train")
plt.plot(test.index, test["y"], label="test")
plt.plot(test.index, fc_arima, label=f"ARIMA{order_arima}")
plt.title("Pr√©vision ARIMA (sur log(y))")
plt.grid(True, alpha=0.2)
plt.legend()
plt.show()


## 6) SARIMA (saisonnier) via SARIMAX

SARIMA(p,d,q)√ó(P,D,Q,s) ajoute une composante saisonni√®re.

Configuration classique de d√©part pour AirPassengers :
- order = (1, 1, 1)
- seasonal_order = (1, 1, 1, 12)

On entra√Æne sur **log(y)**.


In [None]:
order = (1, 1, 1)
seasonal_order = (1, 1, 1, 12)

sarima = SARIMAX(
    train_log,
    order=order,
    seasonal_order=seasonal_order,
    enforce_stationarity=False,
    enforce_invertibility=False
)
res_sarima = sarima.fit(disp=False)
print(res_sarima.summary())


In [None]:
# Forecast SARIMA
fc_sarima_log = res_sarima.get_forecast(steps=len(test)).predicted_mean
fc_sarima = np.exp(fc_sarima_log)

print("SARIMA", order, "x", seasonal_order)
print("MAE :", mae(test["y"], fc_sarima))
print("RMSE:", rmse(test["y"], fc_sarima))
print("MAPE:", mape(test["y"], fc_sarima))


In [None]:
plt.plot(train.index, train["y"], label="train")
plt.plot(test.index, test["y"], label="test")
plt.plot(test.index, fc_arima, label=f"ARIMA{order_arima}")
plt.plot(test.index, fc_sarima, label=f"SARIMA{order}x{seasonal_order}")
plt.title("Comparaison ARIMA vs SARIMA (sur log(y))")
plt.grid(True, alpha=0.2)
plt.legend()
plt.show()


## 7) Auto-ARIMA / Auto-SARIMA (s√©lection automatique des param√®tres)

Au lieu de choisir (p,d,q) √† la main, **Auto-ARIMA** explore plusieurs configurations et s√©lectionne un mod√®le selon un crit√®re (souvent **AIC**).

‚úÖ Avantages :
- bon point de d√©part pour d√©buter
- √©vite de tester trop de mod√®les manuellement

‚ö†Ô∏è √Ä retenir :
- Auto-ARIMA ne remplace pas l'analyse : il faut v√©rifier les r√©sidus et la coh√©rence du mod√®le.


In [None]:
# Auto-ARIMA (non saisonnier) sur log(y)
auto_arima_model = pm.auto_arima(
    train_log,
    seasonal=False,
    stepwise=True,
    suppress_warnings=True,
    error_action="ignore",
    trace=True
)

print(auto_arima_model.summary())
print("Best ARIMA order:", auto_arima_model.order)


In [None]:
# Forecast Auto-ARIMA
fc_auto_arima_log = auto_arima_model.predict(n_periods=len(test))
fc_auto_arima = np.exp(fc_auto_arima_log)

print("Auto-ARIMA", auto_arima_model.order)
print("MAE :", mae(test["y"], fc_auto_arima))
print("RMSE:", rmse(test["y"], fc_auto_arima))
print("MAPE:", mape(test["y"], fc_auto_arima))


In [None]:
# Auto-SARIMA (saisonnier) sur log(y) avec m=12
auto_sarima_model = pm.auto_arima(
    train_log,
    seasonal=True,
    m=12,
    stepwise=True,
    suppress_warnings=True,
    error_action="ignore",
    trace=True
)

print(auto_sarima_model.summary())
print("Best SARIMA order:", auto_sarima_model.order)
print("Best seasonal order:", auto_sarima_model.seasonal_order)


In [None]:
# Forecast Auto-SARIMA
fc_auto_sarima_log = auto_sarima_model.predict(n_periods=len(test))
fc_auto_sarima = np.exp(fc_auto_sarima_log)

print("Auto-SARIMA", auto_sarima_model.order, "x", auto_sarima_model.seasonal_order)
print("MAE :", mae(test["y"], fc_auto_sarima))
print("RMSE:", rmse(test["y"], fc_auto_sarima))
print("MAPE:", mape(test["y"], fc_auto_sarima))


In [None]:
# Plot comparaison (tous)
plt.figure(figsize=(12,4))
plt.plot(train.index, train["y"], label="train")
plt.plot(test.index, test["y"], label="test")

plt.plot(test.index, naive_pred, label="Naive")
plt.plot(test.index, fc_arima, label=f"ARIMA{order_arima}")
plt.plot(test.index, fc_sarima, label=f"SARIMA{order}x{seasonal_order}")
plt.plot(test.index, fc_auto_arima, label=f"Auto-ARIMA{auto_arima_model.order}")
plt.plot(test.index, fc_auto_sarima, label=f"Auto-SARIMA{auto_sarima_model.order}x{auto_sarima_model.seasonal_order}")

plt.title("Comparaison : Baseline vs ARIMA/SARIMA vs Auto-ARIMA")
plt.grid(True, alpha=0.2)
plt.legend()
plt.show()


## 8) Comparaison synth√©tique (tableau)

On compare baseline, ARIMA, SARIMA, Auto-ARIMA et Auto-SARIMA.


In [None]:
results = pd.DataFrame({
    "Model": [
        "Naive",
        f"ARIMA{order_arima}",
        f"SARIMA{order}x{seasonal_order}",
        f"Auto-ARIMA{auto_arima_model.order}",
        f"Auto-SARIMA{auto_sarima_model.order}x{auto_sarima_model.seasonal_order}",
    ],
    "MAE": [
        mae(test["y"], naive_pred),
        mae(test["y"], fc_arima),
        mae(test["y"], fc_sarima),
        mae(test["y"], fc_auto_arima),
        mae(test["y"], fc_auto_sarima),
    ],
    "RMSE": [
        rmse(test["y"], naive_pred),
        rmse(test["y"], fc_arima),
        rmse(test["y"], fc_sarima),
        rmse(test["y"], fc_auto_arima),
        rmse(test["y"], fc_auto_sarima),
    ],
    "MAPE(%)": [
        mape(test["y"], naive_pred),
        mape(test["y"], fc_arima),
        mape(test["y"], fc_sarima),
        mape(test["y"], fc_auto_arima),
        mape(test["y"], fc_auto_sarima),
    ],
})
results


## 9) Diagnostics r√©siduels (id√©e)

Un bon mod√®le laisse des r√©sidus proches du **bruit blanc** :
- pas de structure temporelle forte
- autocorr√©lations faibles

On regarde les r√©sidus de SARIMA (manuel) comme exemple.


In [None]:
resid = res_sarima.resid.dropna()

plt.figure(figsize=(12,3))
plt.plot(resid)
plt.title("R√©sidus SARIMA (sur log-scale)")
plt.grid(True, alpha=0.2)
plt.show()

from statsmodels.graphics.tsaplots import plot_acf
plot_acf(resid, lags=36)
plt.title("ACF des r√©sidus SARIMA")
plt.show()


---
# Exercices (pour aller plus loin)

1) **Choix des param√®tres** : essayez ARIMA(2,1,2) et SARIMA(2,1,2)√ó(1,1,1,12).
2) **Auto-ARIMA** : comparez `stepwise=True` vs `stepwise=False` (plus lent mais plus exhaustif).
3) **Impact du test size** : changez `TEST_SIZE` (12, 36).
4) **Pr√©vision plus longue** : pr√©voyez 36 mois et visualisez.
5) **Interpr√©tation** : quel mod√®le choisiriez-vous et pourquoi (m√©triques + simplicit√©) ?


## Fin

Vous avez maintenant une base solide sur :
- visualisation & d√©composition,
- split train/test,
- ARIMA vs SARIMA,
- Auto-ARIMA / Auto-SARIMA,
- √©valuation et diagnostics.

Prochaine √©tape naturelle :
- ETS (Holt-Winters), Prophet, puis mod√®les deep learning.
