## Problème : estimer un modèle ARMA avec des méthodes bayésiennes - tests sur données simulées de l'estimation par PyMC

In [None]:
pip install pymc==5.18.2

In [None]:
pip install ipywidgets

In [None]:
import numpy as np
import pandas as pd
from scipy.stats import dirichlet, norm
import random

import arviz as az
import matplotlib.pyplot as plt
import pymc as pm
import ipywidgets

%config InlineBackend.figure_format = 'retina'
RANDOM_SEED = 8927
np.random.seed(RANDOM_SEED)
az.style.use("arviz-darkgrid")

In [None]:
# PREMIER ESSAI : panel de 4 séries, générées selon le même modèle
# NB : il faut que les deux séries soient en ligne (=> df de taille NxT)

# Paramètres
N = 4  # Nombre de séries (panel)
T = 200  # Longueur de chaque série
phi_true = 0.8  # Coefficient AR(1)
sigma_true = 1.0  # Écart-type du bruit blanc

# Initialiser un DataFrame pour le panel
panel_data = pd.DataFrame()

# Simuler chaque série
for i in range(N):
    y = np.zeros(T)  # Initialisation de la série
    epsilon = np.random.normal(0, sigma_true, T)  # Bruit blanc

    # Générer la série AR(1)
    for t in range(1, T):
        y[t] = phi_true * y[t - 1] + epsilon[t]

    # Ajouter la série au DataFrame
    panel_data[f"series_{i+1}"] = y

# Ajouter un index temporel
panel_data.index = range(1, T + 1)
panel_data = panel_data.T

# Afficher les 10 premières lignes
print(panel_data.head(10))

In [None]:
with pm.Model() as ar1nc:
    rho = pm.Normal("rho", 0.0, 1.0, shape=1)
    sigma = pm.HalfNormal("sigma", 3)
    likelihood = pm.AR(
        "y", rho=rho, sigma=sigma, constant=False, init_dist=pm.Normal.dist(0, 10), observed=panel_data
    )

    idata = pm.sample(
        1000,
        tune=2000,
        target_accept=0.9,
        random_seed=RANDOM_SEED,
    )

az.plot_trace(
    idata
);

# => A noter : l'estimation converge vers les bonnes valeurs de paramètres

In [None]:
# SECOND ESSAI : panel de 2 séries, générées selon deux modèles différents (valeurs de phi différentes)

# Paramètres
T = 400  # Longueur de chaque série
phi_values = [0.2, 0.9]  # Différentes valeurs de phi pour les deux séries
sigma = 1.0  # Écart-type du bruit blanc

# Initialiser un DataFrame pour stocker les séries
panel_data = pd.DataFrame()

# Simuler les deux séries avec des phi différents
for i, phi in enumerate(phi_values):
    y = np.zeros(T)  # Initialisation de la série
    epsilon = np.random.normal(0, sigma, T)  # Bruit blanc

    # Générer la série AR(1)
    for t in range(1, T):
        y[t] = phi * y[t - 1] + epsilon[t]

    # Ajouter la série au DataFrame
    panel_data[f"series_{i+1}"] = y

# Ajouter un index temporel
panel_data.index = range(1, T + 1)
panel_data = panel_data.T

# Afficher les 10 premières lignes
print(panel_data.head(10))

In [None]:
with pm.Model() as ar1nc:
    rho = pm.Normal("rho", 0.0, 1.0, shape=1)
    sigma = pm.HalfNormal("sigma", 3)
    likelihood = pm.AR(
        "y", rho=rho, sigma=sigma, constant=False, init_dist=pm.Normal.dist(0, 10), observed=panel_data
    )

    idata = pm.sample(
        1000,
        tune=2000,
        target_accept=0.9,
        random_seed=RANDOM_SEED,
    )

az.plot_trace(
    idata
);

# => A noter : en traitant les deux séries séparement (avec observed=panel_data.iloc[0,:] par exemple), l'estimation retrouve les bonnes valeurs
# En traitant ensemble, l'estimation trouve une valeur entre les 2