# Package

In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
import shap
from sklearn.metrics import mean_absolute_error, mean_squared_error
from scipy.stats import pearsonr
from sklearn.utils import shuffle
import pickle

  from .autonotebook import tqdm as notebook_tqdm


# Importation des donn√©es

In [3]:
df_stationary_train = pd.read_csv("df_stationary_train.csv", index_col="date")
df_stationary_test = pd.read_csv("df_stationary_test.csv", index_col="date")

In [4]:
df_stationary_train.head()

Unnamed: 0_level_0,UNRATE,TB3MS,RPI,INDPRO,DPCERA3M086SBEA,S&P 500,BUSLOANS,CPIAUCSL,OILPRICEx,M2SL,USREC
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1960-01-01,-0.8,0.3,0.020977,0.09198,0.001204,0.017909,0.011578,-0.006156,0.0,0.001323,0
1960-02-01,-1.1,-0.19,0.014565,0.076964,0.006009,-0.025663,0.011905,-0.003767,0.0,0.002007,0
1960-03-01,-0.2,-1.18,0.00625,0.007961,0.02124,-0.070857,-0.008356,-0.005455,0.0,0.001324,0
1960-04-01,0.0,-1.12,0.006489,-0.025915,0.033752,-0.040442,-0.009098,0.00509,0.0,0.000634,1
1960-05-01,0.0,-0.67,0.007747,-0.018121,0.00904,-0.01009,-0.000359,0.003383,0.0,0.003977,1


In [5]:
df_stationary_train.index = pd.to_datetime(df_stationary_train.index)

# stationary

# 1) Param√®tres & sous-ensemble TRAIN global

In [22]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
from scipy.stats import pearsonr

# ---------- Param√®tres ----------
h = 12                     # horizon de pr√©vision (mois)
step_size = 12             # refit annuel
winsor_level = 0.01
df_full = df_stationary_train.copy()  # index mensuel tri√©
df_train_global = df_full.loc["1960-01":"1989-12"].copy()

# ‚úÖ Inclure toutes les features (aucune exclusion)
cols_tx = [c for c in df_train_global.columns if c != "UNRATE"]

# ---------- Containers ----------
models = []
coefs = []
intercepts = []
train_periods = []
forecast_records = []  # (origin, target, y_true, y_hat, n_train)


In [29]:
# ---------- Boucle EXPANDING WINDOW ----------
n_total = len(df_train_global)
for t, end in enumerate(range(step_size, n_total + 1, step_size)):
    df_train_local = df_train_global.iloc[:end].copy()   # ‚úÖ corrige .iloc et .copy()

    # Assez d'obs pour aligner X_t avec Y_{t+h} ?
    if len(df_train_local) <= h:
        continue

    # X_train : jusqu'√† t_end - h ; Y_train : UNRATE d√©cal√© de -h sur la m√™me plage
    X_train = df_train_local[cols_tx].iloc[:-h].copy()
    Y_train = df_train_local["UNRATE"].shift(-h).iloc[:-h].copy()

    # Retire lignes avec NaN √©ventuels
    valid = ~(X_train.isnull().any(axis=1) | Y_train.isnull())
    X_train = X_train.loc[valid]
    Y_train = Y_train.loc[valid]

    # 1Ô∏è‚É£ Winsorisation (1% - 99%) apprise sur la fen√™tre courante
    lower_wins = X_train.quantile(winsor_level)
    upper_wins = X_train.quantile(1 - winsor_level)
    Xw = X_train.clip(lower=lower_wins, upper=upper_wins, axis=1)

    # 2Ô∏è‚É£ Normalisation (toujours activ√©e)
    mean_train = Xw.mean()
    std_train = Xw.std().replace(0, 1)
    Xs = (Xw - mean_train) / std_train

    # 3Ô∏è‚É£ Entra√Ænement OLS
    model = LinearRegression()
    model.fit(Xs, Y_train)

    # 4Ô∏è‚É£ Pr√©vision pseudo-OOS √† l'origine t_end : yÃÇ_{t_end+h}
    #    -> on prend la derni√®re observation dispo (t_end) c√¥t√© X
    x_origin = df_train_local[cols_tx].iloc[[-1]].copy()
    x_origin_w = x_origin.clip(lower=lower_wins, upper=upper_wins, axis=1)
    x_origin_s = (x_origin_w - mean_train) / std_train
    y_hat = float(model.predict(x_origin_s)[0])

    origin_date = df_train_local.index[-1]
    # date cible = origin + h si dispo dans df_full
    idx_origin = df_full.index.get_loc(origin_date)
    target_date = df_full.index[idx_origin + h] if idx_origin + h < len(df_full) else pd.NaT
    y_true = float(df_full.loc[target_date, "UNRATE"]) if pd.notna(target_date) else np.nan

    # 5Ô∏è‚É£ Sauvegarde
    models.append(model)
    coefs.append(pd.Series(model.coef_, index=cols_tx))
    intercepts.append(model.intercept_)
    train_periods.append(origin_date)
    forecast_records.append({
        "origin": origin_date, "target": target_date,
        "y_true": y_true, "y_hat": y_hat, "n_train": len(Xs)
    })

    print(f"[{t:02d}] Fin {origin_date.strftime('%Y-%m')} | train={len(Xs)} | "
          f"yÃÇ({('NA' if pd.isna(target_date) else target_date.strftime('%Y-%m'))}) = {y_hat:.3f}")

[01] Fin 1961-12 | train=12 | yÃÇ(1962-12) = 2.466
[02] Fin 1962-12 | train=24 | yÃÇ(1963-12) = -0.489
[03] Fin 1963-12 | train=36 | yÃÇ(1964-12) = -0.571
[04] Fin 1964-12 | train=48 | yÃÇ(1965-12) = -0.928
[05] Fin 1965-12 | train=60 | yÃÇ(1966-12) = -0.478
[06] Fin 1966-12 | train=72 | yÃÇ(1967-12) = -0.412
[07] Fin 1967-12 | train=84 | yÃÇ(1968-12) = -0.704
[08] Fin 1968-12 | train=96 | yÃÇ(1969-12) = -0.869
[09] Fin 1969-12 | train=108 | yÃÇ(1970-12) = 0.650
[10] Fin 1970-12 | train=120 | yÃÇ(1971-12) = 0.780
[11] Fin 1971-12 | train=132 | yÃÇ(1972-12) = -0.210
[12] Fin 1972-12 | train=144 | yÃÇ(1973-12) = -0.908
[13] Fin 1973-12 | train=156 | yÃÇ(1974-12) = 1.567
[14] Fin 1974-12 | train=168 | yÃÇ(1975-12) = 2.097
[15] Fin 1975-12 | train=180 | yÃÇ(1976-12) = -0.305
[16] Fin 1976-12 | train=192 | yÃÇ(1977-12) = -0.194
[17] Fin 1977-12 | train=204 | yÃÇ(1978-12) = -0.156
[18] Fin 1978-12 | train=216 | yÃÇ(1979-12) = 0.318
[19] Fin 1979-12 | train=228 | yÃÇ(1980-12) = 0.462
[20] Fin

In [31]:
for t, end in enumerate(range(step_size, n_total + 1, step_size)):
    print(t)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


In [24]:
# ===================== √âVALUATION PSEUDO‚ÄìOUT-OF-SAMPLE =====================
import numpy as np
import pandas as pd
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
from sklearn.linear_model import LinearRegression
from scipy.stats import pearsonr

# 1Ô∏è‚É£ Rassembler les pr√©visions
forecast_df = pd.DataFrame(forecast_records).dropna(subset=["y_true", "y_hat"]).copy()
forecast_df = forecast_df.sort_values("target").reset_index(drop=True)

def r2_origin_reg(y, yhat):
    """R¬≤ d'une r√©gression √† l‚Äôorigine: y ‚âà b * yhat (sans intercept)."""
    denom = np.dot(yhat, yhat)
    if denom == 0:
        return np.nan
    b = np.dot(yhat, y) / denom
    sse = np.sum((y - b * yhat) ** 2)
    sst = np.sum((y - y.mean()) ** 2)
    return 1 - sse / sst if sst > 0 else np.nan

def corr_pvalue(y, yhat):
    if len(y) < 3:
        return np.nan, np.nan
    r, p = pearsonr(y, yhat)
    return float(r), float(p)

if forecast_df.empty:
    print("\n[√âVALUATION] Aucune pr√©vision disponible (forecast_df est vide).")
else:
    y = forecast_df["y_true"].values
    yhat = forecast_df["y_hat"].values

    # 2Ô∏è‚É£ M√©triques principales
    r2   = r2_score(y, yhat)
    mae  = mean_absolute_error(y, yhat)
    rmse = np.sqrt(mean_squared_error(y, yhat))   # ‚úÖ compatible toutes versions
    r2_o = r2_origin_reg(y, yhat)
    corr, pval = corr_pvalue(y, yhat)
    amd  = float(abs(np.mean(y - yhat)))          # biais absolu moyen

    # 3Ô∏è‚É£ Benchmark na√Øf (utile si la cible est Œî12 UNRATE)
    yhat_naive0 = np.zeros_like(y)
    mae_naive0  = mean_absolute_error(y, yhat_naive0)
    rmse_naive0 = np.sqrt(mean_squared_error(y, yhat_naive0))

    # 4Ô∏è‚É£ Pr√©cision directionnelle
    hit_rate = float(np.mean(np.sign(y) == np.sign(yhat))) if len(y) > 0 else np.nan

    # 5Ô∏è‚É£ Calibration (Mincer‚ÄìZarnowitz): y = a + b * yhat
    reg = LinearRegression()
    reg.fit(yhat.reshape(-1, 1), y)
    a_calib = float(reg.intercept_)
    b_calib = float(reg.coef_[0])

    # 6Ô∏è‚É£ R√©sum√© par d√©cennie (facultatif)
    by_decade = (
        forecast_df.assign(decade=forecast_df["target"].dt.year // 10 * 10)
                   .groupby("decade")
                   .apply(lambda g: pd.Series({
                       "n": len(g),
                       "MAE": mean_absolute_error(g["y_true"], g["y_hat"]),
                       "RMSE": np.sqrt(mean_squared_error(g["y_true"], g["y_hat"]))
                   }))
                   .reset_index()
    )

    # 7Ô∏è‚É£ Impression des r√©sultats
    print("\n=== √âVALUATION PSEUDO‚ÄìOOS (h = {} mois) ===".format(h))
    print(f"R¬≤            : {r2:.3f}")
    print(f"R¬≤ (origin)   : {r2_o:.3f}")
    print(f"MAE           : {mae:.3f}")
    print(f"RMSE          : {rmse:.3f}")
    print(f"Corr(y, yÃÇ)   : {corr:.3f}  (p={pval:.3g})")
    print(f"Hit rate sign : {hit_rate:.3f}")
    print(f"AMD (|bias|)  : {amd:.3f}")

    print("\n--- Benchmark na√Øf (z√©ro-changement) ---")
    print(f"MAE_na√Øf0     : {mae_naive0:.3f}")
    print(f"RMSE_na√Øf0    : {rmse_naive0:.3f}")

    if not by_decade.empty:
        print("\n--- MAE/RMSE par d√©cennie ---")
        print(by_decade.to_string(index=False))

    # 8Ô∏è‚É£ Sauvegarde des r√©sultats
    eval_results = {
        "overall": {
            "r2": r2, "r2_origin": r2_o, "mae": mae, "rmse": rmse,
            "corr": corr, "pval": pval, "hit_rate": hit_rate, "amd": amd
        },
        "benchmark_naive0": {
            "mae": mae_naive0, "rmse": rmse_naive0
        },
        "calibration": {
            "intercept": a_calib, "slope": b_calib
        },
        "by_decade": by_decade,
        "forecast_df": forecast_df
    }

    print("\n‚úÖ √âvaluation termin√©e. R√©sultats enregistr√©s dans eval_results.")


=== √âVALUATION PSEUDO‚ÄìOOS (h = 12 mois) ===
R¬≤            : 0.095
R¬≤ (origin)   : 0.205
MAE           : 0.809
RMSE          : 1.058
Corr(y, yÃÇ)   : 0.453  (p=0.0154)
Hit rate sign : 0.714
AMD (|bias|)  : 0.010

--- Benchmark na√Øf (z√©ro-changement) ---
MAE_na√Øf0     : 0.800
RMSE_na√Øf0    : 1.113

--- MAE/RMSE par d√©cennie ---
 decade    n      MAE     RMSE
   1960  8.0 0.695125 1.136080
   1970 10.0 0.772075 0.930614
   1980 10.0 0.937675 1.112530

‚úÖ √âvaluation termin√©e. R√©sultats enregistr√©s dans eval_results.


  .apply(lambda g: pd.Series({


In [25]:
# ==========================================================
# üîç IMPORTANCE PAR PERMUTATION ‚Äî PSEUDO-OOS
# ==========================================================
import numpy as np
import pandas as pd
from sklearn.metrics import mean_absolute_error, mean_squared_error

def permutation_importance_pseudo_oos(models, df_train_global, cols_tx, h=12, n_repeats=20, metric=mean_absolute_error):
    """
    Importance par permutation pour une s√©rie de mod√®les OLS entra√Æn√©s
    selon une logique expanding window pseudo‚ÄìOOS.
    -> aucune r√©estimation
    -> mesure la d√©gradation moyenne de la performance apr√®s permutation de chaque variable
    """
    var_imp = {col: [] for col in cols_tx}

    for i, model in enumerate(models):
        # Reconstituer la fen√™tre utilis√©e par le mod√®le i
        end_idx = (i + 1) * 12  # correspond √† ton step_size = 12
        df_win = df_train_global.iloc[:end_idx].copy()

        if len(df_win) <= h:
            continue

        # Pr√©paration des donn√©es (alignement X_t avec Y_{t+h})
        X = df_win[cols_tx].iloc[:-h].copy()
        y = df_win["UNRATE"].shift(-h).iloc[:-h].copy()
        valid = ~(X.isnull().any(axis=1) | y.isnull())
        X, y = X.loc[valid], y.loc[valid]

        # Score de base (MAE sur donn√©es d'origine)
        base_score = metric(y, model.predict(X))

        # Boucle sur chaque variable
        for col in cols_tx:
            perm_scores = []
            for _ in range(n_repeats):
                X_perm = X.copy()
                X_perm[col] = np.random.permutation(X_perm[col])
                perm_scores.append(metric(y, model.predict(X_perm)))
            perm_scores = np.array(perm_scores)
            var_imp[col].append(np.mean(perm_scores) / base_score)

    # Agr√©gation moyenne sur toutes les fen√™tres
    results = []
    for col, ratios in var_imp.items():
        if len(ratios) > 0:
            results.append({
                "variable": col,
                "perm_mae_ratio_mean": np.mean(ratios),
                "perm_mae_ratio_std": np.std(ratios),
                "n_windows": len(ratios)
            })

    imp_df = pd.DataFrame(results).sort_values("perm_mae_ratio_mean", ascending=False).reset_index(drop=True)
    return imp_df

In [26]:
# ----------------------------------------------------------
# üß≠ Appel de la fonction sur ton jeu de mod√®les OLS
# ----------------------------------------------------------
perm_df = permutation_importance_pseudo_oos(
    models=models,
    df_train_global=df_train_global,
    cols_tx=cols_tx,
    h=h,
    n_repeats=20  # augmente √† 50 pour des r√©sultats plus stables
)

print("\n=== üîç Importance par permutation (pseudo‚ÄìOOS) ===")
print(perm_df.head(15).to_string(index=False))


=== üîç Importance par permutation (pseudo‚ÄìOOS) ===
       variable  perm_mae_ratio_mean  perm_mae_ratio_std  n_windows
          USREC             1.089988            0.055342         28
          TB3MS             1.028684            0.025290         28
        S&P 500             1.013657            0.004299         28
      OILPRICEx             1.004552            0.004326         28
DPCERA3M086SBEA             1.000241            0.000357         28
           M2SL             1.000235            0.000371         28
            RPI             1.000066            0.000359         28
       BUSLOANS             1.000058            0.000205         28
         INDPRO             1.000039            0.002126         28
       CPIAUCSL             1.000038            0.000153         28


Ton mod√®le OLS pr√©dit principalement le ch√¥mage via le cycle √©conomique :
- USREC (r√©cession) est la variable cl√© ‚Äî sa permutation d√©grade la performance de ~9 %.
- TB3MS (taux court) joue un r√¥le secondaire.
- Les autres variables ont un effet n√©gligeable.

Conclusion : le pouvoir pr√©dictif du mod√®le vient surtout des variables cycliques (r√©cession, taux), les autres apportent peu d‚Äôinformation.

In [27]:
# ==========================================================
# üí° IMPORTANCE SHAPLEY (pour mod√®le OLS)
# ==========================================================
import shap
import numpy as np
import pandas as pd

# 1Ô∏è‚É£ On utilise le dernier mod√®le entra√Æn√©
model_final = models[-1]

# 2Ô∏è‚É£ On reconstitue ses donn√©es finales (derni√®re fen√™tre du train)
df_final = df_train_global.copy()
X_full = df_final[cols_tx].iloc[:-h].copy()
Y_full = df_final["UNRATE"].shift(-h).iloc[:-h].copy()
valid = ~(X_full.isnull().any(axis=1) | Y_full.isnull())
X_full = X_full.loc[valid]
Y_full = Y_full.loc[valid]

# 3Ô∏è‚É£ Calcul des valeurs SHAP
# Pour les mod√®les lin√©aires, on peut utiliser shap.LinearExplainer (plus stable)
explainer = shap.LinearExplainer(model_final, X_full, feature_perturbation="interventional")
shap_values = explainer(X_full)

# 4Ô∏è‚É£ Importance moyenne absolue
shap_df = pd.DataFrame({
    "variable": X_full.columns,
    "shap_mean_abs": np.abs(shap_values.values).mean(axis=0),
})
shap_df["shap_share"] = shap_df["shap_mean_abs"] / shap_df["shap_mean_abs"].sum()
shap_df = shap_df.sort_values("shap_mean_abs", ascending=False).reset_index(drop=True)

# 5Ô∏è‚É£ Affichage
print("\n=== üí° Importance SHAP (shares) ===")
print(shap_df.head(10).to_string(index=False))


=== üí° Importance SHAP (shares) ===
       variable  shap_mean_abs  shap_share
          TB3MS       0.148710    0.485751
          USREC       0.124740    0.407453
        S&P 500       0.017688    0.057777
      OILPRICEx       0.012534    0.040941
DPCERA3M086SBEA       0.001011    0.003303
         INDPRO       0.000871    0.002845
       CPIAUCSL       0.000309    0.001010
           M2SL       0.000204    0.000667
            RPI       0.000043    0.000139
       BUSLOANS       0.000035    0.000114




- TB3MS (0.49)	üü¢ Repr√©sente ~49 % de l‚Äôinfluence totale du mod√®le. Le taux d‚Äôint√©r√™t √† 3 mois est donc la variable la plus d√©terminante pour les pr√©visions du ch√¥mage : quand les taux montent, le mod√®le anticipe souvent une hausse future du ch√¥mage.

- USREC (0.41)	üîµ Repr√©sente ~41 % de l‚Äôinfluence totale. Le dummy de r√©cession (NBER) p√®se presque autant : le simple fait d‚Äô√™tre en r√©cession ou non explique une large part des variations pr√©vues du ch√¥mage.

- S&P 500, OILPRICEx üü† Poids faibles (~6 % et 4 %) : les conditions boursi√®res et le prix du p√©trole ont un impact marginal dans la version lin√©aire du mod√®le.

# üìä M√©triques utilis√©es

## 1) Performance globale

**Coefficient de d√©termination (R¬≤)**  
$$
R^2 = 1 - \frac{\sum_i (y_i - \hat{y}_i)^2}{\sum_i (y_i - \bar{y})^2}
$$  
‚û°Ô∏è Part de la variance expliqu√©e par le mod√®le (0 = pas mieux que la moyenne, 1 = parfait).

**Erreur absolue moyenne (MAE)**  
$$
MAE = \frac{1}{n}\sum_{i=1}^n |y_i - \hat{y}_i|
$$  
‚û°Ô∏è √âcart absolu moyen entre valeurs r√©elles et pr√©dites, robuste aux outliers.

**Erreur quadratique moyenne (RMSE)**  
$$
RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2}
$$  
‚û°Ô∏è Similaire au MAE mais p√©nalise davantage les grosses erreurs.

**Corr√©lation de Pearson**  
$$
\rho(y, \hat{y}) = \frac{\text{Cov}(y, \hat{y})}{\sigma_y \cdot \sigma_{\hat{y}}}
$$  
‚û°Ô∏è Mesure le degr√© de lien lin√©aire entre les pr√©dictions et les observations.

**Abs Mean Deviance (AMD)**  
$$
AMD = \frac{1}{n}\sum_{i=1}^n |\hat{y}_i - \bar{\hat{y}}|
$$  
‚û°Ô∏è √âcart moyen des pr√©dictions par rapport √† leur moyenne ; sert de r√©f√©rence pour la permutation pr√©diction-bas√©e.

---

## 2) Importance par permutation
La relation entre Y et X d√©pend du temps. Quand on perturbe la s√©rie X (en la m√©langeant), on casse ce lien, et si l‚Äôerreur augmente, cela montre que X est une variable cl√© pour expliquer Y.

**Ratio MAE**  
$$
PI^{MAE}_j = \frac{MAE^{(perm)}_j}{MAE^{(base)}}
$$  
‚û°Ô∏è Si > 1, la variable est utile pour r√©duire l‚Äôerreur absolue.

**Ratio RMSE**  
$$
PI^{RMSE}_j = \frac{RMSE^{(perm)}_j}{RMSE^{(base)}}
$$  
‚û°Ô∏è Si > 1, la variable aide √† limiter les grosses erreurs.

**D√©viance de pr√©diction**  
$$
PI^{dev}_j = \frac{1}{n}\sum_{i=1}^n \big|\hat{y}_i - \hat{y}^{(perm)}_{i,j}\big|
$$  
‚û°Ô∏è Mesure combien les pr√©dictions changent quand on brouille une variable.

---

## 3) Importance Shapley

**D√©composition des pr√©dictions**  
$$
\hat{y}_i = \phi_0 + \sum_{j=1}^p \phi_{ij}
$$  
‚û°Ô∏è Chaque pr√©diction est expliqu√©e par une contribution \(\phi_{ij}\) par variable.

**Importance absolue moyenne**  
$$
\text{Mean}(|\phi_j|) = \frac{1}{n}\sum_{i=1}^n |\phi_{ij}|
$$  
‚û°Ô∏è Contribution moyenne (absolue) d‚Äôune variable sur toutes les pr√©dictions.

**Shapley share**  
$$
\Gamma_j = \frac{\text{Mean}(|\phi_j|)}{\sum_{k=1}^p \text{Mean}(|\phi_k|)}
$$  
‚û°Ô∏è Part relative de la variable dans l‚Äôexplication totale (somme des parts = 1).

## Interpr√©tation des r√©sultats 

### Performance globale 
- R¬≤ = 0.2266 ‚Üí mod√®le OLS explique ~23 % de la variance du ch√¥mage US.
- MAE = 0.6774 ‚Üí en moyenne, l‚Äôerreur absolue est de 0.68 points (dans l‚Äôunit√© de la variable cible).
- RMSE = 0.8750 ‚Üí un peu plus √©lev√© que le MAE, ce qui indique la pr√©sence de grosses erreurs ponctuelles.
- Corr√©lation = 0.4760 (p ‚âà 10‚Åª¬≥‚Åµ) ‚Üí lien positif et significatif entre pr√©dictions et observations, mais seulement mod√©r√©. Ce qui peut expliquer la pr√©sence d'une relation 
- Abs Mean Deviance = 0.3370 ‚Üí sert ici de r√©f√©rence pour l‚Äôimportance pr√©diction-bas√©e : les pr√©dictions s‚Äô√©cartent en moyenne de 0.34 de leur propre moyenne.

Lecture : le mod√®le OLS capte une partie utile du signal, mais laisse beaucoup de variance inexpliqu√©e. La corr√©lation faible illustre √©ventuellement la pr√©sence des relations non-lin√©aire, et non capt√©es par OLS.

### üîπ 2. Importance par permutation
- INDPRO (Industrial Production) : la plus influente. Sa permutation augmente MAE de +19 % et RMSE de +20 %, avec une forte d√©viance de pr√©diction (0.41).
- TB3MS (Taux d‚Äôint√©r√™t √† 3 mois) : impact non n√©gligeable, ratios ~1.02 et d√©viance ~0.10.
- BUSLOANS (Pr√™ts commerciaux) : r√¥le similaire (MAE ratio 1.017, d√©viance ~0.09).
- S&P 500 : contribution mod√©r√©e, ratios l√©g√®rement > 1.
- RPI, M2SL : influence plus faible mais perceptible.
- CPIAUCSL, OILPRICEx, DPCERA3M086SBEA : quasi neutres (ratios ‚âà 1, d√©viance tr√®s faible).

Lecture : INDPRO domine largement la performance, les autres apportent des compl√©ments mais plus modestes.

### üîπ 3. Importance Shapley (shares)
- INDPRO : ~52 % de l‚Äôexplication totale des pr√©dictions ‚Üí coh√©rence parfaite avec la permutation.
- TB3MS (12 %) + BUSLOANS (12 %) : deux autres piliers importants.
- S&P 500 (9,7 %) : contribue de fa√ßon notable.
- M2SL (5 %), RPI (3 %), CPIAUCSL (3,5 %) : apports plus secondaires.
- OILPRICEx et DPCERA3M086SBEA (<2 %) : quasi n√©gligeables dans ce mod√®le.

Lecture : INDPRO est la variable macro√©conomique centrale, suivie par des indicateurs financiers (taux courts, pr√™ts bancaires, march√© actions).

# Test

In [28]:
import pickle
import pandas as pd

# üîñ Nom du mod√®le
model_name = "OLS_h12_expanding_window"

# üîπ Rassembler tout dans un dictionnaire structur√©
exp_results = {
    "model_name": model_name,
    "model_type": "LinearRegression (OLS)",
    "description": "Mod√®le OLS avec fen√™tre expanding, horizon h=12 mois.",
    "models": models,
    "coefs": coefs,
    "intercepts": intercepts,
    "train_periods": train_periods,
    "forecast_records": forecast_records,
    "params": {
        "h": h,
        "step_size": step_size,
        "winsor_level": winsor_level,
        "norm_var": True,
        "features": cols_tx
    }
}

# üî∏ Nom du fichier de sortie (automatique)
file_name = f"{model_name}.pkl"

# üíæ Sauvegarde
with open(file_name, "wb") as f:
    pickle.dump(exp_results, f)

print(f"‚úÖ Mod√®le '{model_name}' sauvegard√© sous '{file_name}'")

‚úÖ Mod√®le 'OLS_h12_expanding_window' sauvegard√© sous 'OLS_h12_expanding_window.pkl'
