# 0. Initialisation et configuration

In [2]:
pip install linearmodels

Note: you may need to restart the kernel to use updated packages.


In [23]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
from linearmodels.panel import PanelOLS
from linearmodels.iv import IV2SLS

# --- CONFIGURATION (La seule partie à modifier si la base change) ---
CONFIG = {
    "file_name": "../données/OECD_debt_recent.csv",
    "mapping": {
        "Pays": "country",
        "Year": "year",
        "Nominal gross domestic product (billions)": "gdp",
        "Household debt, loans and debt securities (percent of GDP)": "debt_hh",
        "Non-financial corporations debt, loans and debt securities (percent of GDP)": "debt_corp",
        "General government debt (percent of GDP)": "debt_gov"
    },
    "target": "growth",       # Nom générique de la variable à prédire
    "interest_vars": ["debt_hh", "debt_corp", "debt_gov"] # Nos variables de dette
}

## Nettoyage

In [14]:

def load_and_prepare_data(config):
    # 1. Chargement
    df = pd.read_csv(config["file_name"])
    
    # 2. Renommage selon le mapping
    df = df.rename(columns=config["mapping"])
    
    # 3. Filtrage : on ne garde que les colonnes dont on a besoin
    keep_cols = list(config["mapping"].values())
    df = df[keep_cols]
    
    # 4. Nettoyage des types (Conversion string "12,5" -> float 12.5)
    for col in df.columns:
        if col not in ["country", "year"]:
            df[col] = df[col].astype(str).str.replace(',', '.').replace('nan', np.nan).astype(float)
    
    # 5. Tri chronologique par pays
    df = df.sort_values(["country", "year"])
    
    # 6. Feature Engineering (Calculs automatiques)
    # Taux de croissance du PIB : ln(PIB_t) - ln(PIB_t-1)
    df["growth"] = df.groupby("country")["gdp"].apply(lambda x: np.log(x).diff() * 100).reset_index(level=0, drop=True)
    
    # Création des Lags (Dette à t-1)
    for var in config["interest_vars"]:
        df[f"{var}_lag1"] = df.groupby("country")[var].shift(1)
        
    return df

# Exécution
df_master = load_and_prepare_data(CONFIG)
print(f"Base de données prête : {df_master.shape[0]} lignes, {df_master.shape[1]} colonnes.")
print(df_master.head())

Base de données prête : 1102 lignes, 10 colonnes.
     country  year     gdp  debt_hh  debt_corp  debt_gov    growth  \
0  Australia  1996  542.40    56.57      59.33     29.35       NaN   
1  Australia  1997  573.07    59.98      61.28     25.91  5.500414   
2  Australia  1998  606.13    63.55      62.99     23.70  5.608661   
3  Australia  1999  638.38    67.93      63.90     22.54  5.183923   
4  Australia  2000  687.43    70.18      68.72     19.50  7.402629   

   debt_hh_lag1  debt_corp_lag1  debt_gov_lag1  
0           NaN             NaN            NaN  
1         56.57           59.33          29.35  
2         59.98           61.28          25.91  
3         63.55           62.99          23.70  
4         67.93           63.90          22.54  


# Premières régressions

## OLS naïf

In [None]:
# On retire les lignes vides (dues au calcul des lags et de la croissance)
df_model = df_master.dropna(subset=["growth"] + [v+"_lag1" for v in CONFIG["interest_vars"]])

# Définition de la formule de manière dynamique
# Elle ressemblera à : "growth ~ debt_hh_lag1 + debt_corp_lag1 + debt_gov_lag1"
formula = "growth ~ " + " + ".join([f"{v}_lag1" for v in CONFIG["interest_vars"]])

print(f"Lancement du modèle : {formula}")

# Modèle OLS simple (Pooling)
model_ols = smf.ols(formula, data=df_model).fit()

# Affichage des résultats
print(model_ols.summary())

Lancement du modèle : growth ~ debt_hh_lag1 + debt_corp_lag1 + debt_gov_lag1
                            OLS Regression Results                            
Dep. Variable:                 growth   R-squared:                       0.128
Model:                            OLS   Adj. R-squared:                  0.125
Method:                 Least Squares   F-statistic:                     47.06
Date:                Mon, 16 Feb 2026   Prob (F-statistic):           2.20e-28
Time:                        15:55:14   Log-Likelihood:                -3022.9
No. Observations:                 966   AIC:                             6054.
Df Residuals:                     962   BIC:                             6073.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                     coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------

Ce modèle montre que la dette des ménages et celle de l'État pèsent significativement sur la croissance future, avec un impact négatif plus marqué pour les ménages ($-0,05$), tandis que la dette des entreprises n'a pas d'effet statistiquement prouvé ($p=0,44$). Malgré un $R^2$ de $12,8\%$, la faible valeur de Durbin-Watson ($1,09$) révèle une autocorrélation des résidus, indiquant que le modèle ignore des spécificités nationales ou des chocs temporels que les effets fixes et le modèle CS-ARDL devront traiter.

### Introduction des effets fixes

In [18]:
# Préparation des données pour le Panel (Index double : Pays puis Année)
df_panel = df_model.set_index(['country', 'year'])

# Modèle avec Effets Fixes par Pays (Entity Effects)
# On utilise les mêmes variables mais on ajoute "EntityEffects"
exog_vars = [f"{v}_lag1" for v in CONFIG["interest_vars"]]
exog = sm.add_constant(df_panel[exog_vars])

model_fe = PanelOLS(df_panel['growth'], exog, entity_effects=True)
results_fe = model_fe.fit()

print(results_fe)

                          PanelOLS Estimation Summary                           
Dep. Variable:                 growth   R-squared:                        0.0604
Estimator:                   PanelOLS   R-squared (Between):              0.0133
No. Observations:                 966   R-squared (Within):               0.0604
Date:                Mon, Feb 16 2026   R-squared (Overall):              0.0007
Time:                        16:11:28   Log-likelihood                   -2889.8
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      19.858
Entities:                          36   P-value                           0.0000
Avg Obs:                       26.833   Distribution:                   F(3,927)
Min Obs:                       14.000                                           
Max Obs:                       28.000   F-statistic (robust):             19.858
                            

L'introduction des effets fixes renforce l'impact négatif de la dette des ménages, dont le coefficient chute de $-0,05$ à $-0,09$ ($p=0,000$). Ce modèle explique $6\%$ de la variance intra-pays ($R^2$ Within), prouvant que les caractéristiques structurelles propres à chaque nation masquaient une partie de l'effet néfaste de l'endettement sur la croissance. La forte significativité des effets d'entité ($p=0,000$) valide cette approche par rapport à l'OLS simple et prépare le terrain pour le modèle CS-ARDL.

## Variables instrumentales

Afin de traiter un potentiel biais d'endogénéité nous utilisons la méthode des doubles moindres carrés (2SLS). Nous instrumentons la dette des ménages par son retard à deux périodes ($t-2$), partant du principe que le niveau d'endettement passé influence la croissance actuelle mais n'est pas directement impacté par les chocs économiques de l'année en cours. Cette approche permet d'isoler la variation de la dette qui est purement exogène afin de confirmer la direction du lien de causalité.

In [20]:
# 1. Création des instruments (Lag 2)
# On utilise la dette d'il y a 2 ans pour instrumenter celle d'il y a 1 an
for var in CONFIG["interest_vars"]:
    df_panel[f'{var}_lag2'] = df_panel.groupby('country')[var].shift(2)

# 2. Nettoyage des valeurs manquantes créées par le second retard
df_iv = df_panel.dropna(subset=[f'{v}_lag2' for v in CONFIG["interest_vars"]] + ['growth'])

# 3. Définition du modèle IV
# Formule : Y ~ 1 + [Variables_Endogènes ~ Instruments]
# Ici, on instrumente la dette des ménages par son retard d'ordre 2
formula_iv = 'growth ~ 1 + [debt_hh_lag1 ~ debt_hh_lag2]'

model_iv = IV2SLS.from_formula(formula_iv, data=df_iv)
results_iv = model_iv.fit(cov_type='robust')

print(results_iv)

                          IV-2SLS Estimation Summary                          
Dep. Variable:                 growth   R-squared:                      0.0680
Estimator:                    IV-2SLS   Adj. R-squared:                 0.0670
No. Observations:                 894   F-statistic:                    53.340
Date:                Mon, Feb 16 2026   P-value (F-stat)                0.0000
Time:                        16:17:06   Distribution:                  chi2(1)
Cov. Estimator:                robust                                         
                                                                              
                              Parameter Estimates                               
              Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
--------------------------------------------------------------------------------
Intercept        8.1885     0.4982     16.435     0.0000      7.2120      9.1650
debt_hh_lag1    -0.0504     0.0069    -7.303

L'estimation par variables instrumentales confirme la robustesse de l'impact négatif de l'endettement des ménages sur la croissance. Le coefficient de $-0,0504$ ($p=0,000$) est très proche de celui obtenu avec le modèle OLS initial ($-0,0532$), ce qui suggère que le biais d'endogénéité était limité ou que le lien causal de la dette vers la croissance est particulièrement stable. Bien que le $R^2$ soit plus faible ($6,8\%$), ce qui est classique en approche IV car seule la fraction "exogène" de la variance est conservée, la forte significativité statistique valide l'idée que l'accumulation de dette des ménages agit comme un frein structurel à l'activité économique.

# Modèle CS-ARDL

Le modèle CS-ARDL constitue une extension dynamique du cadre de régression précédent. Il permet de répondre aux trois principaux problèmes identifiés dans la littérature empirique sur le lien entre dette et croissance, notamment par Lombardi (2012).

Premièrement, il introduit une dynamique temporelle via la structure Autoregressive Distributed Lag (ARDL). Contrairement à une régression statique, ce modèle inclut un retard de la variable dépendante ($y_{t-1}$) ainsi que des retards des variables explicatives ($x_{t-1}$). Cette spécification permet de capturer les mécanismes d’ajustement progressifs : l’effet de l’endettement sur la croissance ne se matérialise pas instantanément, mais se diffuse dans le temps.

Deuxièmement, l’approche ARDL permet de réduire les problèmes de simultanéité. En se fondant sur la chronologie des variables, le modèle exploite le fait que les niveaux d’endettement passés peuvent influencer la croissance future, alors que la croissance future ne peut pas affecter la dette passée. Cette structure dynamique limite ainsi les biais d’endogénéité présents dans les modèles statiques.

Troisièmement, le modèle corrige la dépendance transversale entre pays. Dans un panel d’économies de l’OCDE, les cycles conjoncturels sont fortement synchronisés. Des chocs globaux, tels que la crise financière de 2008, peuvent affecter simultanément la croissance de tous les pays. Sans correction, ces effets communs risquent d’être attribués à tort aux variables nationales d’endettement. Le modèle CS-ARDL introduit donc les moyennes transversales des variables (notées $\bar{Z}_t$), qui capturent ces facteurs globaux non observés.

La spécification estimée s’écrit :

$$y_{i,t} = \mu_i + \phi y_{i,t-1} + \beta X_{i,t-1} + \Gamma \bar{Z}_{t} + \epsilon_{i,t}$$

où :

- $y_{i,t}$ est la croissance du pays $i$ à la date $t$,

- $X_{i,t-1}$ représente le vecteur des variables d’endettement nationales,

- $\bar{Z}_{t}$ correspond aux moyennes transversales des variables,

- $\mu_i$ capte les caractéristiques structurelles propres à chaque pays.

Cette spécification permet ainsi d’identifier un effet de la dette sur la croissance en tenant compte simultanément des dynamiques internes aux pays et des chocs macroéconomiques communs.

In [29]:
from linearmodels.panel import PanelOLS

def add_lags(df, group_col, vars_list, max_lag, suffix="lag"):
    out = df.copy()
    for v in vars_list:
        for L in range(1, max_lag+1):
            out[f"{v}_{suffix}{L}"] = out.groupby(group_col)[v].shift(L)
    return out

def add_cs_means(df, time_col, vars_list, lags_list=None, prefix="cs_"):
    out = df.copy()
    cols = vars_list.copy()
    if lags_list:
        cols += lags_list
    for c in cols:
        out[f"{prefix}{c}"] = out.groupby(time_col)[c].transform("mean")
    return out

# -------------------------
# PARAMS CS-ARDL
# -------------------------
q = 1  # nb de retards sur les dettes (à tester: 1,2,3)
p = 1  # nb de retards sur y (ici 1)

df_cs = df_master.copy()

# y = growth
# x = dettes en niveau (% GDP) plutôt que seulement lag1 déjà pré-calculé
x_vars = CONFIG["interest_vars"]  # ['debt_hh','debt_corp','debt_gov']

# Lags
df_cs = add_lags(df_cs, "country", ["growth"] + x_vars, max_lag=max(p, q), suffix="lag")

# Option A (baseline proche ARDL “niveau”): inclure x contemporain ET lags
# Option B (court terme / éviter simultanéité): exclure x contemporain, garder seulement lags
include_contemporaneous_x = False  # mets True si tu veux tester la baseline avec x_t

# Construire la liste des régressseurs
regressors = []
# AR part
regressors += [f"growth_lag{L}" for L in range(1, p+1)]

# DL part
if include_contemporaneous_x:
    regressors += x_vars
regressors += [f"{v}_lag{L}" for v in x_vars for L in range(1, q+1)]

# Ajouter CS means (contemporains + lags qui correspondent à ce que tu mets dans le modèle)
cs_source_cols = regressors  # on prend les mêmes colonnes → spec “symétrique”
df_cs = add_cs_means(df_cs, "year", vars_list=cs_source_cols, lags_list=None, prefix="cs_")

cs_regressors = [f"cs_{c}" for c in cs_source_cols]

# Dataset final
needed = ["country","year","growth"] + regressors + cs_regressors
df_cs = df_cs[needed].dropna().copy()
df_cs = df_cs.set_index(["country","year"])

# Formule PanelOLS
rhs = " + ".join(regressors + cs_regressors)
formula_cs_ardl = f"growth ~ {rhs} + EntityEffects"

model = PanelOLS.from_formula(formula_cs_ardl, data=df_cs, drop_absorbed=True)

res = model.fit(cov_type="clustered", cluster_entity=True)
print(res.summary)


                          PanelOLS Estimation Summary                           
Dep. Variable:                 growth   R-squared:                        0.2881
Estimator:                   PanelOLS   R-squared (Between):             -3.3438
No. Observations:                 935   R-squared (Within):               0.2881
Date:                Mon, Feb 16 2026   R-squared (Overall):             -2.4443
Time:                        16:57:19   Log-likelihood                   -2662.4
Cov. Estimator:             Clustered                                           
                                        F-statistic:                      45.073
Entities:                          36   P-value                           0.0000
Avg Obs:                       25.972   Distribution:                   F(8,891)
Min Obs:                       14.000                                           
Max Obs:                       27.000   F-statistic (robust):             32.172
                            

## Implémentation des effets de seuil

### Dette des ménages

In [30]:
def add_threshold_variable(df, var, threshold):
    df = df.copy()
    df[f"{var}_below"] = df[var] * (df[var] < threshold)
    df[f"{var}_above"] = df[var] * (df[var] >= threshold)
    return df

# Seuil à tester
threshold_hh = 60

df_thresh = add_threshold_variable(df_model, "debt_hh_lag1", threshold_hh)

formula_thresh = """
growth ~ growth_lag1 
+ debt_hh_lag1_below 
+ debt_hh_lag1_above
+ debt_corp_lag1 
+ debt_gov_lag1
+ EntityEffects
"""

df_thresh_panel = df_thresh.dropna().set_index(["country", "year"])

model_thresh = PanelOLS.from_formula(formula_thresh, data=df_thresh_panel)
res_thresh = model_thresh.fit(cov_type="clustered", cluster_entity=True)

print(res_thresh.summary)


                          PanelOLS Estimation Summary                           
Dep. Variable:                 growth   R-squared:                        0.1719
Estimator:                   PanelOLS   R-squared (Between):              0.2364
No. Observations:                 929   R-squared (Within):               0.1719
Date:                Mon, Feb 16 2026   R-squared (Overall):              0.1661
Time:                        17:19:47   Log-likelihood                   -2716.6
Cov. Estimator:             Clustered                                           
                                        F-statistic:                      36.874
Entities:                          36   P-value                           0.0000
Avg Obs:                       25.806   Distribution:                   F(5,888)
Min Obs:                       13.000                                           
Max Obs:                       27.000   F-statistic (robust):             17.572
                            

### Dette gouvernementale

In [31]:
threshold_gov = 90  #modifiable

df_thresh = add_threshold_variable(df_model, "debt_gov_lag1", threshold_gov)

formula = """
growth ~ growth_lag1 
+ debt_hh_lag1
+ debt_corp_lag1
+ debt_gov_lag1_below
+ debt_gov_lag1_above
+ EntityEffects
"""

df_panel = df_thresh.dropna().set_index(["country", "year"])

model = PanelOLS.from_formula(formula, data=df_panel)
res = model.fit(cov_type="clustered", cluster_entity=True)

print(res.summary)


                          PanelOLS Estimation Summary                           
Dep. Variable:                 growth   R-squared:                        0.1691
Estimator:                   PanelOLS   R-squared (Between):              0.3722
No. Observations:                 929   R-squared (Within):               0.1691
Date:                Mon, Feb 16 2026   R-squared (Overall):              0.2652
Time:                        17:25:59   Log-likelihood                   -2718.2
Cov. Estimator:             Clustered                                           
                                        F-statistic:                      36.145
Entities:                          36   P-value                           0.0000
Avg Obs:                       25.806   Distribution:                   F(5,888)
Min Obs:                       13.000                                           
Max Obs:                       27.000   F-statistic (robust):             16.689
                            