In [None]:
import matplotlib.gridspec as gridspec
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import statsmodels.api as sm

from sklearn.metrics import mean_absolute_percentage_error as mean_ape
from sklearn.metrics import root_mean_squared_error as root_mse

In [None]:
model_data = pd.read_parquet("data/model_data.parquet")
model_data = model_data[model_data['alignement_politique'] != 'autre']

model_data['pres_votes_share'] = model_data['pres_dummy'] * model_data['pres_votes_share']

In [None]:
nuances_order = [
    "extremedroite_droiteradicale",
    "centredroite_droite",
    "centre",
    "centregauche_gauche",
    "extremegauche_gaucheradicale"
]

Approche économétrique classique : on modélise des comportements réels.
On s'intéresse principalement aux coefficients et à leur significativité.

$R^2$ n'est pas une mesure appropriée pour comparer des modèles ajustés sur des échantillons différents, et en l'absence de constante.

Il faut mesurer directement la distance entre les valeurs réelles et prédites.
De préférence en normalisant, car les valeurs prédites sont assez différentes entre les partis : un écart moyen de 5 pp. entre les valeurs réelles et prédites est mineur lorsque les valeurs prédites gravitent autour de 50 %, majeur lorsqu'elles gravitent autour de 5 %.
- *Mean absolute percentage error (MAPE)* : $\frac{1}{n} \sum_{i=1}^{n} \left| \frac{\hat{y}_i - y_i}{y_i} \right|$

    S'interprète directement : une MAPE de 1 signifie que les valeurs prédites s'écartent en moyenne de 100 % des valeurs réelles.
- *Root mean squared percentage error (RMSPE)*: $\sqrt{\frac{1}{n} \sum_{i=1}^{n} \left(\frac{\hat{y}_i - y_i}{y_i}\right)^2}$

    Ne s'interprète pas directement. Permet seulement de comparer les modèles. Plus sensible aux outliers que la MAPE.

Elimination des constantes, qui rendent les coefficients beaucoup plus difficiles à interpréter sans améliorer sensiblement les prédictions (on se retrouve par exemple avec des constantes très élevées, et des coefficients négatifs pour les résultats électoraux).

## 1. Modèle de base
De la forme $Y_{i} = \beta T_{i}$ avec :
- $Y_{i}$ la proportion des articles intégrant des citations de la nuance politique $i$ (avec $\sum_{i=1}^{n} Y_{i} = 1$)
- $\beta$ la pondération des résultats électoraux de chaque nuance politique
- $T_{i}$ la proportion des voix obtenue par les candidats de la nuance politique $i$ au premier tour des précédentes élections législatives

In [None]:
X = model_data["leg_votes_share"]
y = model_data["quotes_share"]
model = sm.OLS(y, X).fit(cov_type='HC3')
y_pred = model.predict(X)
mape = mean_ape(y, y_pred)
rmspe = root_mse(y, y_pred) / y.mean()

params = model.params.rename("coef").to_frame()
pvalues = model.pvalues.rename("pval").to_frame()
print(pd.merge(params, pvalues, left_index=True, right_index=True))
print("")
print(f"MAPE: {100*mape:.2f}%")
print(f"RMSPE: {rmspe:.5f}")

## 2. Modèle de base + gouvernement
De la forme $Y_{i} = \beta T_{i} + \gamma G_{i}$ avec :
- $\gamma$ la proportion des articles intégrant des citations dont bénéficie la nuance politique du gouvernement
- $G_{i}$ une indicatrice valant 1 si le Premier ministre appartient à la nuance politique $i$

In [None]:
X = model_data[["leg_votes_share", "pres_votes_share", "government"]]
y = model_data["quotes_share"]
model = sm.OLS(y, X).fit(cov_type='HC3')
y_pred = model.predict(X)
mape = mean_ape(y, y_pred)
rmspe = root_mse(y, y_pred) / y.mean()

params = model.params.rename("coef").to_frame()
pvalues = model.pvalues.rename("pval").to_frame()
print(pd.merge(params, pvalues, left_index=True, right_index=True))
print("")
print(f"MAPE: {100*mape:.2f}%")
print(f"RMSPE: {rmspe:.5f}")

## 3. Modèle de base + gouvernement + nuances politiques
Les modèles estimés sont de la forme $Y_{i} = \beta_{i}T_{i} + \gamma_{i} G_{i}$ avec :
- $\beta_{i}$ la pondération des résultats électoraux de la nuance politique $i$
- $\gamma_{i}$ la couverture médiatique supplémentaire dont bénéficie la nuance politique $i$ lorsqu'elle est au gouvernement

In [None]:
models = {}

for alignement in model_data["alignement_politique"].unique():
    subset = model_data[model_data["alignement_politique"] == alignement]

    if len(subset) >= 3:
        X = subset[["leg_votes_share", "government"]]
        y = subset["quotes_share"]
        model = sm.OLS(y, X).fit(cov_type='HC3')      
        y_pred = model.predict(X)
        mape = mean_ape(y, y_pred)
        rmspe = root_mse(y, y_pred) / y.mean()
        
        models[alignement] = {
            "params": model.params.rename("params").to_frame(),
            "pvalues": model.pvalues.rename("pval").to_frame(),
            "mape": mape,
            "rmspe": rmspe}

    else:
        models[alignement] = {
            "params": None,
            "pvalues": None,
            "mape": None,
            "rmspe": None}

In [None]:
summary = []

for alignement, model_info in models.items():
    summary.append({
        "alignement": alignement,
        "mape": model_info["mape"],
        "rmspe": model_info["rmspe"]
    })

results = pd.DataFrame(summary)
results["alignement"] = pd.Categorical(results["alignement"], categories=nuances_order, ordered=True)
results = results.sort_values("alignement").reset_index(drop=True)

results.style.hide(axis="index") 

In [None]:
results_list = []

for alignement, model_info in models.items():
    df = model_info["params"].join(model_info["pvalues"])
    df["alignement"] = alignement
    df["variable"] = df.index
    results_list.append(df.reset_index(drop=True))

results = pd.concat(results_list, ignore_index=True)
results = results.dropna(subset=["pval"])
results["alignement"] = pd.Categorical(results["alignement"], categories=nuances_order, ordered=True)
results = results.sort_values(["variable", "alignement"])
results = results.set_index(["variable", "alignement"])
results.index.names = ["Variable", "Alignement"]

results.style.format("{:.4f}")

## 4. Modèle de base + gouvernement + nuances politiques + score aux présidentielles
Les modèles estimés sont de la forme $Y_{i} = \beta_{i}T_{i} + \gamma_{i} G_{i} + \theta_{i} P_{i}$ avec :
- $\beta_{i}$ la pondération des résultats électoraux de la nuance politique $i$
- $\gamma_{i}$ la couverture médiatique supplémentaire dont bénéficie la nuance politique $i$ lorsqu'elle est au gouvernement
- $\theta_{i}$ la pondération des résultats aux élections présidentielles de la nuance politique $i$
- $P_{i}$ les résultats de la nuance politique $i$ à l'élection présidentielle suivante (pour le mois de l'élection et les trois précédents)

In [None]:
models = {}

for alignement in model_data["alignement_politique"].unique():
    subset = model_data[model_data["alignement_politique"] == alignement]

    if len(subset) >= 3:
        X = subset[["leg_votes_share", "pres_votes_share", "government"]]
        y = subset["quotes_share"]
        model = sm.OLS(y, X).fit(cov_type='HC3')      
        y_pred = model.predict(X)
        mape = mean_ape(y, y_pred)
        rmspe = root_mse(y, y_pred) / y.mean()
        
        models[alignement] = {
            "params": model.params.rename("params").to_frame(),
            "pvalues": model.pvalues.rename("pval").to_frame(),
            "mape": mape,
            "rmspe": rmspe}

    else:
        models[alignement] = {
            "params": None,
            "pvalues": None,
            "mape": None,
            "rmspe": None}

In [None]:
summary = []

for alignement, model_info in models.items():
    summary.append({
        "alignement": alignement,
        "mape": model_info["mape"],
        "rmspe": model_info["rmspe"]
    })

results = pd.DataFrame(summary)
results["alignement"] = pd.Categorical(results["alignement"], categories=nuances_order, ordered=True)
results = results.sort_values("alignement").reset_index(drop=True)

results.style.hide(axis="index") 

In [None]:
results_list = []

for alignement, model_info in models.items():
    df = model_info["params"].join(model_info["pvalues"])
    df["alignement"] = alignement
    df["variable"] = df.index
    results_list.append(df.reset_index(drop=True))

results = pd.concat(results_list, ignore_index=True)
results = results.dropna(subset=["pval"])
results["alignement"] = pd.Categorical(results["alignement"], categories=nuances_order, ordered=True)
results = results.sort_values(["variable", "alignement"])
results = results.set_index(["variable", "alignement"])
results.index.names = ["Variable", "Alignement"]

results.style.format("{:.4f}")

## 5. Modèle de base + gouvernement + nuances politiques + score aux présidentielles + périodes
Il s'agit maintenant d'étudier plus directement l'hypothèse d'une légitimation de l'extrême droite par la presse écrite nationale. La méthode la plus simple est d'estimer les modèles précédents pour 2 périodes, afin d'observer l'évolution des coefficients. Cela s'écrit $Y_{it} = \beta_{it} T_{it} + \gamma_{it} G_{it}$ en désignant par $t$ les périodes).

On retient 2012 comme charnière, avec l'idée que...
- La période précédente est encore marquée par le jeu fonctionnement traditionnel du système politique, avec une domination persistante de la droite et de la gauche de gouvernement, malgré leurs recompositions.
- La période suivante est caractérisée par l'effondrement de ce système, avec l'essort du centre et des extrêmes.

In [None]:
cutoff = pd.Period('2012-06', freq='M')

models = {}

for period_label, period_filter in {
    'pre2012': model_data["month"] < cutoff,
    'post2012': model_data["month"] >= cutoff
}.items():
    
    models[period_label] = {}
    period_data = model_data[period_filter]
    
    for alignement in period_data["alignement_politique"].unique():
        models[period_label][alignement] = {}
        subset = period_data[period_data["alignement_politique"] == alignement]

        if len(subset) >= 3:
            X = subset[["leg_votes_share", "pres_votes_share", "government"]]
            y = subset["quotes_share"]            
            model = sm.OLS(y, X).fit(cov_type='HC3')
            y_pred = model.predict(X)
            mape = mean_ape(y, y_pred)
            rmspe = root_mse(y, y_pred) / y.mean()

            models[period_label][alignement] = {
                "params": model.params.rename("params").to_frame(),
                "pvalues": model.pvalues.rename("pval").to_frame(),
                "mape": mape,
                "rmspe": rmspe}

        else:
            models[period_label][alignement] = {
                "params": None,
                "pvalues": None,
                "mape": None,
                "rmspe": None}

In [None]:
summary_list = []

for period, alignement_dict in models.items():
    for alignement, model_info in alignement_dict.items():
        summary_list.append({
            "period": period,
            "alignement": alignement,
            "mape": model_info["mape"],
            "rmspe": model_info["rmspe"]
        })

summary = pd.DataFrame(summary_list)
summary["alignement"] = pd.Categorical(summary["alignement"], categories=nuances_order, ordered=True)
summary = summary.pivot_table(index="alignement",
                                      columns="period",
                                      values=["mape", "rmspe"],
                                      observed=False)
summary.columns = summary.columns.swaplevel(0, 1)
summary = summary.reindex(columns=["pre2012", "post2012"], level=0)
summary = summary.reset_index()
summary.columns.names = [None, None]
summary = summary.sort_values("alignement").reset_index(drop=True)

format_cols = summary.columns[1:]
summary.style.hide(axis="index").format({col: "{:.3f}" for col in format_cols})

In [None]:
results_list = []

for period, alignement_dict in models.items():
    for alignement, model_info in alignement_dict.items():
        df = model_info["params"].join(model_info["pvalues"])
        df["period"] = period
        df["alignement"] = alignement
        df["variable"] = df.index
        results_list.append(df.reset_index(drop=True))

results = pd.concat(results_list, ignore_index=True)
results = results.dropna(subset=["pval"])
results["alignement"] = pd.Categorical(results["alignement"], categories=nuances_order, ordered=True)
results = results.pivot_table(index=["alignement", "variable"],
                              columns="period",
                              values=["params", "pval"],
                              observed=False)
results.columns = results.columns.swaplevel(0, 1)
results = results.reindex(columns=["pre2012", "post2012"], level=0)
results = results.sort_index()
results.index.names = ["Alignement", "Variable"]

results.style.format({col: "{:.4f}" for col in results.columns})

## 6. Modèle de base + gouvernement + nuances politiques + périodes + journaux
On différencie finalement selon les journaux. En les indiçant par $j$, les modèles s'écrivent : $Y_{ijt} = \beta_{ijt}T_{it} + \gamma_{it} G_{it}$

In [None]:
cutoff = pd.Period('2012-06', freq='M')

models = {}

for period_label, period_filter in {
    'pre2012': model_data["month"] < cutoff,
    'post2012': model_data["month"] >= cutoff
}.items():
    
    models[period_label] = {}
    period_data = model_data[period_filter]
    
    for alignement in period_data["alignement_politique"].unique():
        models[period_label][alignement] = {}
        subset = period_data[period_data["alignement_politique"] == alignement]
        
        for journal in period_data["journal"].unique():
            sub_subset = subset[subset["journal"] == journal]

            if len(subset) >= 3:
                X = sub_subset[["leg_votes_share", "government"]]
                y = sub_subset["quotes_share"]            
                model = sm.OLS(y, X).fit(cov_type='HC3')
                y_pred = model.predict(X)
                mape = mean_ape(y, y_pred)
                rmspe = root_mse(y, y_pred) / y.mean()

                models[period_label][alignement][journal] = {
                    "params": model.params.rename("params").to_frame(),
                    "pvalues": model.pvalues.rename("pval").to_frame(),
                    "mape": mape,
                    "rmspe": rmspe}

            else:
                models[period_label][alignement][journal] = {
                    "params": None,
                    "pvalues": None,
                    "mape": None,
                    "rmspe": None}

In [None]:
summary = []

for period, alignement_dict in models.items():
    for alignement, journal_dict in alignement_dict.items():
        for journal, model_info in journal_dict.items():
            summary.append({
                "period": period,
                "alignement": alignement,
                "journal": journal,
                "mape": model_info["mape"],
                "rmspe": model_info["rmspe"]
            })

results = pd.DataFrame(summary)
results["alignement"] = pd.Categorical(results["alignement"], categories=nuances_order, ordered=True)
results = results.pivot_table(index=["alignement", "journal"],
                              columns="period",
                              values=["mape", "rmspe"],
                              observed=False)
results.columns = results.columns.swaplevel(0, 1)
results = results.reindex(columns=["pre2012", "post2012"], level=0)
results = results.sort_index()
results.index.names = ["Alignement", "Journal"]

format_cols = results.columns
results.style.format({col: "{:.3f}" for col in format_cols})

In [None]:
results_list = []

for period, alignement_dict in models.items():
    for alignement, journal_dict in alignement_dict.items():
        for journal, model_info in journal_dict.items():
            df = model_info["params"].join(model_info["pvalues"])
            df["period"] = period
            df["alignement"] = alignement
            df["journal"] = journal
            df["variable"] = df.index
            results_list.append(df.reset_index(drop=True))

results = pd.concat(results_list, ignore_index=True)
results = results.dropna(subset=["pval"])
results["alignement"] = pd.Categorical(results["alignement"], categories=nuances_order, ordered=True)
results = results.pivot_table(index=["variable", "alignement", "journal"],
                              columns="period",
                              values=["params", "pval"],
                              observed=False)

results.columns = results.columns.swaplevel(0, 1)
results = results.reindex(columns=["pre2012", "post2012"], level=0)
results = results.sort_index()
results.index.names = ["Variable", "Alignement", "Journal"]

results.style.format({col: "{:.4f}" for col in results.columns})

In [None]:
combinations = [
    ('government', 'pre2012'),
    ('government', 'post2012'),
    ('leg_votes_share', 'pre2012'),
    ('leg_votes_share', 'post2012'),
]

titles = [
    'Government – Pre 2012',
    'Government – Post 2012',
    'Leg. Vote Share – Pre 2012',
    'Leg. Vote Share – Post 2012',
]

heatmap_data = []
row_counts = []

for var, period in combinations:
    sub = results.loc[results.index.get_level_values(0) == var][(period, 'params')]
    sub.index = sub.index.droplevel(0)
    pivot = sub.unstack(level=1)
    heatmap_data.append(pivot)
    row_counts.append(pivot.shape[0])

row_limits = []
for r in range(2):
    d1 = heatmap_data[2*r]
    d2 = heatmap_data[2*r+1]
    combined = pd.concat([d1, d2]).values.flatten()
    vmin, vmax = np.nanmin(combined), np.nanmax(combined)
    row_limits.append((vmin, vmax))

fig = plt.figure(figsize=(18, 12))
gs = gridspec.GridSpec(
    2, 3,
    width_ratios=[1, 1, 0.05],
    height_ratios=[
        max(row_counts[0:2])/max(row_counts),
        max(row_counts[2:4])/max(row_counts)
    ],
    hspace=0.3,
    figure=fig
)

axes = [fig.add_subplot(gs[i, j]) for i in range(2) for j in range(2)]
cbar_axes = [fig.add_subplot(gs[i, 2]) for i in range(2)]

for idx, ax in enumerate(axes):
    row = idx // 2
    vmin, vmax = row_limits[row]
    sns.heatmap(
        heatmap_data[idx],
        ax=ax,
        cmap='coolwarm',
        center=0,
        annot=True,
        fmt=".2f",
        vmin=vmin,
        vmax=vmax,
        cbar=(idx % 2 == 1),
        cbar_ax=(cbar_axes[row] if idx % 2 == 1 else None),
        cbar_kws={'label': 'Effect size'}
    )

    ax.set_title(titles[idx])
    ax.set_xlabel('Journal')
    if idx % 2 == 0:
        ax.set_ylabel('Political alignment')
        ax.tick_params(axis='y', labelrotation=0)
    else:
        ax.set_ylabel('')
        ax.set_yticks([])
        ax.set_yticklabels([])

plt.tight_layout()
plt.show()