In [1]:
import matplotlib.gridspec as gridspec
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import statsmodels.api as sm

from sklearn.metrics import mean_absolute_percentage_error as mean_ape
from sklearn.metrics import root_mean_squared_error as root_mse

In [2]:
model_data = pd.read_parquet("data/model_data.parquet")
model_data = model_data[model_data['alignement_politique'] != 'autre']

In [30]:
outcome = "quotes_share"

Approche économétrique négative : on étudie l'écart des comportements réels à des comportements théoriques.
En l'occurrence à des normes encadrant les pratiques journalistes.
La méthode ici consiste à modéliser ces normes, puis à évaluer dans quelle mesure elles permettent de prédire les comportements réels, et à observer comment ces derniers s'en écartent. 
On s'intéresse aux R2 et aux résidus.

Dans l'idéal, les normes doivent être parfaitement connues.
Exemple de la règle des tiers, les articles se répartissent au tiers entre le gouvernement, la majorité et l'opposition.
Mais d'application délicate car elle concerne des unités fluctuant au cours du temps (les partis qui gouvernent, les partis qui soutiennent le gouvernement sans y participer, les partis qui s'opposent au gouvernement).
Et dépourvue d'utilité pour nous : ne permet pas d'étudier des outcomes spécifiques à l'extrême-droite, qui sera toujours diluée dans l'opposition.

Modèle alternatif : les journaux accordent une fraction $\alpha$ des articles à la nuance politique qui gouverne, et répartissent les articles restants entre les nuances politiques en fonction de leur poids électoral. Ce qu'on peut écrire, en notant $G_i$ la participation au gouvernement et $T_i$ les résultats à la dernière élection législative : 
$$Y_{i} = \alpha + \beta G_i + \gamma T_i$$

La difficulté est la valeur de $\alpha$ n'est pas connue *a priori* (pas d'argument dans la littérature pour étayer $\alpha = \frac{1}{3}$ par exemple). 
Il faut l'estimer à partir des données.
Risque que le raisonnement deviennent circulaire : si l'on tente de mesurer l'écart des comportements réels à une norme en définissant celle-ci à partir de ces mêmes comportements, on se retrouve en fait à commenter la performance prédictive du modèle.
Pour minimiser ce risque, il faut que le nombre de paramètres estimés soit le plus faible possible (comme dans le modèle précédent, supposant que la norme est identique pour les nuances politiques, les journaux et les périodes).

*NB : une difficulté supplémentaire pour étudier le phénomène de légitimation de l'extrême droite : des évolutions surviennent au cours du temps, soit que les normes évoluent, soit que les écarts aux normes s'amplifient. Estimer les paramètres de la norme sur toute la période conduit à sous-estimer la transformation des comportements réels. Dans ces circonstances, il vaut mieux :*
- *Estimer sur une période de référence, et appliquer la norme ainsi obtenue aux autres périodes.*
- *Estimer plusieurs normes sur plusieurs périodes, mais cela est une manière de revenir à une approche économétrique traditionnelle.*
*D'un autre côté, dans le modèle actuel, aucun paramètre n'est spécifique à l'extrême droite.*

In [39]:
######################

Premier regard sur les résultats :
- Nécessité d'ajouter une constance pour calculer correctement les R2 (permet aussi de réduire le BIC)
- Le meilleur modèle de base intègre une constante, les résultats électoraux et une indicatrice gouvernementale.
- Ce modèle fonctionne bien pour la période <2012, beaucoup moins ensuite.
- Ce modèle fonctionne pour tous les journaux, sauf *Médiapart*.
- Il semble fonctionner seulement pour les partis ayant accédé au pouvoir sur la période considérée (i.e., pas pour le centre avant 2012, pas pour la droite après 2012)
- Pour les autres partis, les performances du modèle semblent devenir moins mauvais après 2012.


*Pour les partis hors gouvernement, on pourrait simplement calculer le coefficient de corrélation entre art_share et votes_share ?*

# Estimation de la norme

In [None]:
# Attention ci-dessous les modèles estimés n'a pas 1 mais 2 paramètres !

In [25]:
X = model_data[["na_share", "government", "pres_votes_share", "leg_votes_share"]]
y = model_data[outcome]
model = sm.OLS(y, X).fit(cov_type='HC3')

y_pred = model.predict(X)
mape = mean_ape(y, y_pred)
rmspe = root_mse(y, y_pred) / y.mean()

params = model.params.rename("coef").to_frame()
pvalues = model.pvalues.rename("pval").to_frame()
print(pd.merge(params, pvalues, left_index=True, right_index=True))
print("")
print(f"R2: {100*model.rsquared:.2f}%")
print(f"MAPE: {100*mape:.2f}%")
print(f"RMSPE: {rmspe:.5f}")

                      coef           pval
na_share          0.426593  2.425365e-310
government        0.086873   1.841739e-76
pres_votes_share  0.189295   1.404800e-27
leg_votes_share   0.586203   5.846808e-87

R2: 91.96
MAPE: 65.92%
RMSPE: 0.39027


In [28]:
cutoff = pd.Period('2012-06', freq='M')
X = model_data[model_data["month"] <= cutoff][["na_share", "government", "pres_votes_share", "leg_votes_share"]]
y = model_data[model_data["month"] <= cutoff][outcome]
model = sm.OLS(y, X).fit(cov_type='HC3')

y_pred = model.predict(X)
mape = mean_ape(y, y_pred)
rmspe = root_mse(y, y_pred) / y.mean()

params = model.params.rename("coef").to_frame()
pvalues = model.pvalues.rename("pval").to_frame()
print(pd.merge(params, pvalues, left_index=True, right_index=True))
print("")
print(f"R2: {100*model.rsquared:.2f}%")
print(f"MAPE: {100*mape:.2f}%")
print(f"RMSPE: {rmspe:.5f}")

                      coef           pval
na_share          0.494710  2.010801e-310
government        0.106608   4.678055e-81
pres_votes_share  0.179077   8.328839e-21
leg_votes_share   0.460653   1.302024e-51

R2: 95.03%
MAPE: 66.27%
RMSPE: 0.32018


# Etude des comportements prévus

In [29]:
model_data['y_pred'] = model.predict(
    model_data[["na_share", "government", "pres_votes_share", "leg_votes_share"]]
)

In [32]:
journals = model_data['journal'].unique()

for journal in journals:
    subset_data = model_data[model_data['journal'] == journal]
    y = subset_data[outcome]
    y_pred = subset_data['y_pred']
    mape = mean_ape(y, y_pred)
    rmspe = root_mse(y, y_pred) / y.mean()
    print(journal)
    print(f"MAPE: {100*mape:.2f}%")
    print(f"RMSPE: {rmspe:.5f}")
    print("")

Le Figaro
MAPE: 76.30%
RMSPE: 0.33254

Le Monde
MAPE: 57.39%
RMSPE: 0.32372

La Croix
MAPE: 54.34%
RMSPE: 0.31754

Libération
MAPE: 51.43%
RMSPE: 0.38509

Mediapart
MAPE: 70.75%
RMSPE: 0.74428



In [36]:
alignments = model_data['alignement_politique'].unique()

for alignment in alignments:
    subset_data = model_data[model_data['alignement_politique'] == alignment]
    y = subset_data[outcome]
    y_pred = subset_data['y_pred']
    mape = mean_ape(y, y_pred)
    rmspe = root_mse(y, y_pred) / y.mean()
    print(alignment)
    print(f"MAPE: {100*mape:.2f}%")
    print(f"RMSPE: {rmspe:.5f}")
    print("")

centredroite_droite
MAPE: -0.48%
RMSPE: 0.21681

centregauche_gauche
MAPE: 2.13%
RMSPE: 0.32684

extremegauche_gaucheradicale
MAPE: -1.85%
RMSPE: 0.98764

centre
MAPE: 1.64%
RMSPE: 0.70733

extremedroite_droiteradicale
MAPE: 1.32%
RMSPE: 0.89519



In [35]:
cutoff = pd.Period('2012-06', freq='M')

journals = model_data['journal'].unique()
alignments = model_data['alignement_politique'].unique()

results = {}

for period_label, period_filter in {
    'pre2012': model_data['month'] < cutoff,                                
    'post2012': model_data['month'] >= cutoff
}.items():
    results[period_label] = {}
    
    for alignment in alignments:
        results[period_label][alignment] = {}
        
        for journal in journals:
            subset_data = model_data[
                (period_filter) &
                (model_data['journal'] == journal) &
                (model_data['alignement_politique'] == alignment)]
            
            if len(subset_data) >= 3:
                results[period_label][alignment][journal] = r2_score(subset_data['art_share'], subset_data['pred_art_share'])
            else:
                results[period_label][alignment][journal] = None

In [36]:
r2_tables = {}
for period, alignements in results.items():
    r2_tables[period] = pd.DataFrame({
        alignement: {
            journal: results[period][alignement][journal]
            for journal in results[period][alignement]
        } for alignement in results[period]
    }).sort_index().T

In [37]:
r2_tables["pre2012"]

Unnamed: 0,La Croix,Le Figaro,Le Monde,Libération,Mediapart
centredroite_droite,0.8035,0.631184,0.705358,0.580185,-0.031985
centregauche_gauche,0.784026,0.614825,0.366468,0.281147,-5.524372
extremegauche_gaucheradicale,-11.822871,-17.231408,-6.225167,-5.162818,-3.258605
centre,-0.138056,-0.413072,-0.602119,-0.118666,
extremedroite_droiteradicale,-3.514805,-3.663144,-2.829312,-5.043083,-4.756246


In [38]:
r2_tables["post2012"]

Unnamed: 0,La Croix,Le Figaro,Le Monde,Libération,Mediapart
centredroite_droite,-1.542454,-6.883047,-4.008233,-1.419806,-0.788268
centregauche_gauche,0.803833,0.701169,0.408641,0.521507,-1.671137
extremegauche_gaucheradicale,-0.457542,-4.424052,0.105452,0.038718,-1.642463
centre,0.661048,0.585289,0.561347,0.648283,-0.082431
extremedroite_droiteradicale,-0.577944,-1.86929,-0.461168,-0.902084,-1.457527


In [None]:
import numpy as np
import pandas as pd
from scipy.optimize import minimize

# x1 and x2
x1 = model_data["votes_share"].values
x2 = model_data["government"].values
y = model_data["art_share"].values

# Objective: residual sum of squares
def objective(alpha):
    y_pred = alpha * x1 + (1 - alpha) * x2
    return np.sum((y - y_pred) ** 2)

# Minimize the objective
result = minimize(objective, x0=0.5, bounds=[(0, 1)])

# Estimated alpha
alpha_hat = result.x[0]
print(f"Estimated alpha: {alpha_hat:.4f}")

In [None]:
# Predicted values using estimated alpha
y_pred = alpha_hat * x1 + (1 - alpha_hat) * x2

# Residual and total sum of squares
ss_res = np.sum((y - y_pred) ** 2)
ss_tot = np.sum((y - np.mean(y)) ** 2)

# R-squared
r2 = 1 - ss_res / ss_tot
print(f"R-squared: {r2:.4f}")