# Modèle électoral pour l'élection québécoise de 2022

Comment fonctionnent les prévisions électorales basées sur les moyennes de sondages, comme Qc125? Elles utilisent les données tirées des sondages — les mêmes que vous et moi voyons publiées dans les médias — afin de prévoir l'élection dans chacune des 125 circonscriptions du Québec. Mais à quoi ressemble ce processus?

Je me suis dit qu'il serait amusant de faire mon propre modèle de prévision afin de comprendre mieux et de permettre à tout le monde d'y voir plus clair. On va bâtir un modèle extrêmement simple, en utilisant seulement les quelques derniers sondages et l'élection générale de 2018 comme données. Le but ici est de comprendre les limites d'un tel exercice.

In [208]:
import numpy as np
import pandas as pd
pd.set_option('display.max_rows', None) 

## Un modèle simpliste : sondages nationaux et élection de 2018
Les sondages nous donnent une indication du vote à la grandeur du Québec. On peut comparer avec le vote réel en 2018 et obtenir un « multiplicateur » pour chaque parti. 

Par exemple, si un parti a fait 20% aux élections de 2018 et que les sondages lui donnent maintenant 10%, le multiplicateur est de 0,5. On peut diviser le vote de ce parti par deux dans chaque circonscription, et faire de même pour tous les partis pour obtenir une idée de qui va arriver en tête.

Commençons par aller chercher les données de sondages. Je les ai mises dans un fichier tabulé (csv), que j'importe ainsi :

In [209]:
sondages = pd.read_csv("Données du modèle électoral - Sondages.csv")
sondages

Unnamed: 0,firme,région,échantillon,date,caq,pcq,plq,pq,qs,autres
0,Mainstreet,Québec entier,1523,2022-09-14,42.0,18.0,11.0,7.0,18.0,4.0
1,Mainstreet,Québec entier,1530,2022-09-13,42.0,17.0,11.0,7.0,19.0,4.0
2,Léger,Québec entier,3100,2022-09-10,38.0,15.0,18.0,11.0,17.0,1.0
3,Élections générales,Québec entier,4033538,2022-10-01,37.42,1.46,24.82,17.06,16.1,3.14


Ça ne fait pas beaucoup de sondages. J'ai seulement pris les deux derniers Mainstreet et le gros sondage de Léger. Malheureusement, ce sont les seuls sondages nationaux qu'on a, ce qui illustre déjà les limites de mon modèle (et de tous les autres)! Un modèle n'est valide que dans la mesure où il a accès à des données. Il n'y a pas de raison de douter de la qualité des données de Léger et Mainstreet au-delà de l'incertitude inhérente à un sondage d'opinion, mais il est vrai qu'avoir aussi peu de sondages n'est pas idéal pour faire des prédictions. Avoir des sondages exécutés par plus de firmes, par exemple, pourrait permettre d'atténuer le biais systématique de chaque compagnie. 

Mais bon, on n'a que ceux-là. Il faut décider comment les pondérer pour faire une moyenne. Pour garder ça simple, on va donner un poids égal aux deux firmes (le Léger est un peu plus vieux, mais a un plus gros échantillon). On va donner un poids de 0,5 à Léger, 0,3 au Mainstreet récent, et 0,2 au Mainstreet de la veille.

In [65]:
troisSondages = sondages.iloc[0:3][["caq", "pcq", "plq", "pq", "qs", "autres"]]
troisSondages.iloc[0] *= 0.3
troisSondages.iloc[1] *= 0.2
troisSondages.iloc[2] *= 0.5

moyenneSondages = troisSondages.sum()
moyenneSondages

caq       40.0
pcq       16.3
plq       14.5
pq         9.0
qs        17.7
autres     2.5
dtype: float64

Voilà. Il faut maintenant comparer cela avec les résultats de l'élection de 2018. (Que j'ai déjà inclus dans mon jeu de données comme si c'était un sondage.)

In [78]:
resultats2018 = sondages[sondages["firme"] == "Élections générales"]
resultats2018[["caq", "pcq", "plq", "pq", "qs", "autres"]]

Unnamed: 0,caq,pcq,plq,pq,qs,autres
3,37.42,1.46,24.82,17.06,16.1,3.14


On calcule les multiplicateurs :

In [129]:
multiplicateurs = 1/resultats2018[["caq", "pcq", "plq", "pq", "qs", "autres"]] * (moyenne)
multiplicateurs = multiplicateurs.iloc[0]
multiplicateurs

caq        1.068947
pcq       11.164384
plq        0.584206
pq         0.527550
qs         1.099379
autres     0.796178
Name: 3, dtype: float64

On voit donc que, basé sur notre moyenne de trois sondages, la CAQ est projetée d'avoir 1,06 fois plus de votes cette année. La hausse est similaire chez QS (1,09), mais beaucoup plus spectaculaire pour le PCQ, qui multiplie son vote par 11. Le PLQ et le PQ ne sont pas loin de voir leur appui divisé par deux.

Mais cela n'est pas très utile au niveau national : ce qu'on veut, c'est savoir qui remportera l'élection dans chaque circonscription! On va donc importer un jeu de données avec les 125 circonscriptions. Pour chacune, j'ai mis les régions et les résultats de l'élection de 2018.

In [94]:
circ = pd.read_csv("Données du modèle électoral - Circonscriptions.csv") 
circ

Unnamed: 0,nom,région,grande région,2018caq,2018pcq,2018plq,2018pq,2018qs,2018autres
0,Abitibi-Est,Abitibi-Témiscamingue,reste du Québec,42.72,0.0,18.75,19.48,15.66,3.39
1,Abitibi-Ouest,Abitibi-Témiscamingue,reste du Québec,34.12,1.1,11.31,33.26,16.59,3.62
2,Acadie,Montréal,grand Montréal,16.51,2.18,53.8,9.0,13.75,4.76
3,Anjou–Louis-Riel,Montréal,grand Montréal,28.91,0.0,39.06,14.7,14.53,2.8
4,Argenteuil,Laurentides,reste du Québec,38.88,1.55,17.41,21.14,12.17,8.85
5,Arthabaska,Centre-du-Québec,reste du Québec,61.84,2.33,11.35,9.4,12.58,2.5
6,Beauce-Nord,Chaudière-Appalaches,reste du Québec,66.37,4.68,15.66,5.12,7.06,1.11
7,Beauce-Sud,Chaudière-Appalaches,reste du Québec,62.68,2.48,20.83,4.11,5.79,4.11
8,Beauharnois,Montérégie,reste du Québec,46.7,0.9,12.71,21.86,15.05,2.78
9,Bellechasse,Chaudière-Appalaches,reste du Québec,53.85,3.22,27.16,7.26,7.5,1.01


L'idée est donc de multiplier toutes ces données par les multiplicateurs propres à chaque parti. Par exemple, pour Abitibi-Ouest :

In [175]:
abitibiOuest = circ[circ["nom"] == "Abitibi-Ouest"][["2018caq", "2018pcq", "2018plq", "2018pq", "2018qs", "2018autres"]]
abitibiOuest = abitibiOuest.rename(columns={"2018caq": "caq", "2018pcq": "pcq", "2018plq": "plq", "2018pq": "pq", "2018qs": "qs", "2018autres": "autres"})
resultatAbitibiOuest = abitibiOuest * multiplicateurs
resultatAbitibiOuest

Unnamed: 0,caq,pcq,plq,pq,qs,autres
1,36.472475,12.280822,6.607373,17.546307,18.238696,2.882166


Nous avons un problème... Faisons la somme des résultats :

In [176]:
sommeAbitibiOuest = resultatAbitibiOuest.iloc[0].sum()
sommeAbitibiOuest

94.02783802503609

Ça ne donne pas 100%. On doit donc normaliser pour ramener les chiffres sur 100.

In [179]:
resultatAbitibiOuestNormalisé = resultatAbitibiOuest * 100 / sommeAbitibiOuest
display(resultatAbitibiOuestNormalisé)
print("Somme:", resultatAbitibiOuestNormalisé.iloc[0].sum())

Unnamed: 0,caq,pcq,plq,pq,qs,autres
1,38.789018,13.060836,7.027039,18.660758,19.397123,3.065226


Somme: 100.0


Parfait. On voit que la CAQ est projetée gagnante dans Abitibi-Ouest! On va utiliser une fonction qui identifie la colonne avec le chiffre maximum pour calculer ça facilement:

In [153]:
resultatAbitibiOuest.idxmax(axis=1).to_string(index=False)

'caq'

Il reste à faire ceci automatiquement pour les 125 circonscriptions.

In [193]:
circ2022 = circ[["2018caq", "2018pcq", "2018plq", "2018pq", "2018qs", "2018autres"]]
circ2022 = circ2022.rename(columns={"2018caq": "caq", "2018pcq": "pcq", "2018plq": "plq", "2018pq": "pq", "2018qs": "qs", "2018autres": "autres"})

circ2022 = circ2022 * multiplicateurs
sommes = circ2022.sum(axis=1)
projections2022 = (circ2022 * 100).div(sommes, axis='index')

projections2022["gagnant"] = projections2022.idxmax(axis=1)
projections2022.insert(0, "nom", circ["nom"])

projections2022


Unnamed: 0,nom,caq,pcq,plq,pq,qs,autres,gagnant
0,Abitibi-Est,52.603097,0.0,12.618024,11.837944,19.83184,3.109094,caq
1,Abitibi-Ouest,38.789018,13.060836,7.027039,18.660758,19.397123,3.065226,caq
2,Acadie,18.180798,25.072688,32.378607,4.891203,15.57255,3.904154,plq
3,Anjou–Louis-Riel,38.783913,0.0,28.638205,9.732584,20.047505,2.797794,caq
4,Argenteuil,41.306828,17.199104,10.108911,11.084289,13.297725,7.003143,caq
5,Arthabaska,55.304378,21.763287,5.547482,4.148825,11.570759,1.665268,caq
6,Beauce-Nord,49.374212,36.362418,6.366931,1.879774,5.401623,0.615043,caq
7,Beauce-Sud,56.46319,23.332789,10.255001,1.827198,5.364215,2.757607,caq
8,Beauharnois,51.103225,10.286141,7.601285,11.805622,16.937882,2.265846,caq
9,Bellechasse,47.082803,29.404312,12.978258,3.132712,6.744178,0.657737,caq


Maintenant, on doit simplement compter le nombre de gagnants par parti.

In [199]:
projections2022.groupby(['gagnant'])['gagnant'].count()

gagnant
caq    92
pcq     4
plq    14
pq      2
qs     13
Name: gagnant, dtype: int64

Voici les résultats groupés par parti :

In [207]:
gagnantsParParti = projections2022.groupby('gagnant')
display(gagnantsParParti.get_group('caq'))
display(gagnantsParParti.get_group('pcq'))
display(gagnantsParParti.get_group('plq'))
display(gagnantsParParti.get_group('pq'))
display(gagnantsParParti.get_group('qs'))


Unnamed: 0,nom,caq,pcq,plq,pq,qs,autres,gagnant
0,Abitibi-Est,52.603097,0.0,12.618024,11.837944,19.83184,3.109094,caq
1,Abitibi-Ouest,38.789018,13.060836,7.027039,18.660758,19.397123,3.065226,caq
3,Anjou–Louis-Riel,38.783913,0.0,28.638205,9.732584,20.047505,2.797794,caq
4,Argenteuil,41.306828,17.199104,10.108911,11.084289,13.297725,7.003143,caq
5,Arthabaska,55.304378,21.763287,5.547482,4.148825,11.570759,1.665268,caq
6,Beauce-Nord,49.374212,36.362418,6.366931,1.879774,5.401623,0.615043,caq
7,Beauce-Sud,56.46319,23.332789,10.255001,1.827198,5.364215,2.757607,caq
8,Beauharnois,51.103225,10.286141,7.601285,11.805622,16.937882,2.265846,caq
9,Bellechasse,47.082803,29.404312,12.978258,3.132712,6.744178,0.657737,caq
10,Berthier,55.31011,0.0,5.110622,17.492213,19.448956,2.6381,caq


Unnamed: 0,nom,caq,pcq,plq,pq,qs,autres,gagnant
24,Chauveau,28.320176,54.116004,7.390216,2.732368,6.405832,1.035405,pcq
26,Chomedey,25.032517,35.341328,27.289269,3.545787,6.892023,1.899077,pcq
29,D'Arcy-McGee,6.018341,44.098283,38.195528,1.188075,7.011743,3.488031,pcq
87,Pontiac,20.280768,32.068483,29.265746,2.702093,10.975817,4.707092,pcq


Unnamed: 0,nom,caq,pcq,plq,pq,qs,autres,gagnant
2,Acadie,18.180798,25.072688,32.378607,4.891203,15.57255,3.904154,plq
15,Bourassa-Sauvé,27.059054,17.573,29.073033,6.051505,16.569633,3.673774,plq
44,Îles-de-la-Madeleine,14.73889,0.0,33.169369,30.100568,21.991173,0.0,plq
45,Jacques-Cartier,10.555944,30.637934,44.450446,1.548347,5.113719,7.69361,plq
47,Jeanne-Mance–Viger,20.187106,18.503864,45.222032,3.4174,10.457896,2.211702,plq
54,LaFontaine,25.507513,21.400156,37.412186,4.79755,10.596445,0.28615,plq
67,Marguerite-Bourgeoys,33.156688,0.0,41.204342,5.888939,15.627032,4.122999,plq
80,Mont-Royal–Outremont,15.897212,20.032344,33.016536,6.829363,18.685473,5.53907,plq
81,Nelligan,17.968116,32.898589,37.244028,2.370567,5.94104,3.57766,plq
83,Notre-Dame-de-Grâce,9.929351,19.549868,42.667874,3.340321,15.094934,9.417652,plq


Unnamed: 0,nom,caq,pcq,plq,pq,qs,autres,gagnant
13,Bonaventure,23.497525,0.0,20.490991,27.875245,22.65607,5.48017,pq
72,Matane-Matapédia,17.620278,8.585959,9.553629,53.171202,9.220478,1.848454,pq


Unnamed: 0,nom,caq,pcq,plq,pq,qs,autres,gagnant
37,Gouin,11.279282,0.0,7.135771,8.366744,69.297694,3.920509,qs
40,Hochelaga-Maisonneuve,14.337179,7.086294,6.285522,12.949291,57.254027,2.087687,qs
46,Jean-Lesage,31.208327,17.632456,9.448095,4.437306,34.428402,2.845415,qs
60,Laurier-Dorion,9.439233,13.1448,17.289188,4.100513,51.863531,4.162736,qs
73,Maurice-Richard,25.728441,0.0,21.017097,12.298966,37.32662,3.628876,qs
75,Mercier,8.98261,4.900883,10.813718,6.688282,62.623042,5.991466,qs
98,Rosemont,18.589284,7.361793,10.949547,16.762439,43.311514,3.025423,qs
100,Rouyn-Noranda–Témiscamingue,33.000283,9.886511,9.746175,9.831977,35.898045,1.637008,qs
102,Saint-Henri–Sainte-Anne,21.370062,14.576971,23.796206,6.475892,28.037814,5.743055,qs
107,Sainte-Marie–Saint-Jacques,12.404231,6.129909,13.046456,7.792865,57.205006,3.421533,qs


Nous projetons donc une victoire majoritaire de la CAQ avec 92 sièges, ainsi qu'une opposition officielle libérale avec 14 sièges, talonnée de près par Québec Solidaire avec 13 sièges. Le PQ conserve Matane-Matapédia et Bonaventure, tandis que les conservateurs arrachent Chauveau, Chomedey (à Laval), D'Arcy-McGee et Pontiac. 

Attendez, les conservateurs à Laval, à Montréal et en Outatouais? Ça semble étonnant! Et ça illustre une autre des limites de mon modèle — et de tous les modèles, à vrai dire. Le Parti conservateur était très faible en 2018, donc extrapoler les données à partir de la dernière élection est périlleux. En fait, vous aurez peut-être remarqué que plusieurs circonscriptions (comme Maurice-Richard ou Saint-Hyacinthe) avaient 0 vote conservateur en 2018, car elles n'avaient pas de candidat de ce parti. C'est problématique pour notre modèle : zéro multiplié par 11 est encore zéro. 

Tous les modèles électoraux doivent composer avec ce problème (et bien d'autres). On le fait en posant des hypothèses. Par exemple, on pourrait supposer qu'un candidat conservateur en 2018 dans Maurice-Richard aurait eu des résultats similaires à ses collègues des circonscriptions voisines, et utiliser ce chiffre hypothétique pour faire nos projections. Tous les modèles font des suppositions de la sorte pour toutes sortes de choses. 

Comment pourrait-on améliorer le modèle? De plein de façons. Par exemple :

* Utiliser les résultats des élections générales de 2014
* Utiliser les résultats des élections partielles
* Utiliser les sondages spécifiques aux régions ou à des circonscriptions plutôt que seulement les sondages nationaux
* Pondérer les sondages par région (on a généralement des sous-échantillons pour la région de Montréal, celle de Québec, et le reste de la province)
* Pondérer les sondages par données démographiques sur l'âge et le sexe (en utilisant les données démographiques de chaque circonscription)
* Ajouter un bonus pour les candidats vedettes et les chefs de parti
* Prendre compte de l'incertitude des sondages et faire des simulations de l'élection avec des variations aléatoires à chaque fois. C'est ce que tous les modèles « sérieux » comme Qc125 font.

Je suis quand même assez satisfait de ce modèle très simple. Les résultats sont assez similaires à Qc125, qui au moment d'écrire ces lignes donne 96 sièges à la CAQ, 17 au PLQ, 11 à QS, 1 au PQ et 0 au PCQ.