In [1]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder

In [2]:
candidats_complet_2014 = pd.read_csv("data/2014/candidats.csv", encoding="ISO-8859-1", sep=";")
candidats_complet_2018 = pd.read_csv("data/2018/candidats.csv", encoding="ISO-8859-1", sep=";")
candidats_complet_2022 = pd.read_csv("data/2022/candidats.csv", encoding="ISO-8859-1", sep=";")

circonscriptions_complet_2014 = pd.read_csv("data/2014/circonscriptions.csv", encoding="ISO-8859-1", sep=";")
circonscriptions_complet_2018 = pd.read_csv("data/2018/circonscriptions.csv", encoding="ISO-8859-1", sep=";")
circonscriptions_complet_2022 = pd.read_csv("data/2022/circonscriptions.csv", encoding="ISO-8859-1", sep=";")

In [3]:
# Ajustement l'abréviation de la Coalition Avenir Québec qui a changé entre 2018 et 2022
candidats_complet_2022["Abréviation du parti politique"] = candidats_complet_2022["Abréviation du parti politique"].str.replace("C.A.Q.-E.F.L.", "C.A.Q.-É.F.L.")

# Ajustement pour le Parti Conservateur du Québec dont l'abréviation est différente à chaque année
candidats_complet_2014["Abréviation du parti politique"] = candidats_complet_2014["Abréviation du parti politique"].str.replace("É.A.P. - P.C.Q.", "Conservateurs")
candidats_complet_2018["Abréviation du parti politique"] = candidats_complet_2018["Abréviation du parti politique"].str.replace("P.C.Q./C.P.Q.", "Conservateurs")
candidats_complet_2022["Abréviation du parti politique"] = candidats_complet_2022["Abréviation du parti politique"].str.replace("P.C.Q-E.E.D.", "Conservateurs")

# Ajustement pour le Parti Canadien du Québec pour éviter la confusion
candidats_complet_2022["Abréviation du parti politique"] = candidats_complet_2022["Abréviation du parti politique"].str.replace("P.C.Q./C.P.Q", "Canadien")

In [4]:
candidats_2014 = candidats_complet_2014[['Numéro de la circonscription', 'Abréviation du parti politique', 'Nombre total de votes']]
candidats_2018 = candidats_complet_2018[['Numéro de la circonscription', 'Abréviation du parti politique', 'Nombre total de votes']]

circonscriptions_2014 = circonscriptions_complet_2014[['Numéro de la circonscription', 'Nom de la circonscription', 'Nombre d\'électeurs inscrits', 'Taux de vote rejeté', 'Taux de participation']]
circonscriptions_2018 = circonscriptions_complet_2018[['Numéro de la circonscription', 'Nom de la circonscription', 'Nombre d\'électeurs inscrits', 'Taux de vote rejeté', 'Taux de participation']]

In [5]:
# Construction du fichier unique
# Première étape : présentement les votes sont organisés par candidats, on va réorganiser par circonscriptions de manière à avoir pour chaque circonscriptions, le nombre de votes par parti
# On en profite pour ajouter un tag à chaque colonne pour bien identifier de quelle année provient la donnée

votes_partis_2014 = candidats_2014.pivot_table(
    index="Numéro de la circonscription",
    columns="Abréviation du parti politique",
    values="Nombre total de votes",
    aggfunc="sum",
    fill_value=0
).reset_index()

votes_partis_2014.columns.name = None
votes_partis_2014 = votes_partis_2014.rename_axis(None, axis=1)
premiere_colonne = votes_partis_2014.columns[0]
nouvelles_colonnes = [premiere_colonne] + [col + '_2014' for col in votes_partis_2014.columns[1:]]
votes_partis_2014.columns = nouvelles_colonnes

votes_partis_2018 = candidats_2018.pivot_table(
    index="Numéro de la circonscription",
    columns="Abréviation du parti politique",
    values="Nombre total de votes",
    aggfunc="sum",
    fill_value=0
).reset_index()

votes_partis_2018.columns.name = None
votes_partis_2018 = votes_partis_2018.rename_axis(None, axis=1)
premiere_colonne = votes_partis_2018.columns[0]
nouvelles_colonnes = [premiere_colonne] + [col + '_2018' for col in votes_partis_2018.columns[1:]]
votes_partis_2018.columns = nouvelles_colonnes

In [6]:
# Deuxième étape : fusionner les votes avec les informations des circonscriptions
# On élimine ensuite la colonne avec le numéro de la circonscription, qui n'est plus utile

df_2014 = pd.merge(circonscriptions_2014, votes_partis_2014, on="Numéro de la circonscription")
df_2014 = df_2014.drop(columns=['Numéro de la circonscription'])
df_2018 = pd.merge(circonscriptions_2018, votes_partis_2018, on="Numéro de la circonscription")
df_2018 = df_2018.drop(columns=['Numéro de la circonscription'])

In [7]:
# Troisième étape : fusionner 2014 et 2018 ensemble
# D'abord décider ce qu'on fait avec les circonscriptions différentes, est-ce qu'on les ignore ou est-ce qu'on trouve une correspondance?
# En faisant simplement la fusion (merge), on les ignore
df = pd.merge(df_2014, df_2018, on="Nom de la circonscription")

In [8]:
# Extraire le vainqueur de 2022 et l'ajouter aux votes des élections précédentes
# Mais on préalable il faut ajouter le nom de la circonscription avec pour la fusion à la prochaine étape
vainqueurs_2022 = candidats_complet_2022[candidats_complet_2022['Nombre de votes en avance'] > 0]
dico_2022 = circonscriptions_complet_2022[['Numéro de la circonscription', 'Nom de la circonscription']]
vainqueurs_2022 = pd.merge(dico_2022, vainqueurs_2022, on="Numéro de la circonscription")
vainqueurs_2022 = vainqueurs_2022[['Nom de la circonscription', 'Abréviation du parti politique']]

In [9]:
# Ajouter la liste des vainqueurs au dataframe avec les votes
# Encore une fois il faut décider ici si on choisit de conserver les circonscriptions différentes avec 2022
# Si on fait la fusion directement, on choisit de les ignorer
df = pd.merge(df, vainqueurs_2022, on="Nom de la circonscription")
df = df.rename(columns={'Abréviation du parti politique': 'Vainqueur 2022'})

In [10]:
# Le dataframe est essentiellement prêt
df.columns

Index(['Nom de la circonscription', 'Nombre d'électeurs inscrits_x',
       'Taux de vote rejeté_x', 'Taux de participation_x', 'B.P._2014',
       'C.A.Q.-É.F.L._2014', 'Conservateurs_2014', 'Ind_2014', 'M.P.Q._2014',
       'O.N. - P.I.Q._2014', 'P.I._2014', 'P.L.Q./Q.L.P._2014',
       'P.M.L.Q._2014', 'P.N._2014', 'P.Q._2014', 'P.S.P._2014', 'P.U.N._2014',
       'P.V.Q./G.P.Q._2014', 'P.Éq._2014', 'Q.R.D._2014', 'Q.S._2014',
       'U.C.Q./Q.C.U._2014', 'É.A._2014', 'Nombre d'électeurs inscrits_y',
       'Taux de vote rejeté_y', 'Taux de participation_y', 'A.P.Q._2018',
       'B.P._2018', 'C.A.Q.-É.F.L._2018', 'C.I.N.Q._2018', 'C.P.Q._2018',
       'Conservateurs_2018', 'Ind_2018', 'N.P.D.Q._2018', 'P.Cu.Q._2018',
       'P.L._2018', 'P.L.Q./Q.L.P._2018', 'P.M.L.Q._2018', 'P.N._2018',
       'P.Q._2018', 'P.V.Q./G.P.Q._2018', 'P51_2018', 'Q.S._2018', 'V.P._2018',
       'É.A._2018', 'Vainqueur 2022'],
      dtype='object')

In [11]:
# Encoder la variable cible pour l'entraînement

le = LabelEncoder()
df["vainqueur_encodé"] = le.fit_transform(df["Vainqueur 2022"])

In [12]:
# Monter le modèle pour utiliser les variables afin de prédire le vainqueur de 2022
# Variables prédictives (X) et cible (y)
X = df[[
    'Nombre d\'électeurs inscrits_x', 'Taux de vote rejeté_x', 'Taux de participation_x', 
    'B.P._2014', 'C.A.Q.-É.F.L._2014', 'Ind_2014', 'M.P.Q._2014', 'O.N. - P.I.Q._2014',
    'P.I._2014', 'P.L.Q./Q.L.P._2014', 'P.M.L.Q._2014', 'P.N._2014',
    'P.Q._2014', 'P.S.P._2014', 'P.U.N._2014', 'P.V.Q./G.P.Q._2014',
    'P.Éq._2014', 'Q.R.D._2014', 'Q.S._2014', 'U.C.Q./Q.C.U._2014',
    'É.A._2014', 'Conservateurs_2014', 'Nombre d\'électeurs inscrits_y',
    'Taux de vote rejeté_y', 'Taux de participation_y', 'A.P.Q._2018',
    'B.P._2018', 'C.A.Q.-É.F.L._2018', 'C.I.N.Q._2018', 'C.P.Q._2018',
    'Ind_2018', 'N.P.D.Q._2018', 'Conservateurs_2018', 'P.Cu.Q._2018',
    'P.L._2018', 'P.L.Q./Q.L.P._2018', 'P.M.L.Q._2018', 'P.N._2018',
    'P.Q._2018', 'P.V.Q./G.P.Q._2018', 'P51_2018', 'Q.S._2018', 'V.P._2018',
    'É.A._2018'
]]
y = df["vainqueur_encodé"]


In [13]:
# Diviser en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [14]:
# Entraîner un modèle
model = LogisticRegression(
    solver="lbfgs",
    max_iter=1000,
    class_weight="balanced",
    random_state=42
)
model.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,'balanced'
,random_state,42
,solver,'lbfgs'
,max_iter,1000


In [15]:
# Prédire et évaluer
y_pred = model.predict(X_test)
print("Précision :", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred, target_names=le.classes_, zero_division=0))

Précision : 0.8611111111111112
               precision    recall  f1-score   support

C.A.Q.-É.F.L.       0.92      0.92      0.92        25
P.L.Q./Q.L.P.       0.88      0.88      0.88         8
         P.Q.       0.00      0.00      0.00         1
         Q.S.       0.33      0.50      0.40         2

     accuracy                           0.86        36
    macro avg       0.53      0.57      0.55        36
 weighted avg       0.85      0.86      0.86        36



In [16]:
# Afficher les coefficients pour interpréter l'impact des variables
coef_df = pd.DataFrame(model.coef_, columns=X.columns, index=le.classes_)
print(coef_df)

               Nombre d'électeurs inscrits_x  Taux de vote rejeté_x  \
C.A.Q.-É.F.L.                       0.002551              -0.000003   
P.L.Q./Q.L.P.                       0.000356               0.000002   
P.Q.                               -0.001011               0.000004   
Q.S.                               -0.001896              -0.000004   

               Taux de participation_x  B.P._2014  C.A.Q.-É.F.L._2014  \
C.A.Q.-É.F.L.                -0.000238  -0.000685           -0.001569   
P.L.Q./Q.L.P.                 0.000087   0.000418            0.002899   
P.Q.                          0.000300  -0.000057           -0.001592   
Q.S.                         -0.000148   0.000324            0.000262   

               Ind_2014   M.P.Q._2014  O.N. - P.I.Q._2014     P.I._2014  \
C.A.Q.-É.F.L. -0.000004  1.168912e-06            0.001972  4.775082e-07   
P.L.Q./Q.L.P. -0.000005 -2.905216e-06           -0.001593 -3.492014e-07   
P.Q.           0.000003  2.658770e-06            0.00

In [17]:
# Essayons maintenant avec des données complémentaires.

données = pd.read_csv("data/variables_complémentaires.csv", encoding="UTF-8", sep=";")

# Supprimer les espaces et remplacer les virgules par des points dans toutes les colonnes sauf "Circonscription"
colonnes_a_convertir = [col for col in données.columns if col != 'Circonscription']

for colonne in colonnes_a_convertir:
    données[colonne] = données[colonne].astype(str).str.replace(' ', '').str.replace(',', '.')
    données[colonne] = pd.to_numeric(données[colonne], errors='coerce')

In [18]:
df = df.rename(columns={'Nom de la circonscription': 'Circonscription'})
df = pd.merge(df, données, on="Circonscription")

In [19]:
pd.set_option('display.max_rows', None)  # Affiche toutes les lignes
pd.set_option('display.max_columns', None)  # Affiche toutes les colonnes
pd.set_option('display.width', None)  # Ajuste la largeur d'affichage

df.dtypes

Circonscription                                                object
Nombre d'électeurs inscrits_x                                   int64
Taux de vote rejeté_x                                         float64
Taux de participation_x                                       float64
B.P._2014                                                       int64
C.A.Q.-É.F.L._2014                                              int64
Conservateurs_2014                                              int64
Ind_2014                                                        int64
M.P.Q._2014                                                     int64
O.N. - P.I.Q._2014                                              int64
P.I._2014                                                       int64
P.L.Q./Q.L.P._2014                                              int64
P.M.L.Q._2014                                                   int64
P.N._2014                                                       int64
P.Q._2014           

In [23]:
# Monter le modèle pour utiliser les variables afin de prédire le vainqueur de 2022
# Variables prédictives (X) et cible (y)

# Liste de toutes les colonnes du DataFrame
toutes_colonnes = df.columns.tolist()

# Colonnes à exclure
colonnes_a_exclure = ["Circonscription", "vainqueur_encodé", "Vainqueur 2022"]

# Créer la liste des colonnes pour X
colonnes_X = [col for col in toutes_colonnes if col not in colonnes_a_exclure]

# Créer la variable X
X = df[colonnes_X]
y = df["vainqueur_encodé"]

In [20]:
# Diviser en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [35]:
# Entraîner un modèle
model = LogisticRegression(solver="lbfgs", max_iter=1000, class_weight="balanced", random_state=42)
model.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,'balanced'
,random_state,42
,solver,'lbfgs'
,max_iter,1000


In [36]:
# Prédire et évaluer
y_pred = model.predict(X_test)
print("Précision :", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred, target_names=le.classes_, zero_division=0))

Précision : 0.8611111111111112
               precision    recall  f1-score   support

C.A.Q.-É.F.L.       0.92      0.92      0.92        25
P.L.Q./Q.L.P.       0.88      0.88      0.88         8
         P.Q.       0.00      0.00      0.00         1
         Q.S.       0.33      0.50      0.40         2

     accuracy                           0.86        36
    macro avg       0.53      0.57      0.55        36
 weighted avg       0.85      0.86      0.86        36



In [37]:
# Afficher les coefficients pour interpréter l'impact des variables
coef_df = pd.DataFrame(model.coef_, columns=X.columns, index=model.classes_)
print(coef_df)

   Nombre d'électeurs inscrits_x  Taux de vote rejeté_x  \
0                       0.002551              -0.000003   
1                       0.000356               0.000002   
2                      -0.001011               0.000004   
3                      -0.001896              -0.000004   

   Taux de participation_x  B.P._2014  C.A.Q.-É.F.L._2014  Ind_2014  \
0                -0.000238  -0.000685           -0.001569 -0.000004   
1                 0.000087   0.000418            0.002899 -0.000005   
2                 0.000300  -0.000057           -0.001592  0.000003   
3                -0.000148   0.000324            0.000262  0.000006   

    M.P.Q._2014  O.N. - P.I.Q._2014     P.I._2014  P.L.Q./Q.L.P._2014  \
0  1.168912e-06            0.001972  4.775082e-07           -0.004540   
1 -2.905216e-06           -0.001593 -3.492014e-07            0.003302   
2  2.658770e-06            0.000043  1.692005e-07            0.002559   
3 -9.224659e-07           -0.000423 -2.975072e-07       