In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

In [2]:
pd.set_option('display.max_columns', 50)      # Nombre maximal de colonnes
pd.set_option('display.max_rows', 100)        # Nombre maximal de lignes
pd.set_option('display.width', 1000)         # Largeur maximale de l'affichage


In [3]:
# Chargement des données complètes

circonscriptions_2022_complet = pd.read_csv("data/2022/circonscriptions.csv", encoding="ISO-8859-1", sep=";")
votes_candidats_2022_complet = pd.read_csv("data/2022/candidats.csv", encoding="ISO-8859-1", sep=";")

# Simplification des données

# Ne garder que les candidats victorieux et enlever les colonnes qu'on n'utilisera pas

candidats_victorieux_2022_complet = votes_candidats_2022_complet[votes_candidats_2022_complet['Nombre de votes en avance'] > 0]
candidats_victorieux_2022_leger = candidats_victorieux_2022_complet.drop(columns=['Numéro du candidat', 'Numéro du parti politique', 'Nom', 'Prénom'])

circonscriptions_2022_leger = circonscriptions_2022_complet.drop(columns=['Dernière date de mise à jour au format ISO 8601', 'Résultats finaux', 'Nombre de bureaux complétés', 'Nombre total de bureaux', 'Nombre de votes valides', 'Nombre de votes rejetés', 'Nombre d\'électeurs inscrits'])

# Joindre les deux dataframe ensemble, retirer le numéro de circonscription qui n'est plus nécessaire.

df_2022 = pd.merge(candidats_victorieux_2022_leger, circonscriptions_2022_leger, on="Numéro de la circonscription")
df_2022 = df_2022.drop(columns=['Numéro de la circonscription'])

# Pour améliorer la lisibilité, placer le nom de la circonscription au début

colonnes = df_2022.columns.tolist()
colonne_adeplacer = colonnes.pop(4)
nouvelles_colonnes = [colonne_adeplacer] + colonnes

df_2022 = df_2022[nouvelles_colonnes]

In [5]:
df_2022.head()

Unnamed: 0,Nom de la circonscription,Abréviation du parti politique,Nombre total de votes,Taux de vote,Nombre de votes en avance,Nombre de votes exercés,Taux de vote valide,Taux de vote rejeté,Taux de participation
0,Abitibi-Est,C.A.Q.-E.F.L.,9762,47.17,6718,21099,98.09,1.91,62.57
1,Abitibi-Ouest,C.A.Q.-E.F.L.,10399,46.75,5780,22565,98.59,1.41,63.7
2,Acadie,P.L.Q./Q.L.P.,10981,42.26,6513,26418,98.36,1.64,53.45
3,Anjou-Louis-Riel,C.A.Q.-E.F.L.,9376,35.56,1331,26790,98.41,1.59,63.85
4,Argenteuil,C.A.Q.-E.F.L.,14725,45.1,9434,33144,98.51,1.49,64.17


In [6]:
X = df_2022[["Taux de participation", "Taux de vote rejeté"]]
y = df_2022["Abréviation du parti politique"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression(solver="lbfgs", max_iter=13745)
model.fit(X_train, y_train)

# Récupère les noms des partis dans l'ordre
partis = model.classes_

# Crée un DataFrame pour afficher les coefficients et odds ratios
results = []
for i, parti in enumerate(partis):
    coefs = model.coef_[i]
    odds_ratios = np.exp(coefs)
    for var, coef, odd in zip(X.columns, coefs, odds_ratios):
        results.append({
            "Parti": parti,
            "Variable": var,
            "Coefficient": coef,
            "Odds Ratio": odd,
            "Interprétation": f"Augmente les chances de {odd:.2f}x" if coef > 0 else f"Diminue les chances à {odd:.2f}x"
        })

# Convertis en DataFrame pour un affichage clair
results_df = pd.DataFrame(results)

print(results_df)

           Parti               Variable  Coefficient  Odds Ratio                 Interprétation
0  C.A.Q.-E.F.L.  Taux de participation     0.164657    1.178989  Augmente les chances de 1.18x
1  C.A.Q.-E.F.L.    Taux de vote rejeté     0.347529    1.415565  Augmente les chances de 1.42x
2  P.L.Q./Q.L.P.  Taux de participation    -0.277318    0.757813    Diminue les chances à 0.76x
3  P.L.Q./Q.L.P.    Taux de vote rejeté    -0.366224    0.693347    Diminue les chances à 0.69x
4           P.Q.  Taux de participation     0.037308    1.038013  Augmente les chances de 1.04x
5           P.Q.    Taux de vote rejeté     1.044812    2.842865  Augmente les chances de 2.84x
6           Q.S.  Taux de participation     0.075353    1.078264  Augmente les chances de 1.08x
7           Q.S.    Taux de vote rejeté    -1.026117    0.358396    Diminue les chances à 0.36x


In [7]:
# https://www.geeksforgeeks.org/machine-learning/random-forest-hyperparameter-tuning-in-python/
# Sélectionne les variables explicatives (X) et la variable cible (y)
X = df_2022[["Taux de participation", "Taux de vote rejeté"]]
y = df_2022["Abréviation du parti politique"]

# Encode la variable cible (y) en valeurs numériques
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

# Séparation en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

# Création et entraînement du modèle
model = RandomForestClassifier(n_estimators=100, max_features=None, max_depth=None, max_leaf_nodes=None, random_state=42)
model.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred = model.predict(X_test)

# Calcul de la précision
precision = accuracy_score(y_test, y_pred)
print(f"Précision du modèle : {precision:.2f}")

# Récupération de l'importance des variables
importances = model.feature_importances_

# Création d'un DataFrame pour afficher les importances
importance_df = pd.DataFrame({
    "Variable": X.columns,
    "Importance": importances
}).sort_values("Importance", ascending=False)

print(importance_df)
print("--------------------")
print(classification_report(y_pred, y_test, zero_division=0.0))

Précision du modèle : 0.84
                Variable  Importance
0  Taux de participation    0.624197
1    Taux de vote rejeté    0.375803
--------------------
              precision    recall  f1-score   support

           0       0.95      0.90      0.92        20
           1       0.60      0.75      0.67         4
           2       0.00      0.00      0.00         0
           3       0.00      0.00      0.00         1

    accuracy                           0.84        25
   macro avg       0.39      0.41      0.40        25
weighted avg       0.85      0.84      0.85        25



In [None]:
# C'est, somme toute, assez semblable aux résultats pour 2018.