In [7]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [8]:
pd.set_option('display.max_columns', 50)      # Nombre maximal de colonnes
pd.set_option('display.max_rows', 100)        # Nombre maximal de lignes
pd.set_option('display.width', 1000)         # Largeur maximale de l'affichage


In [9]:
# Chargement des données complètes

circonscriptions_2018_complet = pd.read_csv("data/2018/circonscriptions.csv", encoding="ISO-8859-1", sep=";")
votes_candidats_2018_complet = pd.read_csv("data/2018/candidats.csv", encoding="ISO-8859-1", sep=";")

# Simplification des données

# Ne garder que les candidats victorieux et enlever les colonnes qu'on n'utilisera pas

candidats_victorieux_2018_complet = votes_candidats_2018_complet[votes_candidats_2018_complet['Nombre de votes en avance'] > 0]
candidats_victorieux_2018_leger = candidats_victorieux_2018_complet.drop(columns=['Numéro du candidat', 'Numéro du parti politique', 'Nom', 'Prénom'])

circonscriptions_2018_leger = circonscriptions_2018_complet.drop(columns=['Dernière date de mise à jour au format ISO 8601', 'Résultats finaux', 'Nombre de bureaux complétés', 'Nombre total de bureaux', 'Nombre de votes valides', 'Nombre de votes rejetés', 'Nombre d\'électeurs inscrits'])

# Joindre les deux dataframe ensemble, retirer le numéro de circonscription qui n'est plus nécessaire.

df_2018 = pd.merge(candidats_victorieux_2018_leger, circonscriptions_2018_leger, on="Numéro de la circonscription")
df_2018 = df_2018.drop(columns=['Numéro de la circonscription'])

# Pour améliorer la lisibilité, placer le nom de la circonscription au début

colonnes = df_2018.columns.tolist()
colonne_adeplacer = colonnes.pop(4)
nouvelles_colonnes = [colonne_adeplacer] + colonnes

df_2018 = df_2018[nouvelles_colonnes]

In [10]:
df_2018.head()

Unnamed: 0,Nom de la circonscription,Abréviation du parti politique,Nombre total de votes,Taux de vote,Nombre de votes en avance,Nombre de votes exercés,Taux de vote valide,Taux de vote rejeté,Taux de participation
0,Abitibi-Est,C.A.Q.-É.F.L.,8967,42.72,4877,21542,97.44,2.56,63.79
1,Abitibi-Ouest,C.A.Q.-É.F.L.,7680,34.12,194,22881,98.37,1.63,64.75
2,Acadie,P.L.Q./Q.L.P.,14305,53.8,9914,26997,98.5,1.5,54.17
3,Anjou-Louis-Riel,P.L.Q./Q.L.P.,10802,39.06,2807,28159,98.21,1.79,64.49
4,Argenteuil,C.A.Q.-É.F.L.,11848,38.88,5405,30934,98.52,1.48,65.33


In [11]:
X = df_2018[["Taux de participation", "Taux de vote rejeté"]]
y = df_2018["Abréviation du parti politique"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression(solver="lbfgs", max_iter=13745)
model.fit(X_train, y_train)

# Récupère les noms des partis dans l'ordre
partis = model.classes_

# Crée un DataFrame pour afficher les coefficients et odds ratios
results = []
for i, parti in enumerate(partis):
    coefs = model.coef_[i]
    odds_ratios = np.exp(coefs)
    for var, coef, odd in zip(X.columns, coefs, odds_ratios):
        results.append({
            "Parti": parti,
            "Variable": var,
            "Coefficient": coef,
            "Odds Ratio": odd,
            "Interprétation": f"Augmente les chances de {odd:.2f}x" if coef > 0 else f"Diminue les chances à {odd:.2f}x"
        })

# Convertis en DataFrame pour un affichage clair
results_df = pd.DataFrame(results)

print(results_df)

           Parti               Variable  Coefficient  Odds Ratio                 Interprétation
0  C.A.Q.-É.F.L.  Taux de participation     0.222794    1.249564  Augmente les chances de 1.25x
1  C.A.Q.-É.F.L.    Taux de vote rejeté     1.962442    7.116687  Augmente les chances de 7.12x
2  P.L.Q./Q.L.P.  Taux de participation    -0.211566    0.809316    Diminue les chances à 0.81x
3  P.L.Q./Q.L.P.    Taux de vote rejeté    -0.559721    0.571369    Diminue les chances à 0.57x
4           P.Q.  Taux de participation    -0.056576    0.944995    Diminue les chances à 0.94x
5           P.Q.    Taux de vote rejeté    -0.564538    0.568623    Diminue les chances à 0.57x
6           Q.S.  Taux de participation     0.045347    1.046391  Augmente les chances de 1.05x
7           Q.S.    Taux de vote rejeté    -0.838183    0.432496    Diminue les chances à 0.43x
