In [144]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from collections import Counter

In [101]:
df = pd.read_excel(io='data/dataframe_elections.xlsx', names=['Année','Code département','département','circonscription','Code','Inscrits',
                          'Taux d\'étrangers (département et arrondissement)',
                          'Part des ménages imposés (communes pondérées par nombre de ménages)',
                          'Moyenne des 1er quartiles communales des revenus déclarés',
                          'Moyenne des médianes communales des revenus déclarés',
                          'Moyenne des 3eme quartiles communales des revenus déclarés',
                          'Taux de chômage départemental','Evolution sur 5 ans',
                          'Taux de chômage départemental - 15 24 ans','Evolution sur 5 ans - 15-24 ans',
                          'Taux de chômage départemental - 25 49 ans','Evolution sur 5 ans - 25-49 ans',
                          'Taux de chômage départemental - 50 ans et +','Evolution sur 5 ans - 50 ans et +',
                          'Part Agriculteurs','Part Artisans, Commerçants, Chefs d\'Entreprise',
                          'Part Cadres et Professions intellectuelles sup','Part Professions intermédiaires',
                          'Part Employés','Part Ouvriers','Part de diplômés A (Brevet)','Part de diplômés B (CAP, BEP)',
                          'Part de diplômés C (Bac)','Part de diplômés D (Etudes Sup)',
                          'Score du candidat aux législatives précédentes (si applicable)',
                          'Le candidat est-il le député sortant ? 0 ou 1',
                          'Parti du député sortant de la circonscription',
                          'Score du parti aux présidentielles dans la circonscription',
                          'Score du parti aux législatives précédentes (cumul si alliances)',
                          'Nombres de candidats en lice (ou leur score de parti cumulé)',
                          'Nombre de candidats de la même nuance en lice','Sexe candidat','Nom candidat',
                          'Prénom candidat','Etiquette liste','nuance','Député sortant ?','voix','% voix',
                          'Accès second tour'])

In [102]:
df.columns

Index(['Année', 'Code département', 'département', 'circonscription', 'Code',
       'Inscrits', 'Taux d'étrangers (département et arrondissement)',
       'Part des ménages imposés (communes pondérées par nombre de ménages)',
       'Moyenne des 1er quartiles communales des revenus déclarés',
       'Moyenne des médianes communales des revenus déclarés',
       'Moyenne des 3eme quartiles communales des revenus déclarés',
       'Taux de chômage départemental', 'Evolution sur 5 ans',
       'Taux de chômage départemental - 15 24 ans',
       'Evolution sur 5 ans - 15-24 ans',
       'Taux de chômage départemental - 25 49 ans',
       'Evolution sur 5 ans - 25-49 ans',
       'Taux de chômage départemental - 50 ans et +',
       'Evolution sur 5 ans - 50 ans et +', 'Part Agriculteurs',
       'Part Artisans, Commerçants, Chefs d'Entreprise',
       'Part Cadres et Professions intellectuelles sup',
       'Part Professions intermédiaires', 'Part Employés', 'Part Ouvriers',
       'Part 

In [103]:
df.isnull().sum()

Année                                                                      0
Code département                                                           0
département                                                                0
circonscription                                                            0
Code                                                                       0
Inscrits                                                                   0
Taux d'étrangers (département et arrondissement)                         178
Part des ménages imposés (communes pondérées par nombre de ménages)      704
Moyenne des 1er quartiles communales des revenus déclarés                704
Moyenne des médianes communales des revenus déclarés                     704
Moyenne des 3eme quartiles communales des revenus déclarés               704
Taux de chômage départemental                                            887
Evolution sur 5 ans                                                      887

In [104]:
df.drop(["Code", "département", 'Score du candidat aux législatives précédentes (si applicable)',
       'Le candidat est-il le député sortant ? 0 ou 1',
       'Parti du député sortant de la circonscription',
       'Score du parti aux présidentielles dans la circonscription',
       'Score du parti aux législatives précédentes (cumul si alliances)',
       'Nombres de candidats en lice (ou leur score de parti cumulé)',
       'Nombre de candidats de la même nuance en lice', 'Député sortant ?', 
       "Nom candidat", "Prénom candidat", "Etiquette liste", 'voix', '% voix'], axis=1, inplace=True)

In [105]:
df[['Part Agriculteurs',
       "Part Artisans, Commerçants, Chefs d'Entreprise",
       'Part Cadres et Professions intellectuelles sup',
       'Part Professions intermédiaires', 'Part Employés', 'Part Ouvriers',
       'Part de diplômés A (Brevet)', 'Part de diplômés B (CAP, BEP)',
       'Part de diplômés C (Bac)', 'Part de diplômés D (Etudes Sup)']] = df[['Part Agriculteurs',
       "Part Artisans, Commerçants, Chefs d'Entreprise",
       'Part Cadres et Professions intellectuelles sup',
       'Part Professions intermédiaires', 'Part Employés', 'Part Ouvriers',
       'Part de diplômés A (Brevet)', 'Part de diplômés B (CAP, BEP)',
       'Part de diplômés C (Bac)', 'Part de diplômés D (Etudes Sup)']].apply(lambda x : x.fillna(x.mean()))

### On vire les lignes qui restent nan :

In [106]:
df.dropna(axis=1, inplace=True)

### Dummies

In [107]:
df = pd.get_dummies(df, columns=["Année", "Code département", "Sexe candidat"])

In [108]:
df = pd.get_dummies(df, columns=["nuance"])

In [109]:
df["Accès second tour"].unique()

array(['N', 'O'], dtype=object)

In [110]:
df["Accès second tour"] = df["Accès second tour"].map(lambda x : 0 if x=="N" else 1)

### Standardisation  

Flemme :)

### Modélisation

In [111]:
df.shape

(22687, 144)

In [112]:
X_train, X_test, y_train, y_test = train_test_split(df.drop("Accès second tour", axis=1), df["Accès second tour"], test_size=0.33, random_state=42)

#### Dealing with the imbalanced dataset

Taux de 1 dans le dataset : 

In [137]:
np.sum(df["Accès second tour"]==1)*100/(np.sum(df["Accès second tour"]==1)+np.sum(df["Accès second tour"]==0))

13.853748842949708

Poids à donner aux 1 :

In [139]:
100/13

7.6923076923076925

In [190]:
sample_weight = np.array([8 if i == 1 else 1 for i in y_train])

In [191]:
clf = RandomForestClassifier(n_estimators=20, max_depth=20)
clf.fit(X_train, y_train, sample_weight=sample_weight)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=20, max_features='auto', max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            n_estimators=20, n_jobs=1, oob_score=False, random_state=None,
            verbose=0, warm_start=False)

In [192]:
print(classification_report(clf.predict(X_test), y_test))

             precision    recall  f1-score   support

          0       0.96      0.97      0.97      6384
          1       0.83      0.77      0.80      1103

avg / total       0.94      0.94      0.94      7487



** Feat importance **

In [193]:
pd.DataFrame(clf.feature_importances_, list(df.drop("Accès second tour", axis=1).columns), columns=["col"]).sort_values("col", ascending=False).head(20)

Unnamed: 0,col
nuance_UMP,0.188573
nuance_SOC,0.160724
nuance_EXG,0.105832
nuance_DIV,0.077705
nuance_ECO,0.0527
Inscrits,0.041332
nuance_DVD,0.038358
circonscription,0.035563
nuance_EXD,0.022932
nuance_MODEM,0.016997
