In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import statsmodels.api as sm
import matplotlib.pyplot as plt

In [2]:
data = pd.read_csv('DummiesV2.csv')
data.head()

Unnamed: 0,À l'avant du véhicule,À l'arrière du véhicule,Conducteur,Piéton,Indemne,Tué,Blessé hospitalisé,Blessé léger,Femme,Ceinture,...,3 voies de circulation,4 voies de circulation,5 voies de circulation,6 voies de circulation,7 voies de circulation,8 voies de circulation,9 voies de circulation,10 voies de circulation,11 voies de circulation,12 voies de circulation
0,1,0,0,0,0,0,0,1,1,1,...,0,0,0,0,0,0,0,1,0,0
1,1,0,1,0,0,0,0,1,1,1,...,0,0,0,0,0,0,0,1,0,0
2,1,0,1,0,1,0,0,0,0,1,...,0,0,0,0,0,0,0,1,0,0
3,1,0,1,0,0,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
4,1,0,1,0,1,0,0,0,0,1,...,0,0,0,0,0,1,0,0,0,0


In [3]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
targets = ['Tué', 'Indemne', 'Blessé léger', 'Blessé hospitalisé']
X = data.drop(targets, axis=1)
X = pd.DataFrame(data=StandardScaler().fit_transform(X), columns=X.columns)
Y = data[targets].values.argmax(axis=1)
X_train, X_test,Y_train, Y_test = train_test_split(X, Y, test_size=0.3)

# Avec une régression logistique

In [4]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE
estimator = LogisticRegression(multi_class='multinomial', max_iter=2_000)
selector = RFE(estimator, n_features_to_select=50, step=1)
selector = selector.fit(X_train, Y_train)

array([False, False,  True,  True,  True,  True,  True, False, False,
       False, False, False,  True,  True, False,  True, False, False,
       False,  True,  True,  True, False,  True, False,  True, False,
       False, False, False, False, False, False, False,  True,  True,
       False,  True,  True, False,  True, False, False, False, False,
       False, False, False, False,  True, False, False,  True,  True,
       False, False, False, False,  True, False, False, False, False,
       False, False, False, False,  True,  True,  True, False, False,
       False, False, False,  True, False, False, False, False, False,
       False, False, False, False, False,  True,  True,  True,  True,
        True,  True,  True, False, False,  True, False, False,  True,
        True,  True, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False,

In [5]:
selected = [variable for variable, boolean in zip(X.columns.tolist(), selector.support_.tolist()) if boolean]
selected

['Conducteur',
 'Piéton',
 'Femme',
 'Ceinture',
 'Casque',
 'Deux-roues non-motorisé',
 'Deux-roues motorisé',
 'Poids lourd',
 'Obstacle : Arbre',
 'Obstacle : Glissière métallique',
 'Obstacle : Glissière en béton',
 'Obstacle : Bâtiment, mur, pile de pont',
 'Obstacle : Poteau',
 'Obstacle : Piéton',
 'Obstacle : Véhicule en mouvement',
 'Obstacle : Animal',
 'Obstacle : Autre obstacle mobile',
 "Choc à l'arrière",
 "En s'insérant",
 'Déporté',
 'En tournant',
 'En ouvrant une porte',
 'Nuit sans éclairage',
 'Nuit avec éclairage',
 'En agglomération',
 'Place',
 'Collision frontale (2 véhicules)',
 "Collision par l'arrière (2 véhicules)",
 'Collision par le côté (2 véhicules)',
 'Collision en chaîne (3 véhicules ou plus)',
 'Collisions multiples (3 véhicules ou plus)',
 'Autre collision',
 'Autoroute',
 'Voie communale',
 'Circulation à sens unique',
 'Circulation bidirectionnelle',
 'Circulation à chaussées séparées',
 'Vitesse limitée à 30km/h',
 'Vitesse limitée à 50km/h',
 'Vi

In [6]:
np.mean(selector.estimator_.predict(X_test[selected]) == Y_test)

0.6425733112016498

Voir aussi `sklearn.feature_selection.SelectKBest`

# Avec un Random Forest

In [9]:
from sklearn.ensemble import RandomForestClassifier
estimator2 = RandomForestClassifier()
selector2 = RFE(estimator2, n_features_to_select=50, step=1)
selector2 = selector2.fit(X_train, Y_train)

array([ True, False,  True,  True,  True,  True,  True, False, False,
       False, False,  True,  True,  True, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False,  True,  True,
       False, False, False,  True,  True,  True, False, False, False,
       False, False, False, False, False, False, False,  True,  True,
       False, False, False, False, False, False, False, False,  True,
       False, False, False,  True,  True,  True,  True,  True,  True,
       False, False, False, False, False, False,  True, False, False,
       False, False, False, False, False,  True,  True,  True, False,
       False,  True, False,  True,  True,  True, False, False,  True,
        True,  True, False, False,  True, False, False,  True, False,
        True, False, False, False, False, False, False, False, False,
       False, False,  True, False, False, False, False, False,  True,
       False, False,

In [10]:
selected2 = [variable for variable, boolean in zip(X.columns.tolist(), selector2.support_.tolist()) if boolean]
selected2

["À l'avant du véhicule",
 'Conducteur',
 'Piéton',
 'Femme',
 'Ceinture',
 'Casque',
 'Sens de circulation décroissant',
 'Deux-roues non-motorisé',
 'Deux-roues motorisé',
 'Obstacle : Piéton',
 'Obstacle : Véhicule en mouvement',
 "Choc à l'avant",
 "Choc à l'arrière",
 'Choc latéral',
 'Déporté',
 'En tournant',
 'Moteur à hydrocarbures',
 'Crépuscule ou aube',
 'Nuit sans éclairage',
 'Nuit avec éclairage',
 'En agglomération',
 'Intersection en X',
 'Intersection en T',
 'Pluie légère',
 'Collision frontale (2 véhicules)',
 "Collision par l'arrière (2 véhicules)",
 'Collision par le côté (2 véhicules)',
 'Autre collision',
 'Route nationale',
 'Route départementale',
 'Voie communale',
 'Circulation à sens unique',
 'Circulation bidirectionnelle',
 'Circulation à chaussées séparées',
 'Route en pente',
 'En virage',
 'Surface mouillée',
 'Carrefour aménagé',
 'Sur accotement',
 'heure',
 'Vitesse limitée à 70km/h',
 'Vitesse limitée à 50km/h',
 'Vitesse limitée à 80km/h',
 '0-19a

In [12]:
np.mean(selector2.estimator_.predict(X_test[selected2]) == Y_test)

0.6348020723303657

# Comparaison des variables séléctionnées par les deux modèles

In [17]:
df_selected = pd.DataFrame(columns=['Regression Logistique', 'Random Forest'], data=zip(selected, selected2))
df_selected

Unnamed: 0,Regression Logistique,Random Forest
0,Conducteur,À l'avant du véhicule
1,Piéton,Conducteur
2,Femme,Piéton
3,Ceinture,Femme
4,Casque,Ceinture
5,Deux-roues non-motorisé,Casque
6,Deux-roues motorisé,Sens de circulation décroissant
7,Poids lourd,Deux-roues non-motorisé
8,Obstacle : Arbre,Deux-roues motorisé
9,Obstacle : Glissière métallique,Obstacle : Piéton


In [21]:
common = set(selected).intersection(set(selected2))
common

{'0-19ans',
 '2 voies de circulation',
 '20-39ans',
 '60-74ans',
 'Autre collision',
 'Casque',
 'Ceinture',
 "Choc à l'arrière",
 'Circulation bidirectionnelle',
 'Circulation à chaussées séparées',
 'Circulation à sens unique',
 'Collision frontale (2 véhicules)',
 "Collision par l'arrière (2 véhicules)",
 'Collision par le côté (2 véhicules)',
 'Conducteur',
 'Deux-roues motorisé',
 'Deux-roues non-motorisé',
 'Déporté',
 'En agglomération',
 'En tournant',
 'Femme',
 'Nuit avec éclairage',
 'Nuit sans éclairage',
 'Obstacle : Piéton',
 'Obstacle : Véhicule en mouvement',
 'Piéton',
 'Vitesse limitée à 50km/h',
 'Vitesse limitée à 80km/h',
 'Voie communale'}