## Final Project - Road Accidents in France in 2019
## N°1 / SKLEARN

In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline 
import seaborn as sns
import joblib

import sklearn
from sklearn import svm
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression, Perceptron
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, ExtraTreesClassifier
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import balanced_accuracy_score

from imblearn.ensemble import BalancedRandomForestClassifier, BalancedBaggingClassifier, RUSBoostClassifier, EasyEnsembleClassifier


### Import des fichiers de données

In [2]:
acc = pd.read_csv('../Final-Project/data/victime_clean_dummies.csv')

In [3]:
acc.shape

(130901, 141)

## Machine Learning

In [4]:
from sklearn.model_selection import train_test_split
y = acc.pop('grav')
X = acc

In [5]:
# Pour l'évaluation des modèles, nous utiliserons le score de Balanced Accuracy ("exactitude pondérée") 
# plutôt que le score d'Accuracy, car nos classes cibles sont de tailles respectives déséquilibrées. 

def display_scores(scores):
    print("Mean Balanced Accuracy Score:", round(scores.mean(),3))
    print("Standard deviation:", round(scores.std(),5))

#### Choix et Entraînement de divers modèles initialisés par défaut

On essaie plusieurs modèles de classification, initialisés par défaut.
https://scikit-learn.org/stable/modules/multiclass.html

**Inherently Multiclass**

In [6]:
##Premier modèle : RANDOM FOREST
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
rf1 = RandomForestClassifier()

In [7]:
# Cross-evaluation (Le jeu d'apprentissage est scindé en "sous-jeux", et l'apprentissage a lieu n fois d'affilée sur n-1 sous-jeux différents avec une évaluation sur le nème sous-jeu ("pli de validation").)
rf1_scores = cross_val_score(rf1, X_train, y_train, scoring='balanced_accuracy', cv=5)
display_scores(rf1_scores)

Mean Balanced Accuracy Score: 0.472
Standard deviation: 0.0033728625888018835


In [8]:
# Modèle : EXTRA-TREES
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
etc1 = ExtraTreesClassifier()

In [10]:
# Cross-evaluation (Le jeu d'apprentissage est scindé en "sous-jeux", et l'apprentissage a lieu n fois d'affilée sur n-1 sous-jeux différents avec une évaluation sur le nème sous-jeu ("pli de validation").)
etc1_scores = cross_val_score(etc1, X_train, y_train, scoring='balanced_accuracy', cv=5)
display_scores(etc1_scores)

Mean Balanced Accuracy Score: 0.475
Standard deviation: 0.004092551997902736


In [11]:
# Modèle : MULTI-LAYER PERCEPTRON
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
mlp = MLPClassifier()

In [12]:
# Cross-evaluation (Le jeu d'apprentissage est scindé en "sous-jeux", et l'apprentissage a lieu n fois d'affilée sur n-1 sous-jeux différents avec une évaluation sur le nème sous-jeu ("pli de validation").)
mlp_scores = cross_val_score(mlp, X_train, y_train, scoring='balanced_accuracy', cv=5)
display_scores(mlp_scores)



Mean Balanced Accuracy Score: 0.478
Standard deviation: 0.008951767888773032


In [21]:
# Modèle : GRADIENT BOOSTING
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
gbc1 = GradientBoostingClassifier()

In [22]:
# Cross-evaluation (Le jeu d'apprentissage est scindé en "sous-jeux", et l'apprentissage a lieu n fois d'affilée sur n-1 sous-jeux différents avec une évaluation sur le nème sous-jeu ("pli de validation").)
gbc1_scores = cross_val_score(gbc1, X_train, y_train, scoring='balanced_accuracy', cv=5)
display_scores(gbc1_scores)

Mean Balanced Accuracy Score: 0.45
Standard deviation: 0.006637171832434143


In [23]:
# Modèle : LOGISTIC REGRESSION (MULTI-CLASS)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
logreg1 = LogisticRegression(multi_class= "multinomial", max_iter=10000)

In [24]:
# Cross-evaluation (Le jeu d'apprentissage est scindé en "sous-jeux", et l'apprentissage a lieu n fois d'affilée sur n-1 sous-jeux différents avec une évaluation sur le nème sous-jeu ("pli de validation").)
logreg1_scores = cross_val_score(logreg1, X_train, y_train, scoring='balanced_accuracy', cv=5)
display_scores(logreg1_scores)

Mean Balanced Accuracy Score: 0.457
Standard deviation: 0.003177029661972765


**Multiclass as One-Vs-The-Rest**

In [25]:
# Modèle : Multiclass as One-Vs-The-Rest / PERCEPTRON
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
pclf = Perceptron()

In [26]:
# Cross-evaluation (Le jeu d'apprentissage est scindé en "sous-jeux", et l'apprentissage a lieu n fois d'affilée sur n-1 sous-jeux différents avec une évaluation sur le nème sous-jeu ("pli de validation").)
pclf_scores = cross_val_score(pclf, X_train, y_train, scoring='balanced_accuracy', cv=5)
display_scores(pclf_scores)

Mean Balanced Accuracy Score: 0.391
Standard deviation: 0.03656106522928551


**Multiclass as One-Vs-One**

In [27]:
# Modèle : SVM SVC
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
svmsvc = svm.SVC()

In [28]:
# Cross-evaluation (Le jeu d'apprentissage est scindé en "sous-jeux", et l'apprentissage a lieu n fois d'affilée sur n-1 sous-jeux différents avec une évaluation sur le nème sous-jeu ("pli de validation").)
svmsvc_scores = cross_val_score(svmsvc, X_train, y_train, scoring='balanced_accuracy', cv=5)
display_scores(svmsvc_scores)

Mean Balanced Accuracy Score: 0.37
Standard deviation: 0.002051391220954859


Dans un second fichier, on utilisera la solution proposée par le module imblearn.ensemble : des modèles d'ensembles destinés aux classes déséquilibrées.

In [29]:
# Summary:

scordict = { "Model Name":['RANDOM FOREST', 'EXTRA-TREES', 'MULTI-LAYER PERCEPTRON', 'GRADIENT BOOSTING','LOGISTIC REGRESSION (MULTI-CLASS)','PERCEPTRON','SVM.SVC'],
            "Balanced Accuracy on Train": [rf1_scores.mean(), etc1_scores.mean(), mlp_scores.mean(), gbc1_scores.mean(), logreg1_scores.mean(), pclf_scores.mean(),svmsvc_scores.mean()]
           }
df_scores = pd.DataFrame(scordict)
df_scores.sort_values(by='Balanced Accuracy on Train', ascending=False).style.hide_index()

Model Name,Balanced Accuracy on Train
MULTI-LAYER PERCEPTRON,0.477549
EXTRA-TREES,0.475005
RANDOM FOREST,0.472273
LOGISTIC REGRESSION (MULTI-CLASS),0.45722
GRADIENT BOOSTING,0.449952
PERCEPTRON,0.390707
SVM.SVC,0.370407


#### CONCLUSION

Avec un score inférieur à 50% sur le jeu d'entraînement, tous les modèles par défaut sont décevants. On est dans l'"underfit" (sous-apprentissage)

In [30]:
print('Finished! Please see next file.')

Finished! Please see next file.
