# Machine Learning pour prédire la gravité des accidents routiers

Dans ce notebook, vous trouvez notre code d'entraînement et validation automatique d'algorithmes de Machine Learning pour prédire la gravité des accidents de voiture à partir du jeu de données de 2019 de *Bases de données annuelles des accidents corporels de la circulation routière - Années de 2005 à 2019*.

**dataset:** https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2019/#_ <br>
**tâche:** Classification (Classification multi-classe)<br>
**target variable:** *grav*

Nous disposons de 4 datasets différents (*caracteristiques*,*lieux*,*vehicules*,*usagers*) qui contiennent des variables sur les accidents corporels et on cherche à prédire la variable *grav* de la gravité de l'accident:
- 1: Indemne
- 2: Tué
- 3: Hospitalisé
- 4: Blessé léger

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split 
#pour l'entraînement automatique:
from supervised.automl import AutoML
#pour générer un rapport html des résultats:
import IPython
import markdown

## 1. Importation des données

On importe les 4 datasets à partir de leur url et on les concatène dans un unique dataset *data*.

In [None]:
carac = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/e22ba475-45a3-46ac-a0f7-9ca9ed1e283a',sep=';')
lieux = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/2ad65965-36a1-4452-9c08-61a6c874e3e6',sep=';')
veh = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/780cd335-5048-4bd6-a841-105b44eb2667',sep=';')
usag = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/36b1b7b3-84b4-4901

In [None]:
a=pd.merge(usag,veh,on='Num_Acc')
b=pd.merge(a,carac,on='Num_Acc')
data=pd.merge(b,lieux,on='Num_Acc')

## 2. Preprocessing et feature engineering

On modifie les colonnes *lat* et *long*:

In [None]:
data['lat'] = data['lat'].str.replace(',', '.', regex=True)
data['lat'] = data['lat'].astype(float)
data['long'] = data['long'].str.replace(',', '.', regex=True)
data['long'] = data['long'].astype(float)

On crée deux nouvelles variables donnant le moment de l'accident:

In [None]:
def hour(n):
    n=str(n)
    if len(n)<4:
        n='0'+n
    return int(n[:2])

data['heure']=data['hrmn'].apply(hour)
data['mom_acc']=pd.to_datetime(pd.DataFrame({'year': data['an'],'month': data['mois'],'day': data['jour'],'hour':data['heure']}))

Et une variable pour le jour de la semaine:

In [None]:
data['jour_semaine']=data['mom_acc'].dt.dayofweek

## 3. Feature selection et train/test splitting

On sélectionne les variables qui vont faire partie de notre modèle et on partage le dataset en dataset d'entraînement et de test. Attention, AutoML nécessite d'un partage 75%/25%.

In [None]:
features = ['place','catu','sexe','trajet','secu1','secu2','secu3','locp',
            'catv','an_nais','mois',
            'occutc','obs','obsm','choc','manv',
            'lum','agg','int','atm','col',
            'catr','circ','vosp','prof','plan',
            'surf','infra','situ','lat','long','heure','mom_acc','jour_semaine']

In [None]:
y = data['grav'].values
X = data[features]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

## 4. AutoML

On entraîne, test et valide automatiquement plusieurs algorithmes de ML sur le dataset avec AutoML (plus d'infos ici: https://supervised.mljar.com/) et on génère un html des métriques et des paramètres du modèle.

In [None]:
automl = AutoML(algorithms=['Random Forest', 'Xgboost', 'Decision Tree', 'Baseline', 'Linear'],mode='Explain',random_state=42,explain_level=0)
#fit model
automl.fit(X_train,y_train)
#predictions
predictions = automl.predict(X_test)
#generate html report
automl.report()