In [1]:
import os
import numpy as np
import pandas as pd
import seaborn as sns
import geopandas as gpd
import matplotlib.pyplot as plt
import sklearn, folium, branca

# Introduction

Présentation du sujet, de la problématique

# 1. Récupération et nettoyage des données

On récupère les bases de données `caracteristiques-2019`, `lieux-2019`, `usagers-2019` et `vehicules-2019` (disponibles à [cette adresse](https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2020/)) relatives aux accidents de la route ayant eu lieu en France au cours de l'année 2019.

In [3]:
caracteristiques = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/e22ba475-45a3-46ac-a0f7-9ca9ed1e283a', sep=';')
lieux = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/2ad65965-36a1-4452-9c08-61a6c874e3e6', sep=';')
vehicules = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/780cd335-5048-4bd6-a841-105b44eb2667', sep=';')
usagers = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/36b1b7b3-84b4-4901-9163-59ae8a9e3028', sep=';')

On fusionne les quatre bases, et on remplace la valeur -1, signalant les valeurs manquantes, par NaN.

In [5]:
data = (usagers.merge(vehicules, on='id_vehicule', suffixes=(None, '_2'))
               .merge(caracteristiques, on='Num_Acc', suffixes=(None, '_3'))
               .merge(lieux, on='Num_Acc')
               .replace(-1, np.nan)
               .drop(columns=['Num_Acc', 'id_vehicule', 'num_veh', 'Num_Acc_2', 'num_veh_2', 'an']))
data.head()

Unnamed: 0,place,catu,grav,sexe,an_nais,trajet,secu1,secu2,secu3,locp,...,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,2,2,4,2,2002,0.0,1.0,0.0,,,...,1.0,6,900,2.0,,,1.0,2.0,1.0,70.0
1,1,1,4,2,1993,5.0,1.0,0.0,,,...,1.0,6,900,2.0,,,1.0,2.0,1.0,70.0
2,1,1,1,1,1959,0.0,1.0,0.0,,,...,1.0,6,900,2.0,,,1.0,2.0,1.0,70.0
3,1,1,4,2,1994,0.0,1.0,0.0,,,...,4.0,3,845,2.0,,,1.0,0.0,1.0,70.0
4,1,1,1,1,1996,0.0,1.0,0.0,,,...,1.0,10,500,3.0,,,1.0,0.0,1.0,90.0


Ajouter ici le contenu de `merge-exploration2.ipynb` (comme les -1 ont déjà été remplacés par NaN, il suffira de supprimer toutes les colonnes avec plus de X% de valeurs manquantes)

# 2. Statistiques descriptives, visualisation

In [22]:
ids_accidents_mortels = usagers[usagers.grav == 2].Num_Acc.tolist()
caracteristiques['mortel'] = caracteristiques.Num_Acc.isin(ids_accidents_mortels)

Ajouter ici le contenu de `stats-descriptives.ipynb` (peut-être pas en entier, il faudrait voir quels graphes sont les plus intéressants) et `map.ipynb`

# 4. Modélisation

Ajouter ici le contenu de `conversion-variables.ipynb`, puis de `backward-elimination.ipynb`, `KNN.ipynb` et `SVC-Last (1).ipynb` <br>
Met-on aussi `RandomForest.ipynb` et `regression_logistique.ipynb` ?