# Projet accidents de la route

Ce projet porte sur un jeu de données de l'**Observatoire National Interministériel de la Sécurité Routière (ONISR)** recensant les accidents corporels (mortel ou non) de la circulation routière en France. Les données sont regroupées en plusieurs fichiers : quatre fichiers par année pour chaque année de 2005 à 2019 (voir *README.md*. Ce notebook n'est que la partie qui a permis de créer des fichiers csv contenant toutes les années de 2005 à 2021.

***
## Ouverture et concaténation des données des fichiers caractéristiques


D'après la documentation fournie, les données jusqu'en 2019 contiennent les mêmes variables. En revanche, à partir de 2019, la variable *gps* n'existe plus. 

A noter que les fichiers csv de chaque année possède des séparateurs différents : point-virgule, virgule ou tabulation.

In [1]:
import pandas as pd

# Liste qui va contenir tous les dataframes (un par année) avant leur concaténation
liste_dataframes = []

# Ouverture des fichiers dont le séparateur est ;
for i in range(2019,2022,1):
    liste_dataframes.append(pd.read_csv(f"src/caracteristiques_{i}.csv", sep=';'))
    
# Ouverture des fichiers dont le séparateur est ,
for i in range(2005,2009,1):
    liste_dataframes.append(pd.read_csv(f'src/caracteristiques_{i}.csv', sep=','))
for i in range(2010,2019,1):
    liste_dataframes.append(pd.read_csv(f'src/caracteristiques_{i}.csv', sep=','))

# Ouverture des fichiers dont le séparateur est la tabulation
liste_dataframes.append(pd.read_csv(f'src/caracteristiques_2009.csv', sep='\t'))

#concaténation de tous les dataframes
data_caracteristiques = pd.concat(liste_dataframes, axis=0, ignore_index=True)



In [2]:
data_caracteristiques.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1121571 entries, 0 to 1121570
Data columns (total 16 columns):
 #   Column   Non-Null Count    Dtype  
---  ------   --------------    -----  
 0   Num_Acc  1121571 non-null  int64  
 1   jour     1121571 non-null  int64  
 2   mois     1121571 non-null  int64  
 3   an       1121571 non-null  int64  
 4   hrmn     1121571 non-null  object 
 5   lum      1121571 non-null  int64  
 6   dep      1121571 non-null  object 
 7   com      1121569 non-null  object 
 8   agg      1121571 non-null  int64  
 9   int      1121571 non-null  int64  
 10  atm      1121498 non-null  float64
 11  col      1121552 non-null  float64
 12  adr      978295 non-null   object 
 13  lat      634503 non-null   object 
 14  long     634499 non-null   object 
 15  gps      480052 non-null   object 
dtypes: float64(2), int64(7), object(7)
memory usage: 136.9+ MB


In [3]:
data_caracteristiques.shape

(1121571, 16)

**Enregistrement des données dans un nouveau fichier csv**

In [4]:
data_caracteristiques.to_csv('src/caracteristiques_2005_2021.csv', sep=';', encoding='utf-8')

***
## Ouverture et concaténation des fichiers lieux

In [5]:
liste_dataframes = []

for i in range(2019,2022,1):
    liste_dataframes.append(pd.read_csv(f"src/lieux_{i}.csv", sep=';'))

for i in range(2005,2019,1):
    liste_dataframes.append(pd.read_csv(f'src/lieux_{i}.csv', sep=',', dtype={'voie': 'str'}))
    
data_lieux = pd.concat(liste_dataframes, axis=0, ignore_index=True)

In [6]:
data_lieux.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1121571 entries, 0 to 1121570
Data columns (total 19 columns):
 #   Column   Non-Null Count    Dtype  
---  ------   --------------    -----  
 0   Num_Acc  1121571 non-null  int64  
 1   catr     1121570 non-null  float64
 2   voie     1014391 non-null  object 
 3   v1       485747 non-null   float64
 4   v2       51369 non-null    object 
 5   circ     1119997 non-null  float64
 6   nbv      1118840 non-null  float64
 7   vosp     1118810 non-null  float64
 8   prof     1119622 non-null  float64
 9   pr       646087 non-null   object 
 10  pr1      644268 non-null   object 
 11  plan     1119290 non-null  float64
 12  lartpc   902739 non-null   object 
 13  larrout  1008730 non-null  object 
 14  surf     1119647 non-null  float64
 15  infra    1116163 non-null  float64
 16  situ     1116601 non-null  float64
 17  vma      163102 non-null   float64
 18  env1     953029 non-null   float64
dtypes: float64(12), int64(1), object(6)
memory

In [7]:
data_lieux.shape

(1121571, 19)

In [8]:
data_lieux.to_csv('src/lieux_2005_2021.csv', sep=';', encoding='utf-8')

***
## Ouverture et concaténation des fichiers usagers

In [9]:
liste_dataframes = []
for i in range(2005,2019,1):
    liste_dataframes.append(pd.read_csv(f'src/usagers_{i}.csv', sep=','))
    
for i in range(2019,2022,1):
    liste_dataframes.append(pd.read_csv(f"src/usagers_{i}.csv", sep=';'))
    
data_usagers = pd.concat(liste_dataframes, axis=0, ignore_index=True)

In [10]:
data_usagers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2509620 entries, 0 to 2509619
Data columns (total 16 columns):
 #   Column       Dtype  
---  ------       -----  
 0   Num_Acc      int64  
 1   place        float64
 2   catu         int64  
 3   grav         int64  
 4   sexe         int64  
 5   trajet       float64
 6   secu         float64
 7   locp         float64
 8   actp         object 
 9   etatp        float64
 10  an_nais      float64
 11  num_veh      object 
 12  id_vehicule  object 
 13  secu1        float64
 14  secu2        float64
 15  secu3        float64
dtypes: float64(9), int64(4), object(3)
memory usage: 306.4+ MB


In [11]:
data_usagers.to_csv('src/usagers_2005_2021.csv', encoding='utf-8', sep=';')

***
## Ouverture et concaténation des fichiers vehicules

In [12]:
liste_dataframes = []

for i in range(2019,2022,1):
    liste_dataframes.append(pd.read_csv(f"src/vehicules_{i}.csv", sep=';'))
    
for i in range(2005,2019,1):
    liste_dataframes.append(pd.read_csv(f'src/vehicules_{i}.csv', sep=','))

data_vehicules = pd.concat(liste_dataframes, axis=0, ignore_index=True)

In [13]:
data_vehicules.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1914902 entries, 0 to 1914901
Data columns (total 11 columns):
 #   Column       Dtype  
---  ------       -----  
 0   Num_Acc      int64  
 1   id_vehicule  object 
 2   num_veh      object 
 3   senc         float64
 4   catv         int64  
 5   obs          float64
 6   obsm         float64
 7   choc         float64
 8   manv         float64
 9   motor        float64
 10  occutc       float64
dtypes: float64(7), int64(2), object(2)
memory usage: 160.7+ MB


In [14]:
data_vehicules.to_csv('src/vehicules_2005_2021.csv', encoding='utf-8', sep=';')