# <u><span style="font-family: 'Times New Roman'; font-size: 60px;">PROJET DE PYTHON POUR LA DATA SCIENCE</span></u>
# <u>THEME</u>:<span style="font-family: 'Times New Roman'; font-size: 40px;"> Analyse des facteurs socio-démographiques et techniques influençant la gravité des accidents routiers en France.  </span>
## <u>1. Contexte générale</u>  
<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;Les accidents de la route représentent une problématique majeure de santé publique et de sécurité en France. Chaque année, malgré les nombreux progrès réalisés sur le plan de la sécurité routière(généralisations des radars automatiques, freinage automatique d'urgence, renforcement des infrastructures routières,...), des milliers de personnes sont impliquées dans des accidents, causant des blessures graves, des pertes humaines, et d'important dégâts matériels. Des disparités sont observées dans la gravité des accidents en fonction des caractéristiques des usagers, des véhicules, et des lieux où se produisent ces incidents. Les usagers de la route, par leurs comportements et leurs caractéristiques socio-démographiques (âge, sexe, rôle dans l’accident), jouent un rôle déterminant dans la survenue et la gravité des accidents. Parallèlement, les caractéristiques techniques des véhicules impliqués (type, ancienneté, nombre de passagers) influencent également l’issue des accidents. Enfin, les particularités des infrastructures routières et des zones géographiques contribuent à moduler la gravité des impacts. Dans ce contexte, il est essentiel d'analyser ces différents facteurs pour mieux comprendre leur influence sur la gravité des accidents routiers. Une telle analyse permettra d'identifier les populations et les types de véhicules les plus vulnérables, et de fournir des informations précieuses pour orienter les politiques de prévention et les initiatives visant à améliorer la sécurité routière. C'est dans ce cadre que s'inscrit ce projet. L’objectif est de dresser un portrait complet des facteurs socio-démographiques et techniques associés à la gravité des accidents, à travers des analyses descriptives et une modélisation statistique permettant de hiérarchiser ces facteurs.</span>

## $\textrm{1. Présentation des bases de données}$
<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;Pour la mise en œuvre de ce projet, nous partirons de 4 base de données **caract-2023**, **usagers-2023**, **lieux-2023**, **vehicules-2023** tous disponibles et téléchargeable sur la plateforme [data.gouv](https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2023/) et fournissant des données sur 54822 accidents survenus en france en 2023 pour l'année 2023. Un descriptif détaillé de chacune des variables des bases est disponible dans le fichier **Description des bases de données annuelles_2021** disponible sur ce dépôt.  
&nbsp;&nbsp;&nbsp;&nbsp;La base de données **caract-2023**  fournie un certains nombres d'informations relatives aux caractéristiques des accidents en 2023. Elle renseigne les caractéristique des 54822 accidents enregistrés en 2023 et comporte 15 variables dont :  
* <span style="font-family: 'Times New Roman'; font-size: 16px;"> l'identifiant unique de l'accident (Num_Acc)</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">le jour (jour), le mois (mois), l'année de l'accident (an) (évidemment 2023😁) et l'heure et la minute(hrmn) de survenue de l'accident</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">le numéro de département (dep) et de commune (com)</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">les coordonnées géographiques telles que la longitude (long) et la latitude (lat)</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">les conditions atmosphérique (atm)</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">le type de collision (col) </span>  

<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;Voici un bref apercu de la base caract-2023 : </span>






In [18]:
pip install pandas


Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [None]:
import pandas as pd
caract=pd.read_csv("caract-2023.csv",sep=";")
caract

Unnamed: 0,Num_Acc,jour,mois,an,hrmn,lum,dep,com,agg,int,atm,col,adr,lat,long
0,202300000001,7,5,2023,06:00,1,75,75101,2,4,2,7,RUE DE RIVOLI,4886638600,232347100
1,202300000002,7,5,2023,05:30,5,94,94080,2,1,3,6,Avenue de Paris,4884547782,242868146
2,202300000003,7,5,2023,20:50,1,94,94022,2,3,2,1,Avenue du Général Leclerc,4876240000,240655000
3,202300000004,6,5,2023,23:57,5,94,94078,2,1,3,5,Rue de Paris,4873248432,244687575
4,202300000005,7,5,2023,00:50,5,94,94068,2,2,3,3,56bis Avenue Raspail,4878581000,249217000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54817,202300054818,26,10,2023,20:45,5,974,97416,2,1,1,6,LA FONTAINE (RUE JEAN DE),-2133828000,5547771000
54818,202300054819,26,10,2023,19:10,3,974,97416,1,1,1,3,RN3 (ANCIENNE ROUTE),-2128865000,5550994000
54819,202300054820,26,10,2023,09:40,1,974,97411,2,1,1,7,BAMBOU (CHEMIN DE LA RUELLE),-2090129000,5540598000
54820,202300054821,26,10,2023,17:20,1,973,97302,1,6,1,3,ROUTE NATIONALE 1,489713000,-5232854000


<span style="font-family: 'Times New Roman'; font-size: 16px;">&nbsp;&nbsp;&nbsp;&nbsp;La base de données **vehicules-2023** renseigne sur les caractéristiques des véhicules impliqués dans les accidents enregistrés en 2023. Au total 93585 véhicules enregistrés impliqués dans les accidents en 2023 </span>

In [20]:
vehicules=pd.read_csv("vehicules-2023.csv",sep=";")
vehicules

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202300000001,155 680 557,A01,1,30,0,0,5,1,1,
1,202300000002,155 680 556,A01,2,7,0,1,1,1,1,
2,202300000003,155 680 554,B01,1,2,0,2,1,16,1,
3,202300000003,155 680 555,A01,2,7,0,2,2,15,1,
4,202300000004,155 680 551,B01,1,7,0,2,9,2,4,
...,...,...,...,...,...,...,...,...,...,...,...
93580,202300054820,155 583 348,A01,3,7,0,9,4,26,1,
93581,202300054821,155 583 346,A01,1,30,0,2,3,9,1,
93582,202300054821,155 583 347,B01,1,7,0,2,2,9,1,
93583,202300054822,155 583 344,A01,2,7,0,2,7,22,1,


In [None]:
usagers=pd.read_csv("usagers-2023.csv",sep=";")
usagers

<span style="font-family: 'Times New Roman'; font-size: 16px;">&nbsp;&nbsp;&nbsp;&nbsp;La base de données lieux renseigne sur les lieux où sont survenus les accidents enregistrés. Au total 70860 lieux enregistrés, pas forcément tous différents car répétés autant que fois qu'il s'y produisent d'accidents et 18 variables dont : </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">(Num_Acc) qui représente toujours le même identifiant utilisé dans la base caract</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">la catégorie de la route (catr) </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">le régime de circulation (circ) </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;"> le profil en long (prof) qui décrit la déclivité de la voie </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;"> l'état de la surface de la voie (surf)</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;"> la vitesse maximale autoreisée sur le lieux et au moment de l'accident (vma)   
&nbsp;&nbsp;&nbsp;&nbsp; Aperçu de la base</span>


In [21]:
lieux=pd.read_csv("lieux-2023.csv",sep=";")
lieux 

  lieux=pd.read_csv("lieux-2023.csv",sep=";")


Unnamed: 0,Num_Acc,catr,voie,v1,v2,circ,nbv,vosp,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,202300000001,4,RUE DE RIVOLI,0,,1,2,0,1,-1,-1,1,,-1,2,0,1,30
1,202300000001,4,RUE SAINT FLORENTIN,0,,1,1,0,1,-1,-1,1,,-1,2,0,1,30
2,202300000002,3,120,0,,2,3,2,1,-1,-1,1,,-1,2,0,1,50
3,202300000003,3,5,0,,2,4,0,1,1,0,1,,-1,2,5,1,50
4,202300000003,3,87,0,,2,4,0,1,1,0,1,,-1,2,5,1,50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
70855,202300054818,4,LA FONTAINE (RUE JEAN DE),0,,2,2,0,1,-1,0,1,,-1,1,0,1,50
70856,202300054819,4,RN3 (ANCIENNE ROUTE),0,,2,2,0,2,0,0,1,,-1,1,0,1,50
70857,202300054820,4,BAMBOU (CHEMIN DE LA RUELLE),0,,2,2,0,2,0,0,2,,-1,1,0,8,30
70858,202300054821,2,ROUTE NATIONALE 1,0,,-1,2,1,1,4,50,1,,-1,1,0,1,90
