# <u><span style="font-family: 'Times New Roman'; font-size: 60px;">PROJET DE PYTHON POUR LA DATA SCIENCE</span></u>
# <u>THEME</u>:<span style="font-family: 'Times New Roman'; font-size: 40px;"> Analyse des facteurs socio-démographiques et techniques influençant la gravité des accidents routiers en France.  </span>
## <span style="font-family: 'Times New Roman'; font-size: 40px;"><u>1. Contexte générale</u></span>  
<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;Les accidents de la route représentent une problématique majeure de santé publique et de sécurité en France. Chaque année, malgré les nombreux progrès réalisés sur le plan de la sécurité routière(généralisations des radars automatiques, freinage automatique d'urgence, renforcement des infrastructures routières,...), des milliers de personnes sont impliquées dans des accidents, causant des blessures graves, des pertes humaines, et d'important dégâts matériels. Des disparités sont observées dans la gravité des accidents en fonction des caractéristiques des usagers, des véhicules, et des lieux où se produisent ces incidents. Les usagers de la route, par leurs comportements et leurs caractéristiques socio-démographiques (âge, sexe, rôle dans l’accident), jouent un rôle déterminant dans la survenue et la gravité des accidents. Parallèlement, les caractéristiques techniques des véhicules impliqués (type, ancienneté, nombre de passagers) influencent également l’issue des accidents. Enfin, les particularités des infrastructures routières et des zones géographiques contribuent à moduler la gravité des impacts. Dans ce contexte, il est essentiel d'analyser ces différents facteurs pour mieux comprendre leur influence sur la gravité des accidents routiers. Une telle analyse permettra d'identifier les populations et les types de véhicules les plus vulnérables, et de fournir des informations précieuses pour orienter les politiques de prévention et les initiatives visant à améliorer la sécurité routière. C'est dans ce cadre que s'inscrit ce projet. L’objectif est de dresser un portrait complet des facteurs socio-démographiques et techniques associés à la gravité des accidents, à travers des analyses descriptives et une modélisation statistique permettant de hiérarchiser ces facteurs.</span>

## $\textrm{1. Présentation des bases de données}$
<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;Pour la mise en œuvre de ce projet, nous partirons de 4 base de données **caract-2023**, **usagers-2023**, **lieux-2023**, **vehicules-2023** tous disponibles et téléchargeable sur la plateforme [data.gouv](https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2023/) et fournissant des données sur 54822 accidents survenus en France en 2023 pour l'année 2023. Un descriptif détaillé de chacune des variables des bases est disponible dans le fichier **Description des bases de données annuelles_2021** disponible sur ce dépôt.  
&nbsp;&nbsp;&nbsp;&nbsp;La base de données **caract-2023**  fournie un certains nombres d'informations relatives aux caractéristiques des accidents en 2023. Elle renseigne les caractéristiqueS des 54822 accidents enregistrés en 2023 et comporte 15 variables. 






In [18]:
pip install pandas


Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [1]:
import pandas as pd
caract=pd.read_csv("caract-2023.csv",sep=";")
caract

Unnamed: 0,Num_Acc,jour,mois,an,hrmn,lum,dep,com,agg,int,atm,col,adr,lat,long
0,202300000001,7,5,2023,06:00,1,75,75101,2,4,2,7,RUE DE RIVOLI,4886638600,232347100
1,202300000002,7,5,2023,05:30,5,94,94080,2,1,3,6,Avenue de Paris,4884547782,242868146
2,202300000003,7,5,2023,20:50,1,94,94022,2,3,2,1,Avenue du Général Leclerc,4876240000,240655000
3,202300000004,6,5,2023,23:57,5,94,94078,2,1,3,5,Rue de Paris,4873248432,244687575
4,202300000005,7,5,2023,00:50,5,94,94068,2,2,3,3,56bis Avenue Raspail,4878581000,249217000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54817,202300054818,26,10,2023,20:45,5,974,97416,2,1,1,6,LA FONTAINE (RUE JEAN DE),-2133828000,5547771000
54818,202300054819,26,10,2023,19:10,3,974,97416,1,1,1,3,RN3 (ANCIENNE ROUTE),-2128865000,5550994000
54819,202300054820,26,10,2023,09:40,1,974,97411,2,1,1,7,BAMBOU (CHEMIN DE LA RUELLE),-2090129000,5540598000
54820,202300054821,26,10,2023,17:20,1,973,97302,1,6,1,3,ROUTE NATIONALE 1,489713000,-5232854000



<span style="font-family: 'Times New Roman'; font-size: 16px;">Dans le cadre de notre étude, nous retiendrons de cette base les variables qui suivent</span> :   
* <span style="font-family: 'Times New Roman'; font-size: 16px;"> **Num_Acc** qui représente l'identifiant unique de l'accident étant la clé de cette base elle nous sera utile pour d'éventuelles concacténations et dénombrement d'accident</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">**mois** : désigne le mois  de survenue de l'accident. Elle nous permettra de déterminer s'il y a des périodes de l'année où les accidents sont plus grave. </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">**dep** et **com**: le numéro de département et de commune pour mieux situer les régions où les accidents les plus à risque sont susceptible de se produire  </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">**long** et **lag** qui représentent les coordonées géographiques des lieux où se sont produits les accidents. On pourra s'en servir pour une représentation géospatiale des accidents </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">**atm** : pout les conditions atmosphérique au moment où l'accident s'est produit. On pourra s'en servi pour déterminer les conditions métérologiques les plus à risque. </span>  
<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;On procède donc à l'élimination du reste des variables (ou à la sélections des variables retenues pour cette base) </span>

In [7]:
caract=caract[["Num_Acc","mois","dep","atm","com","lat","long"]]
caract

Unnamed: 0,Num_Acc,mois,dep,atm,com,lat,long
0,202300000001,5,75,2,75101,4886638600,232347100
1,202300000002,5,94,3,94080,4884547782,242868146
2,202300000003,5,94,2,94022,4876240000,240655000
3,202300000004,5,94,3,94078,4873248432,244687575
4,202300000005,5,94,3,94068,4878581000,249217000
...,...,...,...,...,...,...,...
54817,202300054818,10,974,1,97416,-2133828000,5547771000
54818,202300054819,10,974,1,97416,-2128865000,5550994000
54819,202300054820,10,974,1,97411,-2090129000,5540598000
54820,202300054821,10,973,1,97302,489713000,-5232854000


<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp; Nous vérifions maintenant la présence d'éventuelles valeurs manquantes.  </span>

In [8]:
caract.isnull().any()

Num_Acc    False
mois       False
dep        False
atm        False
com        False
lat        False
long       False
dtype: bool

<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;La base retenue ne comporte donc pas de valaurs manquantes. Passons maintenant à la base vehicules-2023. </span>

<span style="font-family: 'Times New Roman'; font-size: 16px;">&nbsp;&nbsp;&nbsp;&nbsp;La base de données **vehicules-2023** renseigne sur un certains nombre de caractéristiques des véhicules impliqués dans les accidents enregistrés en 2023. Au total 93585 véhicules enregistrés dans la base pas forcément tous différents car répétés autant de fois qu'un individu  est associé à un accident. </span>


In [12]:
vehicules=pd.read_csv("vehicules-2023.csv",sep=";")
vehicules

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202300000001,155 680 557,A01,1,30,0,0,5,1,1,
1,202300000002,155 680 556,A01,2,7,0,1,1,1,1,
2,202300000003,155 680 554,B01,1,2,0,2,1,16,1,
3,202300000003,155 680 555,A01,2,7,0,2,2,15,1,
4,202300000004,155 680 551,B01,1,7,0,2,9,2,4,
...,...,...,...,...,...,...,...,...,...,...,...
93580,202300054820,155 583 348,A01,3,7,0,9,4,26,1,
93581,202300054821,155 583 346,A01,1,30,0,2,3,9,1,
93582,202300054821,155 583 347,B01,1,7,0,2,2,9,1,
93583,202300054822,155 583 344,A01,2,7,0,2,7,22,1,


<span style="font-family: 'Times New Roman'; font-size: 16px;"> Elle comporte 11 variables au total et on se contentera dans le cadre de notre étude des variables tels que : </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">L'identifiant de l’accident **Num_Acc** identique à celui de la base caract-2023, l'identifiant unique **id_vehicule** du véhicule repris pour chacun des usagers occupant ce véhicule et et l'identifiant **num_veh** repris pour chacun des usagers occupant ce véhicule</span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;">**catv** : pour la catégorie du véhicule impliqué dans l'accident ( autobus, bicyclette, vélo, etc...). On pourra s'en servir pour déterminer le type de véhicule suceptible d'avoir impliqué dans les accidents les plus à risque. </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;"> **motor** :type de motorisation du véhicule</span>  
<span style="font-family: 'Times New Roman'; font-size: 16px;">&nbsp;&nbsp;&nbsp;&nbsp; On procède donc à l'extraction de cette des variables </span>

In [14]:
vehicules=vehicules[["Num_Acc","id_vehicule","num_veh","catv","motor"]]
vehicules

Unnamed: 0,Num_Acc,id_vehicule,num_veh,catv,motor
0,202300000001,155 680 557,A01,30,1
1,202300000002,155 680 556,A01,7,1
2,202300000003,155 680 554,B01,2,1
3,202300000003,155 680 555,A01,7,1
4,202300000004,155 680 551,B01,7,4
...,...,...,...,...,...
93580,202300054820,155 583 348,A01,7,1
93581,202300054821,155 583 346,A01,30,1
93582,202300054821,155 583 347,B01,7,1
93583,202300054822,155 583 344,A01,7,1


<span style="font-family: 'Times New Roman'; font-size: 16px;">&nbsp;&nbsp;&nbsp;&nbsp;On vérifie maintenant la présence d'éventuelles valeurs manquantes </span>

In [16]:
vehicules.isnull().any()

Num_Acc        False
id_vehicule    False
num_veh        False
catv           False
motor          False
dtype: bool

<span style="font-family: 'Times New Roman'; font-size: 16px;">On n'a donc pas de valeurs manquantes dans cette base. Passons maintenant à la base **usagers-2023**.  
&nbsp;&nbsp;&nbsp;&nbsp;La base de données **usagers-2023** fournit un certain nombre d'informations propres aux usagers impliqués dans les accidents. Au total, 125789 usagers enregistrés dans base de données avec 11 variables au total.

In [35]:
usagers=pd.read_csv("usagers-2023.csv",sep=";")
usagers

Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,secu1,secu2,secu3,locp,actp,etatp
0,202300000001,203 851 184,155 680 557,A01,1,1,4,1,1978.0,5,2,0,-1,-1,-1,-1
1,202300000002,203 851 182,155 680 556,A01,1,1,1,2,1997.0,9,1,0,-1,-1,-1,-1
2,202300000002,203 851 183,155 680 556,A01,10,3,3,1,1997.0,9,0,-1,-1,2,3,1
3,202300000003,203 851 180,155 680 554,B01,1,1,3,1,1987.0,0,2,6,0,0,0,-1
4,202300000003,203 851 181,155 680 555,A01,1,1,1,2,1984.0,0,1,0,0,0,0,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
125784,202300054821,203 720 720,155 583 346,A01,1,1,4,1,1971.0,1,2,0,-1,0,0,-1
125785,202300054821,203 720 721,155 583 347,B01,1,1,1,2,1968.0,1,1,0,-1,0,0,-1
125786,202300054822,203 720 717,155 583 344,A01,2,2,1,2,2003.0,2,1,-1,-1,-1,-1,-1
125787,202300054822,203 720 718,155 583 344,A01,1,1,1,2,2002.0,1,1,-1,-1,-1,-1,-1


 <span style="font-family: 'Times New Roman'; font-size: 16px;">Les variables de cette base que base retenues pour cette étude sont les suivantes: </span> 
* <span style="font-family: 'Times New Roman'; font-size: 16px;">l'identifiant de l'accident **Num_Acc** de la base caract-2023, l'identifiant unique de l’usager (id_usager), l'identifiant unique du véhicule **id_vehicule** repris pour chacun des usagers occupant le vehicule et l'identifiant du véhicule (Num_Veh)repris pour chacun des usagers occupant ce véhicule </span> 
* <span style="font-family: 'Times New Roman'; font-size: 16px;">le sexe **sexe** pour déterminer éventuellement disparité 
 de la gravité au sein du genre </span>
* <span style="font-family: 'Times New Roman'; font-size: 16px;"> l'année de naissance **an_naiss**. On s'en servira pour déterminer l'age des usager impliqué dans les accidents ayant eu lieu et si une tranche d'age est plus exposée aux accidents graves ou non. </span> 
* <span style="font-family: 'Times New Roman'; font-size: 16px;">**secu1**, **secu2**, **secu3**: : Ces variables renseignent sur la présence et l'utilisation 
d'équipements de sécurité (comme ceinture, casque, gants, airbag, etc.) par l'usager. Elles sont réparties en trois catégories (secu1, secu2, secu3), chaque variable indiquant 
différents équipements utilisés par l’usager, le cas échéant. Les valeurs incluent : 
aucun équipement (0), ceinture (1), casque (2), dispositif enfants (3), gants (6), ou 
autre équipement (9). Ces données sont particulièrement pertinentes pour étudier 
l'impact des équipements sur la sécurité des usagers 
* <span style="font-family: 'Times New Roman'; font-size: 16px;">la gravité des blessures **grav** qui nous permettra de mesurer la gravité de l'accident</span>  
<span style="font-family: 'Times New Roman'; font-size: 16px;">Nous procédons maintenant à l'extraction de ces variables</span>  


In [36]:
usagers=usagers[['Num_Acc', 'id_usager', 'id_vehicule', 'num_veh','grav', 'sexe', 'an_nais','secu1', 'secu2', 'secu3']]
usagers

Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,grav,sexe,an_nais,secu1,secu2,secu3
0,202300000001,203 851 184,155 680 557,A01,4,1,1978.0,2,0,-1
1,202300000002,203 851 182,155 680 556,A01,1,2,1997.0,1,0,-1
2,202300000002,203 851 183,155 680 556,A01,3,1,1997.0,0,-1,-1
3,202300000003,203 851 180,155 680 554,B01,3,1,1987.0,2,6,0
4,202300000003,203 851 181,155 680 555,A01,1,2,1984.0,1,0,0
...,...,...,...,...,...,...,...,...,...,...
125784,202300054821,203 720 720,155 583 346,A01,4,1,1971.0,2,0,-1
125785,202300054821,203 720 721,155 583 347,B01,1,2,1968.0,1,0,-1
125786,202300054822,203 720 717,155 583 344,A01,1,2,2003.0,1,-1,-1
125787,202300054822,203 720 718,155 583 344,A01,1,2,2002.0,1,-1,-1


<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp; Passons à la vérifications de valeurs manquantes </span>

In [37]:
usagers.isnull().any()

Num_Acc        False
id_usager      False
id_vehicule    False
num_veh        False
grav           False
sexe           False
an_nais         True
secu1          False
secu2          False
secu3          False
dtype: bool

<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp; On a donc présence de valeurs manquantes pour la variable année de naissance (**an_nais**) </span> 

In [60]:
n=usagers[("an_nais")].isnull().sum()
print('Il y a ',n*100/len(usagers),'% de valeurs manquantes')

Il y a  0.0 % de valeurs manquantes


&nbsp;&nbsp;&nbsp;&nbsp; Ce pourcentage étant très faible  par rapport à la taille totale de notre base allant on peut enlever les données correspondant de notre base puisqu'elles n'impacteront pas tellement nos résultats  
&nbsp;&nbsp;&nbsp;&nbsp;De plus, L’âge étant  directement interprétable en tant que facteur socio-démographique, la variable an_nais sera transformé en une variable catégorielle **age** pour des analyses plus pertinentes</span>

In [58]:
usagers=usagers.dropna()#Suppression des valeurs manquantes
age=2023-usagers["an_nais"]
print("Le plus jeune usagers de la base a ",age.min(),' ans et le plus âgé a ',age.max(),' ans')

Le plus jeune usagers de la base a  0.0  ans et le plus âgé a  110.0  ans


&nbsp;&nbsp;&nbsp;&nbsp;Cela suppose que des personnes très âgées ainsi que des nourrirons étaient impliqués d'une certaines manière ou d'une autre dans des accidents.
La variable catégorielle âge sera codé comme suit : 
* **Enfants (0–14 ans)** codé *1*:  
   Ils peuvent être piétons, passagers, ou dans certains cas, conducteurs (même si c'est très rare).Les enfants sont souvent plus vulnérables lors d'accidents en tant que passagers ou piétons, et cette catégorie inclut des groupes d'âge où les usagers sont généralement sous la responsabilité d'adultes.

* **Jeunes adolescents (15–17 ans)** codé *2*:  
   Les adolescents peuvent être passagers, piétons, ou conducteurs en apprentissage (par exemple, dans le cadre de la conduite accompagnée). Ces jeunes adultes commencent à être impliqués dans les accidents en tant que passagers, mais aussi potentiellement comme conducteurs avec moins d'expérience.

* **Jeunes adultes (18–24 ans)** codé *3*:  
   Premier groupe majeur de conducteurs. Ils sont également fortement représentés parmi les passagers et les piétons.
   C'est une tranche d'âge souvent impliquée dans des comportements à risque (alcool, vitesse, imprudence), ce qui peut les rendre particulièrement vulnérables.

* **Adultes actifs (25–64 ans)** codé *4*:
   Groupe principal des conducteurs et passagers. Les adultes dans cette tranche d'âge ont souvent un rôle important dans les accidents, qu'ils soient responsables ou victimes.
   Cette catégorie regroupe des individus souvent impliqués dans des trajets professionnels ou privés.

* **Seniors jeunes (65–74 ans)** codé *5*:  
   Bien qu'ils soient moins impliqués dans les accidents que les jeunes adultes, les seniors peuvent être passagers, piétons, ou conducteurs.
   Les capacités physiques diminuent avec l'âge, ce qui peut augmenter la vulnérabilité dans un accident, notamment en tant que piétons.

* **Seniors avancés (75 ans et plus)** codé *6*:  
   Cette catégorie regroupe des individus souvent vulnérables en raison de leurs capacités physiques ou mentales. Ils peuvent être piétons, passagers, ou conducteurs.
   Les conséquences d'un accident peuvent être plus graves pour cette tranche d'âge, ce qui en fait un groupe particulièrement intéressant à analyser dans les études de sécurité routière.


In [None]:
#Construction de la variable catégorielle âge 
usagers["age0"]=2023-usagers["age"]