# <u><span style="font-family: 'Times New Roman'; font-size: 60px;">PROJET DE PYTHON POUR LA DATA SCIENCE</span></u>
# <u>THEME</u>:<span style="font-family: 'Times New Roman'; font-size: 40px;"> Analyse des facteurs socio-démographiques et techniques influençant la gravité des accidents routiers en France.  </span>

## <span style="font-family: 'Times New Roman'; font-size: 40px;"><u>1. Contexte générale</u></span>  
<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;Les accidents de la route représentent une problématique majeure de santé publique et de sécurité en France. Chaque année, malgré les nombreux progrès réalisés sur le plan de la sécurité routière(généralisations des radars automatiques, freinage automatique d'urgence, renforcement des infrastructures routières,...), des milliers de personnes sont impliquées dans des accidents, causant des blessures graves, des pertes humaines, et d'important dégâts matériels. Des disparités sont observées dans la gravité des accidents en fonction des caractéristiques des usagers, des véhicules, et des lieux où se produisent ces incidents. Les usagers de la route, par leurs comportements et leurs caractéristiques socio-démographiques (âge, sexe, rôle dans l’accident), jouent un rôle déterminant dans la survenue et la gravité des accidents. Parallèlement, les caractéristiques techniques des véhicules impliqués (type, ancienneté, nombre de passagers) influencent également l’issue des accidents. Enfin, les particularités des infrastructures routières et des zones géographiques contribuent à moduler la gravité des impacts. Dans ce contexte, il est essentiel d'analyser ces différents facteurs pour mieux comprendre leur influence sur la gravité des accidents routiers. Une telle analyse permettra d'identifier les populations et les types de véhicules les plus vulnérables, et de fournir des informations précieuses pour orienter les politiques de prévention et les initiatives visant à améliorer la sécurité routière. C'est dans ce cadre que s'inscrit ce projet. L’objectif est de dresser un portrait complet des facteurs socio-démographiques et techniques associés à la gravité des accidents, à travers des analyses descriptives et une modélisation statistique permettant de hiérarchiser ces facteurs.</span>

## 1. Présentation des bases de données et traitement des bases de données
Pour la mise en œuvre de ce projet, nous partirons de 4 base de données **caract-2023**, **usagers-2023**, **lieux-2023**, **vehicules-2023** tous disponibles et téléchargeable sur la plateforme [data.gouv](https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2023/) et fournissant des données sur 54822 accidents survenus en France en 2023 pour l'année 2023. Un descriptif détaillé de chacune des variables des bases est disponible dans le fichier **Description des bases de données annuelles_2021** disponible sur ce dépôt.  
### 1.1 Présentation et traitement de la base caract-2023
La base **caract-2023** (accidents recensés entre le 1er janvier et le 31 décembre 2023) est produite et maintenue par l'Observatoire national interministériel de la sécurité routière (ONISR), en collaboration avec les forces de l’ordre (police, gendarmerie) et les services préfectoraux.  

La base **caract-202** regroupe des informations sur les accidents, telles que :  

- **Num_Acc** : Le numéro d'identifiant unique attribué à chaque accident. Il permet de relier les différentes rubriques du fichier pour une analyse plus cohérente.  
- **jour et mois** : Ces variables indiquent respectivement le jour et le mois où l'accident a eu lieu, facilitant l'analyse temporelle des accidents.  
- **an** : L'année durant laquelle l'accident s'est produit. Cette information est essentielle pour les études longitudinales ou les tendances annuelles.  
- **hrmn** : Heure et minutes précises de l'accident, permettant de comprendre les variations horaires dans les occurrences des accidents.  
- **lum** : Les conditions d’éclairage au moment de l’accident, classifiées en cinq catégories allant de plein jour (1) à nuit avec éclairage public allumé (5).  
- **dep** : Le code INSEE du département où l'accident s'est produit. Ce code est utile pour des analyses géographiques à l’échelle départementale.  
- **com** : Le code INSEE de la commune, composé du code départemental suivi de trois chiffres, pour localiser précisément l’accident.  
- **agg** : La localisation de l'accident par rapport à l’agglomération, avec une distinction entre hors agglomération (1) et en agglomération (2).  
- **int** : La typologie de l’intersection où l'accident a eu lieu, définie par neuf catégories, notamment intersection en T (3) ou giratoire (6).  
- **atm** : Les conditions météorologiques lors de l'accident, allant de normale (1) à des phénomènes comme neige (4) ou vent fort (6).  
- **col** : Le type de collision impliquant les véhicules, tel que frontale entre deux véhicules (1), collision multiple (5) ou sans collision (7).  
- **adr** : L'adresse postale associée aux accidents survenus en agglomération, pour une localisation précise.  
- **lat et long** : Latitude et longitude correspondant à la position géographique exacte de l'accident.  

Au total, elle regroupe donc 15 variables relatives aux 54822 enregistrés.


In [1]:
pip install pandas


Note: you may need to restart the kernel to use updated packages.


In [6]:
import pandas as pd
caract=pd.read_csv("caract-2023.csv",sep=";")
caract


Unnamed: 0,Num_Acc,jour,mois,an,hrmn,lum,dep,com,agg,int,atm,col,adr,lat,long
0,202300000001,7,5,2023,06:00,1,75,75101,2,4,2,7,RUE DE RIVOLI,4886638600,232347100
1,202300000002,7,5,2023,05:30,5,94,94080,2,1,3,6,Avenue de Paris,4884547782,242868146
2,202300000003,7,5,2023,20:50,1,94,94022,2,3,2,1,Avenue du Général Leclerc,4876240000,240655000
3,202300000004,6,5,2023,23:57,5,94,94078,2,1,3,5,Rue de Paris,4873248432,244687575
4,202300000005,7,5,2023,00:50,5,94,94068,2,2,3,3,56bis Avenue Raspail,4878581000,249217000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54817,202300054818,26,10,2023,20:45,5,974,97416,2,1,1,6,LA FONTAINE (RUE JEAN DE),-2133828000,5547771000
54818,202300054819,26,10,2023,19:10,3,974,97416,1,1,1,3,RN3 (ANCIENNE ROUTE),-2128865000,5550994000
54819,202300054820,26,10,2023,09:40,1,974,97411,2,1,1,7,BAMBOU (CHEMIN DE LA RUELLE),-2090129000,5540598000
54820,202300054821,26,10,2023,17:20,1,973,97302,1,6,1,3,ROUTE NATIONALE 1,489713000,-5232854000



Plusieurs variables, dans le cadre de notre projet, seront pas pertinentes pour capter la gravité des accidents suivant les aspects démographiques :  
- **jour** : le jour de la semaine où s'est produit l'accident. Elle ne présente pas grand intérêt pour notre étude. 
- **an** : évidemment 2023 😁    
- **hrmn** : Heure et minutes précises de l'accident. Cette variable est très détaillée et peut introduire une complexité inutile dans l’analyse.  
- **lum** : Les conditions d’éclairage au moment de l’accident sont souvent associées à l’heure (**hrmn**) ou au type de localisation (**agg**). Cela pourrait entraîner une multicolinéarité dans notre modèle statistique. Cette variable a généralement moins d’impact direct sur la gravité des accidents que des facteurs comme la vitesse ou les caractéristiques des véhicules.   
- **int** : La typologie de l’intersection compte neuf catégories. Pour une modélisation efficace, ces catégories devraient être regroupées, ce qui nécessite un effort de transformation des données sans valeur ajoutée significative. Bien qu'elle puisse influer sur les types d’accidents, elle ne détermine pas directement leur gravité.  
- **col** : Le type de collision est utile pour comprendre comment les accidents surviennent (ex. collision multiple, sans collision), mais il est moins directement lié à la gravité.  
- **adr** : L’adresse postale précise de l’accident n’apporte pas d’information directe sur la gravité.  

Ces variables ont été exclues parce qu'elle introduisent une **complexité inutile** dans l’analyse, manquent d’un **lien direct avec la gravité des accidents** ou encore des **redondances** avec d’autres variables plus pertinentes pour ce projet.  

Nous retenons donc uniquement de cette base les variables suivantes   
*  **Num_Acc** Elle nous sera utile pour d'éventuelles concacténations et dénombrement d'accident
*  **mois** : Elle nous permettra de déterminer s'il y a des périodes de l'année où les accidents sont plus grave. 
*  **lum**: On pourra s'en servir pour déterminer une éventuelle corrélation avec la gravité de l'accident.   
*  **dep** et **com**: le numéro de département et de commune pour mieux situer les régions où les accidents les plus à risque sont susceptible de se produire  
*  **agg** :En effet en  zone urbaine, les accidents sont souvent moins graves mais plus fréquents, tandis qu'en zone rurale, la vitesse élevée et l'éloignement des secours aggravent les blessures. Cette variable permet donc de mieux comprendre les différences dans les facteurs de risque et les circonstances des accidents. 
*  **long** et **lag** : On pourra s'en servir pour une représentation géospatiale des accidents 
*  **atm** : pout les conditions atmosphérique au moment où l'accident s'est produit. On pourra s'en servi pour déterminer les conditions métérologiques les plus à risque. 
On procède donc à l'élimination du reste des variables (ou à la sélections des variables retenues pour cette base) 

In [9]:
caract=caract[["Num_Acc","mois","lum","dep","atm","com","agg","lat","long"]]
caract

Unnamed: 0,Num_Acc,mois,lum,dep,atm,com,agg,lat,long
0,202300000001,5,1,75,2,75101,2,4886638600,232347100
1,202300000002,5,5,94,3,94080,2,4884547782,242868146
2,202300000003,5,1,94,2,94022,2,4876240000,240655000
3,202300000004,5,5,94,3,94078,2,4873248432,244687575
4,202300000005,5,5,94,3,94068,2,4878581000,249217000
...,...,...,...,...,...,...,...,...,...
54817,202300054818,10,5,974,1,97416,2,-2133828000,5547771000
54818,202300054819,10,3,974,1,97416,1,-2128865000,5550994000
54819,202300054820,10,1,974,1,97411,2,-2090129000,5540598000
54820,202300054821,10,1,973,1,97302,1,489713000,-5232854000


<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp; Nous vérifions maintenant la présence d'éventuelles valeurs manquantes.  </span>

In [8]:
caract.isnull().any()

Num_Acc    False
mois       False
lum        False
dep        False
atm        False
com        False
agg        False
lat        False
long       False
dtype: bool

<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp;La base retenue ne comporte donc pas de valaurs manquantes. Passons maintenant à la base vehicules-2023. </span>

## 1.2 Présentation et traitement de la base vehicules-2023
### Variables présentes dans la  base
La base de données **vehicules-2023** fournit des informations détaillées sur les caractéristiques des véhicules impliqués dans des accidents corporels, permettant d'explorer les spécificités techniques des véhicules ainsi que des éléments liés au contexte de l'accident. Les variables présentes dans cette base sont les suivantes : 
- ****Num_Acc**** : Identifiant unique de l’accident, utilisé pour relier les véhicules impliqués à l'accident correspondant décrit dans les autres rubriques.
- ****id_vehicule**** : Identifiant numérique unique attribué à chaque véhicule impliqué dans un accident, incluant les piétons associés aux véhicules impliqués.
- ****Num_Veh**** : Identifiant alphanumérique du véhicule, pouvant être utilisé comme alternative à **id_vehicule** pour associer les véhicules aux usagers et accidents.
- ****senc**** : Indique le sens de circulation du véhicule, avec des options comme :
  - Numéro croissant de point kilométrique (1),
  - Décroissant (2),
  - Absence de repère (3).
- ****catv**** : Catégorie du véhicule impliqué dans l’accident. Les catégories incluent :
  - Bicyclette (01),
  - Scooter (30),
  - Autobus (37),
  - Train (39),
  - Véhicules non motorisés comme les engins de déplacement personnel (60).  
  Cette variable est cruciale pour analyser l'impact des types de véhicules sur la sécurité routière.
- ****obs**** : Type d’obstacle fixe heurté par le véhicule lors de l'accident. Exemples :
  - Véhicules en stationnement (1),
  - Arbres (2),
  - Glissières métalliques (3-4),
  - Bâtiments, poteaux ou trottoirs (6-15),
  - Sortie de chaussée sans obstacle (16).
- ****obsm**** : Type d’obstacle mobile heurté, comme :
  - Piéton (1),
  - Autre véhicule (2),
  - Animal domestique (5) ou sauvage (6),
  - Autres obstacles mobiles (9).
- ****choc**** : Point de choc initial du véhicule, comme :
  - Avant (1),
  - Côtés (7-8),
  - Arrière (4),
  - Tonneaux ou chocs multiples (9).
- ****manv**** : Manoeuvre principale effectuée par le véhicule avant l’accident. Exemples :
  - Changement de file (11-14),
  - Dépassement (17-18),
  - Demi-tour (10),
  - Stationnement (20),
  - Évitement (21).
- ****motor**** : Type de motorisation du véhicule impliqué :
  - Hydrocarbures (1),
  - Hybride électrique (2),
  - Électrique (3),
  - Hydrogène (4),
  - Motorisation humaine (5).
- ****occutc**** : Nombre d'occupants dans un véhicule de transport en commun au moment de l’accident. Variable cruciale pour les analyses concernant les transports collectifs.



In [6]:
vehicules=pd.read_csv("vehicules-2023.csv",sep=";")
vehicules

Unnamed: 0,Num_Acc,id_vehicule,num_veh,senc,catv,obs,obsm,choc,manv,motor,occutc
0,202300000001,155 680 557,A01,1,30,0,0,5,1,1,
1,202300000002,155 680 556,A01,2,7,0,1,1,1,1,
2,202300000003,155 680 554,B01,1,2,0,2,1,16,1,
3,202300000003,155 680 555,A01,2,7,0,2,2,15,1,
4,202300000004,155 680 551,B01,1,7,0,2,9,2,4,
...,...,...,...,...,...,...,...,...,...,...,...
93580,202300054820,155 583 348,A01,3,7,0,9,4,26,1,
93581,202300054821,155 583 346,A01,1,30,0,2,3,9,1,
93582,202300054821,155 583 347,B01,1,7,0,2,2,9,1,
93583,202300054822,155 583 344,A01,2,7,0,2,7,22,1,


### Variables exclues et justifications
* **senc** (Sens de circulation)
Bien que le sens de circulation soit important pour comprendre les circonstances de l'accident, il n'a pas de lien direct avec la gravité des blessures ou des dégâts matériels. Le type de collision (**col**) ou les caractéristiques de localisation (variables géographiques) capturent déjà ces effets, notamment pour les accidents frontaux.

* **choc** (Point de choc initial)
Le point de choc influence les dommages subis par le véhicule, mais il ne reflète pas nécessairement la gravité des blessures pour les passagers. Inclure cette variable nécessiterait un regroupement ou une transformation des catégories pour éviter un excès de granularité, sans garantie de valeur ajoutée.

* **manv** (Manoeuvre principale)
Les nombreuses catégories de cette variable rendent son intégration dans une modélisation statistique complexe et peu pertinente pour expliquer la gravité. Les circonstances des manoeuvres sont souvent corrélées avec des variables comme le type de collision (**col**) ou les conditions météorologiques (**atm**).  



Seul les variables suivantes sont donc retenues pour notre études : 
* L'identifiant de l’accident **Num_Acc** , **id_vehicule** et l'identifiant **num_veh**
* **catv** :  On pourra s'en servir pour déterminer le type de véhicule susceptible d'avoir impliqué dans les accidents les plus à risque. 
* **motor** :utile pour voir s'il y a des types de vehicules susceptibles de causer des dégâts plus graves en cas d'accidents 
On procède donc à l'extraction de cette des variables 

In [7]:
vehicules=vehicules[["Num_Acc","id_vehicule","num_veh","catv","motor"]]
vehicules

Unnamed: 0,Num_Acc,id_vehicule,num_veh,catv,motor
0,202300000001,155 680 557,A01,30,1
1,202300000002,155 680 556,A01,7,1
2,202300000003,155 680 554,B01,2,1
3,202300000003,155 680 555,A01,7,1
4,202300000004,155 680 551,B01,7,4
...,...,...,...,...,...
93580,202300054820,155 583 348,A01,7,1
93581,202300054821,155 583 346,A01,30,1
93582,202300054821,155 583 347,B01,7,1
93583,202300054822,155 583 344,A01,7,1


<span style="font-family: 'Times New Roman'; font-size: 16px;">&nbsp;&nbsp;&nbsp;&nbsp;On vérifie maintenant la présence d'éventuelles valeurs manquantes </span>

In [8]:
vehicules.isnull().any()

Num_Acc        False
id_vehicule    False
num_veh        False
catv           False
motor          False
dtype: bool

On n'a donc pas de valeurs manquantes dans cette base. Passons maintenant à la base **usagers-2023**. 
## 1.3 Présentation et traitement de la base usagers-2023  
### Variables présentes dans la  base
La base de données **usagers-2023** couvre l’ensemble des **accidents corporels** survenus en France métropolitaine et dans les départements d’outre-mer (DOM) durant l’année 2023. Elle fournit un ensemble d'informations sur tous les usagers impliqués dans des accidents déclarés par les forces de l’ordre.  
Chaque ligne correspond à un usager (conducteur, passager, ou piéton) et contient les informations suivantes :  
- **Num_Acc** : Identifiant unique de l’accident, permettant de relier les usagers à un accident particulier décrit dans d'autres rubriques.  
- **id_usager** : Code unique attribué à chaque usager impliqué dans l'accident, incluant les piétons heurtés.  
- **id_vehicule** : Identifiant numérique du véhicule associé à l’usager.  
- **num_Veh** : Identifiant alphanumérique du véhicule, utilisé pour établir les correspondances entre véhicules et usagers.  
- **place** : Position occupée par l’usager dans le véhicule (conducteur, passager avant, passager arrière).  
- **catu** : Catégorie de l’usager (conducteur, passager, ou piéton).  
- **grav** : Gravité des blessures (indemne, tué, blessé hospitalisé, blessé léger).  
- **sexe** : Sexe de l'usager (masculin ou féminin).  
- **An_nais** : Année de naissance de l’usager, permettant de calculer son âge au moment de l’accident.  
- **trajet** : Motif du déplacement (domicile-travail, courses, usage professionnel, promenade).  
- **secu1, secu2, secu3** : Indications sur l’utilisation d’équipements de sécurité (ceinture, casque, gants, etc.).  
- **locp** : Localisation du piéton au moment de l’accident (trottoir, passage piéton, chaussée, etc.).  
- **actp** : Action du piéton au moment de l’accident (se déplacer, traverser, être masqué).  
- **etatp** : État du piéton (seul, accompagné, ou en groupe).  


In [10]:
usagers=pd.read_csv("usagers-2023.csv",sep=";")
usagers

Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,secu1,secu2,secu3,locp,actp,etatp
0,202300000001,203 851 184,155 680 557,A01,1,1,4,1,1978.0,5,2,0,-1,-1,-1,-1
1,202300000002,203 851 182,155 680 556,A01,1,1,1,2,1997.0,9,1,0,-1,-1,-1,-1
2,202300000002,203 851 183,155 680 556,A01,10,3,3,1,1997.0,9,0,-1,-1,2,3,1
3,202300000003,203 851 180,155 680 554,B01,1,1,3,1,1987.0,0,2,6,0,0,0,-1
4,202300000003,203 851 181,155 680 555,A01,1,1,1,2,1984.0,0,1,0,0,0,0,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
125784,202300054821,203 720 720,155 583 346,A01,1,1,4,1,1971.0,1,2,0,-1,0,0,-1
125785,202300054821,203 720 721,155 583 347,B01,1,1,1,2,1968.0,1,1,0,-1,0,0,-1
125786,202300054822,203 720 717,155 583 344,A01,2,2,1,2,2003.0,2,1,-1,-1,-1,-1,-1
125787,202300054822,203 720 718,155 583 344,A01,1,1,1,2,2002.0,1,1,-1,-1,-1,-1,-1


 
## Variables exclues et justification
Comme dans le cas de la base caracteristique 2023, plusieurs variables seront exclues de l'analyse. Voici ceux qui pour des raisons de redondances ou complexités inutiles sont enlever:
* **locp** : Localisation du piéton au moment de l'accident  
Il ne concerne que les piétons, rendant son utilisation limitée dans une analyse globale.  

* **actp** : Action du piéton au moment de l'accident  
Spécifique aux piétons, donc peu pertinente pour une analyse impliquant différents types d’usagers. L'interprétation est subjective pouvant varier selon les rapports des forces de l’ordre.   

* **etatp** : État du piéton au moment de l'accident  
Elle est Limité aux piétons, réduisant son intérêt pour une analyse globale et l’état du piéton (seul ou en groupe) a une influence négligeable sur la gravité des accidents. 

* **trajet** : Motif du déplacement de l’usager  
Le trajet est pertinent pour analyser les contextes, mais peu lié à la gravité des accidents. Il est redondant avec des données démographiques (âge, catégorie socioprofessionnelle).     

* **catu** : Catégorie de l’usager impliqué  
Redondante avec d’autres variables plus détaillées (**place**, **trajet**) avec une contribution indirecte à l’analyse de la gravité, car les facteurs techniques et environnementaux prédominent. 
 

Seules les variables suivantes seront donc retenues de cette base : 
* l'identifiant de l'accident **Num_Acc** de la base caract-2023, l'identifiant unique de l’usager **id_usager**, l'identifiant unique du véhicule **id_vehicule** repris pour chacun des usagers occupant le vehicule et l'identifiant du véhicule (Num_Veh)repris pour chacun des usagers occupant ce véhicule  
* le sexe **sexe** pour déterminer éventuellement disparité de la gravité au sein du genre </span>
* **place** : On pourra s'en servir pour déterminer si le fait d'être assis à une place ou une autre vous expose plus à de plus grave blessures ou pas.  
*  l'année de naissance **an_nais**. On s'en servira pour déterminer l'age des usager impliqué dans les accidents ayant eu lieu et si une tranche d'age est plus exposée aux accidents graves ou non. </span> 
* **secu1**, **secu2**, **secu3**: Pour vérifier si l'utilisation de dispositif de sécurité réduit effectivement la gravité de l'accidents. 
* la gravité des blessures **grav** qui nous permettra de mesurer la gravité de l'accident    
Nous procédons maintenant à l'extraction de ces variables 


In [11]:
usagers=usagers[['Num_Acc', 'id_usager', 'id_vehicule', 'num_veh','grav','place', 'sexe', 'an_nais','secu1', 'secu2', 'secu3']]
usagers

Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,grav,place,sexe,an_nais,secu1,secu2,secu3
0,202300000001,203 851 184,155 680 557,A01,4,1,1,1978.0,2,0,-1
1,202300000002,203 851 182,155 680 556,A01,1,1,2,1997.0,1,0,-1
2,202300000002,203 851 183,155 680 556,A01,3,10,1,1997.0,0,-1,-1
3,202300000003,203 851 180,155 680 554,B01,3,1,1,1987.0,2,6,0
4,202300000003,203 851 181,155 680 555,A01,1,1,2,1984.0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...
125784,202300054821,203 720 720,155 583 346,A01,4,1,1,1971.0,2,0,-1
125785,202300054821,203 720 721,155 583 347,B01,1,1,2,1968.0,1,0,-1
125786,202300054822,203 720 717,155 583 344,A01,1,2,2,2003.0,1,-1,-1
125787,202300054822,203 720 718,155 583 344,A01,1,1,2,2002.0,1,-1,-1


<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp; Passons à la vérifications de valeurs manquantes </span>

In [12]:
usagers.isnull().any()

Num_Acc        False
id_usager      False
id_vehicule    False
num_veh        False
grav           False
place          False
sexe           False
an_nais         True
secu1          False
secu2          False
secu3          False
dtype: bool

<span style="font-family: 'Times New Roman'; font-size: 16px;"> &nbsp;&nbsp;&nbsp;&nbsp; On a donc présence de valeurs manquantes pour la variable année de naissance (**an_nais**) </span> 

In [13]:
n=usagers[("an_nais")].isnull().sum()
print('Il y a ',n*100/len(usagers),'% de valeurs manquantes')

Il y a  2.0653634260547427 % de valeurs manquantes


&nbsp;&nbsp;&nbsp;&nbsp; Ce pourcentage étant très faible  par rapport à la taille totale de notre base allant on peut enlever les données correspondant de notre base puisqu'elles n'impacteront pas tellement nos résultats.   
&nbsp;&nbsp;&nbsp;&nbsp;De plus, L’âge étant  directement interprétable en tant que facteur socio-démographique, la variable an_nais sera transformé en une variable catégorielle **age** pour des analyses plus pertinentes</span>

In [14]:
usagers=usagers.dropna()#Suppression des valeurs manquantes
age=2023-usagers["an_nais"]
print("Le plus jeune usagers de la base a ",age.min(),' ans et le plus âgé a ',age.max(),' ans')

Le plus jeune usagers de la base a  0.0  ans et le plus âgé a  110.0  ans


&nbsp;&nbsp;&nbsp;&nbsp;Cela suppose que des personnes très âgées ainsi que des nourrissons étaient impliqués d'une certaines manière ou d'une autre dans des accidents.
La variable catégorielle âge sera codé comme suit : 
* **Enfants (0–14 ans)** codé **1**:  
   Ils peuvent être piétons, passagers, ou dans certains cas, conducteurs (même si c'est très rare).Les enfants sont souvent plus vulnérables lors d'accidents en tant que passagers ou piétons, et cette catégorie inclut des groupes d'âge où les usagers sont généralement sous la responsabilité d'adultes.

* **Jeunes adolescents (15–17 ans)** codé **2**:  
   Les adolescents peuvent être passagers, piétons, ou conducteurs en apprentissage (par exemple, dans le cadre de la conduite accompagnée). Ces jeunes adultes commencent à être impliqués dans les accidents en tant que passagers, mais aussi potentiellement comme conducteurs avec moins d'expérience.

* **Jeunes adultes (18–24 ans)** codé **3**:  
   Premier groupe majeur de conducteurs. Ils sont également fortement représentés parmi les passagers et les piétons.
   C'est une tranche d'âge souvent impliquée dans des comportements à risque (alcool, vitesse, imprudence), ce qui peut les rendre particulièrement vulnérables.

* **Adultes actifs (25–64 ans)** codé **4**:
   Groupe principal des conducteurs et passagers. Les adultes dans cette tranche d'âge ont souvent un rôle important dans les accidents, qu'ils soient responsables ou victimes.
   Cette catégorie regroupe des individus souvent impliqués dans des trajets professionnels ou privés.

* **Seniors jeunes (65–74 ans)** codé **5**:  
   Bien qu'ils soient moins impliqués dans les accidents que les jeunes adultes, les seniors peuvent être passagers, piétons, ou conducteurs.
   Les capacités physiques diminuent avec l'âge, ce qui peut augmenter la vulnérabilité dans un accident, notamment en tant que piétons.

* **Seniors avancés (75 ans et plus)** codé **6**:  
   Cette catégorie regroupe des individus souvent vulnérables en raison de leurs capacités physiques ou mentales. Ils peuvent être piétons, passagers, ou conducteurs.
   Les conséquences d'un accident peuvent être plus graves pour cette tranche d'âge, ce qui en fait un groupe particulièrement intéressant à analyser dans les études de sécurité routière.


In [15]:
# Création d'une variable âge à partir de l'année de naissance
usagers['age'] = 2023 - usagers['an_nais']

# Définition des intervalles et des catégories correspondantes
#Elle a l'avantage de prendre moins de temps que la première
bins = [0, 14, 17, 24, 64, 74, float('inf')]  # Intervalles d'âge
code = [1, 2, 3, 4, 5, 6]                   # Catégories

# Transformation de l'âge en variable catégorielle
usagers['age'] = pd.cut(usagers['age'], bins=bins, labels=code, right=True, include_lowest=True)

#Suppression de la variable an_nais
del usagers['an_nais']
# Vérification des résultats
usagers


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  usagers['age'] = 2023 - usagers['an_nais']
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  usagers['age'] = pd.cut(usagers['age'], bins=bins, labels=code, right=True, include_lowest=True)


Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,grav,place,sexe,secu1,secu2,secu3,age
0,202300000001,203 851 184,155 680 557,A01,4,1,1,2,0,-1,4
1,202300000002,203 851 182,155 680 556,A01,1,1,2,1,0,-1,4
2,202300000002,203 851 183,155 680 556,A01,3,10,1,0,-1,-1,4
3,202300000003,203 851 180,155 680 554,B01,3,1,1,2,6,0,4
4,202300000003,203 851 181,155 680 555,A01,1,1,2,1,0,0,4
...,...,...,...,...,...,...,...,...,...,...,...
125784,202300054821,203 720 720,155 583 346,A01,4,1,1,2,0,-1,4
125785,202300054821,203 720 721,155 583 347,B01,1,1,2,1,0,-1,4
125786,202300054822,203 720 717,155 583 344,A01,1,2,2,1,-1,-1,3
125787,202300054822,203 720 718,155 583 344,A01,1,1,2,1,-1,-1,3


Les trois bases de données étant maintenant prête, nous pouvons procéder à leur fusion en utilisant la clé **Num_Acc** faciliter nos analyses

In [16]:
#Fusion des bases caract-2023 et usagers-2023
data = pd.merge(caract,usagers, on='Num_Acc', how='left')
data=pd.merge(data,vehicules,on='id_vehicule',how="left")
data=data.dropna()
data


Unnamed: 0,Num_Acc_x,mois,lum,dep,atm,com,agg,lat,long,id_usager,...,place,sexe,secu1,secu2,secu3,age,Num_Acc_y,num_veh_y,catv,motor
0,202300000001,5,1,75,2,75101,2,4886638600,232347100,203 851 184,...,1,1,2,0,-1,4,202300000001,A01,30,1
1,202300000002,5,5,94,3,94080,2,4884547782,242868146,203 851 182,...,1,2,1,0,-1,4,202300000002,A01,7,1
2,202300000002,5,5,94,3,94080,2,4884547782,242868146,203 851 183,...,10,1,0,-1,-1,4,202300000002,A01,7,1
3,202300000003,5,1,94,2,94022,2,4876240000,240655000,203 851 180,...,1,1,2,6,0,4,202300000003,B01,2,1
4,202300000003,5,1,94,2,94022,2,4876240000,240655000,203 851 181,...,1,2,1,0,0,4,202300000003,A01,7,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123186,202300054821,10,1,973,1,97302,1,489713000,-5232854000,203 720 720,...,1,1,2,0,-1,4,202300054821,A01,30,1
123187,202300054821,10,1,973,1,97302,1,489713000,-5232854000,203 720 721,...,1,2,1,0,-1,4,202300054821,B01,7,1
123188,202300054822,10,1,69,6,69387,2,4573306000,482540000,203 720 717,...,2,2,1,-1,-1,3,202300054822,A01,7,1
123189,202300054822,10,1,69,6,69387,2,4573306000,482540000,203 720 718,...,1,2,1,-1,-1,3,202300054822,A01,7,1


In [60]:
data.isnull().any()

Num_Acc_x      False
mois           False
dep            False
atm            False
com            False
lat            False
long           False
id_usager      False
id_vehicule    False
num_veh_x      False
grav           False
sexe           False
secu1          False
secu2          False
secu3          False
age            False
Num_Acc_y      False
num_veh_y      False
catv           False
motor          False
dtype: bool