# **Projet python pour la data science / 2024-2025**

Rédigé par:
* ABE Kevin
* DEMGNE Lisa
* Oscar

## **Introduction**

   Un accident de la route ou accident de la circulation est entendu comme une collision non voulue, non prévue et mal anticipée d'au moins un engin roulant avec une chose, un animal ou une personne sur une voie publique ou privée ouverte à la circulation.Ils constituent un véritable fléau mondial, causant chaque année des milliers de morts et de blessés. Ces tragédies bouleversent des vies et ont un impact considérable sur la société. En France, la lutte contre ce phénomène est prise en charge au niveau national par la délégation à la sécurité routière, qui se sert des éclairages fourni par un document d'information édité annuellement par l'ONISR (Observatoire National Interministériel de la Sécurité Routière) faisant la synthèse des principales données de l'accidentologie.

Nous nous intéresserons dans le cadre de ce projet à la description de l'accidentologie en France en 2023, ainsi qu'a la prédiction du niveau de gravité d'un accident. Ainsi, ce projet se donne de renseigner sur la fréquence des accidents, le profil des victimes, les caractéristiques des véhicules impliqués, les conditions météorologiques,... et ainsi que les facteurs succeptibles d'influencer le niveau de gravité d'un accident.

In [None]:
!pip install requests
!pip install os
!pip install matplotlib
!pip install pandas 
!pip install plotly
!pip install plotly
!pip install io
!pip install seaborn
!pip install ipywidgets
!pip install tabulate
!pip install ipywidgets 
!pip install tabulate 
!pip install scipy
!pip install numpy 
!pip install IPython

### *Packages

In [None]:
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [161]:
import requests
import os
import matplotlib.pyplot as plt
import pandas as pd
import plotly
import plotly.express as px
import io
import seaborn as sns
import ipywidgets as widgets
from tabulate import tabulate
from scipy.stats import chi2_contingency
import numpy as np
from IPython.display import display
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LassoCV, Lasso
import seaborn as sns
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer

### **I- Importation des bases de données**

Dans cette partie, nous allons importer les bases données qui seront utilisées dans ce projet.
- base des usagers ayant été impliqué dans un accident de circulation en 2023
- base des véhicules impliqués dans les accidents de circulation en 2023
- base des lieux où se sont produit les accidents
- base contenant les caractéristiques des accidents.




In [None]:
# fonction de téléchargement des données sur les accidents corporels
def telecharge(url_data,filename, path):
    # Vérifie si le dossier 'data' existe, sinon le crée
    if not os.path.exists(path):
        os.makedirs(path)
    #télécharge les données avec l'url
    response = requests.get(url_data)
    if response.status_code == 200:
        file_path = os.path.join(path, filename)
        with open(file_path, 'wb') as file:
            file.write(response.content)
        print(f"Fichier {filename} téléchargé avec succès:{file_path}")
    else:
        print(f"Echec de téléchargement pour {filename}. Statut: {response.status_code}")

# API pour accéder à l'url de téléchargement
url_root="https://www.data.gouv.fr/api/1/datasets/53698f4ca3a729239d2036df/resources/"
urls={
    "usagers-2023.csv":"68848e2a-28dd-4efc-9d5f-d512f7dbe66f",
    "vehicules-2023.csv":"146a42f5-19f0-4b3e-a887-5cd8fbef057b",
    "lieux-2023.csv":"8bef19bf-a5e4-46b3-b5f9-a145da4686bc",
    "caract-2023.csv":"104dbb32-704f-4e99-a71e-43563cb604f2"
}
path='data'

for filename, resource_id in urls.items():
    url=url_root+resource_id
    response1=requests.get(url)
    if response1.status_code==200:
        data=response1.json()
        url_data=data['url']
    else:
        print("downloading failed")
    telecharge(url_data,filename,path)


In [None]:
# base des usagers 
df_usagers = pd.read_csv("data/usagers-2023.csv", sep = ';')
df_usagers.head()

In [None]:
# Base des véhicules 
df_vehicules = pd.read_csv("data/vehicules-2023.csv", sep = ';')
df_vehicules.head()  

In [None]:
# Base des lieux 
df_lieux = pd.read_csv("data/lieux-2023.csv", sep = ';')
df_lieux.head(5)

In [None]:
# Base caract
df_caract = pd.read_csv("data/caract-2023.csv", sep = ';')
df_caract.head()

Nous construisons à présent la base de données qui résultera de la fusion des toutes les bases importées précedemment.
Dans un premier temps, nous fusionons la base des usagers et celle des véhicules sur les variables "Num_acc" (Numéro de l'accident), "id_vehicule" (identifiant du véhicule) et "num_veh" (numéro du véhicule) qui sont commun aux deux bases. Ensuite, nous fusionons les autres bases sur la variable "Num_acc". Nous utilisons l'option "inner" qui utilise l'intersection des clés dans les deux tables.

In [None]:
# fusion des bases de données
df_merge = df_usagers.merge(df_vehicules, on=["Num_Acc","id_vehicule","num_veh"], how="inner") 
df_merge = df_merge.merge(df_lieux, on="Num_Acc", how="inner")
df_merge = df_merge.merge(df_caract, on="Num_Acc", how="inner")

## **II- Analyses descriptives**

Dans cette partie, nous ferons essentiellement de l'analyse descriptive univariée et bivariée. De manière plus précise, il s'agira de visualiser la distribution des variables des différentes bases individuellement ou en croisant avec d'autres variables.

### 1- Description de la base usagers

Selon le "Guide BAAC 2017" un usager est une personne physique impliquée dans un accident de la circulation en tant que conducteur/passager d'un véhicule ou piéton.

La base usagers est constituée des variables d'identification des usagers, et principalement de variables catégorielles qui donnent des caractéristiques sur les usagers au moment de l'accident.

In [None]:
df_usagers.info()

Par la suite, nous allons analyser les valeurs manquantes de cette base. Pour ce faire, en dehors des valeurs manquantes par défauts, nous remplaçons les modalités -1 par des valeurs manquantes, car en réalité ce sont des valeurs non renseignées donc des valeurs manquantes.

In [None]:
#recodage des variables trajet et actp de la base usager
df_usagers["trajet"]=df_usagers["trajet"].replace(0, value=-1)
df_usagers["actp"]=df_usagers["actp"].replace(0, value=-1)

for column in df_usagers.columns:
    df_usagers[column] = df_usagers[column].replace(-1, np.nan)
    df_usagers[column] = df_usagers[column].replace(' -1', np.nan)
    
missing_percentage = (df_usagers.isnull().sum() / len(df_usagers)) * 100
print("Pourcentage de valeurs manquantes par variable :")
print(missing_percentage)

Plusieurs variables contiennent des valeurs manquantes, et certaines n'apportent quasiment aucunes informations. Il s'agit des variables "secu3" (3e équipement de sécurité) et "etatp" (renseigne si le piéton était accompagné ou non). Nous allons donc les supprimer dans la suite. En outre, d'autres variables ont près de la moitié de leurs valeurs qui sont manquantes(localisation du piéton, action du piéton, deuxième équipement de sécurité), ce qui pourrait biaisé les analyses. Il seront à en tenir compte dans les analyses.

In [None]:
df_usagers=df_usagers.drop(["etatp","secu3"], axis=1)

Pour une meilleure visualisation des graphiques, nous allons affectés des labels aux modalités. 

In [None]:
#Mapping 
sexe_labels = {1: 'Masculin', 2: 'Féminin', -1: 'Autres'}
catu_labels = {1: 'Conducteur', 2: 'Passager', 3: 'Piéton'}
grav_labels = {1: 'Indemne', 2: 'Tué', 3: 'Blessé hospitalisé > 24h', 4: 'Blessé léger',-1: 'Non renseigné'}
secu1_labels = {-1: "Non renseigné", 0: "Aucun équipement", 1: "Ceinture", 2: "Casque", 3: "Dispositif enfants", 4: "Gilet réfléchissant",
                5: "Airbag (2RM/3RM)", 6: "Gants (2RM/3RM)", 7: "Gants + Airbag (2RM/3RM)", 8: "Non déterminable", 9: "Autre" }

secu2_labels = { -1: "Non renseigné", 0: "Aucun équipement", 1: "Ceinture", 2: "Casque", 3: "Dispositif enfants", 4: "Gilet réfléchissant",
                 5: "Airbag (2RM/3RM)", 6: "Gants (2RM/3RM)", 7: "Gants + Airbag (2RM/3RM)", 8: "Non déterminable", 9: "Autre" }

secu3_labels = {-1: "Non renseigné",0: "Aucun équipement",1: "Ceinture",2: "Casque",3: "Dispositif enfants",4: "Gilet réfléchissant",
                5: "Airbag (2RM/3RM)", 6: "Gants (2RM/3RM)", 7: "Gants + Airbag (2RM/3RM)", 8: "Non déterminable", 9: "Autre"}

locp_labels = { -1: 'Non renseigné', 0: 'Sans objet', 1: 'A + de 50 m du passage piéton', 2: 'A - de 50 m du passage piéton',
             3: 'Sans signalisation lumineuse', 4: 'Avec signalisation lumineuse', 5: 'Trottoir', 6: 'Sur accotement', 7: 'Sur refuge ou BAU',
            8: 'Sur contre-allée', 9: 'Inconnue' }                                                                                                                                  
actp_labels = { ' -1': 'Non renseigné', '0': 'Sans objet', '1': 'Sens du véhicule heurtant', '2': 'Sens inverse du véhicule heurtant',
              '3': 'Traversant', '4': 'Masqué', '5': 'Jouant-courant', '6': 'Avec animal', '7': 'Quitte l arrêt du TC', '8': 'Accède à l arrêt du TC',
              '9': 'Autre', 'A': 'Monte ou descend de son véhicule', 'B': 'Inconnu' }

etatp_labels = { -1:'Non renseigné', 0: 'Sans objet', 1: 'Seul', 2: 'Accompagé', 3: 'En groupe' }

trajet_labels = { -1:'Non renseigné', 0: 'Non renseigné', 1: 'Domicile-travail', 2: 'Domicile-école', 3: 'Courses-achats', 4: 'Utilisation professionnelle',
                 5: 'Promenade-loisirs', 9: 'Autre'}


In [None]:
def mapping_apply(data,mapping_dict):
    for column, mapping in mapping_dict.items():
        if column in data.columns: 
            data[column] = data[column].map(mapping)

In [None]:
mapping_dict1 = {
    "sexe": sexe_labels,
    "catu": catu_labels,
    "grav": grav_labels,
    "trajet": trajet_labels,
    "secu1": secu1_labels,
    "secu2": secu2_labels,
    "secu3": secu3_labels,
    "locp": locp_labels,
    "actp": actp_labels,
    "etatp": etatp_labels}
mapping_apply(df_usagers,mapping_dict1)

La fonction ci-dessous permet de représenter les distributions des variables catégorielles. Nous allons l'utiliser dans la suite pour faire les représentations graphiques. Elle prend en entrée le dataframe pandas contenant les données et la liste des colonnes à représenter.

In [None]:
def plot_all_distributions1(df, columns):

    # Définitions des titres des graphiques en fontion des variables choisies
    column_titles = {
        "catu":"Categorie d'usagers",
        "grav":"gravite des blessures de l'usager",
        "trajet":"Motif du deplacement au moment de l'accident",
        "secu1":"Equipement de securite 1",
        "secu2":"Equipement de securite 2",
        "secu3":"Equipement de securite 3",
        "locp":"Localisation du pieton",
        "actp":"Action du pieton",
        "etatp":"Etat du pieton",
        "senc": "Sens de circulation",
        "obs": "Obstacles fixes heurtés",
        "obsm": "Obstacle mobile heurté",
        "choc": "Point de choc initial",
        "manv": "Manœuvre principale avant l'accident",
        "motor": "Type de motorisation du véhicule",
        "place": "place"
    }
    
    # Définir le nombre de lignes et de colonnes pour les subplots
    n_cols = 2  # Nombre de colonnes par ligne pour agrandir les graphiques
    n_rows = (len(columns) + n_cols - 1) // n_cols  # Nombre total de lignes (arrondi vers le haut)
    
    # Initialiser la figure avec une taille plus grande
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, 6 * n_rows))
    axes = axes.flatten()  # Aplatir le tableau des axes pour un accès facile
    
    # Parcourir les colonnes pour créer chaque graphique
    for i, column in enumerate(columns):
        sns.countplot(data=df, x=column, palette='viridis', ax=axes[i])
        title = column_titles.get(column, column)  # Récupérer le titre ou le nom de la colonne par défaut
        axes[i].set_title(f"Distribution de '{title}'", fontsize=14)
        axes[i].set_xlabel(title, fontsize=12)
        axes[i].set_ylabel("Counts", fontsize=12)
        axes[i].tick_params(axis='x', rotation=60)
        
        # Ajouter les valeurs au-dessus des barres
        for p in axes[i].patches:
            axes[i].annotate(f'{int(p.get_height())}',
                             (p.get_x() + p.get_width() / 2., p.get_height()),
                             ha='center', va='center',
                             fontsize=10, color='black',
                             xytext=(0, 5), textcoords='offset points')
        
    # Supprimer les axes vides si le nombre de graphiques est inférieur aux subplots
    for j in range(i + 1, len(axes)):
        fig.delaxes(axes[j])
        
    plt.tight_layout()
    plt.show()

In [None]:
columns1 =["catu","grav","trajet","sexe"]
columns2 =["secu1","secu2","place","actp"]
columns3 =["locp"]

In [None]:
plot_all_distributions1(df_usagers, columns1)

On observe que la majorité des personnes impliquées dans des accidents sont des conducteurs(soit 93462 usagers), ensuite vient les passagers (22806 usagers) et enfin les piétons (9521 usagers).
Par la suite, il en ressort que la majorité des usagers s'en sont sortit indemnes après l'accident, suivie d'un nombre important d'usagers (49603) qui ont subit des blessures légères. Il en ressort également un résultats alarmant selon lequel 19271 des cas d'accidents ont entrainé des blessures graves et nécessitent une hospitalisation de plus de 24 heures et 3398 accidents ont entrainé la mort des usagers

En outre, une grande majorité des usagers  qui ont été victime d'un accident étaient en déplacement pour des promenades ou des loisirs. Il pourrait s'agir pour la plupart des jeunes qui pourrait être distrait et donc plus succeptible d'avoir un accident. Ensuite, les trajets domicile-travail et utilisation professionnelle révèlent l'importance des déplacements liés à l'activité professionnelle, totalisant une fréquence de 27478, et pointent des enjeux spécifiques comme les risques associés aux heures de pointe, au stress, et à la fatigue. Les trajets domicile-école (2986) et les déplacements pour courses-achats (3598) sont les moins observés.

Enfin, la majorité des usagers impliqués dans les accidents sont de sexe masculin, représentant 66,8% du total. Cela suggère que, dans cette population, les hommes sont nettement plus nombreux que les femmes à être impliqués dans des accidents.Les femmes représentent 31,3% des usagers impliqués et la catégorie "autres" représente 1,9% des cas, ce qui pourrait inclure des personnes dont le sexe n'est pas précisé ou qui ne s'identifient pas selon les catégories traditionnelles de sexe. Cette proportion est relativement faible, mais elle mérite d'être mentionnée.

In [None]:
# Dans les commentaires, mentionner le fait que les résultats sont biaisé à cause de la forte proportion des valeurs manquantes 
# et peuvent en réalité ne pas refléter la vraie distribution dans la population des accidentés enregistré
plot_all_distributions1(df_usagers, columns2)

#### Répartition des dispositifs de sécurité (Secu1 et Secu2)

En examinant la répartition des dispositifs de sécurité secu1, on constate que la ceinture 
de sécurité est l'équipement le plus fréquemment utilisé, avec 72988 des usagers tandis que les dispositifs pour enfants représentent 
une part marginale, à 726 utilisations.

Pour secu2, une majorité (44637 utilisations) des usagers impliqués dans les accidents ne portaient aucun équipement. Parmi ceux qui portaient des équipements, les gants (2/3 RM) sont les plus courants (11892 utilisations), suivis des gilets réfléchissants (1525) et des airbags personnels (2/3 RM) (1154). Les autres équipements et les combinaisons airbag personnel + gants (2/3 RM) sont les moins utilisés (467 et 141 utilisations respectivement).

secu3 ne sera pas analysé car pratiquement toutes les observations sont non renseignées.

#### Place
La variable "place" indique la position occupée par les usagers dans le véhicule au moment de l’accident. Les résultats montrent que la majorité des usagers se trouvent en position "1" (93 440 usagers), correspondant probablement au conducteur, suivie par la position "2" (14 060 usagers), qui représente vraisemblablement un passager avant. La position "10", qui concerne les piétons, regroupe 9 521 individus, tandis que les positions "8" (583 usagers) et "6" (202 usagers), probablement liées à des sièges spécifiques à l’arrière ou à des configurations de véhicules moins fréquentes comme les transports en commun ou les deux-roues, affichent les plus faibles fréquences. Ces résultats pourraient s’expliquer par une plus grande exposition des conducteurs et passagers avant dans les accidents, alors que les places moins accessibles ou moins utilisées sont naturellement sous-représentées. La proportion notable de piétons illustre également leur vulnérabilité dans les accidents de la route.

In [None]:
plot_all_distributions1(df_usagers, columns3)

#### Localisation du piéton (locp_label) :
La majorité des piétons (84,5 %) se trouvent dans des zones sans objet de localisation précise.Cela pourrait être dû au fait que la base n'incorpore pas les corrections des erreurs de saisie. Parmi les autres catégories renseignés, la majorité des usagers se trouvent dans des lieux sans signalisation lumineuse (5.3%), ensuite vient ceux se trouvant à moins de 50 mètre du passage piéton (3,2%). Un peu plus de 2 % des piétons se trouvent dans des zones à plus de 50 mètres du passage piéton. La localisation précise de l'accident est inconnue dans moins de 1 % des cas (Inconnu), et seules de rares observations concernent des piétons sur des trottoirs (1,4 %) ou sur des accotements (0,5 %).

#### Action du piéton (actp_label) :
La majorité des piétons (Supérieur 80 % des piétons) sont dans une situation où l'action est considérée comme "sans objet" ou "non renseigné". Parmi les actions renseignées,les actions les plus fréquentes sont les piétons traversant (11,9 %) ou des actions considérées comme "autres" (1,1 %). Les cas où le piéton est heurté dans le sens du véhicule sont relativement moins fréquents (1 %), tout comme les situations où il se trouve dans le sens inverse du véhicule heurtant (0,5 %). D'autres actions comme "jouant-courant", "avec animal" ou "masqué" sont très peu fréquentes, avec des proportions inférieures à 1 %, et les cas où le piéton monte ou descend de son véhicule ou accède à un arrêt de transport en commun sont rares (moins de 0,2 %). Cela pourrait envisager des mesures de sensibilisation concernant le code de la route. 

#### État du piéton (etatp_label) :
La grande majorité des piétons sont seuls lors de l'accident (75,2 %), suivi d'une proportion importante de cas où ils sont accompagnés (20,7 %). Les cas où le piéton est en groupe sont beaucoup moins fréquents, représentant seulement 4,1 % des observations. Cela pourrait être dû au fait que ceux qui sont seul sont les plus exposés aux accidents. 

Par suite, nous analysons le distribution de l'âge chez les usagers. Pour ce faire, nous utiliserons la variable qui donne l'année de naissance des usagers pour calculer l'âge de ces usagers en 2023.

In [None]:
# Calcul des statistiques descriptives
age_stats = df_usagers['Age'].describe()

age_summary = pd.DataFrame({'Statistique': ['Nombre', 'Moyenne', 'Écart-type', 'Min', '25%', '50% (médiane)', '75%', 'Max'],'Valeur': [int(age_stats['count']),round(age_stats['mean'], 2),round(age_stats['std'], 2),int(age_stats['min']),int(age_stats['25%']),int(age_stats['50%']),int(age_stats['75%']),int(age_stats['max']),]})
print(tabulate(age_summary, headers='keys', tablefmt='fancy_grid', showindex=False))
# Histogramme
plt.figure(figsize=(10, 6))
n, bins, patches = plt.hist(df_usagers['age'], bins=20, color='skyblue', edgecolor='black', alpha=0.7)
# Ajouter les chiffres au-dessus de chaque barre
for i in range(len(patches)):
    plt.text(patches[i].get_x() + patches[i].get_width() / 2,  # Position X au centre de la barre
             patches[i].get_height(),  # Position Y à la hauteur de la barre
             f'{int(n[i])}',  # Afficher le nombre d'usagers
             ha='center', va='bottom', fontsize=10, color='black')

plt.title('Distribution des âges des usagers', fontsize=14)
plt.xlabel('Âge', fontsize=12)
plt.ylabel('Nombre d\'usagers', fontsize=12)
# Grille et ajustement
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

La population analysée, composée de 123 191 usagers, présente un âge moyen de 38,75 ans, avec une dispersion modérée (écart-type de 19,1 ans) 
et une médiane de 35 ans (la moitié des individus ont moins de 35 ans). La majorité des usagers se situe entre 23 ans (1er quartile) 
et 52 ans (3e quartile), avec des âges extrêmes allant de 0 à 110 ans, bien que ces valeurs puissent être biaisées par des valeurs abbérantes.
La distribution par tranche d'âge révèle une forte proportion de jeunes (11,2 % entre 10 et 19 ans) et une concentration probable dans les tranches d'âge actif (20-49 ans), tandis que les individus très âgés (100 ans et plus) restent marginaux (0,01 %). 
Ceci pourrait s'expliquer par le fait que ce sont les jeunes qui sont le plus souvent moins prudent sur la route, ou bien il peut s'agir de jeunes ayant eu leur permis il y a pas longtemps.

### 2)- Description de la base vehicules

La base des véhicules est constituée des variables d'identification et des variables catégorielles qui catérisent les véhicules impliqués dans les circulations routières comme la catégorie du véhicule, l'object fixe et mobile heurté par le véhicule, etc.

In [None]:
df_vehicules.info()

In [None]:
for column in df_vehicules.columns:
    df_vehicules[column] = df_vehicules[column].replace(-1, np.nan)
    df_vehicules[column] = df_vehicules[column].replace(' -1', np.nan)
    
missing_percentage = (df_vehicules.isnull().sum() / len(df_vehicules)) * 100
print("Pourcentage de valeurs manquantes par variable :")
print(missing_percentage)

Les variables de cette base contiennent moins de valeurs manquantes à l'exception de la variable "occutc"(renseigne sur le nombre d'occupant dans les transports en commun) qui a plus de 99% de valeurs manquantes. Nous allons la supprimer dans la suite car elle n'apporte pas d'informations.

In [None]:
df_vehicules = df_vehicules.drop(["occutc"], axis=1)

Définition du dictionnaire des variables pour cette base.

In [None]:
#Sens de circulation 
senc_labels = {-1: 'Non renseigné', 0: 'Inconnu', 1: 'PK ou PR ou numéro d\'adresse postale croissant', 
            2: 'PK ou PR ou numéro d\'adresse postale décroissant', 3: 'Absence de repère'}
#obstacles_fixes_heurte
obs_labels = {-1: "Non renseigné", 0: "Sans objet", 1: "Véhicule en stationnement", 2: "Arbre", 3: "Glissière métallique", 4: "Glissière béton",
            5: "Autre glissière", 6: "Bâtiment, mur, pile de pont", 7: "Support de signalisation verticale ou poste d’appel d’urgence", 8: "Poteau",
            9: "Mobilier urbain", 10: "Parapet", 11: "Ilot, refuge, borne haute", 12: "Bordure de trottoir", 13: "Fossé, talus, paroi rocheuse",
            14: "Autre obstacle fixe sur chaussée", 15: "Autre obstacle fixe sur trottoir ou accotement", 16: "Sortie de chaussée sans obstacle", 
            17: "Buse – tête d’aqueduc"}
#Catégorie du véhicule
#1: véhicules à deux roues
#2: quadricycle
#3: engin lourd
#4: véhicule léger
#5: véhicule utilitaire

#7: transport en commun
#8: 3RM
#9: EDP
df_vehicules["catv"] = df_vehicules["catv"].replace([4,30,32,2,5,31,33,34],value=1)
df_vehicules["catv"] = df_vehicules["catv"].replace([36,35,3],value=2)
df_vehicules["catv"] = df_vehicules["catv"].replace([20,21, 13,14,15,16,17],value=3)
df_vehicules["catv"] = df_vehicules["catv"].replace([7,8,9],value=4)
df_vehicules["catv"] = df_vehicules["catv"].replace([10,11,12],value=5)
df_vehicules["catv"] = df_vehicules["catv"].replace([18,37,39,19,40,38],value=7)
df_vehicules["catv"] = df_vehicules["catv"].replace([41,42,43],value=8)
df_vehicules["catv"] = df_vehicules["catv"].replace([50,60],value=9)

catv_labels = { -1:"Non renseigné", 0: "Indéterminable", 1: "vehicules à deux roues", 2: "quadricycle",
        3: "engin lourd", 4: "vehicules léger",
        5: "vehicules utilitaire", 6: "Référence inutilisée depuis 2006 (side-car)", 7: "transport en commun",
        8: "3RM", 9: "EDP", 80: "VAE", 99: "Autre véhicule"}
#Obstacle mobile heurté
obsm_labels = {-1: "Non renseigné", 0: "Aucun", 1: "Piéton", 2: "Véhicule", 4: "Véhicule sur rail", 5: "Animal domestique", 6: "Animal sauvage",
        9: "Autre"}
#point_de_choc_initial
choc_labels = {-1: "Non renseigné", 0: "Aucun", 1: "Avant", 2: "Avant droit", 3: "Avant gauche", 4: "Arrière", 5: "Arrière droit", 6: "Arrière gauche",
         7: "Côté droit", 8: "Côté gauche", 9: "Chocs multiples (tonneaux)"}
#manoeuvre_principale_avant_accident
manv_labels= {-1: "Non renseigné", 0: "Inconnue", 1: "Sans changement de direction", 2: "Même sens, même file", 3: "Entre 2 files", 4: "En marche arrière",
        5: "A contresens", 6: "En franchissant le terre-plein central", 7: "Dans le couloir bus, dans le même sens", 8: "Dans le couloir bus, dans le sens inverse",
        9: "En s’insérant", 10: "En faisant demi-tour sur la chaussée", 11: "Changeant de file", 12: "Changeant de file", 13: "Déporté", 14: "Déporté",
        15: "Tournant", 16: "Tournant", 17: "Dépassant", 18: "Dépassant", 19: "Divers", 20: "Divers", 21: "Divers", 22: "Divers", 23: "Divers",
        24: "Divers", 25: "Divers", 26: "Divers"}

#type_motorisation_vehicule
motor_labels = {-1: "Non renseigné", 0: "Inconnue", 1: "Hydrocarbures", 2: "Hybride électrique", 3: "Electrique", 4: "Hydrogène", 5: "Humaine",
        6: "Autre"}

In [None]:
mapping_dict2 = {
    "senc": senc_labels,
    "catv": catv_labels,
    "obs": obs_labels,
    "choc": choc_labels,
    "obsm": obsm_labels,
    "manv": manv_labels,
    "motor": motor_labels,
}
mapping_apply(df_vehicules,mapping_dict2)

In [None]:
plot_all_distributions1(df_vehicules, ["senc", "obsm","choc", "motor"])

#### Sens de circulation (senc)
La majorité des usagers impliqués dans des accidents circulaient dans des sens identifiés, tels que "PK ou PR ou numéro d'adresse postale croissant" (41 843 usagers) et "PK ou PR ou numéro d'adresse postale décroissant" (32 002 usagers), tandis qu'une proportion non négligeable (5 173 usagers) a été enregistrée avec un sens de circulation inconnu, ce qui pourrait refléter des lacunes dans la collecte des données ou des situations ambiguës, telles que des accidents survenus à des intersections, dans des zones non balisées, ou impliquant des usagers pour lesquels la direction était difficile à déterminer.

#### Obstacle mobile heurté (obsm)
La majorité des accidents sont associés à des véhicules, représentant 65 481 cas. Les accidents sans obstacle mobile viennent en seconde position avec 17 760 cas, suivis de ceux impliquant des piétons, qui comptent 8 439 cas. Ces chiffres pourraient refléter un non-respect du code de la route ou des comportements imprudents. En revanche, une faible proportion des accidents est liée à des animaux domestiques (77 cas), des animaux sauvages (134 cas) et des véhicules sur rail (93 cas).

#### Point de choc initial (choc)
Les accidents se produisent principalement à l’avant du véhicule (34 068 cas), suivis des collisions à l’avant gauche (13 917 cas) et à l’avant droit (11 505 cas), tandis que les chocs multiples (tonneaux) sont rares (1 274 cas), suggérant que les impacts frontaux sont les plus fréquents, mais que les risques graves, bien que moins fréquents, concernent surtout les accidents complexes et les collisions arrière droit (2 668 cas).

#### Type de motorisation du véhicule (motor)
La distribution du "Type de motorisation du véhicule" montre une nette domination des véhicules à hydrocarbures, avec 72 949 occurrences, ce qui reflète leur omniprésence dans les transports actuels. Les motorisations alternatives, comme l'hydrogène (110 véhicules), les hybrides électriques (1 918 véhicules) et les électriques (4 983 véhicules), affichent des fréquences bien plus faibles, témoignant de leur adoption encore limitée. Les véhicules à propulsion humaine (5 352 cas) et les motorisations "inconnues" (7 537 cas) occupent une part non négligeable, ce qui pourrait s'expliquer par des catégories spécifiques de véhicules ou des limitations dans la collecte des données. Enfin, les catégories "Non renseigné" (181 cas) et "Autre" (555 cas) regroupent des cas marginaux ou non spécifiés. Ces résultats traduisent la prédominance actuelle des véhicules thermiques tout en laissant entrevoir une légère diversification vers des alternatives plus écologiques.

In [None]:
def other_plot(df, column, title, xlabel, ylabel="Frequence", rotation=45, palette='viridis'):
    plt.figure(figsize=(20, 8))
    ax = sns.countplot(x=df[column], palette=palette)
    
    # Ajouter les chiffres sur les barres
    for p in ax.patches:
        ax.annotate(f'{int(p.get_height())}', 
                    (p.get_x() + p.get_width() / 2., p.get_height()), 
                    ha='center', va='baseline', fontsize=12, color='black', xytext=(0, 5), 
                    textcoords='offset points')
    
    plt.title(title)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.xticks(rotation=rotation)
    plt.show()


In [None]:
other_plot(df_vehicules, "obs", "Distribution de obstacle fixe heurté", "Obstacle fixe heurté")

#### Obstacle fixe heurté (obs)
La distribution montre que la grande majorité des accidents enregistrés ne sont associés à aucun obstacle fixe heurté, avec 79 495 cas identifiés comme "Sans objet". Parmi les autres obstacles les plus fréquemment heurtés, on trouve les "glissières de béton" (1 397 cas), les "véhicules en stationnement" (2 234 cas), et les "fossés, talus ou parois rocheuses" (1 717 cas), tandis que les obstacles moins courants incluent des "buses - têtes d'aqueduc" (100 cas) et des "îlots-refuges, bornes hautes" (57 cas).

In [None]:
other_plot(df_vehicules, "manv", "Distribution de manoeuvre principale avant l’accident", "Manoeuvre principale avant l’accident ")

#### Manoeuvre principale avant l’accident (manv)
La variable "manœuvre principale avant l'accident" révèle que la majorité des usagers n’effectuaient aucun changement de direction (38 979 cas), ce qui reflète une situation où les accidents surviennent principalement lors de trajets linéaires, sans manœuvres complexes. Les catégories "Même sens, même file" (10 654 cas) et "Tournant" (9 827 cas) représentent également des situations courantes, probablement dues à des erreurs dans des contextes de dépassement ou de virages. Les catégories "Inconnu" (6 253 cas) et "Déporté" (6 025 cas) indiquent des manœuvres moins précises ou des comportements inattendus avant l'accident. Enfin, les fréquences les plus faibles concernent des manœuvres spécifiques comme "Dans le couloir, dans le sens inverse" (22 cas) et "En marche arrière" (452 cas), ce qui peut s’expliquer par leur rareté dans les déplacements habituels. Ces résultats montrent que les accidents sont davantage liés à des situations de conduite courantes qu’à des manœuvres atypiques.

In [None]:
other_plot(df_vehicules, "catv", "Distribution de categorie de vehicule", "categorie de vehicule")

#### categorie de vehicule
La variable "catégorie de véhicule (catv)" montre une nette prédominance des véhicules légers seuls (VL seul), avec 54 620 cas, ce qui reflète leur rôle central dans la majorité des déplacements. Les catégories "EDP à moteur" (7 688 cas) et "Scooter > 50 cm3 et <= 125 cm3" (6 853 cas) occupent également des parts significatives, indiquant leur utilisation fréquente, notamment en milieu urbain. À l'inverse, les véhicules moins courants, comme les "Quads légers <= 50 cm3 (Quadricycles à moteur non carrossés)" (3 cas) et les "3 roues motorisées <= 50 cm3" (21 cas), affichent des fréquences extrêmement faibles. Ces résultats mettent en évidence une concentration des accidents impliquant des véhicules largement répandus et un risque plus limité pour des véhicules moins couramment utilisés, probablement en raison de leur usage spécifique ou restreint.

### 3)- Description de la base des lieux

In [None]:
catr_labels = {
    1: "Autoroute",
    2: "Route nationale",
    3: "Route départementale",
    4: "Voie communale",
    5: "Hors réseau public",
    6: "Parc de stationnement",
    7: "Routes de métropole urbaine",
    9: "Autre"
}

circ_labels = {
    -1: "Non renseigné",
    1: "À sens unique",
    2: "Bidirectionnelle",
    3: "À chaussées séparées",
    4: "Avec voies d’affectation variable"
}

vosp_labels = {
    -1: "Non renseigné",
    0: "Sans objet",
    1: "Piste cyclable",
    2: "Bande cyclable",
    3: "Voie réservée"
}

prof_labels = {
    -1: "Non renseigné",
    1: "Plat",
    2: "Pente",
    3: "Sommet de côte",
    4: "Bas de côte"
}

plan_labels = {
    -1: "Non renseigné",
    1: "Partie rectiligne",
    2: "En courbe à gauche",
    3: "En courbe à droite",
    4: "En 'S'"
}

surf_labels = {
    -1: "Non renseigné",
    1: "Normale",
    2: "Mouillée",
    3: "Flaques",
    4: "Inondée",
    5: "Enneigée",
    6: "Boue",
    7: "Verglacée",
    8: "Corps gras – huile",
    9: "Autre"
}

infra_labels = {
    -1: "Non renseigné",
    0: "Aucun",
    1: "Souterrain - tunnel",
    2: "Pont - autopont",
    3: "Bretelle d’échangeur",
    4: "Voie ferrée",
    5: "Carrefour aménagé",
    6: "Zone piétonne",
    7: "Zone de péage",
    8: "Chantier",
    9: "Autres"
}

situ_labels = {
    -1: "Non renseigné",
    0: "Aucun",
    1: "Sur chaussée",
    2: "Sur bande d’arrêt d’urgence",
    3: "Sur accotement",
    4: "Sur trottoir",
    5: "Sur piste cyclable",
    6: "Sur autre voie spéciale",
    8: "Autres"
}

In [None]:
# Comptage des occurrences par catégorie de route
catr_counts = df_lieux['catr'].value_counts().sort_index()

# Remplacement des codes par les labels pour l'affichage
catr_counts.index = catr_counts.index.map(catr_labels)

# Création du diagramme
plt.figure(figsize=(10, 6))
catr_counts.plot(kind='bar', color='skyblue', edgecolor='black')
plt.title("Nombre d'accidents par type de route (catr)")
plt.xlabel("Type de route")
plt.ylabel("Nombre d'accidents")
plt.xticks(rotation=45)
plt.tight_layout()

# Affichage du graphique
plt.show()

3)- Description de la base caract

In [None]:
lum_labels = {
    1: "Plein jour",
    2: "Crépuscule ou aube",
    3: "Nuit sans éclairage public",
    4: "Nuit avec éclairage public non allumé",
    5: "Nuit avec éclairage public allumé"
}

agg_labels = {
    1: "Hors agglomération",
    2: "En agglomération"
}

int_labels = {
    1: "Hors intersection",
    2: "Intersection en X",
    3: "Intersection en T",
    4: "Intersection en Y",
    5: "Intersection à plus de 4 branches",
    6: "Giratoire",
    7: "Place",
    8: "Passage à niveau",
    9: "Autre intersection"
}

atm_labels = {
    -1: "Non renseigné",
    1: "Normale",
    2: "Pluie légère",
    3: "Pluie forte",
    4: "Neige - grêle",
    5: "Brouillard - fumée",
    6: "Vent fort - tempête",
    7: "Temps éblouissant",
    8: "Temps couvert",
    9: "Autre"
}

col_labels = {
    -1: "Non renseigné",
    1: "Deux véhicules - frontale",
    2: "Deux véhicules – par l’arrière",
    3: "Deux véhicules – par le côté",
    4: "Trois véhicules et plus – en chaîne",
    5: "Trois véhicules et plus - collisions multiples",
    6: "Autre collision",
    7: "Sans collision"
}



In [None]:
# Calcul des pourcentages d'accidents par mois
mois_counts = df_caract['mois'].value_counts(normalize=True).sort_index() * 100

# Création du diagramme avec pourcentages
plt.figure(figsize=(10, 6))
mois_counts.plot(kind='bar', color='lightcoral', edgecolor='black')
plt.title("Pourcentage d'accidents par mois")
plt.xlabel("Mois")
plt.ylabel("Pourcentage d'accidents")
plt.xticks(ticks=range(len(mois_counts)), labels=[
    "Janvier", "Février", "Mars", "Avril", "Mai", "Juin", 
    "Juillet", "Août", "Septembre", "Octobre", "Novembre", "Décembre"
], rotation=45)
plt.gca().yaxis.set_major_formatter(plt.FuncFormatter(lambda y, _: f'{y:.0f}%'))
plt.tight_layout()

# Affichage du graphique
plt.show()

In [None]:
# Filtrer les données pour le mois d'octobre (mois = 10)
octobre_data = df_caract[df_caract['mois'] == 10]

# Croiser les accidents d'octobre avec les conditions atmosphériques (atm)
atm_counts = octobre_data['atm'].value_counts().sort_index()

# Remplacer les codes par leurs labels pour l'affichage
atm_counts.index = atm_counts.index.map(atm_labels)

# Création du diagramme
plt.figure(figsize=(10, 6))
atm_counts.plot(kind='bar', color='steelblue', edgecolor='black')
plt.title("Nombre d'accidents en octobre par conditions atmosphériques (atm)")
plt.xlabel("Conditions atmosphériques")
plt.ylabel("Nombre d'accidents")
plt.xticks(rotation=45)
plt.tight_layout()

# Affichage du graphique
plt.show()

In [None]:
accidents_par_departement = df_caract.groupby('dep').size().reset_index(name='nombre_accidents')
accidents_par_departement.head()

In [None]:
france_map = gpd.read_file("https://france-geojson.gregoiredavid.fr/repo/departements.geojson")
france_map = france_map.merge(accidents_par_departement, left_on="code", right_on="dep")
fig, ax = plt.subplots(1, 1, figsize=(10, 10))
france_map.plot(column="nombre_accidents", cmap="OrRd", linewidth=0.8, ax=ax, edgecolor="0.8", legend=True)

plt.title("Nombre d'accidents de la route par département")
plt.axis("off")
plt.show()#i

In [None]:
dep_IDF = ["75", "77", "78", "91", "92", "93", "94", "95"]
accidents_idf = df_caract[df_caract['dep'].isin(dep_IDF)]

# Remplacer les virgules par des points et convertir en float
accidents_idf['lat'] = accidents_idf['lat'].str.replace(',', '.').astype(float)
accidents_idf['long'] = accidents_idf['long'].str.replace(',', '.').astype(float)

accidents_idf.head()

In [None]:
import folium
from folium.plugins import HeatMap

accidents_coords = accidents_idf[['lat', 'long']].dropna()

# Initialiser la carte centrée sur l'Île-de-France
map_idf = folium.Map(location=[48.8566, 2.3522], zoom_start=10)

# Ajouter la carte de densité
HeatMap(
    data=accidents_coords.values,
    radius=10,               
    blur=15,                 
    max_zoom=10,             
    min_opacity=0.2,         
    gradient={               
        0.2: 'blue',
        0.4: 'lime',
        0.6: 'yellow',
        0.8: 'orange',
        1.0: 'red'
    }
).add_to(map_idf)

# Afficher la carte
map_idf

## **II- Relation variables-target**

In [None]:
def diagramme_profils(data, target_var, other_var):
    croisement = pd.crosstab(data[target_var], data[other_var], normalize='index') * 100
    
    ax = croisement.plot(kind='bar', stacked=True, colormap="viridis", figsize=(10, 6))
    
    # Ajouter des numéros sur les barres
    for p in ax.patches:
        height = p.get_height()
        if height > 0:  # Pour éviter d'ajouter un texte si la barre est vide
            ax.text(p.get_x() + p.get_width() / 2, p.get_y() + height / 2, f'{height:.1f}%', 
                    ha='center', va='center', color='white', fontweight='bold')
    
    plt.title(f"Diagramme des profils : {target_var} vs {other_var}")
    plt.ylabel("Pourcentage (%)")
    plt.xlabel(target_var)
    plt.legend(title=other_var, bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.tight_layout()
    plt.show()

In [None]:
def create_profile_table(data, var1, var2):
    
    contingency_table = pd.crosstab(data[var1], data[var2])
    profile_table = contingency_table.div(contingency_table.sum(axis=1), axis=0) * 100
    return profile_table

#### gravité (grav) et catégorie de l'usager (catu)

In [None]:
df_merge['grav'] = df_merge['grav'].replace(grav_labels)    
df_merge['catu'] = df_merge['catu'].replace(catu_labels)  
df_merge['secu1'] = df_merge['secu1'].replace(secu1_labels)
df_merge['secu2'] = df_merge['secu2'].replace(secu2_labels)

variables_to_replace = ['grav', 'catu', 'secu1', 'secu2']
for var in variables_to_replace:
    df_merge[var] = df_merge[var].replace("Non renseigné", np.nan)

In [None]:
diagramme_profils(df_merge, "grav", "catu")

L'influence de la catégorie d'utilisateur (catu) sur la gravité des blessures (grav) montre que 71,11 % des conducteurs blessés sont hospitalisés plus de 24 heures, 67,6 % subissent des blessures légères et 83,3 % sortent indemnes, bien que 71,8 % des conducteurs décèdent dans l'accident. Chez les passagers, 16,7 % sont hospitalisés plus de 24 heures, 20 % sont légèrement blessés, et 16,2 % sont indemnes, avec 14,2 % de passagers tués. En revanche, les piétons sont beaucoup plus vulnérables, avec seulement 0,6 % indemnes, 13,1 % blessés hospitalisé à plus de 24h et un taux élevé de décès, représentant 14 % des victimes tuées, soulignant leur grande fragilité face aux accidents.

Gravité (grav) et équipement de sécurité1 (secu1)

In [None]:
create_profile_table(df_merge, "grav", "secu1")                   

Les données semblent indiquer une influence du type d’équipement de sécurité (secu1) sur la gravité des blessures (grav). Par exemple, les proportions de blessés hospitalisés sont particulièrement élevées parmi les utilisateurs de casques (37,69 %) et de ceintures (32,00 %), tout en restant significatives pour ceux sans équipement (18,12 %). Concernant les décès, une part importante concerne les individus sans équipement (25,28 %), mais également les utilisateurs de casques (26,72 %) et de ceintures (32,65 %). À l’inverse, la majorité des personnes indemnes portaient une ceinture (79,17 %) ou utilisaient un dispositif pour enfants (61,67 %), suggérant une meilleure protection offerte par ces équipements. Ces résultats mettent en évidence une corrélation probable entre l’équipement de sécurité utilisé et la gravité des blessures.

Gravité (grav) et équipement de sécurité2 (secu2)

In [None]:
create_profile_table(df_merge, "grav", "secu2") 

Les données montrent que le type d’équipement de sécurité secondaire (secu2) semble également avoir une influence potentielle sur la gravité des blessures (grav). Les proportions de blessés hospitalisés sont particulièrement élevées parmi les utilisateurs de gants (49,53 %) et les personnes sans équipement (33,04 %), tandis qu’elles sont plus faibles pour les utilisateurs de ceintures (0,55 %) et de dispositifs pour enfants (0,26 %). Concernant les décès, les proportions sont élevées chez les utilisateurs de gants (44,41 %) et ceux sans équipement (36,80 %), ce qui suggère une vulnérabilité accrue dans ces groupes. À l’inverse, les proportions d’indemnes sont majoritairement observées chez les personnes sans équipement (76,53 %), suivies des utilisateurs de ceintures (55,51 %) et de dispositifs pour enfants (28,73 %), ce qui indique une meilleure protection relative pour ces derniers. Ces résultats suggèrent une corrélation probable entre l’équipement de sécurité secondaire utilisé et la gravité des blessures.

In [None]:
df_merge['obsm'] = df_merge['obsm'].replace(obsm_labels)    
df_merge['choc'] = df_merge['choc'].replace(choc_labels)  
df_merge['motor'] = df_merge['motor'].replace(motor_labels)

variables_to_replace = ['obsm', 'choc', 'motor']
for var in variables_to_replace:
    df_merge[var] = df_merge[var].replace("Non renseigné", np.nan)

In [None]:
create_profile_table(df_merge, "grav", "obsm")

L'analyse du tableau de profils montre une possible influence de la variable **"obstacle mobile heurté" (obsm)** sur la **"gravité de l'accident" (grav)**. Les collisions avec un **véhicule** sont les plus fréquentes, associées à des blessures légères (67,77 %) ou graves nécessitant une hospitalisation (55,05 %), mais aussi à des cas d'indemnes (71,66 %), indiquant que la gravité dépend probablement du contexte (vitesse, type de choc). Les accidents sans obstacle (43,57 %) et ceux impliquant des **piétons** (13,73 %) sont significativement associés aux décès, reflétant des facteurs externes ou la vulnérabilité des piétons. En revanche, les obstacles comme les animaux ou les véhicules sur rail ont une influence négligeable.

In [None]:
create_profile_table(df_merge, "grav", "choc")

L'analyse du tableau montre une relation possible entre le **"point de choc initial" (choc)** et la **"gravité de l'accident" (grav)**. Les collisions frontales (**avant**) sont les plus fréquentes, représentant 46,99 % des blessés graves hospitalisés et 39,91 % des blessés légers, ainsi que 44,10 % des décès, indiquant que ces chocs sont particulièrement dangereux. Les chocs latéraux (**avant droit** et **avant gauche**) et ceux sur les **côtés** (droit et gauche) sont également associés à des blessures légères et graves, bien que moins mortels. Les chocs multiples (comme les tonneaux) montrent une proportion notable de blessés graves (2,80 %) et de décès (3,61 %), suggérant un risque accru dans ces cas. En revanche, les accidents sans point de choc précis (**aucun**) sont fortement associés aux décès (9,60 %), ce qui pourrait refléter des accidents impliquant une perte de contrôle ou d'autres facteurs imprécis. Ainsi, la localisation du choc initial semble jouer un rôle important dans la gravité des blessures, avec des chocs frontaux et multiples représentant les situations les plus critiques.

In [None]:
create_profile_table(df_merge, "grav", "motor") 

L'analyse des profils de gravité des accidents en fonction du type de motorisation révèle que les véhicules à moteur à combustion (hydrocarbures) sont largement associés aux accidents les plus graves, représentant une proportion élevée de blessés hospitalisés plus de 24 heures, de blessés légers et de décès. Les motorisations "Electrique", "Humaine", "Hybride électrique" et "Hydrogène" semblent moins fréquentes dans les accidents graves, tandis que les catégories "Inconnue" et "Autre" montrent des valeurs intéressantes, notamment pour les décès. Ces résultats suggèrent que les véhicules à motorisation thermique sont plus susceptibles d'être impliqués dans des accidents graves. 

In [None]:
# Recodage
variables_to_replace = ['grav', 'catu', 'secu1', 'secu2','obsm', 'choc', 'motor']
for var in variables_to_replace:
    df_merge[var] = df_merge[var].replace("Non renseigné", np.nan)

In [None]:
#Remapping 
catu_labels1 = {'Conducteur': 1, 'Passager': 2, 'Piéton': 3}
grav_labels1 = {'Indemne': 1, 'Tué': 2, 'Blessé hospitalisé > 24h': 3, 'Blessé léger': 4, 'Non renseigné': -1}
secu1_labels1 = {
    "Non renseigné": -1,
    "Aucun équipement": 0,
    "Ceinture": 1,
    "Casque": 2,
    "Dispositif enfants": 3,
    "Gilet réfléchissant": 4,
    "Airbag (2RM/3RM)": 5,
    "Gants (2RM/3RM)": 6,
    "Gants + Airbag (2RM/3RM)": 7,
    "Non déterminable": 8,
    "Autre": 9
}
secu2_labels1 = {
    "Non renseigné": -1,
    "Aucun équipement": 0,
    "Ceinture": 1,
    "Casque": 2,
    "Dispositif enfants": 3,
    "Gilet réfléchissant": 4,
    "Airbag (2RM/3RM)": 5,
    "Gants (2RM/3RM)": 6,
    "Gants + Airbag (2RM/3RM)": 7,
    "Non déterminable": 8,
    "Autre": 9
}

obsm_labels1 = {
    "Non renseigné": -1,
    "Aucun": 0,
    "Piéton": 1,
    "Véhicule": 2,
    "Véhicule sur rail": 4,
    "Animal domestique": 5,
    "Animal sauvage": 6,
    "Autre": 9
}
choc_labels1 = {
    "Non renseigné": -1,
    "Aucun": 0,
    "Avant": 1,
    "Avant droit": 2,
    "Avant gauche": 3,
    "Arrière": 4,
    "Arrière droit": 5,
    "Arrière gauche": 6,
    "Côté droit": 7,
    "Côté gauche": 8,
    "Chocs multiples (tonneaux)": 9
}
motor_labels1 = {
    "Non renseigné": -1,
    "Inconnue": 0,
    "Hydrocarbures": 1,
    "Hybride électrique": 2,
    "Electrique": 3,
    "Hydrogène": 4,
    "Humaine": 5,
    "Autre": 6
}


In [None]:
df_merge['grav'] = df_merge['grav'].replace(grav_labels1)    
df_merge['catu'] = df_merge['catu'].replace(catu_labels1)  
df_merge['secu1'] = df_merge['secu1'].replace(secu1_labels1)
df_merge['secu2'] = df_merge['secu2'].replace(secu2_labels1)
df_merge['obsm'] = df_merge['obsm'].replace(obsm_labels1)    
df_merge['choc'] = df_merge['choc'].replace(choc_labels1)  
df_merge['motor'] = df_merge['motor'].replace(motor_labels1)

Matrice des V de Cramer

In [None]:
# Function to calculate Cramer's V
def cramers_v(x, y):
    confusion_matrix = pd.crosstab(x, y)
    chi2 = chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum().sum()
    phi2 = chi2 / n
    r, k = confusion_matrix.shape
    return np.sqrt(phi2 / min(k-1, r-1))
    
#Fonction pour la matrice de V de Cramer
def matrice_v_cramer(data,colonnes):
    #Créer un DataFrame vide pour la matrice V de Cramer
    cramers_v_matrix = pd.DataFrame(index=colonnes, columns=colonnes)

    # Calculer les V de Cramer pour chaque paire de colonnes
    for col1 in colonnes:
        for col2 in colonnes:
            cramers_v_matrix.loc[col1, col2] = cramers_v(data[col1], data[col2])

    # Convertir la matrice en valeurs numériques
    cramers_v_matrix = cramers_v_matrix.astype(float)

    plt.figure(figsize=(10, 8))
    sns.heatmap(cramers_v_matrix, annot=True, cmap='coolwarm', cbar=True)
    plt.title("Matrice des V de Cramer")
    plt.show()

In [None]:
colonnes_a_inclure1 = ["grav","sexe", "catu", "trajet", "secu1", "secu2", "locp", "actp","etatp"]
matrice_v_cramer(df_merge,colonnes_a_inclure1)

En examinant les relations entre les variables dans cette matrice des V de Cramer, plusieurs dépendances intéressantes apparaissent :
sexe et trajet ont une corrélation notable avec un coefficient de 0,66, indiquant une forte relation entre le genre et le type de trajet. Cela pourrait refléter des différences dans les habitudes ou les comportements de déplacement entre hommes et femmes.
catu et secu1 affichent une relation modérée avec un V de Cramer de 0,58, suggérant que la catégorie d'usager influence le dispositif de sécurité1.
Une forte dépendance est également observée entre catu et locp (0,69) et entre catu et actp (0,69), ce qui indique que la catégorie d'usager est fortement liée à la localisation précise de l'accident ainsi qu'à l'action du piéton.
locp et actp et locp et etap présentent des relations modérées à 0,51 et 0,59, respectivement, révélant une connexion entre la localisation des accidents, l'action du piéton, et les état du piéton.
De plus, actp et etap ont également une relation notable avec un V de Cramer de 0,59, ce qui montre que l'action du piéton est intimement liée à les état du piéton.
En revanche, certaines variables comme trajet et locp (0,11) ou sexe et locp (0,12) montrent des corrélations très faibles, indiquant des relations peu significatives entre ces paires de variables.
Globalement, les relations les plus fortes sont centrées autour de catu, locp, actp, et etap

En se concentrant sur les relations avec la variable cible "grav" (gravité des accidents), voici les observations principales :
secu1 (Equipement de sécurité1) présente une dépendance modérée avec "grav" avec un V de Cramer de 0,28, ce qui suggère une certaine influence sur la gravité des accidents.
secu2 (Dispositif de sécurité2) a une corrélation plus faible avec "grav" à 0,24, montrant une influence moindre par rapport à "secu1".
catu (catégorie d'usager) affiche une valeur de 0,17, indiquant une faible dépendance mais non négligeable.
trajet (type de trajet) et locp (localisation piéton) ont des V de Cramer relativement faibles, à 0,14 et 0,2 respectivement, montrant qu'ils influencent faiblement "grav".
sexe (sexe) et actp (action du piéton) ont des coefficients très faibles, à 0,13 et 0,19 respectivement, indiquant qu'ils n'ont qu'une influence mineure.
Enfin, etap (état du piéton) est la variable la moins corrélée avec "grav", avec un V de Cramer de 0,12.

In [None]:
colonnes_a_inclure2 = ["grav","senc", "catv", "obs", "obsm", "choc", "manv", "motor"]
matrice_v_cramer(df_merge,colonnes_a_inclure2) 

Relations avec la variable cible "grav" :
catv (catégorie du véhicule) montre une corrélation modérée avec grav avec un coefficient de 0,26, indiquant une influence notable de ce facteur sur la gravité des accidents.
obs (obstacle) et manv (manœuvre) présentent des relations faibles mais existantes avec grav, avec des coefficients respectifs de 0,15 et 0,16.
Les autres variables, comme senc (sens de circulation) (0,021), obsm (obstacle mobile) (0,14), choc (type de choc) (0,12), et motor (motorisation) (0,12), montrent des corrélations très faibles avec grav, suggérant qu’elles ont un impact limité sur la gravité.

Relations entre les variables :
catv et motor affichent une corrélation forte (0,52), indiquant que la catégorie du véhicule est étroitement liée à son type de motorisation. Cela reflète logiquement une relation technique ou structurelle entre ces deux caractéristiques.
obs et obsm montrent une relation modérée avec un coefficient de 0,25, suggérant que la présence d’un obstacle est souvent associée à un obstacle mobile.
manv et choc présentent également une corrélation modérée à 0,21, indiquant que la manœuvre effectuée au moment de l’accident est liée au point de choc initial.
Les autres relations entre les variables, comme senc et obs (0,13) ou obsm et choc (0,13), restent faibles, suggérant une interdépendance moins significative.

#### Test de significativité des V de Cramer

In [None]:
#cration carte
import geopandas as gpd

## **III- Modélisation**

De l'analyse descriptive, les variables qui semblent avoir plus d'influence sur la gravité de l'accident sont: la catégorie du véhicule, les équiêments de sécurité 1 et 2, l'obstacle mobile heurté, la catégorie d'usager, l'agglomération, la catégorie de la route, le type de collision, la situation de l'accident, l'obstacle fixe heurté et la manoeuvre utilisé.
On restreint la base de données à ces variables.

In [None]:
df_model=df_merge.drop(['id_usager', 'id_vehicule', 'num_veh', 'sexe', 'an_nais', 'trajet', 'secu3', 'locp','actp', 'etatp', 'senc', 
       'choc', 'motor', 'occutc', 'voie', 'v1', 'v2', 'circ', 'nbv', 'vosp', 'prof','pr', 'pr1', 'plan', 'lartpc', 'larrout', 'surf', 
       'infra','vma', 'jour', 'mois', 'an', 'hrmn', 'lum', 'dep', 'com', 'int', 'atm', 'adr', 'lat', 'long'], axis=1)

 Etant donné que dans un accident, il peut y avoir plusieurs niveaux de gravité (car celui-ci depend de chaque individu impliqué dans l'accident), nous allons définir la gravité de l'accident comme étant le niveau de gravité le plus haut des dommages subit par les personnes impliquées dans l'accident. 

Néamoins étant donné que cette procédure va engendré une perte d'information à l'échelle individuelle, nous allons créé deux bases de modélisation. Nous ferons donc une modélisation à l'échelle individuelle, pour prédire la gravité des dommages subit à l'échelle individuelle, puis une modélisation pour prédire la gravité de l'accident.


###  **1)- A l'échelle individuelle**

Dans cette partie, il s'agira de se servir des variables qui donnent les caractéristiques de chaque individu impliquées dans les accidents de voir qu'elles sont celles qui influencent au mieux le niveau de gravité des dommages subit par un individu.

In [None]:
df_model1=df_model.drop(["Num_Acc","manv","catv","obs","obsm","agg","situ","catr","col"], axis=1)

Par la suite, nous définissons une fonction qui fera a la fois du preprocessing sur la base et de la sélection de variables. Plus en détails, cette fonction fais ceci:
- remplacer les valeurs non renseigner par des valeurs manquantes (np.nan);
- supprimer les lignes du dataframe où la gravité de l'accident n'est pas renseigner;
- Imputation des valeurs manquantes par le mode (car il s'agit de variables catégorielles);
- utilisation de l'encodage onehot;
- Entrainement du modèle Lasso sur une série de alpha afin d'en choisir le meilleur
- Entrainement du modèle Lasso avec le meilleur alpha, et en sortie on a le dataframe qui contient uniqement les variables sélectionnées par le modèle.

La regression Lasso est une technique de régularisation qui consiste à appliquer une pénalité pour éviter le surapprentissage et améliorer la précision des modèles statistiques. Aussi, l'encodage onehot est une méthode d'encodage pour les variables catégorielles nominales, qui va creer de nouvelles variables indicatrices et vont faciliter les interprétations des résultats du modèle. La sélection de variables ici consiste donc en réalité en la sélection de catégories qui prédisent aux mieux la gravité.




In [None]:
def selection_var(df_model1):
    for column in df_model1.columns:
        [column] = df_model1[column].replace(-1, np.nan)
    df_model1 = df_model1.dropna(subset=['grav'])
    lasso_x=df_model1.drop(["grav"],axis=1)
    lasso_y=df_model1["grav"]
    categorical_pipeline = Pipeline(
        steps=[
            ("impute", SimpleImputer(strategy="most_frequent")),
            ("one-hot", OneHotEncoder(drop='first', handle_unknown="ignore", sparse_output=False)),
        ]
    )
    base1=categorical_pipeline.fit_transform(lasso_x)
    data1=pd.DataFrame(data=base1, columns=categorical_pipeline.get_feature_names_out())
    my_alphas = np.array([0.001, 0.01, 0.02, 0.025])
    cv = LassoCV(alphas=my_alphas, fit_intercept=False, random_state=0, cv=3).fit(
        data1, lasso_y)
    model = Lasso(fit_intercept=False, alpha=lcv.alpha_)
    lasso_optimal1=model.fit(data1, lasso_y1)
    data_model1=data1[data1.columns[np.abs(lasso_optimal1.coef_)>0]]
    return data_model1, lasso_y

Nous appliquons la fonction précedemment définie à la base df_model1:

In [None]:
data_model1, lasso_y=selection_var(df_model1)

La base finale étant ainsi constituée, nous allons entrainer le modèle de régression logistique. Avant cela, il faut diviser la base en un échantillon d'apprentissage et un échantillon de test.

In [None]:
x_train,x_test,y_train,y_test = train_test_split(data_model1,lasso_y, test_size=0.2, random_state=42)

Par la suite, nous entrainons plusieurs modèle de régression logistique en faisant varier les hyperparamètres grâce à la gridsearchcv, et nous retenons le modèle avec le meilleur score. Etant donné que la base de données est déséquilibrée, nous rajoutons l'option <<class_weight="balanced">>.Cette option utilise les valeurs de y pour ajuster automatiquement les poids inversement proportionnels à la fréquence des classes dans les données d'entrée comme n_samples / (n_classes * np.bincount(y)).

In [None]:
params={'penalty':["l2",None], 'solver':["newton-cg"]}
cv=RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
grid = GridSearchCV(LogisticRegression(multi_class="multinomial",class_weight="balanced"), params, cv=cv)
grid.fit(x_train, y_train)
print("best params:",grid.best_params_)
print("best score:",grid.best_score_)

In [None]:
model=grid.best_estimator_
acc_train = accuracy_score(y_train, model.predict(x_train))
acc_test = accuracy_score(y_test, model.predict(x_test))
print(f"le modèle à un score de {round(acc_train, 2)} sur les données d'entrainnement et {round(acc_test, 2)} sur les données de test.")

Nous allons visualiser les odds_ratio qui donnent l'importance des variables dans la prédiction, en utilisant le coéfficients des variables dans la fonction de  décision.

L'odds ratio est une mesure statistique qui compare les cotes d'un évènement entre deux groupe différents.

In [None]:
importances = model.coef_[0]
odds_ratios = pd.Series(np.exp(importances), index=data_model1.columns).sort_values() #coefficient des variables dans le modèle
fig1 = px.bar(x=odds_ratios.tail(10),y=odds_ratios.tail(10).index, orientation="h",title="Odds Ratio-reference 1")
fig1.update_layout(xaxis_title="exp(coef)", yaxis_title="Variables")

In [None]:
importances = model.coef_[1]
odds_ratios = pd.Series(np.exp(importances), index=data_model1.columns).sort_values() #coefficient des variables dans le modèle
fig1 = px.bar(x=odds_ratios.head(10),y=odds_ratios.head(10).index, orientation="h",title="Odds Ratio-reference 1")
fig1.update_layout(xaxis_title="exp(coef)", yaxis_title="Variables")

In [None]:
importances = model.coef_[2]
odds_ratios = pd.Series(np.exp(importances), index=data_model1.columns).sort_values() #coefficient des variables dans le modèle
fig1 = px.bar(x=odds_ratios.head(10),y=odds_ratios.head(10).index, orientation="h",title="Odds Ratio-reference 1")
fig1.update_layout(xaxis_title="exp(coef)", yaxis_title="Variables")

In [None]:
importances = model.coef_[3]
odds_ratios = pd.Series(np.exp(importances), index=data_model1.columns).sort_values() #coefficient des variables dans le modèle
fig1 = px.bar(x=odds_ratios.tail(10),y=odds_ratios.tail(10).index, orientation="h",title="Odds Ratio-reference 1")
fig1.update_layout(xaxis_title="exp(coef)", yaxis_title="Variables")

Des graphiques précédents, il en ressort que:
- les usagers qui ont un dispositif pour enfant ou une ceinture de sécurité lors de l'accident ont plus de 6 fois plus de chance d'être indemne par rapport à ceux qui n'ont pas d'équipement de sécurité.
- Ceux qui ont une premier ou un deuxième équipement de sécurité autre (non précisé) ont plus 50% de chance d'être tué lors d'un accident par rapport à ceux qui n'ont pas d'équipement.
- les usagers qui porte un casque ont environ 0,5 fois moins de chance d'être tué par rapport à ceux qui n'ont pas d'équipement de sécurité
- les piétons ont environ 35% de plus de chance d'être bléssé hospitalisé après un accident de la route par rapport aux conducteurs
- un usager assis au fond du véhicule (pour les véhicules à 4 roues ou plus) ont 20% de chance en moins d'être bléssé hospitalisé par rapport à un individu assis devant.
- un usager avec un casque lors de l'accident à 2 fois plus de chance d'être blesser leger lors d'un accident que celui qui n'a pas d'équipement.
- un usager avec comme deuxième équipement de sécurité un Airbag lors de l'accident, a 1.5 fois plus de chance d'être bléssé leger par rapport à celui qui n'a pas d'équipement de sécurité

### **2)-A l'échelle d'un accident**

Nous commencons par définir le niveau de gravité le plus élevé pour chaque accident.

In [None]:
import numpy as np
id_acc=df_model["Num_Acc"].unique()
index_true=[]
for i in id_acc:
    df_id=df_model[df_model["Num_Acc"]==i]
    n_grav=np.max(df_id["grav"])
    index=df_model[(df_model["Num_Acc"]==i) & (df_model["grav"]==n_grav)].index[0]
    index_true.append(index)
        
df_model.drop(["Num_Acc"], axis=1, inplace=True)

In [None]:
# Niveau de gravité de l'accident présente dans la nouvelle base
df_model=df_model.loc[index_true]
df_model["grav"].value_counts()

Dans les accidents enregistrés, aucun n'a laisser toutes les personnes impliquées indemnes.

On recode la variable "gravité" par: 
- 2: niveau de gravité **grave** (2)
- 3: niveau de gravité **moyen** (1)
- 4: niveau de gravité **faible** (0)

In [None]:
df_model2["grav"]=df_model2["grav"].replace([3,4], value=[1,0])

# distribution de la gravité
df_model2["grav"].value_counts()/df_model2.shape[0]*100

Par la suite, étant donné que certaines variables ont trop de catégories (par exemple la variable catégorie du véhicule qui a 50 catégories), nous allons aggrégé certaines catégories afin de réduire le nombre de catégories pour ces variables.

In [None]:
#1: Sans changement de direction
#11: changeant de file
#13: déporté
#15: tournant
#17: dépassant
#19: divers
df_model["manv"] = df_model["manv"].replace(2,value=1)
df_model["manv"] = df_model["manv"].replace(12,value=11)
df_model["manv"] = df_model["manv"].replace(14,value=13)
df_model["manv"] = df_model["manv"].replace(16,value=15)
df_model["manv"] = df_model["manv"].replace(18,value=17)
df_model["manv"] = df_model["manv"].replace([20,21,22,23,24,25,26],value=19)

#3: glissière
#12: Bordure de trottoir et autres éléments sur le trottoir
#7: Elements de sécurité routière
#6: construction
#14: bordure de chaussée et autres sur la chaussée
df_model["obs"] = df_model["obs"].replace([4,5],value=3)
df_model["obs"] = df_model["obs"].replace(15,value=12)
df_model["obs"] = df_model["obs"].replace([8,11],value=7)
df_model["obs"] = df_model["obs"].replace(10,value=6)
df_model["obs"] = df_model["obs"].replace(16,value=14)

#1: véhicules à deux roues
#2: quadricycle
#3: engin lourd
#4: véhicule léger
#5: véhicule utilitaire
#7: tracteur routier
#8: transport en commun
#9: 3RM
#10: EDP
df_model["catv"] = df_model["catv"].replace([4,30,32,2,5,31,33,34],value=1)
df_model["catv"] = df_model["catv"].replace([36,35,3],value=2)
df_model["catv"] = df_model["catv"].replace([20,21,13,14,15],value=3)
df_model["catv"] = df_model["catv"].replace([7,8,9],value=4)
df_model["catv"] = df_model["catv"].replace([10,11,12],value=5)
df_model["catv"] = df_model["catv"].replace([16,17],value=7)
df_model["catv"] = df_model["catv"].replace([18,37,39,19,40,38],value=8)
df_model["catv"] = df_model["catv"].replace([41,42,43],value=9)
df_model["catv"] = df_model["catv"].replace([50,60],value=10)

Entrainons à présent le modèle de régression logistique avec les données.

In [None]:
datamodel_2, lasso_y=selection_var(df_model)
x_train,x_test,y_train,y_test = train_test_split(datamodel_2, lasso_y , test_size=0.2, random_state=42)
params={'penalty':["l2",None], 'solver':["newton-cg"]}
cv=RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
grid = GridSearchCV(LogisticRegression(multi_class="multinomial",class_weight="balanced"), params, cv=cv)
grid.fit(x_train, y_train)
print("best params:",grid.best_params_)
print("best score:",grid.best_score_)

In [None]:
model=grid.best_estimator_
acc_train = accuracy_score(y_train, model.predict(x_train))
acc_test = accuracy_score(y_test, model.predict(x_test))
print(f"le modèle à un score de {round(acc_train, 2)} sur les données d'entrainnement et {round(acc_test, 2)} sur les données de test.")

In [None]:
#confusion matrix
from sklearn import metrics
predictions = model.predict(x_test)
cm = metrics.confusion_matrix(y_test, predictions)
plt.figure(figsize=(9,9))
sns.heatmap(cm, annot=True, fmt=".3f", linewidths=.5, square = True, cmap = 'Blues_r');
plt.ylabel('Actual label');
plt.xlabel('Predicted label');
all_sample_title = 'Accuracy Score: {0}'.format(acc_test)


Le modèle prédit correctement qu'un accident est de gravité faible dans 66% des cas, qu'il est de gravité moyen dans 29% des cas et qu'il est de gravité élevée dans 59% des cas.

Visualisons ensuite l'importance des variables dans le prédiction.

In [None]:
importances1 = model.coef_[0]
odds_ratios1 = pd.Series(np.exp(importances1), index=datamodel_2.columns).sort_values() #coefficient des variables dans le modèle
fig1 = px.bar(x=odds_ratios1.tail(10),y=odds_ratios1.tail(10).index, orientation="h",title="Odds Ratio-reference 1")
fig1.update_layout(xaxis_title="exp(coef)", yaxis_title="Variables")

In [None]:
importances2 = model.coef_[1]
odds_ratios2 = pd.Series(np.exp(importances2), index=datamodel_2.columns).sort_values() #coefficient des variables dans le modèle
fig2 = px.bar(x=odds_ratios2.tail(10),y=odds_ratios2.tail(10).index, orientation="h",title="Odds Ratio-reference 2")
fig2.update_layout(xaxis_title="exp(coef)", yaxis_title="Variables")

In [None]:
importances2 = model.coef_[2]
odds_ratios2 = pd.Series(np.exp(importances2), index=datamodel_2.columns).sort_values() #coefficient des variables dans le modèle
fig2 = px.bar(x=odds_ratios2.tail(10),y=odds_ratios2.tail(10).index, orientation="h",title="Odds Ratio-reference 2")
fig2.update_layout(xaxis_title="exp(coef)", yaxis_title="Variables")

Des graphiques ci-dessus, il en ressort que: 
- un accident en agglomération à 2.2 fois plus de chance d'être de niveau de gravité faible que celui hors agglomération.
- un accident impliquant un véhicule entre 2 files à 2 fois plus de chance d'être de niveau faible par rapport à une manoeuvre inconnue.
- un accident impliquant une collision de trois vehicules et plus en chaine à presque 2 fois plus de chance d'être d'avoir une gravité fauble qu'un accident avec une collision de deux véhicules en frontale.
- un accident sur un parc de stationnement ouvert à la circulation publique augmente de 55% la chance qu'il soit de niveau de gravité moyen par rapport à un accident sur l'autoroute.
- un accident sur une route départementale augmente la probabilité de 30% que l'accident soit de gravité moyenne par rapport à un accident sur l'autoroute
- un accident impliquant un véhicule de transport en commun ou un engin lourd à presque 3 fois plus de chance d'être de gravité élevé (au moins une personne tuée) que les accidents impliquants des véhicules de catégorie indéterminable.


## **Conclusion**