Projet : Accident de la route
==============

Le projet qui vous a été attribué est le suivant : Accidents routiers en France

- Étape 1/ Exploration des données + DataViz’ : Deadline Vendredi 15 Mars
Votre première tâche consistera à définir le <span style="color: #26B260">**contexte**</span> et le <span style="color: #26B260">**périmètre du projet**</span> : j’attends que vous preniez vraiment le temps de bien comprendre le projet et de vous renseigner au mieux sur les notions que celui-ci va introduire.

Il faudra ensuite prendre en main et <span style="color: #26B260">**découvrir votre jeu de données**</span> et faire une <span style="color: #26B260">**analyse presque exhaustive**</span> de celui-ci afin de mettre en lumière la <span style="color: #26B260">**structure**</span>, les <span style="color: #26B260">**difficultés**</span> et <span style="color: #26B260">**eventuels</span> biais** du dataset.

Vous pourrez utiliser ce [**template : Template - Rapport exploration des données**](https://onedrive.live.com/edit?id=1DD0D0EFB906825!9189&resid=1DD0D0EFB906825!9189&ithint=file%2cxlsx&ct=1708768365134&wdOrigin=OFFICECOM-WEB.MAIN.UPLOAD&wdPreviousSessionSrc=HarmonyWeb&wdPreviousSession=7b89bcec-2c24-4972-bd6b-334e7b3df731&wdo=2&cid=01dd0d0efb906825)
J’attendrai également au moins **5 représentations graphiques** construites à partir de votre jeu de données, visuelles et surtout pertinentes. Pour chacune d’elle j’attendrai :


## Contexte

L’objectif de ce projet est d’essayer de prédire la gravité des accidents routiers en France. Les prédictions seront basées sur les données historiques.

La première étape est d’étudier et appliquer des méthodes pour nettoyer le jeu de données. 
La deuxième étape est d’extraire les caractéristiques qui semblent être pertinentes pour estimer la gravité d’accidents. 

On pourra créer un modèle prédictif, une fois l’entraînement du modèle effectué, nous allons comparer notre modèle avec les données historiques. 
Ensuite, à partir de ces résultats, on peut développer un scoring des zones à risque en fonction des informations météorologiques, l’emplacement géographique (coordonnées GPS, images satellite, …)



### Informations sur les données

Les données vont de 2005 à 2022, elles sont annuelles et composées de 4 fichiers (Caractéristiques – Lieux – Véhicules – Usagers) au format csv. Les données ont été anonymisées par le service de gouvernement. 
Les données répertorient l'intégralité des accidents corporels de la circulation sur le territoire français (France métropolitaine et les DOM-TOM).
Le n° d'identifiant de l’accident (Cf. "Num_Acc") présent dans ces 4 rubriques permet d'établir un lien entre toutes les variables qui décrivent un accident.\
Quand un accident comporte plusieurs véhicules, il faut aussi pouvoir le relier chaque véhicule à ses occupants. Ce lien est fait par la variable id_vehicule.


La variable cible est "grav" dans le dataset d'usagers.


### Notions introduites :
Qu'est-ce qui peut définir un accident comme grave ? 
Il y a :
- le type d'accident :  df_car
- la temporalité de l'accident (date et heure) : df_car
- le lieu de l'accident : df_car
- les caractéristiques de l'accident : df_car
- les informations météorologiques de l'accident : df_car['atm'],
- l'emplacement géographique de l'accident, df_car[['dep' , 'com', 'agg', 'int','adr']], 
- les circuits de l'accident,

Selon l'OMS, en 2023, 53% des décès dus aux accidents concernent des usagers de la route vulnérables, notamment : les piétons (23 %) ; les conducteurs de deux-roues et de trois-roues motorisés tels que les motocyclettes (21 %) ; les cyclistes (6 %) ; et les usagers d’engins de micro-mobilité comme les trottinettes électriques (3 %).

D'après les données disponibles pour 2021 de la commission européenne, 52 % des décès dus à des accidents de la route sont survenus en zone rurale, contre 39 % en zone urbaine et 9 % sur des autoroutes. Trois victimes sur quatre (78 %) sont des hommes.

En zone urbaine, les usagers vulnérables de la route (piétons, cyclistes et usagers de deux-roues motorisés) représentent près de 70 % du total des décès.

### Import des données

In [4]:
# import des librairies
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# librairie pour afficher toutes les colonnes du dataframe
pd.set_option('display.max_columns', None)
pd.options.display.max_info_columns

100

In [5]:
# import du dataset : usagers impliqués
df_usa22 = pd.read_csv("dataset/usagers-2022.csv", sep=';')
df_usa21 = pd.read_csv("dataset/usagers-2021.csv", sep=';')
df_usa20 = pd.read_csv("dataset/usagers-2020.csv", sep=';')
df_usa19 = pd.read_csv("dataset/usagers-2019.csv", sep=';')

# regrouper les datasets usagers en 1 dataset usager
df_usa = pd.concat([df_usa22, df_usa21,df_usa20,df_usa19])
df_usa.head()

FileNotFoundError: [Errno 2] No such file or directory: 'dataset/usagers-2022.csv'

On observe 2 lignes pour le même numéro d'accident, il s'agit non pas d'un doublon mais de 2 usagers différents impliqués dans l'accident.

In [None]:
# import des datasets des lieux des accidents : décrit le lieu principal de l’accident même si celui-ci s’est déroulé à une intersection
df_lieux22 = pd.read_csv("dataset/lieux-2022.csv", sep=';')
df_lieux21 = pd.read_csv("dataset/lieux-2021.csv", sep=';')
df_lieux20 = pd.read_csv("dataset/lieux-2020.csv", sep=';')
df_lieux19 = pd.read_csv("dataset/lieux-2019.csv", sep=';')

# regrouper les datasets en 1 seul dataset lieux
df_lieux = pd.concat([df_lieux22, df_lieux21, df_lieux20, df_lieux19])
df_lieux.head()

In [None]:
# import des datasets des caractéristiques des accidents : décrit les circonstances générales de l’accident
df_carac22 = pd.read_csv("dataset/carcteristiques-2022.csv", sep=';')
df_carac21 = pd.read_csv("dataset/carcteristiques-2021.csv", sep=';')
df_carac20 = pd.read_csv("dataset/caracteristiques-2020.csv", sep=';')
df_carac19= pd.read_csv("dataset/caracteristiques-2019.csv", sep=';')
df_carac22['Num_Acc'] = df_carac22['Accident_Id']

# regrouper les datasets en 1 seul dataset caractéristiques
df_car = pd.concat([df_carac22, df_carac21,df_carac20,df_carac19])
df_car.head()

In [None]:
# import des datasets des véhicules impliqués dans des accidents
df_veh22 = pd.read_csv("dataset/vehicules-2022.csv", sep=';')
df_veh21 = pd.read_csv("dataset/vehicules-2021.csv", sep=';')
df_veh20 = pd.read_csv("dataset/vehicules-2020.csv", sep=';')
df_veh19 = pd.read_csv("dataset/vehicules-2019.csv", sep=';')

# regrouper les datasets en 1 seul dataset véhicules
df_veh = pd.concat([df_veh22, df_veh21, df_veh20, df_veh19])
df_veh.head()

On observe 2 lignes pour le même numéro d'accident, il s'agit non pas d'un doublon mais de 2 véhicules différents impliqués dans l'accident.

#### Regrouper les 4 datasets en 1 dataset

In [None]:
df_lieux['Num_Acc'] = df_lieux['Num_Acc'].astype(str)
df_car['Num_Acc'] = df_car['Num_Acc'].astype(str)
df_veh['Num_Acc'] = df_veh['Num_Acc'].astype(str)
df_usa['Num_Acc'] = df_usa['Num_Acc'].astype(str)

# merge les datasets ensembles
df_temp = pd.merge(df_usa, df_lieux, on="Num_Acc") # usagers + lieux
df_temp_2 = pd.merge(df_temp, df_car, on="Num_Acc") # usagers et lieux + caractéristiques
df = pd.merge(df_temp_2, df_veh, on = ["Num_Acc", "id_vehicule", "num_veh"]) # usagers et lieux et caractéristiques + vehicules

# supprimer les doublons
df.drop_duplicates(keep='first')

print(df.shape)
df.head()

## Data exploration

In [None]:
df.shape

In [None]:
df.dtypes.value_counts()

In [None]:
plt.figure(figsize=(5,5))
plt.title("Répartition des types de données")
df.dtypes.value_counts().plot.pie(autopct='%1.1f%%', colors=['skyblue', 'lightgreen', 'lightcoral'])
plt.ylabel('')
plt.show();

#### Affichage des données manquantes par colonnes

In [None]:
# Fonction pour mettre en évidence les données manquants et leur donner un pourcentage 
def missing_values_table(df):
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Missing Values', 1 : '% of Total Values'})
        mis_val_table_ren_columns = mis_val_table_ren_columns[
            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
            "There are " + str(mis_val_table_ren_columns.shape[0]) +
              " columns that have missing values.")
        return mis_val_table_ren_columns
missing_values_table(df)

On supprime les colonnes ayant plus de 90 % de manquants.

### Répartition des données

In [None]:
df.describe()

### Nombre de valeurs unique

In [None]:
df.nunique()

### Distribution des données

In [None]:
df.hist(figsize=(20, 20))
plt.show()

## Visualisation des données

### Profil des usagers ayant eu des accident 

Deux analyses sont réalisées pour les usagers ayant eu des accident :
- Nombre d'accidents en fonction du genre
- Nombre d'accidents en fonction de l'âge

#### Analyse en fonction du genre

In [None]:
# Nombre d'accidents en fonction du genre

# pour enlever les non-renseignés
df_genre = df.copy()
df_genre = df.loc[(df['sexe'] == 1) | (df['sexe'] == 2)]

plt.figure(figsize= (5, 5))
plt.hist(df_genre['sexe'],  color = ['#f27750'], label = ['genre'])
plt.xlabel("Genre")
plt.ylabel("Nombre d'accidents")
plt.xticks([1, 2], ['Homme', 'Femme'])
plt.title('Distribution des accidents par genre')
plt.show();

Les hommes sont fortement représentés dans les accidents. Il y a des profils d'usagers dont le genre n'a pas été renseigné.

In [None]:
# Représentation des accidents en fonction du genre et de la gravité

colors = {1: 'blue', 2: 'red'}  
labels = {1: 'Homme', 2: 'Femme'}

plt.figure(figsize=(5, 5))

for sexe, data in df_genre.groupby('sexe'):
    plt.hist(data['grav'], color=colors[sexe], label=labels[sexe], alpha=0.5) 

plt.legend(title='Sexe')
plt.xlabel('Gravité')
plt.xlim(1,5)
plt.xticks([1, 2, 3, 4], ['Indemne', 'Tué' ,'Blessé hospitalisé','Blessé léger'], rotation=30)
plt.ylabel('Nb accidents')
plt.title('Représentation de la gravité en fonction du sexe')
plt.show()

#### Analyse en fonction de l'âge

In [None]:
sns.boxplot(data=df_genre, x='sexe', y='an_nais', color='red')

plt.title("Répartition par genre en fonction de l'âge", fontsize =18)
plt.xticks([0, 1], ['Homme', 'Femme'])
plt.xlabel("Genre")
plt.ylabel("Année de naissance")
plt.show;

In [None]:
# Nombre d'accidents en fonction de l'âge
plt.figure(figsize= (10, 5))
sns.displot(df.an_nais, kde=True, bins=30, rug = True, color='red')

plt.xlabel("année de naissance", fontsize = 12)
plt.ylabel("nombre d'accidents", fontsize = 12)
plt.xticks([1920, 1950, 1980, 2000, 2025])
plt.xlim([1920, 2030])
plt.title('Répartition des accidents de 2019 à 2022 par année de naissance', fontsize = 18)
plt.legend();

In [None]:
print("L'usager le plus âgé impliqué dans un accident est né en :", df.an_nais.min(),
      "et l'usager le plus jeune impliqué dans un accident est né en :", df.an_nais.max())

On observe une forte représentation de profil d'usagers ayant la vingtaine qui a été impliqués dans un accident.

Pour **conclure** sur le profil des usagers ayant eu des accident, il y a une forte représentation d'hommes, et d'âge proche de la vingtaine.

### Typologie des accidents

In [None]:
df_col = df.loc[(df['col'] >= 1) & (df['grav'] >= 1)]

collision_labels = {
    1: 'Collision avec véhicule',
    2: 'Collision avec piéton',
    3: 'Collision avec animal',
    4: 'Sortie de route',
    5: 'Collision avec obstacle',
    6: 'Collision multiple',
    7: 'Autres'
}

cross_tab = pd.crosstab(df_col['col'], df_col['grav'], rownames=['Type de Collision'], colnames=['Gravité'])

pastel_palette = sns.color_palette("pastel", n_colors=cross_tab.shape[1])

plt.figure(figsize=(12, 8))

for i, col in enumerate(cross_tab.columns):
    plt.bar(cross_tab.index, cross_tab[col], bottom=cross_tab.iloc[:, :i].sum(axis=1), color=pastel_palette[i], label=f'Gravité {col}')

plt.xlabel('Type de collision')
plt.ylabel('Nombre d\'accidents')
plt.title('Nombre d\'accidents par type de collision et en fonction de la gravité')
plt.xticks([1,2,3,4,5,6,7], ["Deux véhicules - frontale","Deux véhicules – par l’arrière","Deux véhicules – par le coté",
                            "Trois véhicules et plus – en chaîne","Trois véhicules et plus - collisions multiples","Autre collision","Sans collision"], rotation=45)
plt.legend(title='Gravité', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

On observe que le type de collision le plus fréquent est un accident impliquant 2 véhicules ont une collision par le coté. La catégorie 'autre collision' étant trop vague, on ne pourra pas l'expliquer. Il est possible que ce sont des accidents où les véhicules ne sont pas impliqués.

#### Nombre d'accidents entre 2019 et 2022

In [None]:
df['grav'].sum() # 1 251 081 tués de 2019 à 2022

df['Num_Acc'] = df['Num_Acc'].astype(str)
df['an_acc'] = df['Num_Acc'].str.slice(0,4).astype(int)

sns.countplot(x = df['an_acc'])

plt.title("Nombre d'accidents entre 2019 à 2022")
plt.xlabel("Année d'accidents")
plt.ylabel("Nombre d'accidents")
plt.show();

On observe une baisse des accidents en 2020, cela est peut être dû aux confinements et aux restrictions suite à la période Covid.

#### Représentation de la gravité des accidents par année d'accidents

In [None]:
# dataframe sur la distribution des accidents en fonction de leur gravité
df.loc[df['grav'] >= 1].groupby(['an', 'grav']).size().unstack()

In [None]:
# sous forme dataviz
df_annee = df.loc[df['grav'] >= 1]
df_annee.groupby(['an', 'grav']).size().unstack().plot()

plt.title("Accidents entre 2019 à 2022")
plt.xlabel("Année d'accident")
plt.ylabel("Nombre d'individu")
plt.xticks([2019, 2020, 2021, 2022], rotation=30)
plt.show();

Pour rappel : 
- 1 – Indemne
- 2 – Tué
- 3 – Blessé hospitalisé
- 4 – Blessé léger

En 2020, on observe une diminution des accidents et également de la gravité.

In [None]:
# Evolution de décès par rapport aux années précédentes :

dec22 = (3550 - 3219)/3550*100 # par rapport à 2021 = + 9.32 %

dec21 = (3219-2780)/3219*100 # par rapport à 2020 = + 13.64 %

dec20 = (2780-3498)/2780*100 # par rapport à 2019 = - 25.83 %

#### Analyse des accidents par rapport aux mois

In [None]:
plt.figure(figsize = (15, 5))

sns.countplot(x = df['mois'])
plt.title("Nombre d'accidents par mois")
plt.show()

## Nettoyage des données

In [None]:
# suppression de variables
df = df.drop(["pr", # Numéro du PR de rattachement (numéro de la borne)
              "pr1", # Distance du PR de rattachement en mètre
              "adr", # information déjà contenu dans la latitude et la longitude
              "voie", # numéro de la voie
              "id_vehicule", # colonne qui a permis de faire la jointure
              'Accident_Id', # colonne qui a permis de faire la jointure
              'Num_Acc', # colonne qui a permis de faire la jointure
              "id_usager", # colonne qui a permis de faire la jointure
              'num_veh', # colonne qui a permis de faire la jointure
              "larrout", # 26 % de manquants et forte représentation d'une catégorie
              "secu3",    # bcp de non concernés
              "secu2",    # bcp de non concernés
              "actp",     # bcp de non concernés 
              "v1",       # indique le numéro de la route
              "etatp",    # bcp de non concernés 
              "lartpc",   # 90% de manquants
              "occutc",   # 90% de manquants
              "v2"        # 90% de manquants
              ], axis=1)

### Sauvegarde du dataset

In [None]:
df.to_csv('dataset/dataset_to_prepro.csv', index=False)

## Bibiographie :

- base de données : https://www.data.gouv.fr/en/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2022/#/resources

- documentation : https://www.data.gouv.fr/en/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2022/#/resources/8ef4c2a3-91a0-4d98-ae3a-989bde87b62a


