# ETL & DATA CLEANING : Pr√©diction de la Gravit√© des Accidents Routiers

## Introduction

Ce notebook effectue un processus complet de **nettoyage et pr√©paration des donn√©es (ETL)** √† partir des bases de donn√©es BAAC (Bulletin d'Analyse d'Accidents de la circulation). Disponible sur le site suivant: https://www.data.gouv.fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2024

**Objectif final** : Produire un dataset clean, encod√© et pr√™t pour la mod√©lisation ML.

**Sources de donn√©es** (2021-2024) :
- **Caract√©ristiques (caract)** : Contexte de l'accident (jour, heure, m√©t√©o, etc.)
- **Lieux (lieux)** : Localisation g√©ographique et type de route
- **V√©hicules (vehicules)** : Infos sur le v√©hicule impliqu√©
- **Usagers (usagers)** : **Table centrale (de fait)** - chaque ligne = une personne impliqu√©e

**Structure du pipeline** :   

* Fusion Relationnelle : Agr√©gation de 4 ans de donn√©es (2021-2024) et jointures horizontales centr√©es sur la table Usagers.

* Nettoyage de Structure : Suppression des colonnes vides √† plus de 70 %, retrait des donn√©es de localisation trop fines (PR/PR1) et √©limination des doublons.

* Pr√©vention du Leakage : Suppression des variables connues uniquement apr√®s l'accident pour garantir l'int√©grit√© pr√©dictive du mod√®le.

* Feature Engineering : Cr√©ation de variables √† fort signal : √¢ge, moment de la journ√©e (nuit/jour), weekend et m√©t√©o d√©grad√©e.

* Finalisation : Imputation des valeurs manquantes (m√©diane/mode) et encodage final (One-Hot Encoding) pour rendre le dataset exploitable par une IA.


# 1. Import des biblioth√®ques

In [1]:
import pandas as pd
import numpy as np
import os



# 2. Pr√©paration et agr√©gation des donn√©es

In [2]:
# Configuration des r√©pertoires
raw_path = "../data/raw/"
processed_path = "../data/processed/"
os.makedirs(processed_path, exist_ok=True)

## 2.1 Concat√©nation (empilement vertical des ann√©es)   
Les donn√©es sont fragment√©es par ann√©e (2021-2024). Pour une analyse globale, il faut regrouper ces fichiers pour chaque th√©matique (Usagers, V√©hicules, etc.).   
Strat√©gie : Nous cr√©ons une fonction qui parcourt les ann√©es, lit les fichiers correspondants et les "empile" verticalement. Cette s√©paration permet d'ajouter facilement de nouvelles ann√©es au projet sans modifier la logique de fusion.

In [3]:
years = [2021, 2022, 2023, 2024]

def stack_years(category):
    dfs = []
    for y in years:
        file = os.path.join(raw_path, f"{category}-{y}.csv")
        if os.path.exists(file):
            dfs.append(pd.read_csv(file, sep=';', encoding='utf-8', low_memory=False))
    return pd.concat(dfs, ignore_index=True)

# Centralisation
usagers_all = stack_years("usagers")
veh_all     = stack_years("vehicules")
caract_all  = stack_years("caract")
lieux_all   = stack_years("lieux")

print(f"Historique Usagers : {len(usagers_all)} lignes.")

Historique Usagers : 506886 lignes.


## 2.2 Jointure relationnelle  
Les donn√©es BAAC sont morcel√©es en quatre fichiers annuels (Caract√©ristiques, Lieux, V√©hicules, Usagers). Une fusion maladroite peut entra√Æner une perte de donn√©es ou une duplication artificielle des lignes.   
 *Strat√©gie* : La table Usagers est notre table de fait centrale car la variable cible grav. Nous effectuons une jointure "Left Join" pour conserver tous les usagers et leur associer les caract√©ristiques de l'accident et du v√©hicule. La table lieux est d√©-dupliqu√©e au pr√©alable pour garantir qu'un accident ne pointe que vers une seule localisation g√©ographique.

In [4]:
lieux_unique = lieux_all.drop_duplicates(subset='Num_Acc')

df = pd.merge(usagers_all, veh_all, on=['Num_Acc', 'id_vehicule'], how='left', suffixes=('', '_v'))
df = pd.merge(df, caract_all, on='Num_Acc', how='left')
df = pd.merge(df, lieux_unique, on='Num_Acc', how='left')

print(f"Dataset fusionn√© : {df.shape[0]} lignes.")

Dataset fusionn√© : 506886 lignes.


## 3. Nettoyage des donn√©es (Data Cleaning)  

### 3.1 Gestion des valeurs "Non Renseign√©es"
La documentation indique que les valeurs -1, 0 (pour certaines colonnes) ou les points "." correspondent √† des donn√©es non renseign√©es. Pour que le mod√®le ne les consid√®re pas comme des nombres r√©els, il faut les convertir en NaN.   
Certaines variables sont trop vides ou trop pr√©cises pour √™tre g√©n√©ralisables par une IA.   
Strat√©gie :   
 1. Seuil de 70% : Nous supprimons les colonnes comme v1 ou secu3 qui sont vides √† plus de 70%. Cela √©vite d'introduire du bruit par une imputation massive.   
 2. Suppression de PR/PR1 : Ces marqueurs kilom√©triques sont trop sp√©cifiques. Les retirer force le mod√®le √† apprendre des facteurs globaux (vitesse, m√©t√©o) plut√¥t que des coordonn√©es pr√©cises, am√©liorant ainsi sa capacit√© de g√©n√©ralisation.

In [5]:
# Inspection avant nettoyage 

# 1. On d√©finit ce qu'on cherche
valeurs_vides = [-1, 0, '-1', '0', '.', '0.0']

# 2. On cr√©e un masque : True si la cellule contient une valeur "vide", False sinon
masque_vides = df.isin(valeurs_vides)

# 3. On compte par colonne (en ignorant Num_Acc et grav pour l'instant)
compte_vides = masque_vides.drop(columns=['Num_Acc', 'grav']).sum().sort_values(ascending=False)

# 4. On calcule le pourcentage
pourcentage_vides = (compte_vides / len(df) * 100).round(2)

# 5. On affiche un r√©sum√©
print("ANALYSE DES DONN√âES NON RENSEIGN√âES (AVANT NETTOYAGE)")
print("-" * 50)
resume_vides = pd.DataFrame({
    'Nb valeurs "vides"': compte_vides,
    '% du total': pourcentage_vides
})

# On ne montre que les colonnes qui ont au moins une valeur vide
display(resume_vides[resume_vides['Nb valeurs "vides"'] > 0].head(15))

# 6. √âchantillon des lignes "√† probl√®mes"
print("\nAPER√áU DE 5 LIGNES CONTENANT DES VALEURS -1 ou 0 :")
# On cherche les lignes qui ont au moins un "vide" dans n'importe quelle colonne
lignes_a_problemes = df[masque_vides.any(axis=1)]
display(lignes_a_problemes.head(5))

ANALYSE DES DONN√âES NON RENSEIGN√âES (AVANT NETTOYAGE)
--------------------------------------------------


Unnamed: 0,"Nb valeurs ""vides""",% du total
v1,505991,99.82
secu3,501513,98.94
locp,467730,92.28
etatp,467713,92.27
vosp,447810,88.35
infra,430410,84.91
obs,424706,83.79
secu2,404723,79.84
actp,229965,45.37
trajet,144900,28.59



APER√áU DE 5 LIGNES CONTENANT DES VALEURS -1 ou 0 :


Unnamed: 0,Num_Acc,id_usager,id_vehicule,num_veh,place,catu,grav,sexe,an_nais,trajet,...,prof,pr,pr1,plan,lartpc,larrout,surf,infra,situ,vma
0,202100000001,267¬†638,201¬†764,B01,1,1,3,1,2000.0,1,...,1,(1),(1),1,,-1,1,0,1,80
1,202100000001,267¬†639,201¬†765,A01,1,1,1,1,1978.0,1,...,1,(1),(1),1,,-1,1,0,1,80
2,202100000002,267¬†636,201¬†762,A01,1,1,4,1,1983.0,0,...,1,0,10,1,,-1,1,0,1,80
3,202100000002,267¬†637,201¬†763,B01,1,1,3,1,1993.0,0,...,1,0,10,1,,-1,1,0,1,80
4,202100000003,267¬†634,201¬†761,A01,1,1,1,1,1995.0,1,...,1,(1),(1),1,,-1,1,0,1,50


In [6]:
# Remplacement des codes m√©tier (-1, 0, .) par NaN
df = df.replace([-1, 0, "-1", "0", ".", "0.0"], np.nan)

# 1. Seuil de 70% de vides
seuil = 0.70
limit = len(df) * (1 - seuil)
df = df.dropna(thresh=limit, axis=1)

# 2. Suppression PR/PR1 (trop pr√©cis)
df = df.drop(columns=['pr', 'pr1'], errors='ignore')

# Nettoyage de la cible
df = df.dropna(subset=['grav'])
df['grav'] = df['grav'].astype(int)

## 3.2. Gestion du Leakage et Doublons
Les doublons et les variables connues "apr√®s coup" (leakage) faussent les performances du mod√®le.   
Strat√©gie : Nous supprimons les doublons sur le couple (Num_Acc, id_usager). Nous retirons aussi les variables post-accident (actp, etatp, locp, secu2) car elles ne sont pas disponibles pour pr√©dire un accident avant qu'il n'arrive.

In [7]:
# Doublons
df = df.drop_duplicates(subset=['Num_Acc', 'id_usager'])

# Data Leakage Prevention
leak_cols = ['actp', 'etatp', 'locp', 'secu2', 'secu3']
df = df.drop(columns=[c for c in leak_cols if c in df.columns], errors='ignore')

# 4. Feature Engineering    
Les donn√©es brutes (heure, ann√©e naissance) sont peu digestes. Les trous restants doivent √™tre combl√©s.   
Strat√©gie (Cr√©ation de variables √† fort signal ):

* √Çge (vuln√©rabilit√©).

* Weekend (comportements de loisirs).

* Is_work_trip (stress li√© au travail vs loisirs).

* Meteo_degradee (conditions d'adh√©rence).

* Moment_journee (visibilit√©).

In [8]:
# 1. √Çge : Refl√®te la vuln√©rabilit√© physique de l'usager
df['age'] = 2024 - df['an_nais']

# 2. Moment de la journ√©e : Influence de la visibilit√© et de la fatigue
def get_moment_journee(val):
    # 1. Gestion des valeurs manquantes (NaN)
    if pd.isna(val):
        return 'inconnu'
    
    try:
        # 2. Extraction de l'heure
        # On g√®re le format '12:30' (split sur :) ou '1230' (HHMM)
        val_str = str(val).strip()
        
        if ':' in val_str:
            h = int(val_str.split(':')[0])
        elif len(val_str) >= 3:
            # Cas HHMM (ex: 1230 -> 12)
            h = int(val_str[:-2])
        else:
            # Cas heure simple
            h = int(val_str)
            
        # 3. Logique Nuit (22h-6h) vs Jour
        if h < 6 or h > 21:
            return 'nuit'
        return 'jour'
        
    except (ValueError, TypeError, IndexError):
        # En cas de format de texte inattendu
        return 'inconnu'

# Application de la fonction
df['moment_journee'] = df['hrmn'].apply(get_moment_journee)

# V√©rification
#print(df['moment_journee'].value_counts())

# 3. Extraction du Weekend : Comportements de loisirs vs semaine
df['temp_date'] = pd.to_datetime(df[['jour', 'mois', 'an']].rename(columns={'jour': 'day', 'mois': 'month', 'an': 'year'}), errors='coerce')
df['is_weekend'] = df['temp_date'].dt.weekday.apply(lambda x: 1 if x >= 5 else 0)

# 4. Is_work_trip : Stress li√© au travail vs Loisirs
# Strat√©gie : On regroupe les modalit√©s 1 (Domicile-Travail) et 4 (Usage professionnel) 
# pour isoler le risque routier professionnel.
def map_work_trip(x):
    try:
        x = int(x)
        if x in [1, 4]: # 1: Domicile-Travail, 4: Professionnel
            return 1
        return 0 # Loisirs, courses, √©cole, etc.
    except:
        return 0

df['is_work_trip'] = df['trajet'].apply(map_work_trip)

# 5. M√©t√©o D√©grad√©e : Simplification du signal atmosph√©rique (atm)
def map_meteo(x):
    try:
        x = int(x)
        if x in [3, 4, 5]: # 3: Pluie forte, 4: Neige/Gr√™le, 5: Brouillard
            return 1
        return 0
    except:
        return 0

df['meteo_degradee'] = df['atm'].apply(map_meteo)

print("V√©rification des nouvelles variables :")
print(f"- Trajets travail : {df['is_work_trip'].mean():.2%}")
print(f"- Accidents weekend : {df['is_weekend'].mean():.2%}")

V√©rification des nouvelles variables :
- Trajets travail : 21.93%
- Accidents weekend : 20.71%


# 5. Nettoyage avanc√© et export
Les algorithmes de ML ne supportent pas les NaN restants ni les variables textuelles. 
Strat√©gie : 
1. Imputation : M√©diane pour l'√¢ge (robuste) et Mode pour les cat√©gories. 
2. Bruit : Suppression des identifiants techniques et des colonnes redondantes. 
3. Encodage : Utilisation de get_dummies (One-Hot Encoding) pour transformer les textes en chiffres.

In [9]:
# 1. Suppression des identifiants et colonnes toxiques
to_drop_final = ['Num_Acc', 'id_usager', 'id_vehicule', 'num_veh', 'num_veh_v', 'adr', 'temp_date']
df = df.drop(columns=[c for c in to_drop_final if c in df.columns], errors='ignore')

# 2. Filtre de s√©curit√© automatique (Cardinalit√©)
# Supprime toute colonne texte restante qui d√©passe 100 modalit√©s
for col in df.select_dtypes(include=['object']).columns:
    n_unique = df[col].nunique()
    if n_unique > 100:
        print(f"Suppression de s√©curit√© : '{col}' ({n_unique} valeurs uniques)")
        df = df.drop(columns=[col])

# 3. Encodage One-Hot
# Transforme les variables qualitatives (ex: moment_journee) en nombres 0/1
df_final = pd.get_dummies(df, drop_first=True)

# 4. Conversion float32 pour l'√©conomie de m√©moire
# R√©duit le poids du fichier final sans perdre d'information pr√©dictive
df_final = df_final.astype('float32')

print(f"Succ√®s ! Dimensions finales : {df_final.shape}")


# 5. EXPORTATION FINALE

output_file = "../data/processed/dataset_final.csv"
df_final.to_csv(output_file, index=False)
print(f"üíæ Dataset sauvegard√© : {output_file}")

Suppression de s√©curit√© : 'hrmn' (1440 valeurs uniques)
Suppression de s√©curit√© : 'dep' (107 valeurs uniques)
Suppression de s√©curit√© : 'com' (19211 valeurs uniques)
Suppression de s√©curit√© : 'lat' (157530 valeurs uniques)
Suppression de s√©curit√© : 'long' (158687 valeurs uniques)
Suppression de s√©curit√© : 'voie' (38376 valeurs uniques)
Suppression de s√©curit√© : 'larrout' (150 valeurs uniques)
Succ√®s ! Dimensions finales : (506467, 60)
üíæ Dataset sauvegard√© : ../data/processed/dataset_final.csv
