# ETL — Accidents de la route

Ce notebook montre, pas à pas, comment :
1) se connecter à l’API publique Opendatasoft,
2) récupérer un petit échantillon,
3) paginer pour extraire un volume plus grand,
4) sauvegarder les données brutes en CSV,
5) poser les bases du nettoyage (à faire en équipe).

> **Pourquoi ce format ?**  
> Un notebook est idéal pour apprendre : on alterne **explications** (Markdown) et **code** (Python), et on voit les résultats immédiatement.

In [1]:
import pandas as pd
from pathlib import Path

CLEAN_DIR = Path("../data/cleaned")
RAW_DIR = Path("../data/raw")
CLEAN_DIR.mkdir(parents=True, exist_ok=True)
RAW_DIR.mkdir(parents=True, exist_ok=True)

In [2]:
import pandas as pd

csv_name = "accidents-corporels-de-la-circulation-millesime.csv"
try:
    df = pd.read_csv(RAW_DIR / csv_name,
                     sep=";", dtype=str, encoding="utf-8-sig")
except UnicodeDecodeError:
    df = pd.read_csv(RAW_DIR / csv_name,
                     sep=";", dtype=str, encoding="latin1")

print("Colonnes détectées:", list(df.columns)[:8], "...")

Colonnes détectées: ["Identifiant de l'accident", 'Date et heure', 'Commune', 'Année', 'Mois', 'Jour', 'Heure minute', 'Lumière'] ...


In [3]:
def normalize_columns(df, inplace=False):
    """
    Normalise les noms de colonnes d'un DataFrame en snake_case sans accents ni caractères spéciaux.
    Règles :
      - retire les accents
      - met en minuscules
      - remplace tout caractère non alphanumérique par un underscore
      - réduit les underscores multiples en un seul
      - supprime les underscores en début/fin
      - si le nom commence par un chiffre, préfixe par 'c_'
      - si le résultat est vide, remplace par 'unknown'
      - garantit l'unicité des noms en ajoutant des suffixes _2, _3, ...
    Arguments :
      df : pandas.DataFrame
      inplace : bool (False par défaut). Si True, renomme les colonnes sur place et retourne le même objet.
    Retour :
      pandas.DataFrame avec colonnes normalisées.
    """
    import unicodedata
    import re
    import pandas as pd

    if not inplace:
        df = df.copy()

    def _slug(name: object) -> str:
        s = "" if name is None else str(name)
        # Normaliser unicode et séparer les accents
        s = unicodedata.normalize("NFKD", s)
        # Enlever les caractères de composition (accents)
        s = "".join(ch for ch in s if not unicodedata.combining(ch))
        s = s.lower()
        # Remplacer tout caractère non alphanumérique par underscore
        s = re.sub(r"[^a-z0-9]+", "_", s)
        # Réduire underscores multiples et trim
        s = re.sub(r"_+", "_", s).strip("_")
        # Préfixer si commence par chiffre
        if re.match(r"^[0-9]", s):
            s = "c_" + s
        if s == "":
            s = "unknown"
        return s

    # Appliquer la normalisation
    orig_cols = list(df.columns)
    normalized = [_slug(c) for c in orig_cols]

    # Garantir l'unicité des noms
    seen = {}
    unique_cols = []
    for name in normalized:
        base = name
        if name not in seen:
            seen[name] = 1
            unique_cols.append(name)
        else:
            seen[name] += 1
            new_name = f"{base}_{seen[name]}"
            # garantir que new_name lui-même n'existe pas déjà
            while new_name in seen:
                seen[base] += 1
                new_name = f"{base}_{seen[base]}"
            seen[new_name] = 1
            unique_cols.append(new_name)

    # Renommer le DataFrame
    mapping = dict(zip(orig_cols, unique_cols))
    df = df.rename(columns=mapping)

    return df
df_correct_col_name = normalize_columns(df, inplace=True)
df_correct_col_name.columns.tolist()

['identifiant_de_l_accident',
 'date_et_heure',
 'commune',
 'annee',
 'mois',
 'jour',
 'heure_minute',
 'lumiere',
 'localisation',
 'intersection',
 'conditions_atmospheriques',
 'collision',
 'departement',
 'code_commune',
 'code_insee',
 'adresse',
 'latitude',
 'longitude',
 'code_postal',
 'numero',
 'coordonnees',
 'pr',
 'surface',
 'v1',
 'circulation',
 'voie_reservee',
 'env1',
 'voie',
 'largeur_de_la_chaussee',
 'v2',
 'largeur_terre_plein_central',
 'nombre_de_voies',
 'categorie_route',
 'pr1',
 'plan',
 'profil',
 'infrastructure',
 'situation',
 'annee_de_naissance',
 'sexe',
 'action_pieton',
 'gravite',
 'existence_equipement_de_securite',
 'utilisation_equipement_de_securite',
 'localisation_du_pieton',
 'identifiant_vehicule',
 'place',
 'categorie_d_usager',
 'pieton_seul_ou_non',
 'motif_trajet',
 'point_de_choc',
 'man_uvre',
 'sens',
 'obstacle_mobile_heurte',
 'obstacle_fixe_heurte',
 'categorie_vehicule',
 'nombre_d_occupants',
 'gps',
 'date',
 'year_geore

In [4]:
"""
Utilitaires de connexion et d'insertion pour Postgres ; schemas bronze

Dépendances :
  - sqlalchemy
  - psycopg2-binary
  - pandas

Fonctions exposées :
  - get_engine(db_url) -> sqlalchemy.Engine
  - insert_df_to_table(engine, df, schema, table, table_columns=None, batch_size=1000)

Exemple d'utilisation :
  engine = get_engine("postgresql+psycopg2://user:pass@host:5432/dbname")
  inserted = insert_df_to_table(engine, df_normalized, "bronze", "caracteristiques_raw",
                                table_columns=["identifiant_de_l_accident", "date_et_heure", ...])
"""
from typing import List, Optional
from sqlalchemy import create_engine
from sqlalchemy.engine import Engine
from psycopg2.extras import execute_values
import psycopg2
import pandas as pd


def get_engine(db_url: str) -> Engine:
    """
    Retourne un SQLAlchemy Engine pour l'URL 
    postgresql+psycopg2://user:password@host:port/dbname
    """
    return create_engine(db_url, client_encoding="utf8")


def insert_df_to_table(
    engine: Engine,
    df: pd.DataFrame,
    schema: str,
    table: str,
    table_columns: Optional[List[str]] = None,
    batch_size: int = 1000,
) -> int:
    """
    Insère un DataFrame dans une table Postgres via psycopg2.execute_values (performant pour gros volumes).

    Comportement :
      - Si table_columns est fourni : on utilise cet ordre de colonnes pour l'insertion.
        * Les colonnes absentes dans df sont créées et remplies par NULL.
        * Les colonnes supplémentaires dans df sont ignorées.
      - Si table_columns est None : on utilise l'ordre des colonnes présentes dans df.
      - Retourne le nombre de lignes insérées.
      - Gère commit/rollback automatiquement.

    Arguments :
      engine        : SQLAlchemy Engine (obtenu via get_engine)
      df            : pandas.DataFrame (les colonnes doivent déjà être normalisées)
      schema        : schéma SQL (ex. "bronze")
      table         : nom de la table (ex. "caracteristiques_raw")
      table_columns : liste ordonnée des colonnes à insérer (optionnel)
      batch_size    : taille de page pour execute_values (par défaut 1000)

    Remarques :
      - Nécessite psycopg2 (sqlalchemy devra utiliser l'adaptateur psycopg2).
      - Tous types Python usuels sont supportés (str, int, float, None, bool, datetime, ...).
    """
    if df is None or len(df) == 0:
        return 0

    # Déterminer colonnes cibles et préparer df_subset avec la bonne colonne ordre
    if table_columns is None:
        cols = list(df.columns)
    else:
        cols = list(table_columns)
        # ajouter colonnes manquantes dans df en les remplissant avec None
        for c in cols:
            if c not in df.columns:
                df[c] = None

    # Conserver uniquement les colonnes cibles
    df_subset = df[cols].copy()

    # Convertir les NaN pandas en None pour psycopg2
    df_subset = df_subset.where(pd.notnull(df_subset), None)

    # Préparer les tuples de valeurs
    records = [tuple(x) for x in df_subset.itertuples(index=False, name=None)]
    if not records:
        return 0

    # Construire la clause des colonnes (avec guillemets pour noms contenant underscore ou majuscules)
    cols_sql = ", ".join([f'"{c}"' for c in cols])
    insert_sql = f'INSERT INTO "{schema}"."{table}" ({cols_sql}) VALUES %s'

    # Obtenir une connexion psycopg2 à partir de l'engine SQLAlchemy
    conn = engine.raw_connection()
    cur = conn.cursor()
    try:
        # execute_values fait des inserts par batch très efficaces
        execute_values(cur, insert_sql, records, page_size=batch_size)
        conn.commit()
        return len(records)
    except Exception:
        conn.rollback()
        raise
    finally:
        cur.close()
        conn.close()

In [5]:
Engine = get_engine("postgresql+psycopg2://postgres:postgres2025%40@localhost:54785/db_accident")
table_colonnes = [
    "identifiant_de_l_accident",
    "date_et_heure",
    "commune",
    "annee",
    "mois",
    "jour",
    "heure_minute",
    "lumiere",
    "localisation",
    "intersection",
    "conditions_atmospheriques",
    "collision",
    "departement",
    "code_commune",
    "code_insee",
    "adresse",
    "latitude",
    "longitude",
    "code_postal",
    "numero",
    "coordonnees",
    "pr",
    "surface",
    "v1",
    "circulation",
    "voie_reservee",
    "env1",
    "voie",
    "largeur_de_la_chaussee",
    "v2",
    "largeur_terre_plein_central",
    "nombre_de_voies",
    "categorie_route",
    "pr1",
    "plan",
    "profil",
    "infrastructure",
    "situation",
    "gps",
    "date",
    "year_georef",
    "nom_officiel_commune",
    "code_officiel_departement",
    "nom_officiel_departement",
    "code_officiel_epci",
    "nom_officiel_epci",
    "code_officiel_region",
    "nom_officiel_region",
    "nom_officiel_commune_arrondissement_municipal",
    "code_officiel_commune"
]
df_filtred_to_insert = df_correct_col_name[table_colonnes].copy()
insert_df_to_table(Engine, df_filtred_to_insert, "bronze", "caracteristiques_raw",
                   table_columns=table_colonnes, batch_size=1000)


475911

In [6]:
table_colonnes = [
    "identifiant_de_l_accident",
    "categorie_route",
    "voie",
    "v1",
    "v2",
    "circulation",
    "nombre_de_voies",
    "voie_reservee",
    "profil",
    "pr",
    "pr1",
    "plan",
    "largeur_terre_plein_central",
    "largeur_de_la_chaussee",
    "surface",
    "infrastructure",
    "situation",
    "env1",
    "coordonnees"
]
df_filtred_to_insert = df_correct_col_name[table_colonnes].copy()
insert_df_to_table(Engine, df_filtred_to_insert, "bronze", "lieux_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911

In [7]:
# changer le nom du colonne 
df_correct_col_name.rename(
    columns={
        'man_uvre': 'manoeuvre',
    },
    inplace=True
)
table_colonnes = [
    "identifiant_de_l_accident",
    "identifiant_vehicule",
    "sens",
    "categorie_vehicule",
    "obstacle_fixe_heurte",
    "obstacle_mobile_heurte",
    "point_de_choc",
    "manoeuvre",
    "nombre_d_occupants"
]

df_filtred_to_insert = df_correct_col_name[table_colonnes].copy()
insert_df_to_table(Engine, df_filtred_to_insert, "bronze", "vehicules_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911

In [8]:
table_colonnes = [
    "identifiant_de_l_accident",
    "identifiant_vehicule",
    "place",
    "categorie_d_usager",   
    "gravite",
    "sexe",
    "annee_de_naissance",
    "motif_trajet",                         
    "existence_equipement_de_securite",
    "utilisation_equipement_de_securite",  
    "localisation_du_pieton",            
    "action_pieton",                       
    "pieton_seul_ou_non"
]
df_filtred_to_insert = df_correct_col_name[table_colonnes].copy()
insert_df_to_table(Engine, df_filtred_to_insert, "bronze", "usagers_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911