In [30]:
%run ./database_functions.ipynb

In [None]:

from pathlib import Path
from typing import List, Optional
from sqlalchemy import create_engine
from sqlalchemy.engine import Engine
from sqlalchemy import text
from psycopg2.extras import execute_values
from sqlalchemy_utils import database_exists, create_database
import logging
import pandas as pd

CLEAN_DIR = Path("../data/cleaned")
RAW_DIR = Path("../data/raw")
CLEAN_DIR.mkdir(parents=True, exist_ok=True)
RAW_DIR.mkdir(parents=True, exist_ok=True)

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

ADMIN_DB_URL = "postgresql+psycopg2://postgres:postgres2025%40@localhost:54785/postgres"
DB_NAME = "db_accident"
DB_URL = ADMIN_DB_URL.rsplit("/", 1)[0] + f"/{DB_NAME}"

In [32]:
# ---------------------------
# DDL : bronze 
# ---------------------------
script_bronze_dll = """
CREATE SCHEMA IF NOT EXISTS bronze;


CREATE TABLE IF NOT EXISTS bronze.caracteristiques_raw (
  identifiant_de_l_accident TEXT,
  date_et_heure TEXT,
  jour TEXT,
  mois TEXT,
  annee TEXT,
  heure_minute TEXT,
  date TEXT,
  year_georef TEXT,
  lumiere TEXT,
  code_postal TEXT,
  code_insee TEXT,
  departement TEXT,
  commune TEXT,
  code_commune TEXT,
  code_officiel_commune TEXT,
  nom_officiel_commune TEXT,
  nom_officiel_commune_arrondissement_municipal TEXT,
  code_officiel_departement TEXT,
  nom_officiel_departement TEXT,
  code_officiel_region TEXT,
  nom_officiel_region TEXT,
  code_officiel_epci TEXT,
  nom_officiel_epci TEXT,
  localisation TEXT,
  intersection TEXT,
  conditions_atmospheriques TEXT,
  collision TEXT,
  adresse TEXT,
  gps TEXT,
  latitude TEXT,
  longitude TEXT,
  coordonnees TEXT,
  numero TEXT  
);

CREATE TABLE IF NOT EXISTS bronze.lieux_raw (
  identifiant_de_l_accident TEXT,
  categorie_route TEXT,
  voie TEXT,
  v1 TEXT,
  v2 TEXT,
  circulation TEXT,
  nombre_de_voies TEXT,
  voie_reservee TEXT,
  profil TEXT,
  pr TEXT,
  pr1 TEXT,
  plan TEXT,
  largeur_terre_plein_central TEXT,
  largeur_de_la_chaussee TEXT,
  surface TEXT,
  infrastructure TEXT,
  situation TEXT,
  env1 TEXT
);

CREATE TABLE IF NOT EXISTS bronze.vehicules_raw (
  identifiant_de_l_accident TEXT,
  identifiant_vehicule TEXT,
  sens TEXT,
  categorie_vehicule TEXT,
  obstacle_fixe_heurte TEXT,
  obstacle_mobile_heurte TEXT,
  point_de_choc TEXT,
  manoeuvre TEXT,
  nombre_d_occupants TEXT
);

CREATE TABLE IF NOT EXISTS bronze.usagers_raw (
  identifiant_de_l_accident TEXT,
  identifiant_vehicule TEXT,
  place TEXT,
  categorie_d_usager TEXT,
  gravite TEXT,
  sexe TEXT,
  annee_de_naissance TEXT,
  motif_trajet TEXT,
  existence_equipement_de_securite TEXT,
  utilisation_equipement_de_securite TEXT,
  localisation_du_pieton TEXT,
  action_pieton TEXT,
  pieton_seul_ou_non TEXT
);

CREATE INDEX IF NOT EXISTS br_car_ident_idx ON bronze.caracteristiques_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_lieux_ident_idx ON bronze.lieux_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_veh_ident_idx ON bronze.vehicules_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_usg_ident_idx ON bronze.usagers_raw (identifiant_de_l_accident);

CREATE INDEX IF NOT EXISTS br_car_dep_idx ON bronze.caracteristiques_raw (departement);
CREATE INDEX IF NOT EXISTS br_car_date_idx ON bronze.caracteristiques_raw (annee, mois);
CREATE INDEX IF NOT EXISTS br_veh_catv_idx ON bronze.vehicules_raw (categorie_vehicule);
CREATE INDEX IF NOT EXISTS br_usg_grav_idx ON bronze.usagers_raw (gravite);
"""
create_database_if_not_exists(ADMIN_DB_URL, DB_NAME)
engine = get_engine(DB_URL)
execute_script(engine, script_bronze_dll)

In [33]:
# csv_name = "accidents_clean.csv"
# try:
#     df_cleaned = pd.read_csv(CLEAN_DIR / csv_name,
#                      sep=";", dtype=str, encoding="utf-8-sig")
# except UnicodeDecodeError:
#     df_cleaned = pd.read_csv(CLEAN_DIR / csv_name,
#                      sep=";", dtype=str, encoding="utf-8-sig")

# print("Colonnes détectées:", list(df.columns)[:8], "...")




# ce travail dois etre fait apres l'importation des données brutes et stockéés
# et generer les resultats sous forme de fichier accidents_clean.csv 
# comme ça on utilise directement le code commenterci dessus
csv_name = "accidents-corporels-de-la-circulation-millesime.csv"
try:
    df = pd.read_csv(RAW_DIR / csv_name,
                     sep=";", dtype=str, encoding="utf-8-sig")
except UnicodeDecodeError:
    df = pd.read_csv(RAW_DIR / csv_name,
                     sep=";", dtype=str, encoding="utf-8-sig")

print("Colonnes détectées:", list(df.columns)[:8], "...")


def normalize_columns(df, inplace=False):
    """
    Normalise les noms de colonnes d'un DataFrame en snake_case sans accents ni caractères spéciaux.
    Règles :
      - retire les accents
      - met en minuscules
      - remplace tout caractère non alphanumérique par un underscore
      - réduit les underscores multiples en un seul
      - supprime les underscores en début/fin
      - si le nom commence par un chiffre, préfixe par 'c_'
      - si le résultat est vide, remplace par 'unknown'
      - garantit l'unicité des noms en ajoutant des suffixes _2, _3, ...
    Arguments :
      df : pandas.DataFrame
      inplace : bool (False par défaut). Si True, renomme les colonnes sur place et retourne le même objet.
    Retour :
      pandas.DataFrame avec colonnes normalisées.
    """
    import unicodedata
    import re
    import pandas as pd

    if not inplace:
        df = df.copy()

    def _slug(name: object) -> str:
        s = "" if name is None else str(name)
        # Normaliser unicode et séparer les accents
        s = unicodedata.normalize("NFKD", s)
        # Enlever les caractères de composition (accents)
        s = "".join(ch for ch in s if not unicodedata.combining(ch))
        s = s.lower()
        # Remplacer tout caractère non alphanumérique par underscore
        s = re.sub(r"[^a-z0-9]+", "_", s)
        # Réduire underscores multiples et trim
        s = re.sub(r"_+", "_", s).strip("_")
        # Préfixer si commence par chiffre
        if re.match(r"^[0-9]", s):
            s = "c_" + s
        if s == "":
            s = "unknown"
        return s

    # Appliquer la normalisation
    orig_cols = list(df.columns)
    normalized = [_slug(c) for c in orig_cols]

    # Garantir l'unicité des noms
    seen = {}
    unique_cols = []
    for name in normalized:
        base = name
        if name not in seen:
            seen[name] = 1
            unique_cols.append(name)
        else:
            seen[name] += 1
            new_name = f"{base}_{seen[name]}"
            # garantir que new_name lui-même n'existe pas déjà
            while new_name in seen:
                seen[base] += 1
                new_name = f"{base}_{seen[base]}"
            seen[new_name] = 1
            unique_cols.append(new_name)

    # Renommer le DataFrame
    mapping = dict(zip(orig_cols, unique_cols))
    df = df.rename(columns=mapping)

    return df

In [34]:
df_cleaned = normalize_columns(df, inplace=True)
df_cleaned.columns.tolist()

['identifiant_de_l_accident',
 'date_et_heure',
 'commune',
 'annee',
 'mois',
 'jour',
 'heure_minute',
 'lumiere',
 'localisation',
 'intersection',
 'conditions_atmospheriques',
 'collision',
 'departement',
 'code_commune',
 'code_insee',
 'adresse',
 'latitude',
 'longitude',
 'code_postal',
 'numero',
 'coordonnees',
 'pr',
 'surface',
 'v1',
 'circulation',
 'voie_reservee',
 'env1',
 'voie',
 'largeur_de_la_chaussee',
 'v2',
 'largeur_terre_plein_central',
 'nombre_de_voies',
 'categorie_route',
 'pr1',
 'plan',
 'profil',
 'infrastructure',
 'situation',
 'annee_de_naissance',
 'sexe',
 'action_pieton',
 'gravite',
 'existence_equipement_de_securite',
 'utilisation_equipement_de_securite',
 'localisation_du_pieton',
 'identifiant_vehicule',
 'place',
 'categorie_d_usager',
 'pieton_seul_ou_non',
 'motif_trajet',
 'point_de_choc',
 'man_uvre',
 'sens',
 'obstacle_mobile_heurte',
 'obstacle_fixe_heurte',
 'categorie_vehicule',
 'nombre_d_occupants',
 'gps',
 'date',
 'year_geore

In [None]:
table_colonnes = [
    "identifiant_de_l_accident",
    "date_et_heure",
    "jour",
    "mois",
    "annee",
    "heure_minute",
    "date",
    "year_georef",
    "lumiere",
    "code_postal",
    "code_insee",
    "departement",
    "commune",
    "code_commune",
    "code_officiel_commune",
    "nom_officiel_commune",
    "nom_officiel_commune_arrondissement_municipal",
    "code_officiel_departement",
    "nom_officiel_departement",
    "code_officiel_region",
    "nom_officiel_region",
    "code_officiel_epci",
    "nom_officiel_epci",
    "localisation",
    "intersection",
    "conditions_atmospheriques",
    "collision",
    "adresse",
    "gps",
    "latitude",
    "longitude",
    "coordonnees",
    "numero"
]

df_filtred_to_insert = df_cleaned[table_colonnes].copy()
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "caracteristiques_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911

In [37]:
table_colonnes = [
    "identifiant_de_l_accident",
    "categorie_route",
    "voie",
    "v1",
    "v2",
    "circulation",
    "nombre_de_voies",
    "voie_reservee",
    "profil",
    "pr",
    "pr1",
    "plan",
    "largeur_terre_plein_central",
    "largeur_de_la_chaussee",
    "surface",
    "infrastructure",
    "situation",
    "env1"
]
df_filtred_to_insert = df_cleaned[table_colonnes].copy()
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "lieux_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911

In [38]:
# changer le nom du colonne 
df_cleaned.rename(
    columns={
        'man_uvre': 'manoeuvre',
    },
    inplace=True
)
table_colonnes = [
    "identifiant_de_l_accident",
    "identifiant_vehicule",
    "sens",
    "categorie_vehicule",
    "obstacle_fixe_heurte",
    "obstacle_mobile_heurte",
    "point_de_choc",
    "manoeuvre",
    "nombre_d_occupants"
]

df_filtred_to_insert = df_cleaned[table_colonnes].copy()
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "vehicules_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911

In [39]:
table_colonnes = [
    "identifiant_de_l_accident",
    "identifiant_vehicule",
    "place",
    "categorie_d_usager",   
    "gravite",
    "sexe",
    "annee_de_naissance",
    "motif_trajet",                         
    "existence_equipement_de_securite",
    "utilisation_equipement_de_securite",  
    "localisation_du_pieton",            
    "action_pieton",                       
    "pieton_seul_ou_non"
]
df_filtred_to_insert = df_cleaned[table_colonnes].copy()
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "usagers_raw",
                   table_columns=table_colonnes, batch_size=1000)


475911

In [40]:
admin_engine = get_engine(ADMIN_DB_URL)
show_open_connections(admin_engine, DB_NAME)
close_all_connections(admin_engine, DB_NAME)
show_open_connections(admin_engine, DB_NAME)


INFO:__main__:Toutes les connexions à 'db_accident' ont été fermées (sauf la session actuelle).
INFO:__main__:Engine SQLAlchemy libéré — plus aucune connexion active.


(2225, 'postgres', 'db_accident', 'idle', 'COMMIT')
(2225, 'postgres', 'db_accident', 'idle', 'COMMIT')
