In [None]:

from pathlib import Path
from typing import List, Optional
from sqlalchemy import create_engine
from sqlalchemy.engine import Engine
from sqlalchemy import text
from psycopg2.extras import execute_values
from sqlalchemy_utils import database_exists, create_database
import logging
import pandas as pd

CLEAN_DIR = Path("../data/cleaned")
RAW_DIR = Path("../data/raw")
CLEAN_DIR.mkdir(parents=True, exist_ok=True)
RAW_DIR.mkdir(parents=True, exist_ok=True)



logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

In [None]:
ADMIN_DB_URL = "postgresql+psycopg2://postgres:postgres2025%40@localhost:54785/postgres"
DB_NAME = "db_accident"
DB_URL = ADMIN_DB_URL.rsplit("/", 1)[0] + f"/{DB_NAME}" 


def get_engine(db_url: str) -> Engine:
    """
    Retourne un SQLAlchemy Engine pour l'URL 
    postgresql+psycopg2://user:password@host:port/dbname
    """
    return create_engine(db_url, client_encoding="utf8")


def show_open_connections(engine, db_name: str = None):
    """
    Affiche les connexions ouvertes à une base PostgreSQL.
    Si db_name est fourni, on filtre sur cette base.
    """
    query = """
    SELECT pid, usename, datname, state, query
    FROM pg_stat_activity
    WHERE datname = :db_name;
    """ if db_name else """
    SELECT pid, usename, datname, state, query
    FROM pg_stat_activity;
    """
    with engine.connect() as conn:
        result = conn.execute(text(query), {"db_name": db_name})
        rows = result.fetchall()
        for r in rows:
            print(r)


def close_all_connections(engine, db_name: str):
    """
    Ferme toutes les connexions PostgreSQL actives sur une base donnée (y compris celle en cours).
    """
    try:
        query = text("""
            SELECT pg_terminate_backend(pid)
            FROM pg_stat_activity
            WHERE datname = :db_name
            AND pid <> pg_backend_pid();
        """)
        with engine.begin() as conn:
            conn.execute(query, {"db_name": db_name})
        logger.info("Toutes les connexions à '%s' ont été fermées (sauf la session actuelle).", db_name)
    except Exception as e:
        logger.error(" Erreur lors de la fermeture des connexions : %s", e)
        raise
    finally:
        # Ferme la dernière connexion (celle utilisée par SQLAlchemy)
        engine.dispose()
        logger.info("Engine SQLAlchemy libéré — plus aucune connexion active.")


def create_database_if_not_exists(admin_db_url: str, db_name: str) -> None:
    """
    Crée une base PostgreSQL si elle n'existe pas.
    """
    db_url = admin_db_url.rsplit("/", 1)[0] + f"/{db_name}"  # Construire l'URL cible

    try:
        if not database_exists(db_url):
            create_database(db_url)  # Appel correct à sqlalchemy_utils
            logger.info("Base '%s' créée avec succès", db_name)
        else:
            logger.info("La base '%s' existe déjà", db_name)
    except Exception as e:
        logger.error("Erreur lors de la création de la base '%s' : %s", db_name, e)
        raise
    

def execute_script(engine: Engine, script_sql: str) -> None:
    """
    Exécute un script SQL donné sur la base de données.
    """
    try:
        logger.info("Exécution du script SQL...")
        with engine.begin() as conn:
            conn.execute(text(script_sql))
        logger.info("Script SQL exécuté avec succès")
    except Exception as e:
        logger.error("Erreur lors de l'exécution du script SQL : %s", e)
        raise
    finally:
        engine.dispose()
        logger.info("Connexion fermée et engine libéré.")


def insert_df_to_table(
    engine: Engine,
    df: pd.DataFrame,
    schema: str,
    table: str,
    table_columns: Optional[List[str]] = None,
    batch_size: int = 1000,
) -> int:
    """
    Insère un DataFrame dans une table Postgres via psycopg2.execute_values (performant pour gros volumes).

    Comportement :
      - Si table_columns est fourni : on utilise cet ordre de colonnes pour l'insertion.
        * Les colonnes absentes dans df sont créées et remplies par NULL.
        * Les colonnes supplémentaires dans df sont ignorées.
      - Si table_columns est None : on utilise l'ordre des colonnes présentes dans df.
      - Retourne le nombre de lignes insérées.
      - Gère commit/rollback automatiquement.

    Arguments :
      engine        : SQLAlchemy Engine (obtenu via get_engine)
      df            : pandas.DataFrame (les colonnes doivent déjà être normalisées)
      schema        : schéma SQL (ex. "bronze")
      table         : nom de la table (ex. "caracteristiques_raw")
      table_columns : liste ordonnée des colonnes à insérer (optionnel)
      batch_size    : taille de page pour execute_values (par défaut 1000)

    Remarques :
      - Nécessite psycopg2 (sqlalchemy devra utiliser l'adaptateur psycopg2).
      - Tous types Python usuels sont supportés (str, int, float, None, bool, datetime, ...).
    """
    if df is None or len(df) == 0:
        return 0

    # Déterminer colonnes cibles et préparer df_subset avec la bonne colonne ordre
    if table_columns is None:
        cols = list(df.columns)
    else:
        cols = list(table_columns)
        # ajouter colonnes manquantes dans df en les remplissant avec None
        for c in cols:
            if c not in df.columns:
                df[c] = None

    # Conserver uniquement les colonnes cibles
    df_subset = df[cols].copy()

    # Convertir les NaN pandas en None pour psycopg2
    df_subset = df_subset.where(pd.notnull(df_subset), None)

    # Préparer les tuples de valeurs
    records = [tuple(x) for x in df_subset.itertuples(index=False, name=None)]
    if not records:
        return 0

    # Construire la clause des colonnes (avec guillemets pour noms contenant underscore ou majuscules)
    cols_sql = ", ".join([f'"{c}"' for c in cols])
    insert_sql = f'INSERT INTO "{schema}"."{table}" ({cols_sql}) VALUES %s'

    # Obtenir une connexion psycopg2 à partir de l'engine SQLAlchemy
    conn = engine.raw_connection()
    cur = conn.cursor()
    try:
        # execute_values fait des inserts par batch très efficaces
        execute_values(cur, insert_sql, records, page_size=batch_size)
        conn.commit()
        return len(records)
    except Exception:
        conn.rollback()
        raise
    finally:
        cur.close()
        conn.close()
        
def close_engine(engine: Engine) -> None:
    """
    Ferme proprement toutes les connexions actives et libère les ressources associées à l'Engine SQLAlchemy.
    """
    try:
        # Fermer les connexions éventuelles encore ouvertes
        if hasattr(engine, "dispose"):
            engine.dispose()
            logger.info("Connexion et engine SQLAlchemy correctement fermés.")
        else:
            logger.warning("L'objet fourni ne semble pas être un Engine SQLAlchemy valide.")
    except Exception as e:
        logger.error("Erreur lors de la fermeture de l'engine : %s", e)


In [None]:
# ---------------------------
# DDL : bronze 
# ---------------------------
script_bronze_dll = """
CREATE SCHEMA IF NOT EXISTS bronze;

CREATE TABLE IF NOT EXISTS bronze.caracteristiques_raw (
  identifiant_de_l_accident TEXT,
  date_et_heure TEXT,
  commune TEXT,
  annee TEXT,
  mois TEXT,
  jour TEXT,
  heure_minute TEXT,
  lumiere TEXT,
  localisation TEXT,
  intersection TEXT,
  conditions_atmospheriques TEXT,
  collision TEXT,
  departement TEXT,
  code_commune TEXT,
  code_insee TEXT,
  adresse TEXT,
  latitude TEXT,
  longitude TEXT,
  code_postal TEXT,
  numero TEXT,
  coordonnees TEXT,
  pr TEXT,
  surface TEXT,
  v1 TEXT,
  circulation TEXT,
  voie_reservee TEXT,
  env1 TEXT,
  voie TEXT,
  largeur_de_la_chaussee TEXT,
  v2 TEXT,
  largeur_terre_plein_central TEXT,
  nombre_de_voies TEXT,
  categorie_route TEXT,
  pr1 TEXT,
  plan TEXT,
  profil TEXT,
  infrastructure TEXT,
  situation TEXT,
  gps TEXT,
  date TEXT,
  year_georef TEXT,
  nom_officiel_commune TEXT,
  code_officiel_departement TEXT,
  nom_officiel_departement TEXT,
  code_officiel_epci TEXT,
  nom_officiel_epci TEXT,
  code_officiel_region TEXT,
  nom_officiel_region TEXT,
  nom_officiel_commune_arrondissement_municipal TEXT,
  code_officiel_commune TEXT,
  source_file TEXT,
  ingest_ts TIMESTAMP WITH TIME ZONE DEFAULT now()
);

CREATE TABLE IF NOT EXISTS bronze.lieux_raw (
  identifiant_de_l_accident TEXT,
  categorie_route TEXT,
  voie TEXT,
  v1 TEXT,
  v2 TEXT,
  circulation TEXT,
  nombre_de_voies TEXT,
  voie_reservee TEXT,
  profil TEXT,
  pr TEXT,
  pr1 TEXT,
  plan TEXT,
  largeur_terre_plein_central TEXT,
  largeur_de_la_chaussee TEXT,
  surface TEXT,
  infrastructure TEXT,
  situation TEXT,
  env1 TEXT,
  coordonnees TEXT,
  source_file TEXT,
  ingest_ts TIMESTAMP WITH TIME ZONE DEFAULT now()
);

CREATE TABLE IF NOT EXISTS bronze.vehicules_raw (
  identifiant_de_l_accident TEXT,
  identifiant_vehicule TEXT,
  sens TEXT,
  categorie_vehicule TEXT,
  obstacle_fixe_heurte TEXT,
  obstacle_mobile_heurte TEXT,
  point_de_choc TEXT,
  manoeuvre TEXT,
  nombre_d_occupants TEXT,
  source_file TEXT,
  ingest_ts TIMESTAMP WITH TIME ZONE DEFAULT now()
);

CREATE TABLE IF NOT EXISTS bronze.usagers_raw (
  identifiant_de_l_accident TEXT,
  identifiant_vehicule TEXT,
  place TEXT,
  categorie_d_usager TEXT,
  gravite TEXT,
  sexe TEXT,
  annee_de_naissance TEXT,
  motif_trajet TEXT,
  existence_equipement_de_securite TEXT,
  utilisation_equipement_de_securite TEXT,
  localisation_du_pieton TEXT,
  action_pieton TEXT,
  pieton_seul_ou_non TEXT,
  source_file TEXT,
  ingest_ts TIMESTAMP WITH TIME ZONE DEFAULT now()
);

CREATE INDEX IF NOT EXISTS br_car_ident_idx ON bronze.caracteristiques_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_lieux_ident_idx ON bronze.lieux_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_veh_ident_idx ON bronze.vehicules_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_usg_ident_idx ON bronze.usagers_raw (identifiant_de_l_accident);

CREATE INDEX IF NOT EXISTS br_car_dep_idx ON bronze.caracteristiques_raw (departement);
CREATE INDEX IF NOT EXISTS br_car_date_idx ON bronze.caracteristiques_raw (annee, mois);
CREATE INDEX IF NOT EXISTS br_veh_catv_idx ON bronze.vehicules_raw (categorie_vehicule);
CREATE INDEX IF NOT EXISTS br_usg_grav_idx ON bronze.usagers_raw (gravite);
"""
create_database_if_not_exists(ADMIN_DB_URL, DB_NAME)
engine = get_engine(DB_URL)
execute_script(engine, script_bronze_dll)

In [None]:
# csv_name = "accidents_clean.csv"
# try:
#     df_cleaned = pd.read_csv(CLEAN_DIR / csv_name,
#                      sep=";", dtype=str, encoding="utf-8-sig")
# except UnicodeDecodeError:
#     df_cleaned = pd.read_csv(CLEAN_DIR / csv_name,
#                      sep=";", dtype=str, encoding="utf-8-sig")

# print("Colonnes détectées:", list(df.columns)[:8], "...")




# ce travail dois etre fait apres l'importation des données brutes et stockéés
# et generer les resultats sous forme de fichier accidents_clean.csv 
# comme ça on utilise directement le code commenterci dessus
csv_name = "accidents-corporels-de-la-circulation-millesime.csv"
try:
    df = pd.read_csv(RAW_DIR / csv_name,
                     sep=";", dtype=str, encoding="utf-8-sig")
except UnicodeDecodeError:
    df = pd.read_csv(RAW_DIR / csv_name,
                     sep=";", dtype=str, encoding="utf-8-sig")

print("Colonnes détectées:", list(df.columns)[:8], "...")


def normalize_columns(df, inplace=False):
    """
    Normalise les noms de colonnes d'un DataFrame en snake_case sans accents ni caractères spéciaux.
    Règles :
      - retire les accents
      - met en minuscules
      - remplace tout caractère non alphanumérique par un underscore
      - réduit les underscores multiples en un seul
      - supprime les underscores en début/fin
      - si le nom commence par un chiffre, préfixe par 'c_'
      - si le résultat est vide, remplace par 'unknown'
      - garantit l'unicité des noms en ajoutant des suffixes _2, _3, ...
    Arguments :
      df : pandas.DataFrame
      inplace : bool (False par défaut). Si True, renomme les colonnes sur place et retourne le même objet.
    Retour :
      pandas.DataFrame avec colonnes normalisées.
    """
    import unicodedata
    import re
    import pandas as pd

    if not inplace:
        df = df.copy()

    def _slug(name: object) -> str:
        s = "" if name is None else str(name)
        # Normaliser unicode et séparer les accents
        s = unicodedata.normalize("NFKD", s)
        # Enlever les caractères de composition (accents)
        s = "".join(ch for ch in s if not unicodedata.combining(ch))
        s = s.lower()
        # Remplacer tout caractère non alphanumérique par underscore
        s = re.sub(r"[^a-z0-9]+", "_", s)
        # Réduire underscores multiples et trim
        s = re.sub(r"_+", "_", s).strip("_")
        # Préfixer si commence par chiffre
        if re.match(r"^[0-9]", s):
            s = "c_" + s
        if s == "":
            s = "unknown"
        return s

    # Appliquer la normalisation
    orig_cols = list(df.columns)
    normalized = [_slug(c) for c in orig_cols]

    # Garantir l'unicité des noms
    seen = {}
    unique_cols = []
    for name in normalized:
        base = name
        if name not in seen:
            seen[name] = 1
            unique_cols.append(name)
        else:
            seen[name] += 1
            new_name = f"{base}_{seen[name]}"
            # garantir que new_name lui-même n'existe pas déjà
            while new_name in seen:
                seen[base] += 1
                new_name = f"{base}_{seen[base]}"
            seen[new_name] = 1
            unique_cols.append(new_name)

    # Renommer le DataFrame
    mapping = dict(zip(orig_cols, unique_cols))
    df = df.rename(columns=mapping)

    return df

In [None]:
df_cleaned = normalize_columns(df, inplace=True)
df_cleaned.columns.tolist()

In [None]:
table_colonnes = [
    "identifiant_de_l_accident",
    "date_et_heure",
    "commune",
    "annee",
    "mois",
    "jour",
    "heure_minute",
    "lumiere",
    "localisation",
    "intersection",
    "conditions_atmospheriques",
    "collision",
    "departement",
    "code_commune",
    "code_insee",
    "adresse",
    "latitude",
    "longitude",
    "code_postal",
    "numero",
    "coordonnees",
    "pr",
    "surface",
    "v1",
    "circulation",
    "voie_reservee",
    "env1",
    "voie",
    "largeur_de_la_chaussee",
    "v2",
    "largeur_terre_plein_central",
    "nombre_de_voies",
    "categorie_route",
    "pr1",
    "plan",
    "profil",
    "infrastructure",
    "situation",
    "gps",
    "date",
    "year_georef",
    "nom_officiel_commune",
    "code_officiel_departement",
    "nom_officiel_departement",
    "code_officiel_epci",
    "nom_officiel_epci",
    "code_officiel_region",
    "nom_officiel_region",
    "nom_officiel_commune_arrondissement_municipal",
    "code_officiel_commune"
]
df_filtred_to_insert = df_cleaned[table_colonnes].copy()
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "caracteristiques_raw",
                   table_columns=table_colonnes, batch_size=1000)


In [None]:
table_colonnes = [
    "identifiant_de_l_accident",
    "categorie_route",
    "voie",
    "v1",
    "v2",
    "circulation",
    "nombre_de_voies",
    "voie_reservee",
    "profil",
    "pr",
    "pr1",
    "plan",
    "largeur_terre_plein_central",
    "largeur_de_la_chaussee",
    "surface",
    "infrastructure",
    "situation",
    "env1",
    "coordonnees"
]
df_filtred_to_insert = df_cleaned[table_colonnes].copy()
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "lieux_raw",
                   table_columns=table_colonnes, batch_size=1000)

In [None]:
# changer le nom du colonne 
df_cleaned.rename(
    columns={
        'man_uvre': 'manoeuvre',
    },
    inplace=True
)
table_colonnes = [
    "identifiant_de_l_accident",
    "identifiant_vehicule",
    "sens",
    "categorie_vehicule",
    "obstacle_fixe_heurte",
    "obstacle_mobile_heurte",
    "point_de_choc",
    "manoeuvre",
    "nombre_d_occupants"
]

df_filtred_to_insert = df_cleaned[table_colonnes].copy()
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "vehicules_raw",
                   table_columns=table_colonnes, batch_size=1000)

In [None]:
table_colonnes = [
    "identifiant_de_l_accident",
    "identifiant_vehicule",
    "place",
    "categorie_d_usager",   
    "gravite",
    "sexe",
    "annee_de_naissance",
    "motif_trajet",                         
    "existence_equipement_de_securite",
    "utilisation_equipement_de_securite",  
    "localisation_du_pieton",            
    "action_pieton",                       
    "pieton_seul_ou_non"
]
df_filtred_to_insert = df_cleaned[table_colonnes].copy()
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "usagers_raw",
                   table_columns=table_colonnes, batch_size=1000)


In [None]:
admin_engine = get_engine(ADMIN_DB_URL)
show_open_connections(admin_engine, DB_NAME)
close_all_connections(admin_engine, DB_NAME)