# Bronze DDL — PostgreSQL sur localhost

Ce notebook :
1. Charge la configuration depuis un fichier `.env` (ou variables d'environnement).
2. Vérifie l'existence de la base de données cible et la crée si besoin (via un compte **superuser**).
3. Exécute **tous** les fichiers SQL situés dans `../sql/bronze/*.sql` dans l'ordre alphabétique.


## Prérequis

- Python 3.10+
- Paquets : `psycopg2-binary`, `SQLAlchemy`, `python-dotenv`
- Un serveur PostgreSQL accessible
- Créez un fichier `.env` à la racine du projet (copiez `.env.example`) et renseignez les valeurs.


In [None]:
# Installation (à exécuter une seule fois dans votre venv)
# !pip install psycopg2-binary SQLAlchemy python-dotenv


In [None]:
import pathlib
from dotenv import load_dotenv

dotenv_path = pathlib.Path(r".env")
if dotenv_path.exists():
    load_dotenv(dotenv_path)
    print("✅ .env chargé :", dotenv_path)
else:
    print("ℹ️ Pas de .env (ce n’est pas bloquant).")


In [None]:
import os

# --- Superuser (pour créer DB / rôle)
os.environ.setdefault("PG_SU_USER", "postgres")
os.environ.setdefault("PG_SU_PASS", "admin")   # <- mets ici ton vrai mot de passe superuser

# --- Cible (base à créer + user appli)
os.environ.setdefault("PG_HOST", "localhost")
os.environ.setdefault("PG_PORT", "5432")
os.environ.setdefault("PG_DB",   "db_accident")

# Option simple : user appli = superuser
os.environ.setdefault("PG_USER", os.environ["PG_SU_USER"])
os.environ.setdefault("PG_PASS", os.environ["PG_SU_PASS"])

print("Config OK (mots de passe masqués).")


In [None]:
from sqlalchemy import create_engine, text

def _kw(user, pwd, host, port, dbname):
    return dict(
        user=user,
        password=pwd,
        host=host,
        port=int(port),
        dbname=dbname,
        options="-c client_encoding=UTF8",
    )

def engine_as(user, pwd, host, port, dbname):
    import psycopg2
    def _creator():
        return psycopg2.connect(**_kw(user, pwd, host, port, dbname))
    # IMPORTANT : engine sans URL (évite tout souci d’encodage)
    return create_engine("postgresql+psycopg2://", creator=_creator, future=True)


In [None]:
from sqlalchemy import text

PG_SU_USER = os.environ["PG_SU_USER"]
PG_SU_PASS = os.environ["PG_SU_PASS"]
PG_HOST    = os.environ["PG_HOST"]
PG_PORT    = os.environ["PG_PORT"]

PG_DB      = os.environ["PG_DB"]
PG_USER    = os.environ["PG_USER"]
PG_PASS    = os.environ["PG_PASS"]

created_role = False
created_db   = False

# Connexion superuser à la base 'postgres'
su_engine = engine_as(PG_SU_USER, PG_SU_PASS, PG_HOST, PG_PORT, "postgres")

# Pas de transaction pour CREATE ROLE/DB
with su_engine.connect().execution_options(isolation_level="AUTOCOMMIT") as conn:
    # (1) Rôle applicatif (si différent du superuser)
    if PG_USER != PG_SU_USER:
        role_exists = conn.execute(
            text("SELECT 1 FROM pg_roles WHERE rolname = :u"), {"u": PG_USER}
        ).fetchone()
        if not role_exists:
            conn.execute(text(f'CREATE ROLE "{PG_USER}" LOGIN PASSWORD :p'), {"p": PG_PASS})
            created_role = True
        else:
            # on peut s'assurer du mot de passe
            conn.execute(text(f'ALTER ROLE "{PG_USER}" WITH PASSWORD :p'), {"p": PG_PASS})

    # (2) Base à créer si absente
    db_exists = conn.execute(
        text("SELECT 1 FROM pg_database WHERE datname = :d"), {"d": PG_DB}
    ).fetchone()
    if not db_exists:
        owner = PG_USER if PG_USER else PG_SU_USER
        conn.execute(text(f'CREATE DATABASE "{PG_DB}" OWNER "{owner}"'))
        created_db = True

su_engine.dispose()

print(
    ("🆕 Base créée. " if created_db else "✅ Base déjà existante. "),
    ("🆕 Rôle créé." if created_role else "Rôle OK."),
    sep=""
)


In [None]:
engine = engine_as(PG_USER, PG_PASS, PG_HOST, PG_PORT, PG_DB)

with engine.connect() as conn:
    dbname  = conn.execute(text("SELECT current_database()")).scalar()
    version = conn.execute(text("SELECT version()")).scalar()
    print("DB courante :", dbname)
    print("Version     :", version)


In [None]:
with engine.begin() as conn:
    conn.execute(text('CREATE SCHEMA IF NOT EXISTS db_accident'))
    conn.execute(text('CREATE TABLE IF NOT EXISTS db_accident.ping (id serial PRIMARY KEY, ts timestamptz DEFAULT now())'))
    conn.execute(text('INSERT INTO db_accident.ping DEFAULT VALUES'))
    rows = conn.execute(text('SELECT * FROM db_accident.ping ORDER BY id DESC LIMIT 3')).all()

rows


In [None]:
%run ../notebooks/database_functions-k.ipynb

In [None]:


script_bronze_ddl = """
CREATE SCHEMA IF NOT EXISTS bronze;

CREATE TABLE IF NOT EXISTS bronze.caracteristiques_raw (
  identifiant_de_l_accident TEXT,
  date_et_heure TEXT,
  jour TEXT,
  mois TEXT,
  annee TEXT,
  heure_minute TEXT,
  date TEXT,
  year_georef TEXT,
  lumiere TEXT,
  code_postal TEXT,
  code_insee TEXT,
  departement TEXT,
  commune TEXT,
  code_commune TEXT,
  code_officiel_commune TEXT,
  nom_officiel_commune TEXT,
  nom_officiel_commune_arrondissement_municipal TEXT,
  code_officiel_departement TEXT,
  nom_officiel_departement TEXT,
  code_officiel_region TEXT,
  nom_officiel_region TEXT,
  code_officiel_epci TEXT,
  nom_officiel_epci TEXT,
  localisation TEXT,
  intersection TEXT,
  conditions_atmospheriques TEXT,
  collision TEXT,
  adresse TEXT,
  gps TEXT,
  latitude TEXT,
  longitude TEXT,
  coordonnees TEXT,
  numero TEXT  
);

CREATE TABLE IF NOT EXISTS bronze.lieux_raw (
  identifiant_de_l_accident TEXT,
  categorie_route TEXT,
  voie TEXT,
  v1 TEXT,
  v2 TEXT,
  circulation TEXT,
  nombre_de_voies TEXT,
  voie_reservee TEXT,
  profil TEXT,
  pr TEXT,
  pr1 TEXT,
  plan TEXT,
  largeur_terre_plein_central TEXT,
  largeur_de_la_chaussee TEXT,
  surface TEXT,
  infrastructure TEXT,
  situation TEXT,
  env1 TEXT
);

CREATE TABLE IF NOT EXISTS bronze.vehicules_raw (
  identifiant_de_l_accident TEXT,
  identifiant_vehicule TEXT,
  sens TEXT,
  categorie_vehicule TEXT,
  obstacle_fixe_heurte TEXT,
  obstacle_mobile_heurte TEXT,
  point_de_choc TEXT,
  manoeuvre TEXT,
  nombre_d_occupants TEXT
);



CREATE TABLE IF NOT EXISTS bronze.usagers_raw (
  identifiant_de_l_accident TEXT,
  identifiant_vehicule TEXT,
  place TEXT,
  categorie_d_usager TEXT,
  gravite TEXT,
  sexe TEXT,
  annee_de_naissance TEXT,
  motif_trajet TEXT,
  existence_equipement_de_securite TEXT,
  utilisation_equipement_de_securite TEXT,
  localisation_du_pieton TEXT,
  action_pieton TEXT,
  pieton_seul_ou_non TEXT
);


CREATE INDEX IF NOT EXISTS br_car_ident_idx ON bronze.caracteristiques_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_lieux_ident_idx ON bronze.lieux_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_veh_ident_idx ON bronze.vehicules_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_usg_ident_idx ON bronze.usagers_raw (identifiant_de_l_accident);

CREATE INDEX IF NOT EXISTS br_car_dep_idx ON bronze.caracteristiques_raw (departement);
CREATE INDEX IF NOT EXISTS br_car_date_idx ON bronze.caracteristiques_raw (annee, mois);
CREATE INDEX IF NOT EXISTS br_veh_catv_idx ON bronze.vehicules_raw (categorie_vehicule);
CREATE INDEX IF NOT EXISTS br_usg_grav_idx ON bronze.usagers_raw (gravite);
"""
# exécution du script (on découpe pour ne pas dépendre du driver multi-statements)
with engine_as(
    os.environ["PG_USER"], os.environ["PG_PASS"],
    os.environ["PG_HOST"], os.environ["PG_PORT"],
    os.environ["PG_DB"]
).begin() as conn:
    for stmt in script_bronze_ddl.strip().split(";\n"):
        s = stmt.strip()
        if s:
            conn.execute(text(s + ";"))

# def get_engine(db_url: str) -> Engine:
#     """
#     Retourne un SQLAlchemy Engine pour l'URL 
#     postgresql+psycopg2://user:password@host:port/dbname
#     """
#     return create_engine(db_url, client_encoding="utf8")


print("✅ DDL bronze appliqué (schéma, tables, index).")


In [None]:
import pandas as pd
import re
from pathlib import Path
from sqlalchemy import text

CSV = Path.cwd() / "bronze" / "accidents_bronze.csv"  
SCHEMA = "bronze"
TABLE  = "caracteristiques_raw"

# 1) lire CSV en texte (séparateur ;)
df = pd.read_csv(CSV, sep=";", encoding="utf-8-sig", dtype=str, low_memory=False)

# 2) normaliser noms de colonnes pour coller au DDL
def norm(c: str) -> str:
    c = str(c).strip().lower()
    c = re.sub(r"\s+", "_", c)
    c = re.sub(r"[^0-9a-z_]", "_", c)
    c = re.sub(r"_+", "_", c).strip("_")
    if c and c[0].isdigit():
        c = "c_" + c
    return c or "col"



    # if not inplace:
    #     df = df.copy()
    # def _slug(name: object) -> str:
    #     s = "" if name is None else str(name)
    #     # Normaliser unicode et séparer les accents
    #     s = unicodedata.normalize("NFKD", s)
    #     # Enlever les caractères de composition (accents)
    #     s = "".join(ch for ch in s if not unicodedata.combining(ch))
    #     s = s.lower()
    #     # Remplacer tout caractère non alphanumérique par underscore
    #     s = re.sub(r"[^a-z0-9]+", "_", s)
    #     # Réduire underscores multiples et trim
    #     s = re.sub(r"_+", "_", s).strip("_")
    #     # Préfixer si commence par chiffre
    #     if re.match(r"^[0-9]", s):
    #         s = "c_" + s
    #     if s == "":
    #         s = "unknown"
    #     return s

    # # Appliquer la normalisation
    # orig_cols = list(df.columns)
    # normalized = [_slug(c) for c in orig_cols]

    # # Garantir l'unicité des noms
    # seen = {}
    # unique_cols = []
    # for name in normalized:
    #     base = name
    #     if name not in seen:
    #         seen[name] = 1
    #         unique_cols.append(name)
    #     else:
    #         seen[name] += 1
    #         new_name = f"{base}_{seen[name]}"
    #         # garantir que new_name lui-même n'existe pas déjà
    #         while new_name in seen:
    #             seen[base] += 1
    #             new_name = f"{base}_{seen[base]}"
    #         seen[new_name] = 1
    #         unique_cols.append(new_name)

    # # Renommer le DataFrame
    # mapping = dict(zip(orig_cols, unique_cols))
    # df = df.rename(columns=mapping)


    # return df

df.columns = [norm(c) for c in df.columns]

# 3) colonnes attendues par la table (dans l'ordre du DDL, sans ingest_ts qui a un DEFAULT)
ddl_cols = [
    "identifiant_de_l_accident",
    "date_et_heure",
    "jour",
    "mois",
    "annee",
    "heure_minute",
    "date",
    "year_georef",
    "lumiere",
    "code_postal",
    "code_insee",
    "departement",
    "commune",
    "code_commune",
    "code_officiel_commune",
    "nom_officiel_commune",
    "nom_officiel_commune_arrondissement_municipal",
    "code_officiel_departement",
    "nom_officiel_departement",
    "code_officiel_region",
    "nom_officiel_region",
    "code_officiel_epci",
    "nom_officiel_epci",
    "localisation",
    "intersection",
    "conditions_atmospheriques",
    "collision",
    "adresse",
    "gps",
    "latitude",
    "longitude",
    "coordonnees",
    "numero"
]
# ddl_cols = [
#   "identifiant_de_l_accident","date_et_heure","commune","annee","mois","jour","heure_minute","lumiere",
#   "localisation","intersection","conditions_atmospheriques","collision","departement","code_commune","code_insee",
#   "adresse","latitude","longitude","code_postal","numero","coordonnees","pr","surface","v1","circulation",
#   "voie_reservee","env1","voie","largeur_de_la_chaussee","v2","largeur_terre_plein_central","nombre_de_voies",
#   "categorie_route","pr1","plan","profil","infrastructure","situation","gps","date","year_georef",
#   "nom_officiel_commune","code_officiel_departement","nom_officiel_departement","code_officiel_epci",
#   "nom_officiel_epci","code_officiel_region","nom_officiel_region",
#   "nom_officiel_commune_arrondissement_municipal","code_officiel_commune","source_file"
# ]
# table_colonnes = [
#     "identifiant_de_l_accident",
#     "date_et_heure",
#     "jour",
#     "mois",
#     "annee",
#     "heure_minute",
#     "date",
#     "year_georef",
#     "lumiere",
#     "code_postal",
#     "code_insee",
#     "departement",
#     "commune",
#     "code_commune",
#     "code_officiel_commune",
#     "nom_officiel_commune",
#     "nom_officiel_commune_arrondissement_municipal",
#     "code_officiel_departement",
#     "nom_officiel_departement",
#     "code_officiel_region",
#     "nom_officiel_region",
#     "code_officiel_epci",
#     "nom_officiel_epci",
#     "localisation",
#     "intersection",
#     "conditions_atmospheriques",
#     "collision",
#     "adresse",
#     "gps",
#     "latitude",
#     "longitude",
#     "coordonnees",
#     "numero"
# ]
# 4) ajouter colonnes manquantes, garder seulement celles du DDL, ordonnées
for col in ddl_cols:
    if col not in df.columns:
        df[col] = None

df["source_file"] = CSV.name  # utile pour tracer l'origine

df_to_load = df[ddl_cols]  # exactement l'ordre attendu

# 5) append dans la table bronze (simple et sûr)
engine = engine_as(
    os.environ["PG_USER"], os.environ["PG_PASS"],
    os.environ["PG_HOST"], os.environ["PG_PORT"],
    os.environ["PG_DB"]
)

# purger la table avant insertion pour éviter les doublons
with engine.begin() as conn:
    conn.execute(text(f'TRUNCATE TABLE "{SCHEMA}"."{TABLE}"'))

%time 
df_to_load.to_sql(
    name=TABLE,
    schema=SCHEMA,
    con=engine,
    if_exists="append",     # on recharge à vide
    index=False,
    chunksize=10_000,
    method="multi",
)

# 6) vérif rapide
with engine.connect() as conn:
    n = conn.execute(text(f'SELECT COUNT(*) FROM "{SCHEMA}"."{TABLE}"')).scalar()
    print(f"✅ Chargement terminé : {n:,} lignes dans {SCHEMA}.{TABLE}")

In [None]:
# --- Test rapide : base courante + schémas existants (PostgreSQL) ---
import os
from sqlalchemy import create_engine, text

PG_USER = os.getenv("PG_USER")
PG_PASS = os.getenv("PG_PASS")
PG_HOST = os.getenv("PG_HOST", "127.0.0.1")
PG_PORT = os.getenv("PG_PORT", "5432")
PG_DB   = os.getenv("PG_DB")

engine = create_engine(
    f"postgresql+psycopg2://{PG_USER}:{PG_PASS}@{PG_HOST}:{PG_PORT}/{PG_DB}",
    future=True
)

with engine.connect() as conn:
    db_name = conn.execute(text("SELECT current_database()")).scalar_one()
    schemas = conn.execute(text("""
        SELECT schema_name
        FROM information_schema.schemata
        ORDER BY schema_name
    """)).scalars().all()

    print(f"Base courante : {db_name}")
    print("Schémas disponibles :")
    for s in schemas:
        print(f" - {s}")

    # Optionnel : vérifie la présence d'un schéma cible si SCHEMA est défini
    target_schema = os.getenv("SCHEMA")
    if target_schema:
        print(f"\nSchéma cible '{target_schema}' présent ? {'Oui' if target_schema in schemas else 'Non'}")

In [None]:
# --- Fonction pour afficher le schéma d'une table ---
def show_table_schema(engine, schema_name: str, table_name: str):
    """Affiche les colonnes, types et nullabilité d'une table donnée."""
    query = text(f"""
        SELECT 
            column_name, 
            data_type, 
            is_nullable, 
            character_maximum_length
        FROM information_schema.columns
        WHERE table_schema = :schema
          AND table_name = :table
        ORDER BY ordinal_position
    """)
    with engine.connect() as conn:
        rows = conn.execute(query, {"schema": schema_name, "table": table_name}).fetchall()
        if not rows:
            print(f"⚠️ Table '{schema_name}.{table_name}' introuvable.")
            return
        print(f"\nSchéma de la table {schema_name}.{table_name} :\n")
        for r in rows:
            length = f"({r.character_maximum_length})" if r.character_maximum_length else ""
            print(f"- {r.column_name:<35} {r.data_type:<20} {length}  nullable={r.is_nullable}")

# --- Exemple d'utilisation ---
show_table_schema(engine, "bronze", "caracteristiques_raw")