In [1]:
%run ../functions_scripts/database_functions.ipynb
%run ../functions_scripts/bronze_functions.ipynb

In [None]:
from pathlib import Path
from typing import List, Optional
from sqlalchemy import create_engine
from sqlalchemy.engine import Engine
from sqlalchemy import text
from psycopg2.extras import execute_values
from sqlalchemy_utils import database_exists, create_database
import logging
import pandas as pd

import os
from dotenv import load_dotenv

load_dotenv()
RAW_DIR = Path(os.getenv("RAW_DIR"))
CLEAN_DIR = Path(os.getenv("CLEAN_DIR"))
ADMIN_DB_URL = os.getenv("ADMIN_DB_URL")
DB_URL = os.getenv("DB_URL")

ADMIN_DB_URL: postgresql+psycopg2://postgres:postgres2025@localhost:5433/postgres
DB_URL: postgresql+psycopg2://postgres:postgres2025@localhost:5433/db_accident


In [None]:
# ---------------------------
# DDL : bronze 
# ---------------------------
create_database_if_not_exists(ADMIN_DB_URL, DB_NAME)                                # type: ignore                           # type: ignore

script_bronze_dll = """
CREATE SCHEMA IF NOT EXISTS bronze;


CREATE TABLE IF NOT EXISTS bronze.caracteristiques_raw (
  identifiant_de_l_accident TEXT,
  date_et_heure TEXT,
  jour TEXT,
  mois TEXT,
  annee TEXT,
  heure_minute TEXT,
  date TEXT,
  year_georef TEXT,
  lumiere TEXT,
  code_postal TEXT,
  code_insee TEXT,
  departement TEXT,
  commune TEXT,
  code_commune TEXT,
  code_officiel_commune TEXT,
  nom_officiel_commune TEXT,
  nom_officiel_commune_arrondissement_municipal TEXT,
  code_officiel_departement TEXT,
  nom_officiel_departement TEXT,
  code_officiel_region TEXT,
  nom_officiel_region TEXT,
  code_officiel_epci TEXT,
  nom_officiel_epci TEXT,
  localisation TEXT,
  intersection TEXT,
  conditions_atmospheriques TEXT,
  collision TEXT,
  adresse TEXT,
  gps TEXT,
  latitude TEXT,
  longitude TEXT,
  coordonnees TEXT,
  numero TEXT  
);

CREATE TABLE IF NOT EXISTS bronze.lieux_raw (
  identifiant_de_l_accident TEXT,
  categorie_route TEXT,
  voie TEXT,
  v1 TEXT,
  v2 TEXT,
  circulation TEXT,
  nombre_de_voies TEXT,
  voie_reservee TEXT,
  profil TEXT,
  pr TEXT,
  pr1 TEXT,
  plan TEXT,
  largeur_terre_plein_central TEXT,
  largeur_de_la_chaussee TEXT,
  surface TEXT,
  infrastructure TEXT,
  situation TEXT,
  env1 TEXT
);

CREATE TABLE IF NOT EXISTS bronze.vehicules_raw (
  identifiant_de_l_accident TEXT,
  identifiant_vehicule TEXT,
  sens TEXT,
  categorie_vehicule TEXT,
  obstacle_fixe_heurte TEXT,
  obstacle_mobile_heurte TEXT,
  point_de_choc TEXT,
  manoeuvre TEXT,
  nombre_d_occupants TEXT
);

CREATE TABLE IF NOT EXISTS bronze.usagers_raw (
  identifiant_de_l_accident TEXT,
  identifiant_vehicule TEXT,
  place TEXT,
  categorie_d_usager TEXT,
  gravite TEXT,
  sexe TEXT,
  annee_de_naissance TEXT,
  motif_trajet TEXT,
  existence_equipement_de_securite TEXT,
  utilisation_equipement_de_securite TEXT,
  localisation_du_pieton TEXT,
  action_pieton TEXT,
  pieton_seul_ou_non TEXT
);

CREATE INDEX IF NOT EXISTS br_car_ident_idx ON bronze.caracteristiques_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_lieux_ident_idx ON bronze.lieux_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_veh_ident_idx ON bronze.vehicules_raw (identifiant_de_l_accident);
CREATE INDEX IF NOT EXISTS br_usg_ident_idx ON bronze.usagers_raw (identifiant_de_l_accident);

CREATE INDEX IF NOT EXISTS br_car_dep_idx ON bronze.caracteristiques_raw (departement);
CREATE INDEX IF NOT EXISTS br_car_date_idx ON bronze.caracteristiques_raw (annee, mois);
CREATE INDEX IF NOT EXISTS br_veh_catv_idx ON bronze.vehicules_raw (categorie_vehicule);
CREATE INDEX IF NOT EXISTS br_usg_grav_idx ON bronze.usagers_raw (gravite);
"""
engine = get_engine(DB_URL)                               # type: ignore
execute_script(engine, script_bronze_dll)     

INFO:__main__:Base 'db_accident' créée avec succès
INFO:__main__:Exécution du script SQL...
INFO:__main__:Script SQL exécuté avec succès
INFO:__main__:Connexion fermée et engine libéré.


In [23]:
csv_name = "accidents-corporels-de-la-circulation-millesime.csv"
csv_path = Path("../../data/raw") / csv_name
print("Lecture du fichier CSV depuis :", csv_path)

Lecture du fichier CSV depuis : ../../data/raw/accidents-corporels-de-la-circulation-millesime.csv


In [None]:

try:
    df = pd.read_csv(csv_path,
                     sep=";", dtype=str, encoding="utf-8-sig")
except UnicodeDecodeError:
    df = pd.read_csv(csv_path,
                     sep=";", dtype=str, encoding="utf-8-sig")

print("Colonnes détectées:", list(df.columns)[:8], "...")

Colonnes détectées: ["Identifiant de l'accident", 'Date et heure', 'Commune', 'Année', 'Mois', 'Jour', 'Heure minute', 'Lumière'] ...


In [25]:
df_cleaned = normalize_columns(df, inplace=True)
df_cleaned.columns.tolist()

['identifiant_de_l_accident',
 'date_et_heure',
 'commune',
 'annee',
 'mois',
 'jour',
 'heure_minute',
 'lumiere',
 'localisation',
 'intersection',
 'conditions_atmospheriques',
 'collision',
 'departement',
 'code_commune',
 'code_insee',
 'adresse',
 'latitude',
 'longitude',
 'code_postal',
 'numero',
 'coordonnees',
 'pr',
 'surface',
 'v1',
 'circulation',
 'voie_reservee',
 'env1',
 'voie',
 'largeur_de_la_chaussee',
 'v2',
 'largeur_terre_plein_central',
 'nombre_de_voies',
 'categorie_route',
 'pr1',
 'plan',
 'profil',
 'infrastructure',
 'situation',
 'annee_de_naissance',
 'sexe',
 'action_pieton',
 'gravite',
 'existence_equipement_de_securite',
 'utilisation_equipement_de_securite',
 'localisation_du_pieton',
 'identifiant_vehicule',
 'place',
 'categorie_d_usager',
 'pieton_seul_ou_non',
 'motif_trajet',
 'point_de_choc',
 'man_uvre',
 'sens',
 'obstacle_mobile_heurte',
 'obstacle_fixe_heurte',
 'categorie_vehicule',
 'nombre_d_occupants',
 'gps',
 'date',
 'year_geore

In [None]:
table_colonnes = [
    "identifiant_de_l_accident",
    "date_et_heure",
    "jour",
    "mois",
    "annee",
    "heure_minute",
    "date",
    "year_georef",
    "lumiere",
    "code_postal",
    "code_insee",
    "departement",
    "commune",
    "code_commune",
    "code_officiel_commune",
    "nom_officiel_commune",
    "nom_officiel_commune_arrondissement_municipal",
    "code_officiel_departement",
    "nom_officiel_departement",
    "code_officiel_region",
    "nom_officiel_region",
    "code_officiel_epci",
    "nom_officiel_epci",
    "localisation",
    "intersection",
    "conditions_atmospheriques",
    "collision",
    "adresse",
    "gps",
    "latitude",
    "longitude",
    "coordonnees",
    "numero"
]

df_filtred_to_insert = df_cleaned[table_colonnes].copy()
truncate_table_if_exists(engine, "caracteristiques_raw", "bronze")

insert_df_to_table(engine, df_filtred_to_insert, "bronze", "caracteristiques_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911

In [None]:
table_colonnes = [
    "identifiant_de_l_accident",
    "categorie_route",
    "voie",
    "v1",
    "v2",
    "circulation",
    "nombre_de_voies",
    "voie_reservee",
    "profil",
    "pr",
    "pr1",
    "plan",
    "largeur_terre_plein_central",
    "largeur_de_la_chaussee",
    "surface",
    "infrastructure",
    "situation",
    "env1"
]
df_filtred_to_insert = df_cleaned[table_colonnes].copy()
truncate_table_if_exists(engine, "lieux_raw", "bronze")

insert_df_to_table(engine, df_filtred_to_insert, "bronze", "lieux_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911

In [None]:
# changer le nom du colonne 
df_cleaned.rename(
    columns={
        'man_uvre': 'manoeuvre',
    },
    inplace=True
)
table_colonnes = [
    "identifiant_de_l_accident",
    "identifiant_vehicule",
    "sens",
    "categorie_vehicule",
    "obstacle_fixe_heurte",
    "obstacle_mobile_heurte",
    "point_de_choc",
    "manoeuvre",
    "nombre_d_occupants"
]

df_filtred_to_insert = df_cleaned[table_colonnes].copy()
truncate_table_if_exists(engine, "vehicules_raw", "bronze")

insert_df_to_table(engine, df_filtred_to_insert, "bronze", "vehicules_raw",
                   table_columns=table_colonnes, batch_size=1000)

475911

In [None]:
table_colonnes = [
    "identifiant_de_l_accident",
    "identifiant_vehicule",
    "place",
    "categorie_d_usager",   
    "gravite",
    "sexe",
    "annee_de_naissance",
    "motif_trajet",                         
    "existence_equipement_de_securite",
    "utilisation_equipement_de_securite",  
    "localisation_du_pieton",            
    "action_pieton",                       
    "pieton_seul_ou_non"
]
df_filtred_to_insert = df_cleaned[table_colonnes].copy()
truncate_table_if_exists(engine, "usagers_raw", "bronze")
insert_df_to_table(engine, df_filtred_to_insert, "bronze", "usagers_raw",
                   table_columns=table_colonnes, batch_size=1000)


475911

In [None]:
#fermeture de connexions ouvertes
admin_engine = get_engine(ADMIN_DB_URL)
show_open_connections(admin_engine, DB_NAME)
close_all_connections(admin_engine, DB_NAME)
show_open_connections(admin_engine, DB_NAME)


INFO:__main__:Toutes les connexions à 'db_accident' ont été fermées (sauf la session actuelle).
INFO:__main__:Engine SQLAlchemy libéré — plus aucune connexion active.


(1154, 'postgres', 'db_accident', 'idle', 'COMMIT')
(1159, None, 'db_accident', 'active', 'autovacuum: VACUUM ANALYZE bronze.vehicules_raw')
