In [None]:
# Installer les bibliothèques
#pip install jupyterlab pandas requests sqlalchemy psycopg2-binary geopandas

import requests
import pandas as pd
import geopandas as gpd
from sqlalchemy import create_engine
from shapely.geometry import Point
import io

# =====================================================================
# BLOC DE CONNEXION 
# =====================================================================

# 1. Importer la fonction 'create_engine' ET 'text' depuis sqlalchemy
from sqlalchemy import create_engine, text
import pandas as pd

# 2. Définir nos 5 variables 
DB_USER = "user_securite_routiere"
DB_PASSWORD = "password123"
DB_HOST = "localhost"
DB_PORT = "5432"
DB_NAME = "securite_routiere_db"

# 3. Construire l'URL de connexion 
DATABASE_URL = f'postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}'
print(f"URL de connexion construite : {DATABASE_URL}")

# 4. Créer le moteur de connexion et tester
try:
    engine = create_engine(DATABASE_URL)
    
    # 5. TESTER LA CONNEXION 
    with engine.connect() as connection:
        print("🎉 Connexion à la base de données PostgreSQL réussie !")
        
        # Test supplémentaire : lire le résultat
        result = connection.execute(text("SELECT 1"))
        
        for row in result:
            print(f"Résultat du test de lecture : {row[0]}") # On met row[0] pour n'afficher que le chiffre

except Exception as e:
    print("❌ Échec de la connexion à la base de données.")
    print(f"Erreur : {e}")

URL de connexion construite : postgresql+psycopg2://user_securite_routiere:password123@localhost:5432/securite_routiere_db
🎉 Connexion à la base de données PostgreSQL réussie !
Résultat du test de lecture : 1


In [None]:
# =====================================================================
# BLOC OPTIMISÉ : UTILISATION DE COPY POUR UN CHARGEMENT ULTRA-RAPIDE
# =====================================================================
import pandas as pd
import requests
import io
from sqlalchemy import create_engine

# --- PARTIE 1 : CONNEXION A LA BASE DE DONNEES ---
DB_USER = "user_securite_routiere"
DB_PASSWORD = "password123"
DB_HOST = "localhost"
DB_PORT = "5432"
DB_NAME = "securite_routiere_db"

DATABASE_URL = f'postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}'
engine = create_engine(DATABASE_URL)


# --- PARTIE 2 : FONCTION DE TELECHARGEMENT  ---
def download_data(url):
    print("Lancement du téléchargement. Veuillez patienter, cela peut prendre un moment...")
    try:
        response = requests.get(url, timeout=300)
        response.raise_for_status()
        csv_data = io.StringIO(response.text)
        df = pd.read_csv(csv_data, sep=';', dtype=str) 
        print("Téléchargement terminé avec succès !")
        print("-" * 60)
        print(f"Le DataFrame brut contient {df.shape[0]:,} lignes et {df.shape[1]} colonnes.")
        print("-" * 60)
        return df
    except requests.exceptions.RequestException as e:
        print(f"Une erreur de connexion est survenue : {e}")
    except Exception as e:
        print(f"Une erreur inattendue est survenue : {e}")
        return None

# --- NOUVELLE FONCTION : CHARGEMENT RAPIDE AVEC COPY ---
def copy_from_stringio(df, table_name, schema_name, connection):
    """
    Charge un DataFrame dans une table PostgreSQL en utilisant la méthode COPY,
    qui est beaucoup plus rapide pour de grands volumes de données.
    """
    # 1. On utilise un buffer en mémoire (StringIO) pour convertir le DataFrame en CSV
    buffer = io.StringIO()
    df.to_csv(buffer, index=False, header=False, sep=';')
    buffer.seek(0) # On remet le curseur au début du buffer pour la lecture
    
    # 2. On utilise la connexion bas-niveau de psycopg2 pour accéder à la fonction COPY
    raw_connection = connection.raw_connection()
    cursor = raw_connection.cursor()
    
    # 3. On exécute la commande COPY
    #    On vide la table avant pour simuler le 'if_exists=replace'
    full_table_name = f'{schema_name}.{table_name}'
    cursor.execute(f"TRUNCATE TABLE {full_table_name} RESTART IDENTITY;")
    print(f"Table '{full_table_name}' vidée.")
    
    cursor.copy_expert(
        f"""COPY {full_table_name} FROM STDIN WITH (FORMAT CSV, DELIMITER ';')""",
        buffer
    )
    
    # 4. On valide la transaction
    raw_connection.commit()
    cursor.close()

# --- PARTIE 3 : ORCHESTRATION DU CHARGEMENT 
try:
    url_csv = "https://public.opendatasoft.com/api/explore/v2.1/catalog/datasets/accidents-corporels-de-la-circulation-millesime/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B"
    df_raw = download_data(url_csv)

    if df_raw is not None:
        # On doit d'abord créer la table avec les bonnes colonnes avant d'utiliser COPY
        print("Création de la table 'bronze.accidents_raw' si elle n'existe pas...")
        # On envoie juste l'en-tête pour que Pandas crée la table avec la bonne structure
        df_raw.head(0).to_sql('accidents_raw', engine, schema='bronze', if_exists='replace', index=False)
        
        print("Début du chargement rapide des données dans la couche BRONZE avec COPY...")
        # On appelle notre nouvelle fonction rapide !
        copy_from_stringio(df_raw, 'accidents_raw', 'bronze', engine)

        print("✅ Succès ! Les données ont été chargées dans la table 'bronze.accidents_raw'.")

except Exception as e:
    print(f"❌ Une erreur est survenue pendant le processus de chargement : {e}")

Lancement du téléchargement. Veuillez patienter, cela peut prendre un moment...
Téléchargement terminé avec succès !
------------------------------------------------------------
Le DataFrame brut contient 475,911 lignes et 69 colonnes.
------------------------------------------------------------
Création de la table 'bronze.accidents_raw' si elle n'existe pas...
Début du chargement rapide des données dans la couche BRONZE avec COPY...
Table 'bronze.accidents_raw' vidée.
✅ Succès ! Les données ont été chargées dans la table 'bronze.accidents_raw'.


In [11]:
# Assurez-vous que la variable 'df_raw' existe bien après le téléchargement

if 'df_raw' in locals() and df_raw is not None:
    print("=====================================================")
    print("   Liste des colonnes du DataFrame des accidents   ")
    print("=====================================================")
    
    # Récupérer la liste des noms de colonnes
    liste_des_colonnes = df_raw.columns.tolist()
    
    # Afficher le nombre total de colonnes pour information
    print(f"\nNombre total de colonnes : {len(liste_des_colonnes)}\n")
    
    # Afficher chaque nom de colonne sur une nouvelle ligne pour une meilleure lisibilité
    for nom_colonne in liste_des_colonnes:
        print(nom_colonne)
        
    print("\n=====================================================")

else:
    print("Erreur : Le DataFrame 'df_raw' n'a pas été trouvé ou est vide.")
    print("Veuillez d'abord exécuter la cellule de téléchargement des données.")

   Liste des colonnes du DataFrame des accidents   

Nombre total de colonnes : 69

Identifiant de l'accident
Date et heure
Commune
Année
Mois
Jour
Heure minute
Lumière
Localisation
Intersection
Conditions atmosphériques
Collision
Département
Code commune
Code Insee
Adresse
Latitude
Longitude
Code Postal
Numéro
Coordonnées
PR
Surface
V1
Circulation
Voie réservée
Env1
Voie
Largeur de la chaussée
V2
Largeur terre plein central
Nombre de voies
Catégorie route
PR1
Plan
Profil
Infrastructure
Situation
Année de naissance
Sexe
Action piéton
Gravité
Existence équipement de sécurité
Utilisation équipement de sécurité
Localisation du piéton
Identifiant véhicule
Place
Catégorie d'usager
Piéton seul ou non
Motif trajet
Point de choc
Manœuvre
Sens
Obstacle mobile heurté
Obstacle fixe heurté
Catégorie véhicule
Nombre d'occupants
Gps
date
year_georef
Nom Officiel Commune
Code Officiel Département
Nom Officiel Département
Code Officiel EPCI
Nom Officiel EPCI
Code Officiel Région
Nom Officiel Région
No

In [19]:
mapping_colonnes = {
    # --- Caractéristiques de l'accident (12) ---
    "Identifiant de l'accident": "num_acc",
    "Date et heure": "datetime",
    "Année": "an",
    "Mois": "mois",
    "Jour": "jour",
    "Heure minute": "hrmn",
    "Lumière": "lum",
    "Localisation": "agg",
    "Intersection": "int",
    "Conditions atmosphériques": "atm",
    "Collision": "col",
    "Situation": "situ",

    # --- Lieu (30) ---
    "Département": "dep",
    "Code commune": "com",
    "Code Insee": "insee",
    "Adresse": "adr",
    "Latitude": "lat",
    "Longitude": "long",
    "Code Postal": "code_postal",
    "Numéro": "num",
    "Coordonnées": "coordonnees",
    "PR": "pr",
    "Surface": "surf",
    "V1": "v1",
    "Circulation": "circ",
    "Voie réservée": "vosp",
    "Env1": "env1",
    "Voie": "voie",
    "Largeur de la chaussée": "larrout",
    "V2": "v2",
    "Largeur terre plein central": "lartpc",
    "Nombre de voies": "nbv",
    "Catégorie route": "catr",
    "PR1": "pr1",
    "Plan": "plan",
    "Profil": "prof",
    "Infrastructure": "infra",
    "Gps": "gps",
    "date": "date", 
    "year_georef": "year_georef",
    "Commune": "nom_com", 
    "Nom Officiel Commune": "com_name",

    # --- Usager (11) ---
    "Année de naissance": "an_nais",
    "Sexe": "sexe",
    "Action piéton": "actp",
    "Gravité": "grav",
    "Existence équipement de sécurité": "secu",
    "Utilisation équipement de sécurité": "secu_utl",
    "Localisation du piéton": "locp",
    "Place": "place",
    "Catégorie d'usager": "catu",
    "Piéton seul ou non": "etatp",
    "Motif trajet": "trajet",

    # --- Véhicule (8) ---
    "Identifiant véhicule": "num_veh",
    "Point de choc": "choc",
    "Manœuvre": "manv",
    "Sens": "senc",
    "Obstacle mobile heurté": "obsm",
    "Obstacle fixe heurté": "obs",
    "Catégorie véhicule": "catv",
    "Nombre d'occupants": "occutc",

    # --- Noms et Codes Officiels (8) ---
    "Code Officiel Département": "dep_code", 
    "Nom Officiel Département": "dep_name",
    "Code Officiel EPCI": "epci_code",       
    "Nom Officiel EPCI": "epci_name",
    "Code Officiel Région": "reg_code",       
    "Nom Officiel Région": "reg_name",
    "Nom Officiel Commune / Arrondissement Municipal": "com_arm_name",
    "Code Officiel Commune": "code_com"         
}

len(mapping_colonnes)

69

In [None]:
# =====================================================================
# BLOC DE TRANSFORMATION : DE BRONZE VERS SILVER
# Objectif : Renommer les colonnes et nettoyer les types de données.
# =====================================================================
import pandas as pd
from sqlalchemy import create_engine
import io

print("Début du processus de transformation Bronze -> Silver...")

# --- PARTIE 1 : VÉRIFICATION DE LA CONNEXION ---
# On s'assure que l'objet 'engine' existe bien depuis les cellules précédentes.
if 'engine' not in locals():
    print("Recréation de l'objet de connexion 'engine'...")
    DB_USER = "user_se_curite_routiere"
    DB_PASSWORD = "password123"
    DB_HOST = "localhost"
    DB_PORT = "5432"
    DB_NAME = "securite_routiere_db"
    DATABASE_URL = f'postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}'
    engine = create_engine(DATABASE_URL)
else:
    print("Utilisation de l'objet de connexion 'engine' existant.")


# --- PARTIE 2 : LECTURE DES DONNÉES DE LA COUCHE BRONZE ---
try:
    print("\nLecture des données depuis la table 'bronze.accidents_raw'...")
    # pd.read_sql_table est la fonction la plus simple pour lire une table entière
    df_bronze = pd.read_sql_table('accidents_raw', engine, schema='bronze')
    print(f"{df_bronze.shape[0]:,} lignes lues avec succès.")
except Exception as e:
    print(f"❌ Erreur lors de la lecture de la table bronze : {e}")
    # On arrête le script si la lecture échoue, car la suite ne peut pas fonctionner.
    raise


# --- PARTIE 3 : RENOMMAGE DES COLONNES AVEC VOTRE DICTIONNAIRE ---
# (Assurez-vous que la cellule contenant votre dictionnaire 'mapping_colonnes' a été exécutée)
if 'mapping_colonnes' in locals():
    print("\nRenommage des colonnes en utilisant le dictionnaire fourni...")
    
    # On applique le renommage. L'argument 'errors="raise"' arrêtera le script si un nom de colonne du dictionnaire n'est pas trouvé dans le DataFrame.
    df_silver = df_bronze.rename(columns=mapping_colonnes, errors="raise")
    
    print("Colonnes renommées avec succès.")
    # On affiche les nouvelles colonnes pour vérification
    print("Nouveaux noms de colonnes :", df_silver.columns.tolist())
else:
    print("❌ Erreur : Le dictionnaire 'mapping_colonnes' n'a pas été trouvé. Veuillez exécuter la cellule qui le définit.")
    raise


# --- PARTIE 4 : NETTOYAGE ET CONVERSION DES TYPES DE DONNÉES (CORRIGÉ) ---
print("\nNettoyage et conversion des types de données...")
try:
    # Dates et heures - On suit le conseil du warning en passant tout en UTC
    df_silver['datetime'] = pd.to_datetime(df_silver['datetime'], errors='coerce', utc=True)
    df_silver['date'] = pd.to_datetime(df_silver['date'], errors='coerce', utc=True)

    # Coordonnées géographiques (pas de changement ici)
    df_silver['lat'] = pd.to_numeric(df_silver['lat'], errors='coerce')
    df_silver['long'] = pd.to_numeric(df_silver['long'], errors='coerce')

    # On convertit d'abord en numérique (ce qui crée des NaN et passe la colonne en float)
    # Ensuite, on convertit en Int64, qui est un type spécial d'entier chez Pandas qui supporte les NaN.
    integer_columns = ['an', 'mois', 'jour', 'an_nais', 'pr', 'pr1', 'v1']
    for col in integer_columns:
        # La conversion se fait en une seule ligne robuste
        df_silver[col] = pd.to_numeric(df_silver[col], errors='coerce').astype('Float64').astype('Int64')
        
    print("Types de données convertis avec succès.")
    # On peut afficher les types pour vérifier
    print("\nNouveaux types de données (échantillon) :")
    print(df_silver[['datetime', 'lat', 'an', 'an_nais']].dtypes)

except Exception as e:
    print(f"❌ Une erreur est survenue lors de la conversion des types : {e}")
    raise


# --- PARTIE 5 : CHARGEMENT DANS LA COUCHE SILVER ---
# On réutilise la fonction rapide avec COPY que vous avez validée
def copy_from_stringio(df, table_name, schema_name, connection):
    buffer = io.StringIO()
    # On gère correctement les NaN pour la conversion en CSV
    df.to_csv(buffer, index=False, header=False, sep=';', na_rep='\\N') # '\\N' est le standard pour NULL
    buffer.seek(0)
    raw_connection = connection.raw_connection()
    cursor = raw_connection.cursor()
    full_table_name = f'"{schema_name}"."{table_name}"'
    
    # On vide la table avant de la remplir pour simuler un 'replace'
    cursor.execute(f"TRUNCATE TABLE {full_table_name} RESTART IDENTITY;")
    
    # La commande COPY
    cursor.copy_expert(
        f"""COPY {full_table_name} FROM STDIN WITH (FORMAT CSV, DELIMITER ';', NULL '\\N')""",
        buffer
    )
    raw_connection.commit()
    cursor.close()

try:
    print("\nDébut du chargement dans la couche SILVER...")
    
    # 1. Créer la structure de la table silver avec les bons noms de colonnes et types
    # Pandas va automatiquement déduire les types SQL à partir des types du DataFrame (datetime -> TIMESTAMP, etc.)
    df_silver.head(0).to_sql('accidents_cleaned', engine, schema='silver', if_exists='replace', index=False)
    print("Structure de la table 'silver.accidents_cleaned' créée.")
    
    # 2. Charger les données en utilisant la méthode rapide
    copy_from_stringio(df_silver, 'accidents_cleaned', 'silver', engine)

    print("\n✅ Succès ! La table 'silver.accidents_cleaned' a été créée et remplie.")
    print("La couche Silver est maintenant prête pour l'analyse et la construction de la couche Gold.")

except Exception as e:
    print(f"❌ Une erreur est survenue pendant le chargement dans la couche Silver : {e}")
    raise

Début du processus de transformation Bronze -> Silver...
Utilisation de l'objet de connexion 'engine' existant.

Lecture des données depuis la table 'bronze.accidents_raw'...
475,911 lignes lues avec succès.

Renommage des colonnes en utilisant le dictionnaire fourni...
Colonnes renommées avec succès.
Nouveaux noms de colonnes : ['num_acc', 'datetime', 'nom_com', 'an', 'mois', 'jour', 'hrmn', 'lum', 'agg', 'int', 'atm', 'col', 'dep', 'com', 'insee', 'adr', 'lat', 'long', 'code_postal', 'num', 'coordonnees', 'pr', 'surf', 'v1', 'circ', 'vosp', 'env1', 'voie', 'larrout', 'v2', 'lartpc', 'nbv', 'catr', 'pr1', 'plan', 'prof', 'infra', 'situ', 'an_nais', 'sexe', 'actp', 'grav', 'secu', 'secu_utl', 'locp', 'num_veh', 'place', 'catu', 'etatp', 'trajet', 'choc', 'manv', 'senc', 'obsm', 'obs', 'catv', 'occutc', 'gps', 'date', 'year_georef', 'com_name', 'dep_code', 'dep_name', 'epci_code', 'epci_name', 'reg_code', 'reg_name', 'com_arm_name', 'code_com']

Nettoyage et conversion des types de donn