Cellule 1 : Imports et configuration


In [1]:
# ============================================================
# ETL : DATA LAKE (CSV) ‚Üí DWH
# Tables : DIM_GEOGRAPHIE, DIM_BORNE_RECHARGE
# ============================================================

import os
import pandas as pd
import pyodbc
from azure.storage.blob import BlobServiceClient
from dotenv import load_dotenv
from datetime import datetime
from tqdm import tqdm
import io

print("=" * 70)
print("üöÄ ETL DATA LAKE CSV ‚Üí DWH")
print("=" * 70)
print(f"üìÖ Date d'ex√©cution : {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("=" * 70)

# Charger les variables d'environnement
load_dotenv()

print("\n‚úÖ Imports r√©ussis")
print("‚úÖ Variables d'environnement charg√©es")

üöÄ ETL DATA LAKE CSV ‚Üí DWH
üìÖ Date d'ex√©cution : 2026-02-09 19:37:13

‚úÖ Imports r√©ussis
‚úÖ Variables d'environnement charg√©es


Cellule 2 : Configuration des connexions


In [2]:
print("\nüîß CONFIGURATION DES CONNEXIONS")
print("=" * 70)

# ========================================
# Configuration Azure Data Lake
# ========================================
STORAGE_ACCOUNT_NAME = os.getenv("STORAGE_ACCOUNT_NAME")
STORAGE_ACCOUNT_KEY = os.getenv("STORAGE_ACCOUNT_KEY")
CONTAINER_BRONZE = os.getenv("CONTAINER_BRONZE")
CONTAINER_GOLD = os.getenv("CONTAINER_GOLD")

# ========================================
# Configuration DWH
# ========================================
DB_SERVER_DWH = os.getenv("DB_SERVER_DWH")
DB_DATABASE_DWH = os.getenv("DB_DATABASE_DWH")
DB_USERNAME_DWH = os.getenv("DB_USERNAME_DWH")
DB_PASSWORD_DWH = os.getenv("DB_PASSWORD_DWH")

# ========================================
# Chemins des fichiers dans le Data Lake
# ========================================
FICHIER_BORNES = "bornes-irve/2025/01/bornes_irve_hdf_20250131.csv"
FICHIER_COMMUNES = "data_to_BDD_data_gouv_city_france/communes_france_2025/communes_france_2025_20251031.csv"

# ========================================
# D√©partements Hauts-de-France √† filtrer
# ========================================
DEPARTEMENTS_HDF = ['59', '62', '80', '60' , '02']

print(f"‚úÖ Storage Account : {STORAGE_ACCOUNT_NAME}")
print(f"‚úÖ Conteneur Bronze : {CONTAINER_BRONZE}")
print(f"‚úÖ Conteneur Gold : {CONTAINER_GOLD}")
print(f"‚úÖ Serveur DWH : {DB_SERVER_DWH}")
print(f"‚úÖ Base DWH : {DB_DATABASE_DWH}")
print(f"‚úÖ D√©partements HDF : {', '.join(DEPARTEMENTS_HDF)}")
print("=" * 70)


üîß CONFIGURATION DES CONNEXIONS
‚úÖ Storage Account : datalakecertifimpe
‚úÖ Conteneur Bronze : bronze-data
‚úÖ Conteneur Gold : data-gouv
‚úÖ Serveur DWH : carter-cash-serveur-student.database.windows.net
‚úÖ Base DWH : DWH_E5_projet_AUTO
‚úÖ D√©partements HDF : 59, 62, 80, 60, 02


Cellule 3 : Connexion √† Azure Data Lake

In [3]:
print("\nüîå CONNEXION √Ä AZURE DATA LAKE")
print("=" * 70)

try:
    # Cr√©er la cha√Æne de connexion
    connection_string = f"DefaultEndpointsProtocol=https;AccountName={STORAGE_ACCOUNT_NAME};AccountKey={STORAGE_ACCOUNT_KEY};EndpointSuffix=core.windows.net"
    
    # Cr√©er le client Blob Service
    blob_service_client = BlobServiceClient.from_connection_string(connection_string)
    
    # Tester la connexion
    blob_service_client.get_service_properties()
    
    print("‚úÖ Connexion r√©ussie √† Azure Data Lake")
    
    # Lister les conteneurs
    containers = [container.name for container in blob_service_client.list_containers()]
    print(f"üì¶ Conteneurs disponibles : {', '.join(containers)}")
    
except Exception as e:
    print(f"‚ùå ERREUR de connexion au Data Lake : {e}")
    raise

print("=" * 70)


üîå CONNEXION √Ä AZURE DATA LAKE
‚ùå ERREUR de connexion au Data Lake : The specified account is disabled.
RequestId:71802d63-301e-008c-04f3-99dadc000000
Time:2026-02-09T18:38:13.9576215Z
ErrorCode:AccountIsDisabled
Content: <?xml version="1.0" encoding="utf-8"?><Error><Code>AccountIsDisabled</Code><Message>The specified account is disabled.
RequestId:71802d63-301e-008c-04f3-99dadc000000
Time:2026-02-09T18:38:13.9576215Z</Message></Error>


HttpResponseError: The specified account is disabled.
RequestId:71802d63-301e-008c-04f3-99dadc000000
Time:2026-02-09T18:38:13.9576215Z
ErrorCode:AccountIsDisabled
Content: <?xml version="1.0" encoding="utf-8"?><Error><Code>AccountIsDisabled</Code><Message>The specified account is disabled.
RequestId:71802d63-301e-008c-04f3-99dadc000000
Time:2026-02-09T18:38:13.9576215Z</Message></Error>

Cellule 4 : Connexion au DWH


In [112]:
print("\nüîå CONNEXION AU DATA WAREHOUSE")
print("=" * 70)

try:
    # Cha√Æne de connexion SQL Server
    connection_string_dwh = (
        f"DRIVER={{ODBC Driver 18 for SQL Server}};"
        f"SERVER={DB_SERVER_DWH};"
        f"DATABASE={DB_DATABASE_DWH};"
        f"UID={DB_USERNAME_DWH};"
        f"PWD={DB_PASSWORD_DWH};"
        f"Encrypt=yes;"
        f"TrustServerCertificate=no;"
        f"Connection Timeout=30;"
    )
    
    cnxn_dwh = pyodbc.connect(connection_string_dwh)
    cursor_dwh = cnxn_dwh.cursor()
    
    # Test de connexion
    cursor_dwh.execute("SELECT @@VERSION")
    version = cursor_dwh.fetchone()[0]
    
    print("‚úÖ Connexion r√©ussie au DWH")
    print(f"üìä Base de donn√©es : {DB_DATABASE_DWH}")
    
except Exception as e:
    print(f"‚ùå ERREUR de connexion au DWH : {e}")
    raise

print("=" * 70)


üîå CONNEXION AU DATA WAREHOUSE
‚úÖ Connexion r√©ussie au DWH
üìä Base de donn√©es : DWH_E5_projet_AUTO


Cellule 5 : Fonction de lecture CSV depuis Data Lake

In [113]:
print("\nüì¶ FONCTIONS UTILITAIRES")
print("=" * 70)

def lire_csv_depuis_datalake(container_name, blob_path, separator=';', encoding='utf-8'):
    """
    Lit un fichier CSV depuis Azure Data Lake et retourne un DataFrame pandas
    
    Args:
        container_name: Nom du conteneur
        blob_path: Chemin du fichier dans le conteneur
        separator: S√©parateur CSV (par d√©faut ';')
        encoding: Encodage du fichier (par d√©faut 'utf-8')
    
    Returns:
        DataFrame pandas
    """
    try:
        print(f"‚è≥ Lecture de {blob_path}...")
        
        # Obtenir le client du conteneur
        container_client = blob_service_client.get_container_client(container_name)
        
        # T√©l√©charger le blob
        blob_client = container_client.get_blob_client(blob_path)
        blob_data = blob_client.download_blob()
        
        # Lire le contenu en m√©moire
        content = blob_data.readall()
        
        # Convertir en DataFrame
        df = pd.read_csv(io.BytesIO(content), sep=separator, encoding=encoding, low_memory=False)
        
        print(f"‚úÖ Fichier charg√© : {len(df)} lignes, {len(df.columns)} colonnes")
        
        return df
    
    except Exception as e:
        print(f"‚ùå ERREUR lors de la lecture du fichier {blob_path} : {e}")
        raise

print("‚úÖ Fonctions utilitaires d√©finies")
print("=" * 70)


üì¶ FONCTIONS UTILITAIRES
‚úÖ Fonctions utilitaires d√©finies


Cellule 6 : Chargement des fichiers CSV


In [114]:
print("\nüì• CHARGEMENT DES FICHIERS CSV DEPUIS DATA LAKE")
print("=" * 70)

# ========================================
# 1. Charger le fichier des bornes IRVE
# ========================================
print("\n1Ô∏è‚É£  Chargement du fichier BORNES IRVE...")
df_bornes = lire_csv_depuis_datalake(CONTAINER_BRONZE, FICHIER_BORNES, separator=';', encoding='utf-8')

print(f"   Colonnes : {list(df_bornes.columns[:10])}...")
print(f"   Premi√®res lignes :")
print(df_bornes.head(2))

# ========================================
# 2. Charger le fichier des communes
# ========================================
print("\n2Ô∏è‚É£  Chargement du fichier COMMUNES...")
df_communes = lire_csv_depuis_datalake(CONTAINER_GOLD, FICHIER_COMMUNES, separator=',', encoding='utf-8')

print(f"   Colonnes : {list(df_communes.columns[:10])}...")
print(f"   Premi√®res lignes :")
print(df_communes.head(2))

print("\n‚úÖ Tous les fichiers CSV charg√©s avec succ√®s")
print("=" * 70)


üì• CHARGEMENT DES FICHIERS CSV DEPUIS DATA LAKE

1Ô∏è‚É£  Chargement du fichier BORNES IRVE...
‚è≥ Lecture de bornes-irve/2025/01/bornes_irve_hdf_20250131.csv...
‚úÖ Fichier charg√© : 1666 lignes, 22 colonnes
   Colonnes : ['n_amenageur', 'n_operateur', 'n_enseigne', 'id_station', 'n_station', 'ad_station', 'code_insee', 'Xlongitude', 'Ylatitude', 'nbre_pdc']...
   Premi√®res lignes :
                                         n_amenageur  \
0  Communaut√© d'Agglom√©ration Maubeuge Val de Sambre   
1  Communaut√© d'Agglom√©ration Maubeuge Val de Sambre   

                     n_operateur            n_enseigne         id_station  \
0  BOUYGUES ENERGIES ET SERVICES  pass pass √©lectrique  FR*H02*P59101*001   
1  BOUYGUES ENERGIES ET SERVICES  pass pass √©lectrique  FR*H02*P59543*001   

                              n_station  \
0      BOUSIGNIES-SUR-ROC - Grand Place   
1  SAINT-R√âMY-DU-NORD - Rue de la Place   

                                 ad_station  code_insee  Xlongitude  \


Cellule 7 : ETL - Chargement de DIM_GEOGRAPHIE


In [115]:
from tqdm import tqdm

print("\nüì• ETL - CHARGEMENT DE DIM_GEOGRAPHIE")
print("=" * 70)

# ========================================
# FILTRER UNIQUEMENT LES D√âPARTEMENTS HDF (59, 62, 80)
# ========================================
print(f"\n‚è≥ Filtrage des communes des Hauts-de-France ({', '.join(DEPARTEMENTS_HDF)})...")

df_communes_hdf = df_communes[df_communes['dep_code'].astype(str).isin(DEPARTEMENTS_HDF)].copy()
print(f"‚úÖ {len(df_communes_hdf)} communes trouv√©es dans les Hauts-de-France")

# ========================================
# PR√âPARATION DES DONN√âES GEOGRAPHIQUES
# ========================================
print("\n‚è≥ Pr√©paration des donn√©es g√©ographiques...")

# S√©lectionner et renommer les colonnes n√©cessaires selon votre sch√©ma de DWH
geo_data = df_communes_hdf[[
    'code_insee',
    'nom_standard',
    'code_postal',
    'reg_code',
    'reg_nom',
    'dep_code',
    'dep_nom',
    'population',
    'superficie_km2',
    'densite',
    'latitude_mairie',
    'longitude_mairie'
]].copy()

geo_data.columns = [
    'Code_INSEE',
    'Nom_Commune',
    'Code_Postal',
    'Reg_Code',
    'Reg_Nom',
    'Dep_Code',
    'Dep_Nom',
    'Population',
    'Superficie_km2',
    'Densite',
    'Latitude',
    'Longitude'
]

# Remplacer les NaN pour √©viter les soucis √† l'insertion
geo_data = geo_data.fillna({'Code_Postal': '00000', 'Population': 0, 'Superficie_km2': 0.0, 'Densite': 0.0, 'Latitude': 0.0, 'Longitude': 0.0})
geo_data['Population'] = geo_data['Population'].astype(int)

# Supprimer les doublons √©ventuels sur Code_INSEE
geo_data = geo_data.drop_duplicates(subset=['Code_INSEE'])

print(f"‚úÖ {len(geo_data)} g√©ographies uniques (Code_INSEE) √† charger")

# ========================================
# CHARGER LES CODE_INSEE EXISTANTS
# ========================================
print("\n‚è≥ Chargement des g√©ographies d√©j√† pr√©sentes dans le DWH...")
cursor_dwh.execute("SELECT Code_INSEE FROM DIM_GEOGRAPHIE")
geo_existantes = set(row[0] for row in cursor_dwh.fetchall())
print(f"‚úÖ {len(geo_existantes)} g√©ographies d√©j√† pr√©sentes dans DIM_GEOGRAPHIE")

# ========================================
# FILTRER LES NOUVELLES GEOGRAPHIES
# ========================================
geo_nouvelles = geo_data[~geo_data['Code_INSEE'].isin(geo_existantes)]
print(f"‚úÖ {len(geo_nouvelles)} nouvelles g√©ographies √† ins√©rer")

# ========================================
# INSERTION PAR BATCH (pour efficacit√©)
# ========================================
if len(geo_nouvelles) > 0:
    insert_query = """
    INSERT INTO DIM_GEOGRAPHIE (
        Code_INSEE, Nom_Commune, Code_Postal, Reg_Code, Reg_Nom,
        Dep_Code, Dep_Nom, Population, Superficie_km2, Densite,
        Latitude, Longitude
    ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
    """
    batch_size = 300
    total_insert = 0
    tuples = [tuple(x) for x in geo_nouvelles.values]
    for i in tqdm(range(0, len(tuples), batch_size), desc="Insertion g√©ographies", unit="batch"):
        batch = tuples[i:i+batch_size]
        try:
            cursor_dwh.executemany(insert_query, batch)
            cnxn_dwh.commit()
            total_insert += len(batch)
        except Exception as e:
            print(f"‚ö†Ô∏è Erreur batch {i//batch_size+1}: {e}")
            for row in batch:
                try:
                    cursor_dwh.execute(insert_query, row)
                    total_insert += 1
                except:
                    pass
            cnxn_dwh.commit()
    print(f"\n‚úÖ {total_insert} lignes ins√©r√©es dans DIM_GEOGRAPHIE")
else:
    print("‚úÖ Aucune nouvelle g√©ographie √† ins√©rer")

# ========================================
# NETTOYAGE DES DOUBLONS
# ========================================
print("\nüßπ Nettoyage des doublons dans DIM_GEOGRAPHIE...")

# D√©tecter les doublons par code INSEE (si jamais)
cursor_dwh.execute("""
SELECT Code_INSEE, COUNT(*) AS nb
FROM DIM_GEOGRAPHIE
GROUP BY Code_INSEE
HAVING COUNT(*) > 1
""")
doublons = cursor_dwh.fetchall()
doublons_count = sum([row[1]-1 for row in doublons])
if doublons_count > 0:
    print(f"‚ö†Ô∏è {doublons_count} doublons trouv√©s, suppression...")
    for row in doublons:
        code_insee = row[0]
        cursor_dwh.execute("""
            DELETE FROM DIM_GEOGRAPHIE
            WHERE Code_INSEE = ?
            AND SK_Geographie NOT IN (
                SELECT MIN(SK_Geographie)
                FROM DIM_GEOGRAPHIE
                WHERE Code_INSEE = ?
            )
        """, code_insee, code_insee)
        cnxn_dwh.commit()
    print("‚úÖ Doublons supprim√©s.")
else:
    print("‚úÖ Aucun doublon d√©tect√©.")

# Validation finale
cursor_dwh.execute("SELECT COUNT(*) FROM DIM_GEOGRAPHIE")
nb_final = cursor_dwh.fetchone()[0]
print(f"\nüìä Total final dans DIM_GEOGRAPHIE : {nb_final}")

print("=" * 70)


üì• ETL - CHARGEMENT DE DIM_GEOGRAPHIE

‚è≥ Filtrage des communes des Hauts-de-France (59, 62, 80, 60, 02)...
‚úÖ 3788 communes trouv√©es dans les Hauts-de-France

‚è≥ Pr√©paration des donn√©es g√©ographiques...
‚úÖ 3788 g√©ographies uniques (Code_INSEE) √† charger

‚è≥ Chargement des g√©ographies d√©j√† pr√©sentes dans le DWH...
‚úÖ 3788 g√©ographies d√©j√† pr√©sentes dans DIM_GEOGRAPHIE
‚úÖ 0 nouvelles g√©ographies √† ins√©rer
‚úÖ Aucune nouvelle g√©ographie √† ins√©rer

üßπ Nettoyage des doublons dans DIM_GEOGRAPHIE...
‚úÖ Aucun doublon d√©tect√©.

üìä Total final dans DIM_GEOGRAPHIE : 3788


üì¶ Cellule 8 : ETL - Chargement de DIM_BORNE_RECHARGE


In [116]:
from tqdm import tqdm

print("\nüì• ETL - CHARGEMENT DE DIM_BORNE_RECHARGE")
print("=" * 70)

# ========================================
# MAPPING DES COLONNES CSV ‚Üí DWH
# ========================================
print("‚è≥ Pr√©paration des donn√©es des bornes...")

# Renommer les colonnes du CSV pour correspondre au sch√©ma DWH
colonnes_mapping = {
    'id_station': 'ID_Station',
    'n_station': 'Nom_Station',
    'type_prise': 'Type_Prise',
    'puiss_max': 'Puissance_kW',
    'n_operateur': 'Operateur',
    'acces_recharge': 'Acces',
    'accessibilit√©': 'Statut',
    'date_maj': 'Date_Mise_Service',
    'code_insee_commune': 'code_insee_commune',
    'Xlongitude': 'Xlongitude',
    'Ylatitude': 'Ylatitude',
    'nbre_pdc': 'nbre_pdc'  # üÜï NOUVELLE COLONNE
}

df_bornes_clean = df_bornes.rename(columns=colonnes_mapping)

# S√©lectionner uniquement les colonnes n√©cessaires
colonnes_dwh = [
    'ID_Station',
    'Nom_Station',
    'Type_Prise',
    'Puissance_kW',
    'Operateur',
    'Acces',
    'Statut',
    'Date_Mise_Service',
    'code_insee_commune',
    'Xlongitude',
    'Ylatitude',
    'nbre_pdc'  # üÜï NOUVELLE COLONNE
]

df_bornes_clean = df_bornes_clean[colonnes_dwh].copy()

# ========================================
# NETTOYAGE ET CONVERSION DES TYPES
# ========================================
print("‚è≥ Nettoyage et conversion des donn√©es...")

# Conversion de la puissance en num√©rique
df_bornes_clean['Puissance_kW'] = pd.to_numeric(df_bornes_clean['Puissance_kW'], errors='coerce').fillna(0.0)

# üÜï Conversion du nombre de PDC en entier
df_bornes_clean['nbre_pdc'] = pd.to_numeric(df_bornes_clean['nbre_pdc'], errors='coerce').fillna(0).astype(int)

# Conversion de la date
df_bornes_clean['Date_Mise_Service'] = pd.to_datetime(df_bornes_clean['Date_Mise_Service'], errors='coerce')

# Nettoyage des valeurs NULL pour les champs obligatoires
df_bornes_clean['ID_Station'] = df_bornes_clean['ID_Station'].fillna('STATION_INCONNUE')
df_bornes_clean['Nom_Station'] = df_bornes_clean['Nom_Station'].fillna('Non renseign√©')
df_bornes_clean['Type_Prise'] = df_bornes_clean['Type_Prise'].fillna('Type inconnu')
df_bornes_clean['Operateur'] = df_bornes_clean['Operateur'].fillna('Op√©rateur inconnu')
df_bornes_clean['Acces'] = df_bornes_clean['Acces'].fillna('Non renseign√©')
df_bornes_clean['Statut'] = df_bornes_clean['Statut'].fillna('Non renseign√©')
df_bornes_clean['Xlongitude'] = df_bornes_clean['Xlongitude'].astype(str).fillna('0.0')
df_bornes_clean['Ylatitude'] = df_bornes_clean['Ylatitude'].astype(str).fillna('0.0')

# ========================================
# FORMATAGE DU CODE INSEE (PADDING √Ä 5 CHIFFRES)
# ========================================
print("‚è≥ Formatage des codes INSEE...")

# Convertir en string et nettoyer
df_bornes_clean['code_insee_commune'] = df_bornes_clean['code_insee_commune'].astype(str).str.strip()

# Remplacer 'nan' ou valeurs vides par '00000'
df_bornes_clean['code_insee_commune'] = df_bornes_clean['code_insee_commune'].replace(['nan', 'None', ''], '00000')

# Ajouter un z√©ro devant si le code fait 4 chiffres (ex: 2563 -> 02563)
def formater_code_insee(code):
    """Formate le code INSEE pour qu'il ait toujours 5 chiffres"""
    code = str(code).strip()
    
    # Si c'est un code num√©rique
    if code.isdigit():
        # Padding avec des z√©ros √† gauche pour avoir 5 chiffres
        return code.zfill(5)
    else:
        # Sinon, retourner tel quel ou code par d√©faut
        return code if code != '' else '00000'

df_bornes_clean['code_insee_commune'] = df_bornes_clean['code_insee_commune'].apply(formater_code_insee)

print(f"‚úÖ Codes INSEE format√©s")
print(f"\nüìä Exemples de codes INSEE apr√®s formatage :")
print(df_bornes_clean['code_insee_commune'].head(10).tolist())

# Supprimer les doublons sur la combinaison ID_Station + Type_Prise + Puissance
df_bornes_clean = df_bornes_clean.drop_duplicates(
    subset=['ID_Station', 'Type_Prise', 'Puissance_kW']
)

print(f"\n‚úÖ {len(df_bornes_clean)} bornes uniques pr√©par√©es")

# ========================================
# CHARGER LES BORNES EXISTANTES EN M√âMOIRE
# ========================================
print("\n‚è≥ Chargement des bornes d√©j√† pr√©sentes dans le DWH...")
cursor_dwh.execute("""
SELECT ID_Station, Type_Prise, Puissance_kW
FROM DIM_BORNE_RECHARGE
""")

bornes_existantes = set()
for row in cursor_dwh.fetchall():
    cle = (row[0], row[1], float(row[2]))
    bornes_existantes.add(cle)

print(f"‚úÖ {len(bornes_existantes)} bornes d√©j√† pr√©sentes dans le DWH")

# ========================================
# FILTRER LES NOUVELLES BORNES √Ä INS√âRER
# ========================================
print("\n‚è≥ Filtrage des nouvelles bornes √† ins√©rer...")
nouvelles_bornes = []

for idx, row in df_bornes_clean.iterrows():
    cle = (row['ID_Station'], row['Type_Prise'], float(row['Puissance_kW']))
    
    if cle not in bornes_existantes:
        nouvelles_bornes.append((
            row['ID_Station'],
            row['Nom_Station'],
            row['Type_Prise'],
            float(row['Puissance_kW']),
            row['Operateur'],
            row['Acces'],
            row['Statut'],
            row['Date_Mise_Service'],
            row['code_insee_commune'],  # Format√© √† 5 chiffres
            row['Xlongitude'],
            row['Ylatitude'],
            int(row['nbre_pdc'])  # üÜï NOUVELLE COLONNE
        ))

skip_count = len(df_bornes_clean) - len(nouvelles_bornes)
print(f"‚úÖ {len(nouvelles_bornes)} nouvelles bornes √† ins√©rer")
print(f"‚ö†Ô∏è  {skip_count} bornes d√©j√† existantes (ignor√©es)")

# ========================================
# INSERTION PAR BATCH
# ========================================
if len(nouvelles_bornes) > 0:
    print("\n‚è≥ Insertion des nouvelles bornes...")
    
    insert_query = """
    INSERT INTO DIM_BORNE_RECHARGE (
        ID_Station, Nom_Station, Type_Prise, Puissance_kW,
        Operateur, Acces, Statut, Date_Mise_Service,
        code_insee_commune, Xlongitude, Ylatitude, nbre_pdc
    )
    VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
    """
    
    batch_size = 500
    insert_count = 0
    
    for i in tqdm(range(0, len(nouvelles_bornes), batch_size), desc="Insertion bornes", unit="batch"):
        batch = nouvelles_bornes[i:i+batch_size]
        
        try:
            cursor_dwh.executemany(insert_query, batch)
            cnxn_dwh.commit()
            insert_count += len(batch)
        except Exception as e:
            print(f"\n‚ö†Ô∏è  Erreur lors de l'insertion du batch {i//batch_size + 1} : {e}")
            # En cas d'erreur, ins√©rer ligne par ligne pour ce batch
            for borne in batch:
                try:
                    cursor_dwh.execute(insert_query, borne)
                    insert_count += 1
                except Exception as e_detail:
                    print(f"   ‚ùå Erreur insertion : {e_detail}")
                    print(f"   Donn√©es probl√©matiques : INSEE={borne[8]}, nbre_pdc={borne[11]}")
            cnxn_dwh.commit()
    
    print(f"\n‚úÖ Insertion termin√©e : {insert_count} bornes ins√©r√©es")
else:
    print("\n‚úÖ Aucune nouvelle borne √† ins√©rer")
    insert_count = 0

# ========================================
# NETTOYAGE DES DOUBLONS
# ========================================
print("\nüßπ NETTOYAGE DES DOUBLONS")
print("=" * 70)

print("‚è≥ D√©tection des doublons...")
cursor_dwh.execute("""
SELECT ID_Station, Type_Prise, Puissance_kW, COUNT(*) as Nb_Doublons
FROM DIM_BORNE_RECHARGE
GROUP BY ID_Station, Type_Prise, Puissance_kW
HAVING COUNT(*) > 1
""")

doublons = cursor_dwh.fetchall()
nb_groupes_doublons = len(doublons)

if nb_groupes_doublons > 0:
    print(f"‚ö†Ô∏è  {nb_groupes_doublons} groupes de doublons trouv√©s")
    
    total_doublons_supprimes = 0
    
    # Supprimer les doublons pour chaque groupe
    for doublon in tqdm(doublons, desc="Suppression doublons", unit="groupe"):
        id_station = doublon[0]
        type_prise = doublon[1]
        puissance = doublon[2]
        nb_occurrences = doublon[3]
        
        # R√©cup√©rer tous les SK_Borne pour ce groupe
        cursor_dwh.execute("""
        SELECT SK_Borne
        FROM DIM_BORNE_RECHARGE
        WHERE ID_Station = ? AND Type_Prise = ? AND Puissance_kW = ?
        ORDER BY SK_Borne ASC
        """, id_station, type_prise, puissance)
        
        sk_bornes = [row[0] for row in cursor_dwh.fetchall()]
        
        # Garder le premier (plus ancien), supprimer les autres
        sk_a_garder = sk_bornes[0]
        sk_a_supprimer = sk_bornes[1:]
        
        # Supprimer les doublons
        for sk in sk_a_supprimer:
            cursor_dwh.execute("""
            DELETE FROM DIM_BORNE_RECHARGE
            WHERE SK_Borne = ?
            """, sk)
            total_doublons_supprimes += 1
    
    cnxn_dwh.commit()
    
    print(f"\n‚úÖ Nettoyage termin√© :")
    print(f"   ‚Ä¢ {nb_groupes_doublons} groupes de doublons trait√©s")
    print(f"   ‚Ä¢ {total_doublons_supprimes} enregistrements en doublon supprim√©s")
else:
    print("‚úÖ Aucun doublon trouv√© dans DIM_BORNE_RECHARGE")

# ========================================
# V√âRIFICATION FINALE
# ========================================
print("\nüîç V√âRIFICATION FINALE")
print("=" * 70)

cursor_dwh.execute("SELECT COUNT(*) FROM DIM_BORNE_RECHARGE")
total_final = cursor_dwh.fetchone()[0]
print(f"üìä Nombre total de bornes dans DIM_BORNE_RECHARGE : {total_final}")

# V√©rifier qu'il n'y a plus de doublons
cursor_dwh.execute("""
SELECT COUNT(*) 
FROM (
    SELECT ID_Station, Type_Prise, Puissance_kW, COUNT(*) as Nb
    FROM DIM_BORNE_RECHARGE
    GROUP BY ID_Station, Type_Prise, Puissance_kW
    HAVING COUNT(*) > 1
) AS Doublons
""")
nb_doublons_restants = cursor_dwh.fetchone()[0]

if nb_doublons_restants == 0:
    print("‚úÖ Aucun doublon d√©tect√© - Table propre !")
else:
    print(f"‚ö†Ô∏è  ATTENTION : {nb_doublons_restants} doublons restants d√©tect√©s")

# V√©rification de la r√©partition par d√©partement
print("\nüìç R√©partition des bornes par d√©partement (code INSEE) :")
cursor_dwh.execute("""
SELECT 
    LEFT(code_insee_commune, 2) as Dep_Code,
    COUNT(*) as Nb_Bornes,
    SUM(nbre_pdc) as Total_PDC
FROM DIM_BORNE_RECHARGE
WHERE code_insee_commune IS NOT NULL
GROUP BY LEFT(code_insee_commune, 2)
ORDER BY Nb_Bornes DESC
""")

for row in cursor_dwh.fetchall():
    print(f"   ‚Ä¢ D√©partement {row[0]} : {row[1]} bornes - {row[2]} points de charge")

# Statistiques sur les points de charge
print("\n‚ö° Statistiques sur les points de charge (PDC) :")
cursor_dwh.execute("""
SELECT 
    COUNT(*) as Nb_Stations,
    SUM(nbre_pdc) as Total_PDC,
    AVG(CAST(nbre_pdc AS FLOAT)) as Moyenne_PDC_Par_Station,
    MIN(nbre_pdc) as Min_PDC,
    MAX(nbre_pdc) as Max_PDC
FROM DIM_BORNE_RECHARGE
""")

stats_pdc = cursor_dwh.fetchone()
print(f"   ‚Ä¢ Nombre total de stations : {stats_pdc[0]}")
print(f"   ‚Ä¢ Total points de charge : {stats_pdc[1]}")
print(f"   ‚Ä¢ Moyenne PDC/station : {stats_pdc[2]:.2f}")
print(f"   ‚Ä¢ Min PDC : {stats_pdc[3]}")
print(f"   ‚Ä¢ Max PDC : {stats_pdc[4]}")

# Afficher quelques exemples de bornes ins√©r√©es
print("\nüìç Exemples de bornes ins√©r√©es :")
cursor_dwh.execute("""
SELECT TOP 5 
    ID_Station, Nom_Station, Type_Prise, Puissance_kW, 
    code_insee_commune, Xlongitude, Ylatitude, nbre_pdc
FROM DIM_BORNE_RECHARGE
ORDER BY SK_Borne DESC
""")

for row in cursor_dwh.fetchall():
    print(f"   ‚Ä¢ Station: {row[0]} | {row[1]}")
    print(f"     Type: {row[2]} | Puissance: {row[3]} kW | PDC: {row[7]}")
    print(f"     Commune INSEE: {row[4]} | Coords: ({row[5]}, {row[6]})")

print("\n" + "=" * 70)
print(f"‚úÖ CHARGEMENT TERMIN√â :")
print(f"   ‚Ä¢ {insert_count} nouvelles bornes ins√©r√©es")
print(f"   ‚Ä¢ {skip_count} bornes d√©j√† existantes (ignor√©es)")
if nb_groupes_doublons > 0:
    print(f"   ‚Ä¢ {total_doublons_supprimes} doublons supprim√©s")
print(f"   ‚Ä¢ {total_final} bornes uniques au total")
print("=" * 70)


üì• ETL - CHARGEMENT DE DIM_BORNE_RECHARGE
‚è≥ Pr√©paration des donn√©es des bornes...
‚è≥ Nettoyage et conversion des donn√©es...
‚è≥ Formatage des codes INSEE...
‚úÖ Codes INSEE format√©s

üìä Exemples de codes INSEE apr√®s formatage :
['59101', '59543', '59392', '59225', '59324', '59365', '59514', '59231', '59230', '59406']

‚úÖ 913 bornes uniques pr√©par√©es

‚è≥ Chargement des bornes d√©j√† pr√©sentes dans le DWH...
‚úÖ 913 bornes d√©j√† pr√©sentes dans le DWH

‚è≥ Filtrage des nouvelles bornes √† ins√©rer...
‚úÖ 0 nouvelles bornes √† ins√©rer
‚ö†Ô∏è  913 bornes d√©j√† existantes (ignor√©es)

‚úÖ Aucune nouvelle borne √† ins√©rer

üßπ NETTOYAGE DES DOUBLONS
‚è≥ D√©tection des doublons...
‚úÖ Aucun doublon trouv√© dans DIM_BORNE_RECHARGE

üîç V√âRIFICATION FINALE
üìä Nombre total de bornes dans DIM_BORNE_RECHARGE : 913
‚úÖ Aucun doublon d√©tect√© - Table propre !

üìç R√©partition des bornes par d√©partement (code INSEE) :
   ‚Ä¢ D√©partement 59 : 396 bornes - 1331 points de

üì¶ Cellule 09 : ETL - Chargement de FAIT_DISPONIBILITE_BORNE

In [117]:
from tqdm import tqdm

print("\nüì• ETL - CHARGEMENT DE FAIT_DISPONIBILITE_BORNE")
print("=" * 70)

# ========================================
# √âTAPE 1 : EXTRACTION DES DONN√âES DEPUIS DIM_BORNE_RECHARGE
# ========================================
print("\n‚è≥ Extraction des donn√©es depuis DIM_BORNE_RECHARGE...")

cursor_dwh.execute("""
SELECT 
    SK_Borne,
    code_insee_commune,
    nbre_pdc,
    Puissance_kW,
    Date_Mise_Service
FROM DIM_BORNE_RECHARGE
WHERE Date_Mise_Service IS NOT NULL
    AND code_insee_commune IS NOT NULL
    AND code_insee_commune != '00000'
ORDER BY SK_Borne
""")

bornes_source = cursor_dwh.fetchall()
print(f"‚úÖ {len(bornes_source)} bornes extraites de DIM_BORNE_RECHARGE")

if len(bornes_source) == 0:
    print("‚ö†Ô∏è  Aucune borne √† traiter. V√©rifiez DIM_BORNE_RECHARGE.")
    print("=" * 70)
else:
    # ========================================
    # √âTAPE 2 : CHARGEMENT DES TABLES DE R√âF√âRENCE EN M√âMOIRE
    # ========================================
    print("\n‚è≥ Chargement des r√©f√©rences DIM_GEOGRAPHIE...")
    cursor_dwh.execute("SELECT Code_INSEE, SK_Geographie FROM DIM_GEOGRAPHIE")
    mapping_geo = {row[0]: row[1] for row in cursor_dwh.fetchall()}
    print(f"‚úÖ {len(mapping_geo)} codes INSEE charg√©s")

    print("\n‚è≥ Chargement des r√©f√©rences DIM_TEMPS...")
    cursor_dwh.execute("SELECT CAST(Date AS DATE), SK_Temps FROM DIM_TEMPS")
    mapping_temps = {row[0]: row[1] for row in cursor_dwh.fetchall()}
    print(f"‚úÖ {len(mapping_temps)} dates charg√©es")

    # ========================================
    # √âTAPE 3 : R√âSOLUTION DES CL√âS √âTRANG√àRES
    # ========================================
    print("\n‚è≥ R√©solution des cl√©s √©trang√®res (SK_Geographie, SK_Temps)...")
    
    faits_a_inserer = []
    stats_erreurs = {
        'geo_introuvable': 0,
        'temps_introuvable': 0,
        'date_null': 0,
        'valides': 0
    }
    
    for borne in tqdm(bornes_source, desc="Traitement bornes", unit="borne"):
        sk_borne = borne[0]
        code_insee = borne[1]
        nbre_pdc = borne[2] if borne[2] is not None else 0
        puissance_kw = borne[3] if borne[3] is not None else 0.0
        date_mise_service = borne[4]
        
        # V√©rification de la date
        if date_mise_service is None:
            stats_erreurs['date_null'] += 1
            continue
        
        # R√©soudre SK_Geographie via code INSEE
        sk_geographie = mapping_geo.get(code_insee)
        if sk_geographie is None:
            stats_erreurs['geo_introuvable'] += 1
            continue
        
        # R√©soudre SK_Temps via Date_Mise_Service
        # Convertir en date si n√©cessaire
        if isinstance(date_mise_service, str):
            from datetime import datetime
            date_mise_service = datetime.strptime(date_mise_service, '%Y-%m-%d').date()
        
        sk_temps = mapping_temps.get(date_mise_service)
        if sk_temps is None:
            stats_erreurs['temps_introuvable'] += 1
            continue
        
        # ‚úÖ Tout est OK, on pr√©pare l'insertion
        stats_erreurs['valides'] += 1
        faits_a_inserer.append((
            sk_temps,
            sk_borne,
            sk_geographie,
            int(nbre_pdc),  # Nombre_prise_disponible
            float(puissance_kw),  # Puissance_Totale_kW
            date_mise_service  # Date_MAJ
        ))
    
    # ========================================
    # RAPPORT DE R√âSOLUTION
    # ========================================
    print(f"\nüìä RAPPORT DE R√âSOLUTION DES CL√âS :")
    print(f"   ‚úÖ Lignes valides : {stats_erreurs['valides']}")
    if stats_erreurs['geo_introuvable'] > 0:
        print(f"   ‚ö†Ô∏è  G√©ographie introuvable : {stats_erreurs['geo_introuvable']}")
    if stats_erreurs['temps_introuvable'] > 0:
        print(f"   ‚ö†Ô∏è  Date introuvable dans DIM_TEMPS : {stats_erreurs['temps_introuvable']}")
    if stats_erreurs['date_null'] > 0:
        print(f"   ‚ö†Ô∏è  Date NULL ignor√©e : {stats_erreurs['date_null']}")
    
    # ========================================
    # √âTAPE 4 : CHARGER LES FAITS EXISTANTS
    # ========================================
    print("\n‚è≥ Chargement des faits d√©j√† pr√©sents dans le DWH...")
    cursor_dwh.execute("""
    SELECT SK_Borne, SK_Temps
    FROM FAIT_DISPONIBILITE_BORNE
    """)
    
    faits_existants = set()
    for row in cursor_dwh.fetchall():
        cle = (row[0], row[1])  # (SK_Borne, SK_Temps)
        faits_existants.add(cle)
    
    print(f"‚úÖ {len(faits_existants)} faits d√©j√† pr√©sents")
    
    # ========================================
    # √âTAPE 5 : FILTRER LES NOUVEAUX FAITS
    # ========================================
    print("\n‚è≥ Filtrage des nouveaux faits √† ins√©rer...")
    nouveaux_faits = []
    
    for fait in faits_a_inserer:
        sk_temps = fait[0]
        sk_borne = fait[1]
        cle = (sk_borne, sk_temps)
        
        if cle not in faits_existants:
            nouveaux_faits.append(fait)
    
    skip_count = len(faits_a_inserer) - len(nouveaux_faits)
    print(f"‚úÖ {len(nouveaux_faits)} nouveaux faits √† ins√©rer")
    print(f"‚ö†Ô∏è  {skip_count} faits d√©j√† existants (ignor√©s)")
    
    # ========================================
    # √âTAPE 6 : INSERTION PAR BATCH
    # ========================================
    if len(nouveaux_faits) > 0:
        print("\n‚è≥ Insertion des nouveaux faits...")
        
        insert_query = """
        INSERT INTO FAIT_DISPONIBILITE_BORNE (
            SK_Temps,
            SK_Borne,
            SK_Geographie,
            Nombre_prise_disponible,
            Puissance_Totale_kW,
            Date_MAJ
        )
        VALUES (?, ?, ?, ?, ?, ?)
        """
        
        batch_size = 500
        insert_count = 0
        
        for i in tqdm(range(0, len(nouveaux_faits), batch_size), desc="Insertion faits", unit="batch"):
            batch = nouveaux_faits[i:i+batch_size]
            
            try:
                cursor_dwh.executemany(insert_query, batch)
                cnxn_dwh.commit()
                insert_count += len(batch)
            except Exception as e:
                print(f"\n‚ö†Ô∏è  Erreur lors de l'insertion du batch {i//batch_size + 1} : {e}")
                # En cas d'erreur, ins√©rer ligne par ligne
                for fait in batch:
                    try:
                        cursor_dwh.execute(insert_query, fait)
                        insert_count += 1
                    except Exception as e_detail:
                        print(f"   ‚ùå Erreur insertion : {e_detail}")
                        print(f"   Donn√©es : SK_Temps={fait[0]}, SK_Borne={fait[1]}, SK_Geo={fait[2]}")
                cnxn_dwh.commit()
        
        print(f"\n‚úÖ Insertion termin√©e : {insert_count} faits ins√©r√©s")
    else:
        print("\n‚úÖ Aucun nouveau fait √† ins√©rer")
        insert_count = 0
    
    # ========================================
    # √âTAPE 7 : NETTOYAGE DES DOUBLONS
    # ========================================
    print("\nüßπ NETTOYAGE DES DOUBLONS")
    print("=" * 70)
    
    print("‚è≥ D√©tection des doublons...")
    cursor_dwh.execute("""
    SELECT SK_Borne, SK_Temps, COUNT(*) as Nb_Doublons
    FROM FAIT_DISPONIBILITE_BORNE
    GROUP BY SK_Borne, SK_Temps
    HAVING COUNT(*) > 1
    """)
    
    doublons = cursor_dwh.fetchall()
    nb_groupes_doublons = len(doublons)
    
    if nb_groupes_doublons > 0:
        print(f"‚ö†Ô∏è  {nb_groupes_doublons} groupes de doublons trouv√©s")
        
        total_doublons_supprimes = 0
        
        # Supprimer les doublons (garder 1 seule ligne par combinaison SK_Borne + SK_Temps)
        for doublon in tqdm(doublons, desc="Suppression doublons", unit="groupe"):
            sk_borne = doublon[0]
            sk_temps = doublon[1]
            
            # Supprimer tous sauf le premier (on ne garde qu'une ligne)
            cursor_dwh.execute("""
            DELETE FROM FAIT_DISPONIBILITE_BORNE
            WHERE SK_Borne = ? AND SK_Temps = ?
            AND NOT EXISTS (
                SELECT TOP 1 1
                FROM FAIT_DISPONIBILITE_BORNE f2
                WHERE f2.SK_Borne = FAIT_DISPONIBILITE_BORNE.SK_Borne
                    AND f2.SK_Temps = FAIT_DISPONIBILITE_BORNE.SK_Temps
                ORDER BY f2.SK_Geographie ASC
            )
            """, sk_borne, sk_temps)
            
            total_doublons_supprimes += cursor_dwh.rowcount
        
        cnxn_dwh.commit()
        
        print(f"\n‚úÖ Nettoyage termin√© :")
        print(f"   ‚Ä¢ {nb_groupes_doublons} groupes de doublons trait√©s")
        print(f"   ‚Ä¢ {total_doublons_supprimes} enregistrements en doublon supprim√©s")
    else:
        print("‚úÖ Aucun doublon trouv√© dans FAIT_DISPONIBILITE_BORNE")
    
    # ========================================
    # √âTAPE 8 : V√âRIFICATIONS FINALES
    # ========================================
    print("\nüîç V√âRIFICATION FINALE")
    print("=" * 70)
    
    cursor_dwh.execute("SELECT COUNT(*) FROM FAIT_DISPONIBILITE_BORNE")
    total_final = cursor_dwh.fetchone()[0]
    print(f"üìä Nombre total de lignes dans FAIT_DISPONIBILITE_BORNE : {total_final}")
    
    # Statistiques globales
    print("\nüìà STATISTIQUES GLOBALES :")
    cursor_dwh.execute("""
    SELECT 
        COUNT(DISTINCT SK_Borne) as Nb_Bornes_Uniques,
        COUNT(DISTINCT SK_Geographie) as Nb_Communes_Uniques,
        COUNT(DISTINCT SK_Temps) as Nb_Dates_Uniques,
        SUM(Nombre_prise_disponible) as Total_Prises,
        AVG(CAST(Puissance_Totale_kW AS FLOAT)) as Puissance_Moyenne,
        MIN(Date_MAJ) as Date_Min,
        MAX(Date_MAJ) as Date_Max
    FROM FAIT_DISPONIBILITE_BORNE
    """)
    
    stats = cursor_dwh.fetchone()
    print(f"   ‚Ä¢ Bornes uniques : {stats[0]}")
    print(f"   ‚Ä¢ Communes uniques : {stats[1]}")
    print(f"   ‚Ä¢ Dates uniques : {stats[2]}")
    print(f"   ‚Ä¢ Total points de charge : {stats[3]}")
    print(f"   ‚Ä¢ Puissance moyenne : {stats[4]:.2f} kW")
    print(f"   ‚Ä¢ P√©riode couverte : {stats[5]} ‚Üí {stats[6]}")
    
    # R√©partition par d√©partement
    print("\nüìç R√©partition par d√©partement :")
    cursor_dwh.execute("""
    SELECT 
        g.Dep_Code,
        g.Dep_Nom,
        COUNT(DISTINCT f.SK_Borne) as Nb_Bornes,
        SUM(f.Nombre_prise_disponible) as Total_Prises,
        COUNT(DISTINCT f.SK_Geographie) as Nb_Communes
    FROM FAIT_DISPONIBILITE_BORNE f
    JOIN DIM_GEOGRAPHIE g ON f.SK_Geographie = g.SK_Geographie
    GROUP BY g.Dep_Code, g.Dep_Nom
    ORDER BY Nb_Bornes DESC
    """)
    
    
    for row in cursor_dwh.fetchall():
        print(f"   ‚Ä¢ {row[1]} ({row[0]}) : {row[2]} bornes - {row[3]} prises - {row[4]} communes")
    
    # Top 10 des communes avec le plus de prises
    print("\nüèÜ Top 10 des communes avec le plus de points de charge :")
    cursor_dwh.execute("""
    SELECT TOP 10
        g.Nom_Commune,
        g.Dep_Nom,
        COUNT(DISTINCT f.SK_Borne) as Nb_Bornes,
        SUM(f.Nombre_prise_disponible) as Total_Prises,
        AVG(CAST(f.Puissance_Totale_kW AS FLOAT)) as Puissance_Moyenne
    FROM FAIT_DISPONIBILITE_BORNE f
    JOIN DIM_GEOGRAPHIE g ON f.SK_Geographie = g.SK_Geographie
    GROUP BY g.Nom_Commune, g.Dep_Nom
    ORDER BY Total_Prises DESC
    """)
    
    for row in cursor_dwh.fetchall():
        print(f"   ‚Ä¢ {row[0]} ({row[1]}) : {row[2]} bornes - {row[3]} prises - {row[4]:.2f} kW moy.")
    
    # V√©rification de l'int√©grit√© r√©f√©rentielle
    print("\nüîó V√âRIFICATION DE L'INT√âGRIT√â R√âF√âRENTIELLE :")
    
    # V√©rifier les FK vers DIM_BORNE_RECHARGE
    cursor_dwh.execute("""
    SELECT COUNT(*) 
    FROM FAIT_DISPONIBILITE_BORNE f
    WHERE NOT EXISTS (
        SELECT 1 FROM DIM_BORNE_RECHARGE b 
        WHERE b.SK_Borne = f.SK_Borne
    )
    """)
    orphelins_borne = cursor_dwh.fetchone()[0]
    
    # V√©rifier les FK vers DIM_GEOGRAPHIE
    cursor_dwh.execute("""
    SELECT COUNT(*) 
    FROM FAIT_DISPONIBILITE_BORNE f
    WHERE NOT EXISTS (
        SELECT 1 FROM DIM_GEOGRAPHIE g 
        WHERE g.SK_Geographie = f.SK_Geographie
    )
    """)
    orphelins_geo = cursor_dwh.fetchone()[0]
    
    # V√©rifier les FK vers DIM_TEMPS
    cursor_dwh.execute("""
    SELECT COUNT(*) 
    FROM FAIT_DISPONIBILITE_BORNE f
    WHERE NOT EXISTS (
        SELECT 1 FROM DIM_TEMPS t 
        WHERE t.SK_Temps = f.SK_Temps
    )
    """)
    orphelins_temps = cursor_dwh.fetchone()[0]
    
    if orphelins_borne == 0 and orphelins_geo == 0 and orphelins_temps == 0:
        print("   ‚úÖ Toutes les cl√©s √©trang√®res sont valides")
    else:
        if orphelins_borne > 0:
            print(f"   ‚ö†Ô∏è  {orphelins_borne} faits avec SK_Borne orphelin")
        if orphelins_geo > 0:
            print(f"   ‚ö†Ô∏è  {orphelins_geo} faits avec SK_Geographie orphelin")
        if orphelins_temps > 0:
            print(f"   ‚ö†Ô∏è  {orphelins_temps} faits avec SK_Temps orphelin")
    
    # V√©rifier les doublons restants
    cursor_dwh.execute("""
    SELECT COUNT(*) 
    FROM (
        SELECT SK_Borne, SK_Temps, COUNT(*) as Nb
        FROM FAIT_DISPONIBILITE_BORNE
        GROUP BY SK_Borne, SK_Temps
        HAVING COUNT(*) > 1
    ) AS Doublons
    """)
    nb_doublons_restants = cursor_dwh.fetchone()[0]
    
    if nb_doublons_restants == 0:
        print("   ‚úÖ Aucun doublon d√©tect√© (cl√© : SK_Borne + SK_Temps)")
    else:
        print(f"   ‚ö†Ô∏è  ATTENTION : {nb_doublons_restants} doublons restants d√©tect√©s")
    
    # Afficher quelques exemples de faits ins√©r√©s
    print("\nüìã EXEMPLES DE FAITS INS√âR√âS :")
    cursor_dwh.execute("""
    SELECT TOP 5
        t.Date,
        t.Jour_Semaine,
        b.ID_Station,
        b.Nom_Station,
        g.Nom_Commune,
        g.Dep_Nom,
        f.Nombre_prise_disponible,
        f.Puissance_Totale_kW
    FROM FAIT_DISPONIBILITE_BORNE f
    JOIN DIM_TEMPS t ON f.SK_Temps = t.SK_Temps
    JOIN DIM_BORNE_RECHARGE b ON f.SK_Borne = b.SK_Borne
    JOIN DIM_GEOGRAPHIE g ON f.SK_Geographie = g.SK_Geographie
    ORDER BY f.SK_Borne DESC
    """)
    
    for row in cursor_dwh.fetchall():
        print(f"\n   üìÖ Date : {row[0]} ({row[1]})")
        print(f"   üîå Station : {row[2]}")
        print(f"   üìç Localisation : {row[3]} - {row[4]} ({row[5]})")
        print(f"   ‚ö° Capacit√© : {row[6]} prises - {row[7]} kW")
    
    # ========================================
    # R√âSUM√â FINAL
    # ========================================
    print("\n" + "=" * 70)
    print("‚úÖ CHARGEMENT TERMIN√â - FAIT_DISPONIBILITE_BORNE")
    print("=" * 70)
    print(f"   üìä Total de lignes dans la table : {total_final}")
    print(f"   ‚ûï Nouvelles lignes ins√©r√©es : {insert_count}")
    print(f"   ‚è≠Ô∏è  Lignes d√©j√† existantes (ignor√©es) : {skip_count}")
    if nb_groupes_doublons > 0:
        print(f"   üßπ Doublons supprim√©s : {total_doublons_supprimes}")
    print(f"\n   üìå R√©solution des cl√©s :")
    print(f"      ‚Ä¢ Lignes valides : {stats_erreurs['valides']}")
    if stats_erreurs['geo_introuvable'] > 0:
        print(f"      ‚Ä¢ G√©ographies introuvables : {stats_erreurs['geo_introuvable']}")
    if stats_erreurs['temps_introuvable'] > 0:
        print(f"      ‚Ä¢ Dates introuvables : {stats_erreurs['temps_introuvable']}")
    if stats_erreurs['date_null'] > 0:
        print(f"      ‚Ä¢ Dates NULL ignor√©es : {stats_erreurs['date_null']}")
    print("\n   üéØ Couverture :")
    print(f"      ‚Ä¢ {stats[0]} bornes uniques")
    print(f"      ‚Ä¢ {stats[1]} communes √©quip√©es")
    print(f"      ‚Ä¢ {stats[3]} points de charge au total")
    print(f"      ‚Ä¢ P√©riode : {stats[5]} ‚Üí {stats[6]}")
    print("=" * 70)

print("\n‚úÖ Cellule 9 termin√©e avec succ√®s !")
    


üì• ETL - CHARGEMENT DE FAIT_DISPONIBILITE_BORNE

‚è≥ Extraction des donn√©es depuis DIM_BORNE_RECHARGE...
‚úÖ 913 bornes extraites de DIM_BORNE_RECHARGE

‚è≥ Chargement des r√©f√©rences DIM_GEOGRAPHIE...
‚úÖ 3788 codes INSEE charg√©s

‚è≥ Chargement des r√©f√©rences DIM_TEMPS...
‚úÖ 4018 dates charg√©es

‚è≥ R√©solution des cl√©s √©trang√®res (SK_Geographie, SK_Temps)...


Traitement bornes: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 913/913 [00:00<00:00, 456641.97borne/s]


üìä RAPPORT DE R√âSOLUTION DES CL√âS :
   ‚úÖ Lignes valides : 685
   ‚ö†Ô∏è  Date introuvable dans DIM_TEMPS : 228

‚è≥ Chargement des faits d√©j√† pr√©sents dans le DWH...





‚úÖ 0 faits d√©j√† pr√©sents

‚è≥ Filtrage des nouveaux faits √† ins√©rer...
‚úÖ 685 nouveaux faits √† ins√©rer
‚ö†Ô∏è  0 faits d√©j√† existants (ignor√©s)

‚è≥ Insertion des nouveaux faits...


Insertion faits: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [01:54<00:00, 57.19s/batch]



‚úÖ Insertion termin√©e : 685 faits ins√©r√©s

üßπ NETTOYAGE DES DOUBLONS
‚è≥ D√©tection des doublons...
‚úÖ Aucun doublon trouv√© dans FAIT_DISPONIBILITE_BORNE

üîç V√âRIFICATION FINALE
üìä Nombre total de lignes dans FAIT_DISPONIBILITE_BORNE : 685

üìà STATISTIQUES GLOBALES :
   ‚Ä¢ Bornes uniques : 685
   ‚Ä¢ Communes uniques : 292
   ‚Ä¢ Dates uniques : 9
   ‚Ä¢ Total points de charge : 2128
   ‚Ä¢ Puissance moyenne : 23.51 kW
   ‚Ä¢ P√©riode couverte : 2020-04-03 ‚Üí 2021-09-07

üìç R√©partition par d√©partement :
   ‚Ä¢ Nord (59) : 350 bornes - 1239 prises - 150 communes
   ‚Ä¢ Pas-de-Calais (62) : 185 bornes - 578 prises - 70 communes
   ‚Ä¢ Aisne (02) : 143 bornes - 284 prises - 67 communes
   ‚Ä¢ Oise (60) : 4 bornes - 14 prises - 3 communes
   ‚Ä¢ Somme (80) : 3 bornes - 13 prises - 2 communes

üèÜ Top 10 des communes avec le plus de points de charge :
   ‚Ä¢ Lezennes (Nord) : 5 bornes - 130 prises - 16.85 kW moy.
   ‚Ä¢ Lille (Nord) : 13 bornes - 106 prises - 19.81 kW

üìä Cellule 10 : Contr√¥le Qualit√© des Donn√©es du DWH + Fermeture des Connexions

In [118]:
print("\nüîí FERMETURE DES CONNEXIONS")
print("=" * 70)

# ========================================
# FERMETURE DU CURSEUR DWH
# ========================================
try:
    if 'cursor_dwh' in locals() and cursor_dwh:
        cursor_dwh.close()
        print("‚úÖ Curseur DWH ferm√©")
except Exception as e:
    print(f"‚ö†Ô∏è  Erreur lors de la fermeture du curseur : {e}")

# ========================================
# FERMETURE DE LA CONNEXION DWH
# ========================================
try:
    if 'cnxn_dwh' in locals() and cnxn_dwh:
        cnxn_dwh.close()
        print("‚úÖ Connexion DWH ferm√©e")
except Exception as e:
    print(f"‚ö†Ô∏è  Erreur lors de la fermeture de la connexion : {e}")

print("\n" + "=" * 70)
print("‚úÖ Toutes les connexions ont √©t√© ferm√©es avec succ√®s")
print("=" * 70)
print("\nüéâ FIN DU NOTEBOOK - ETL TERMIN√â")
print("\nüìä R√âSUM√â DES TABLES CHARG√âES :")
print("   ‚Ä¢ DIM_GEOGRAPHIE")
print("   ‚Ä¢ DIM_BORNE_RECHARGE")
print("   ‚Ä¢ DIM_TEMPS")
print("   ‚Ä¢ FAIT_DISPONIBILITE_BORNE")
print("\nüíæ Votre Data Warehouse est maintenant pr√™t pour l'analyse !")
print("=" * 70)


üîí FERMETURE DES CONNEXIONS
‚úÖ Curseur DWH ferm√©
‚úÖ Connexion DWH ferm√©e

‚úÖ Toutes les connexions ont √©t√© ferm√©es avec succ√®s

üéâ FIN DU NOTEBOOK - ETL TERMIN√â

üìä R√âSUM√â DES TABLES CHARG√âES :
   ‚Ä¢ DIM_GEOGRAPHIE
   ‚Ä¢ DIM_BORNE_RECHARGE
   ‚Ä¢ DIM_TEMPS
   ‚Ä¢ FAIT_DISPONIBILITE_BORNE

üíæ Votre Data Warehouse est maintenant pr√™t pour l'analyse !
