üì¶ Cellule 1 : Imports et Configuration


In [4]:
# ========================================
# IMPORTS
# ========================================
import pandas as pd
import pyodbc
from dotenv import load_dotenv
import os
from tqdm import tqdm
import warnings
from datetime import datetime
warnings.filterwarnings('ignore')

print("=" * 70)
print("üìä ETL - CHARGEMENT DE FAIT_ENTREPRISE_AUTOMOBILE")
print("=" * 70)

# ========================================
# CHARGEMENT DES VARIABLES D'ENVIRONNEMENT
# ========================================
load_dotenv()

# Configuration DWH
DB_SERVER_DWH = os.getenv('DB_SERVER_DWH-student')
DB_DATABASE_DWH = os.getenv('DB_DATABASE_DWH')
DB_USERNAME_DWH = os.getenv('DB_USERNAME_DWH')
DB_PASSWORD_DWH = os.getenv('DB_PASSWORD_DWH')

print("\n‚úÖ Variables d'environnement charg√©es")
print(f"   ‚Ä¢ DWH Server : {DB_SERVER_DWH}")
print(f"   ‚Ä¢ DWH Database : {DB_DATABASE_DWH}")

üìä ETL - CHARGEMENT DE FAIT_ENTREPRISE_AUTOMOBILE

‚úÖ Variables d'environnement charg√©es
   ‚Ä¢ DWH Server : carter-cash-serveur-student.database.windows.net
   ‚Ä¢ DWH Database : DWH_E5_projet_AUTO


üì¶ Cellule 2 : Connexion au DWH


In [5]:
print("\n" + "=" * 70)
print("üîó CONNEXION AU DATA WAREHOUSE")
print("=" * 70)

try:
    driver = '{ODBC Driver 17 for SQL Server}'
    
    connection_string_dwh = (
        'DRIVER=' + driver + 
        ';SERVER=' + DB_SERVER_DWH + 
        ';PORT=1433;DATABASE=' + DB_DATABASE_DWH + 
        ';UID=' + DB_USERNAME_DWH + 
        ';PWD=' + DB_PASSWORD_DWH
    )
    
    cnxn_dwh = pyodbc.connect(connection_string_dwh)
    cursor_dwh = cnxn_dwh.cursor()
    
    print(f"‚úÖ Connexion r√©ussie au DWH")
    print(f"   ‚Ä¢ Serveur : {DB_SERVER_DWH}")
    print(f"   ‚Ä¢ Base de donn√©es : {DB_DATABASE_DWH}")
    
except Exception as e:
    print(f"‚ùå Erreur de connexion au DWH : {e}")
    raise


üîó CONNEXION AU DATA WAREHOUSE
‚úÖ Connexion r√©ussie au DWH
   ‚Ä¢ Serveur : carter-cash-serveur-student.database.windows.net
   ‚Ä¢ Base de donn√©es : DWH_E5_projet_AUTO


üì¶ Cellule 3 : Fonction de mapping Tranche_Effectifs ‚Üí Estimation_Salaries


In [6]:
print("\n" + "=" * 70)
print("üî¢ D√âFINITION DU MAPPING TRANCHE_EFFECTIFS ‚Üí ESTIMATION_SALARIES")
print("=" * 70)

# ========================================
# MAPPING DES TRANCHES D'EFFECTIFS INSEE
# ========================================
# Source : https://www.sirene.fr/sirene/public/variable/tefen

TRANCHE_EFFECTIFS_MAPPING = {
    'NN': None,  # Non renseign√©
    '00': 0,     # 0 salari√©
    '01': 1,     # 1 ou 2 salari√©s ‚Üí moyenne = 1.5 arrondi √† 1
    '02': 4,     # 3 √† 5 salari√©s ‚Üí moyenne = 4
    '03': 7,     # 6 √† 9 salari√©s ‚Üí moyenne = 7.5 arrondi √† 7
    '11': 14,    # 10 √† 19 salari√©s ‚Üí moyenne = 14.5 arrondi √† 14
    '12': 34,    # 20 √† 49 salari√©s ‚Üí moyenne = 34.5 arrondi √† 34
    '21': 74,    # 50 √† 99 salari√©s ‚Üí moyenne = 74.5 arrondi √† 74
    '22': 149,   # 100 √† 199 salari√©s ‚Üí moyenne = 149.5 arrondi √† 149
    '31': 224,   # 200 √† 249 salari√©s ‚Üí moyenne = 224.5 arrondi √† 224
    '32': 374,   # 250 √† 499 salari√©s ‚Üí moyenne = 374.5 arrondi √† 374
    '41': 749,   # 500 √† 999 salari√©s ‚Üí moyenne = 749.5 arrondi √† 749
    '42': 1499,  # 1000 √† 1999 salari√©s ‚Üí moyenne = 1499.5 arrondi √† 1499
    '51': 3499,  # 2000 √† 4999 salari√©s ‚Üí moyenne = 3499.5 arrondi √† 3499
    '52': 7499,  # 5000 √† 9999 salari√©s ‚Üí moyenne = 7499.5 arrondi √† 7499
    '53': 10000, # 10000 salari√©s et plus ‚Üí estimation conservatrice = 10000
}

def get_estimation_salaries(tranche):
    """Convertit une tranche d'effectifs en estimation num√©rique"""
    if pd.isna(tranche) or str(tranche).strip() == '':
        return None
    
    tranche_str = str(tranche).strip().upper()
    return TRANCHE_EFFECTIFS_MAPPING.get(tranche_str, None)

print("‚úÖ Mapping des tranches d'effectifs d√©fini")
print("\nüìä EXEMPLES DE MAPPING :")
for tranche, estimation in list(TRANCHE_EFFECTIFS_MAPPING.items())[:10]:
    if estimation is not None:
        print(f"   ‚Ä¢ Tranche '{tranche}' ‚Üí {estimation} salari√©s (estimation)")
    else:
        print(f"   ‚Ä¢ Tranche '{tranche}' ‚Üí Non renseign√©")


üî¢ D√âFINITION DU MAPPING TRANCHE_EFFECTIFS ‚Üí ESTIMATION_SALARIES
‚úÖ Mapping des tranches d'effectifs d√©fini

üìä EXEMPLES DE MAPPING :
   ‚Ä¢ Tranche 'NN' ‚Üí Non renseign√©
   ‚Ä¢ Tranche '00' ‚Üí 0 salari√©s (estimation)
   ‚Ä¢ Tranche '01' ‚Üí 1 salari√©s (estimation)
   ‚Ä¢ Tranche '02' ‚Üí 4 salari√©s (estimation)
   ‚Ä¢ Tranche '03' ‚Üí 7 salari√©s (estimation)
   ‚Ä¢ Tranche '11' ‚Üí 14 salari√©s (estimation)
   ‚Ä¢ Tranche '12' ‚Üí 34 salari√©s (estimation)
   ‚Ä¢ Tranche '21' ‚Üí 74 salari√©s (estimation)
   ‚Ä¢ Tranche '22' ‚Üí 149 salari√©s (estimation)
   ‚Ä¢ Tranche '31' ‚Üí 224 salari√©s (estimation)


üì¶ Cellule 4 : Extraction des donn√©es sources


In [7]:
print("\n" + "=" * 70)
print("üì• EXTRACTION DES DONN√âES SOURCES")
print("=" * 70)

# ========================================
# EXTRAIRE DIM_ENTREPRISE
# ========================================
print("\n‚è≥ Chargement de DIM_ENTREPRISE...")
query_entreprise = """
SELECT 
    SK_Entreprise,
    SIREN,
    SIRET,
    NAF,
    Code_Commune,
    Tranche_Effectifs,
    Date_Creation,
    Date_Debut_Validite,
    Date_Fin_Validite,
    Flag_Actuel,
    Etat_Administratif
FROM DIM_ENTREPRISE
WHERE Flag_Actuel = 1
  AND Etat_Administratif = 'A'
  AND SIRET IS NOT NULL
  AND NAF IS NOT NULL
  AND Code_Commune IS NOT NULL
"""

df_entreprise = pd.read_sql(query_entreprise, cnxn_dwh)
print(f"‚úÖ {len(df_entreprise)} entreprises actives charg√©es")

# ========================================
# EXTRAIRE DIM_ACTIVITE_NAF
# ========================================
print("\n‚è≥ Chargement de DIM_ACTIVITE_NAF...")
query_activite = """
SELECT 
    SK_Activite,
    Code_NAF
FROM DIM_ACTIVITE_NAF
"""

df_activite = pd.read_sql(query_activite, cnxn_dwh)
print(f"‚úÖ {len(df_activite)} codes NAF charg√©s")

# ========================================
# EXTRAIRE DIM_GEOGRAPHIE
# ========================================
print("\n‚è≥ Chargement de DIM_GEOGRAPHIE...")
query_geographie = """
SELECT 
    SK_Geographie,
    Code_INSEE
FROM DIM_GEOGRAPHIE
"""

df_geographie = pd.read_sql(query_geographie, cnxn_dwh)
print(f"‚úÖ {len(df_geographie)} communes charg√©es")

# ========================================
# EXTRAIRE DIM_TEMPS
# ========================================
print("\n‚è≥ Chargement de DIM_TEMPS...")
query_temps = """
SELECT 
    SK_Temps,
    Date
FROM DIM_TEMPS
"""

df_temps = pd.read_sql(query_temps, cnxn_dwh)
print(f"‚úÖ {len(df_temps)} dates charg√©es")

print(f"\nüìä APER√áU DES DONN√âES ENTREPRISE :")
print(df_entreprise.head(10))


üì• EXTRACTION DES DONN√âES SOURCES

‚è≥ Chargement de DIM_ENTREPRISE...
‚úÖ 19028 entreprises actives charg√©es

‚è≥ Chargement de DIM_ACTIVITE_NAF...
‚úÖ 18 codes NAF charg√©s

‚è≥ Chargement de DIM_GEOGRAPHIE...
‚úÖ 3788 communes charg√©es

‚è≥ Chargement de DIM_TEMPS...
‚úÖ 4018 dates charg√©es

üìä APER√áU DES DONN√âES ENTREPRISE :
   SK_Entreprise     SIREN          SIRET     NAF Code_Commune  \
0              1   7211253   721125300021  4520BC        80001   
1              2   7320161   732016100024  4520AB        80649   
2              3   7320187   732018700029  45.31Z        80001   
3              4   7320187   732018700052  45.31Z        80001   
4              5   7320294   732029400023  45.11Z        80308   
5              6  25480401  2548040101053  45.31Z        59367   
6              7  25480401  2548040101087  45.31Z        60057   
7              8  25480401  2548040101095  45.31Z        59183   
8              9  25480401  2548040101129  45.31Z        59459  

üì¶ Cellule 5 : Jointures et Pr√©paration des donn√©es


In [8]:
print("\n" + "=" * 70)
print("üîó JOINTURES ET PR√âPARATION DES DONN√âES")
print("=" * 70)

# ========================================
# APPLIQUER LE MAPPING DES EFFECTIFS
# ========================================
print("\n‚è≥ Application du mapping des effectifs...")
df_entreprise['Estimation_Salaries'] = df_entreprise['Tranche_Effectifs'].apply(get_estimation_salaries)

# Statistiques sur les effectifs
effectifs_renseignes = df_entreprise['Estimation_Salaries'].notna().sum()
effectifs_non_renseignes = df_entreprise['Estimation_Salaries'].isna().sum()

print(f"‚úÖ Mapping appliqu√©")
print(f"   ‚Ä¢ Effectifs renseign√©s : {effectifs_renseignes} ({effectifs_renseignes/len(df_entreprise)*100:.1f}%)")
print(f"   ‚Ä¢ Effectifs non renseign√©s : {effectifs_non_renseignes} ({effectifs_non_renseignes/len(df_entreprise)*100:.1f}%)")

# ========================================
# JOINTURE AVEC DIM_ACTIVITE_NAF
# ========================================
print("\n‚è≥ Jointure avec DIM_ACTIVITE_NAF...")
df_entreprise = df_entreprise.merge(
    df_activite,
    left_on='NAF',
    right_on='Code_NAF',
    how='inner'
)
print(f"‚úÖ {len(df_entreprise)} entreprises apr√®s jointure NAF")

# ========================================
# JOINTURE AVEC DIM_GEOGRAPHIE
# ========================================
print("\n‚è≥ Jointure avec DIM_GEOGRAPHIE...")
df_entreprise = df_entreprise.merge(
    df_geographie,
    left_on='Code_Commune',
    right_on='Code_INSEE',
    how='inner'
)
print(f"‚úÖ {len(df_entreprise)} entreprises apr√®s jointure GEOGRAPHIE")

# ========================================
# D√âTERMINER LA DATE DE R√âF√âRENCE
# ========================================
print("\n‚è≥ D√©termination de la date de r√©f√©rence...")

# Utiliser Date_Fin_Validite, sinon Date_Debut_Validite, sinon Date_Creation
def get_date_reference(row):
    if pd.notna(row['Date_Fin_Validite']):
        return row['Date_Fin_Validite']
    elif pd.notna(row['Date_Debut_Validite']):
        return row['Date_Debut_Validite']
    elif pd.notna(row['Date_Creation']):
        return row['Date_Creation']
    else:
        return None

df_entreprise['Date_Reference'] = df_entreprise.apply(get_date_reference, axis=1)

# Supprimer les lignes sans date de r√©f√©rence
nb_avant = len(df_entreprise)
df_entreprise = df_entreprise[df_entreprise['Date_Reference'].notna()]
nb_apres = len(df_entreprise)

if nb_avant != nb_apres:
    print(f"‚ö†Ô∏è  {nb_avant - nb_apres} entreprises supprim√©es (pas de date de r√©f√©rence)")

print(f"‚úÖ {len(df_entreprise)} entreprises avec date de r√©f√©rence")

# ========================================
# JOINTURE AVEC DIM_TEMPS
# ========================================
print("\n‚è≥ Jointure avec DIM_TEMPS...")

# Convertir Date_Reference en date seule (sans heure)
df_entreprise['Date_Reference'] = pd.to_datetime(df_entreprise['Date_Reference']).dt.date

# Convertir la colonne Date de df_temps en date
df_temps['Date'] = pd.to_datetime(df_temps['Date']).dt.date

df_entreprise = df_entreprise.merge(
    df_temps,
    left_on='Date_Reference',
    right_on='Date',
    how='inner'
)
print(f"‚úÖ {len(df_entreprise)} entreprises apr√®s jointure TEMPS")

# ========================================
# S√âLECTIONNER LES COLONNES N√âCESSAIRES
# ========================================
print("\n‚è≥ S√©lection des colonnes pour la table de faits...")

df_fait = df_entreprise[[
    'SK_Temps',
    'SK_Entreprise',
    'SK_Activite',
    'SK_Geographie',
    'SIRET',
    'Estimation_Salaries'
]].copy()

print(f"‚úÖ {len(df_fait)} lignes pr√©par√©es")

print(f"\nüìä APER√áU DES DONN√âES PR√âPAR√âES :")
print(df_fait.head(10))


üîó JOINTURES ET PR√âPARATION DES DONN√âES

‚è≥ Application du mapping des effectifs...
‚úÖ Mapping appliqu√©
   ‚Ä¢ Effectifs renseign√©s : 4495 (23.6%)
   ‚Ä¢ Effectifs non renseign√©s : 14533 (76.4%)

‚è≥ Jointure avec DIM_ACTIVITE_NAF...
‚úÖ 13493 entreprises apr√®s jointure NAF

‚è≥ Jointure avec DIM_GEOGRAPHIE...
‚úÖ 12398 entreprises apr√®s jointure GEOGRAPHIE

‚è≥ D√©termination de la date de r√©f√©rence...
‚úÖ 12398 entreprises avec date de r√©f√©rence

‚è≥ Jointure avec DIM_TEMPS...
‚úÖ 12398 entreprises apr√®s jointure TEMPS

‚è≥ S√©lection des colonnes pour la table de faits...
‚úÖ 12398 lignes pr√©par√©es

üìä APER√áU DES DONN√âES PR√âPAR√âES :
   SK_Temps  SK_Entreprise  SK_Activite  SK_Geographie          SIRET  \
0      2167              3           13           3024   732018700029   
1      2166              4           13           3024   732018700052   
2      2166              5            4           3309   732029400023   
3      2167              6           13

üì¶ Cellule 6 : Agr√©gation et Calcul de Nombre_Etablissements


In [9]:
print("\n" + "=" * 70)
print("üìä AGR√âGATION ET CALCUL DES M√âTRIQUES")
print("=" * 70)

# ========================================
# AGR√âGATION PAR DIMENSIONS
# ========================================
print("\n‚è≥ Agr√©gation des donn√©es par dimensions...")

# Grouper par les 4 dimensions et calculer les m√©triques
df_fait_agg = df_fait.groupby([
    'SK_Temps',
    'SK_Entreprise',
    'SK_Activite',
    'SK_Geographie'
]).agg({
    'SIRET': 'count',  # Nombre d'√©tablissements (normalement 1 par ligne)
    'Estimation_Salaries': 'first'  # Prendre la premi√®re valeur (devrait √™tre la m√™me)
}).reset_index()

# Renommer les colonnes
df_fait_agg = df_fait_agg.rename(columns={
    'SIRET': 'Nombre_Etablissements'
})

print(f"‚úÖ Agr√©gation termin√©e : {len(df_fait_agg)} lignes")

# ========================================
# G√âRER LES VALEURS NULL POUR ESTIMATION_SALARIES
# ========================================
print("\n‚è≥ Gestion des valeurs NULL pour Estimation_Salaries...")

# Les valeurs NULL dans Estimation_Salaries doivent √™tre ins√©r√©es comme NULL en SQL
# On va les garder comme NaN pour l'instant

null_count = df_fait_agg['Estimation_Salaries'].isna().sum()
print(f"   ‚Ä¢ Lignes avec Estimation_Salaries NULL : {null_count}")

# ========================================
# STATISTIQUES SUR LES DONN√âES AGR√âG√âES
# ========================================
print("\nüìä STATISTIQUES SUR LES DONN√âES AGR√âG√âES :")
print(f"   ‚Ä¢ Total de lignes : {len(df_fait_agg)}")
print(f"   ‚Ä¢ Total d'√©tablissements : {df_fait_agg['Nombre_Etablissements'].sum()}")
print(f"   ‚Ä¢ Estimation totale de salari√©s : {df_fait_agg['Estimation_Salaries'].sum():.0f}" if df_fait_agg['Estimation_Salaries'].notna().any() else "   ‚Ä¢ Estimation totale de salari√©s : Non calculable")
print(f"   ‚Ä¢ Nombre de SK_Temps uniques : {df_fait_agg['SK_Temps'].nunique()}")
print(f"   ‚Ä¢ Nombre d'entreprises uniques : {df_fait_agg['SK_Entreprise'].nunique()}")
print(f"   ‚Ä¢ Nombre d'activit√©s NAF uniques : {df_fait_agg['SK_Activite'].nunique()}")
print(f"   ‚Ä¢ Nombre de communes uniques : {df_fait_agg['SK_Geographie'].nunique()}")

print(f"\nüìä APER√áU DES DONN√âES AGR√âG√âES :")
print(df_fait_agg.head(20))


üìä AGR√âGATION ET CALCUL DES M√âTRIQUES

‚è≥ Agr√©gation des donn√©es par dimensions...
‚úÖ Agr√©gation termin√©e : 12398 lignes

‚è≥ Gestion des valeurs NULL pour Estimation_Salaries...
   ‚Ä¢ Lignes avec Estimation_Salaries NULL : 10566

üìä STATISTIQUES SUR LES DONN√âES AGR√âG√âES :
   ‚Ä¢ Total de lignes : 12398
   ‚Ä¢ Total d'√©tablissements : 12398
   ‚Ä¢ Estimation totale de salari√©s : 21792
   ‚Ä¢ Nombre de SK_Temps uniques : 105
   ‚Ä¢ Nombre d'entreprises uniques : 12398
   ‚Ä¢ Nombre d'activit√©s NAF uniques : 7
   ‚Ä¢ Nombre de communes uniques : 1641

üìä APER√áU DES DONN√âES AGR√âG√âES :
    SK_Temps  SK_Entreprise  SK_Activite  SK_Geographie  \
0       2067           9194            9           1876   
1       2067          18332            4           1384   
2       2067          18344            9           1013   
3       2067          18365            9           2563   
4       2068           1635            9           2016   
5       2068           5330    

üì¶ Cellule 7 : Chargement dans FAIT_ENTREPRISE_AUTOMOBILE


In [10]:
print("\n" + "=" * 70)
print("üì• ETL - CHARGEMENT DE FAIT_ENTREPRISE_AUTOMOBILE")
print("=" * 70)

# ========================================
# V√âRIFIER LES ENREGISTREMENTS EXISTANTS
# ========================================
print("\n‚è≥ V√©rification des enregistrements existants...")

cursor_dwh.execute("""
SELECT COUNT(*) 
FROM FAIT_ENTREPRISE_AUTOMOBILE
""")
nb_existants = cursor_dwh.fetchone()[0]
print(f"‚úÖ {nb_existants} enregistrements d√©j√† pr√©sents dans FAIT_ENTREPRISE_AUTOMOBILE")

# ========================================
# FILTRER LES NOUVEAUX ENREGISTREMENTS
# ========================================
print("\n‚è≥ Filtrage des nouveaux enregistrements...")

# Charger les combinaisons existantes
query_existants = """
SELECT 
    SK_Temps,
    SK_Entreprise,
    SK_Activite,
    SK_Geographie
FROM FAIT_ENTREPRISE_AUTOMOBILE
"""

if nb_existants > 0:
    df_existants = pd.read_sql(query_existants, cnxn_dwh)
    
    # Cr√©er une colonne de cl√© composite pour faciliter la comparaison
    df_existants['cle_composite'] = (
        df_existants['SK_Temps'].astype(str) + '_' +
        df_existants['SK_Entreprise'].astype(str) + '_' +
        df_existants['SK_Activite'].astype(str) + '_' +
        df_existants['SK_Geographie'].astype(str)
    )
    
    df_fait_agg['cle_composite'] = (
        df_fait_agg['SK_Temps'].astype(str) + '_' +
        df_fait_agg['SK_Entreprise'].astype(str) + '_' +
        df_fait_agg['SK_Activite'].astype(str) + '_' +
        df_fait_agg['SK_Geographie'].astype(str)
    )
    
    # Filtrer les nouveaux
    df_fait_nouveaux = df_fait_agg[~df_fait_agg['cle_composite'].isin(df_existants['cle_composite'])]
    
    # Supprimer la colonne temporaire
    df_fait_nouveaux = df_fait_nouveaux.drop(columns=['cle_composite'])
    
    skip_count = len(df_fait_agg) - len(df_fait_nouveaux)
    
    print(f"‚úÖ {len(df_fait_nouveaux)} nouveaux enregistrements √† ins√©rer")
    print(f"‚ö†Ô∏è  {skip_count} enregistrements d√©j√† existants (ignor√©s)")
else:
    df_fait_nouveaux = df_fait_agg.copy()
    skip_count = 0
    print(f"‚úÖ {len(df_fait_nouveaux)} enregistrements √† ins√©rer (table vide)")

# ========================================
# INSERTION PAR BATCH
# ========================================
if len(df_fait_nouveaux) > 0:
    print("\n‚è≥ Insertion des nouveaux enregistrements...")
    
    insert_query = """
    INSERT INTO FAIT_ENTREPRISE_AUTOMOBILE (
        SK_Temps,
        SK_Entreprise,
        SK_Activite,
        SK_Geographie,
        Nombre_Etablissements,
        Estimation_Salaries
    ) VALUES (?, ?, ?, ?, ?, ?)
    """
    
    batch_size = 1000
    total_insert = 0
    
    # Pr√©parer les tuples pour l'insertion
    tuples = []
    for _, row in df_fait_nouveaux.iterrows():
        tuples.append((
            int(row['SK_Temps']),
            int(row['SK_Entreprise']),
            int(row['SK_Activite']),
            int(row['SK_Geographie']),
            int(row['Nombre_Etablissements']),
            int(row['Estimation_Salaries']) if pd.notna(row['Estimation_Salaries']) else None
        ))
    
    # Insertion par batch
    for i in tqdm(range(0, len(tuples), batch_size), desc="Insertion faits", unit="batch"):
        batch = tuples[i:i+batch_size]
        try:
            cursor_dwh.executemany(insert_query, batch)
            cnxn_dwh.commit()
            total_insert += len(batch)
        except Exception as e:
            print(f"\n‚ö†Ô∏è  Erreur batch {i//batch_size+1}: {e}")
            # Ins√©rer ligne par ligne en cas d'erreur
            for row_data in batch:
                try:
                    cursor_dwh.execute(insert_query, row_data)
                    cnxn_dwh.commit()
                    total_insert += 1
                except Exception as e_detail:
                    print(f"   ‚ùå Erreur : {e_detail}")
                    print(f"   Donn√©es : {row_data}")
    
    print(f"\n‚úÖ Insertion termin√©e : {total_insert} enregistrements ins√©r√©s")
else:
    print("\n‚úÖ Aucun nouvel enregistrement √† ins√©rer")
    total_insert = 0


üì• ETL - CHARGEMENT DE FAIT_ENTREPRISE_AUTOMOBILE

‚è≥ V√©rification des enregistrements existants...
‚úÖ 0 enregistrements d√©j√† pr√©sents dans FAIT_ENTREPRISE_AUTOMOBILE

‚è≥ Filtrage des nouveaux enregistrements...
‚úÖ 12398 enregistrements √† ins√©rer (table vide)

‚è≥ Insertion des nouveaux enregistrements...


Insertion faits: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 13/13 [02:02<00:00,  9.39s/batch]


‚úÖ Insertion termin√©e : 12398 enregistrements ins√©r√©s





üì¶ Cellule 8 : V√©rifications finales


In [11]:
print("\n" + "=" * 70)
print("üîç V√âRIFICATION FINALE")
print("=" * 70)

# ========================================
# STATISTIQUES GLOBALES
# ========================================
cursor_dwh.execute("SELECT COUNT(*) FROM FAIT_ENTREPRISE_AUTOMOBILE")
total_final = cursor_dwh.fetchone()[0]
print(f"\nüìä Nombre total d'enregistrements dans FAIT_ENTREPRISE_AUTOMOBILE : {total_final}")

# Total des √©tablissements
cursor_dwh.execute("""
SELECT 
    SUM(Nombre_Etablissements) as Total_Etablissements,
    SUM(Estimation_Salaries) as Total_Salaries_Estimation,
    COUNT(CASE WHEN Estimation_Salaries IS NULL THEN 1 END) as Nb_Sans_Estimation
FROM FAIT_ENTREPRISE_AUTOMOBILE
""")

row = cursor_dwh.fetchone()
print(f"\nüìà M√âTRIQUES GLOBALES :")
print(f"   ‚Ä¢ Total d'√©tablissements : {row[0]}")
print(f"   ‚Ä¢ Estimation totale de salari√©s : {int(row[1]) if row[1] else 'Non calculable'}")
print(f"   ‚Ä¢ Enregistrements sans estimation : {row[2]}")

# R√©partition par activit√© NAF
print("\nüìà TOP 10 DES ACTIVIT√âS NAF :")
cursor_dwh.execute("""
SELECT TOP 10
    a.Code_NAF,
    a.Intitule_NAF_40,
    SUM(f.Nombre_Etablissements) as Total_Etablissements,
    SUM(f.Estimation_Salaries) as Total_Salaries
FROM FAIT_ENTREPRISE_AUTOMOBILE f
INNER JOIN DIM_ACTIVITE_NAF a ON f.SK_Activite = a.SK_Activite
GROUP BY a.Code_NAF, a.Intitule_NAF_40
ORDER BY Total_Etablissements DESC
""")

for row in cursor_dwh.fetchall():
    code_naf = row[0]
    intitule = row[1]
    nb_etab = row[2]
    nb_salaries = int(row[3]) if row[3] else 0
    print(f"   ‚Ä¢ {code_naf} - {intitule}")
    print(f"     ‚îî‚îÄ {nb_etab} √©tablissements | {nb_salaries} salari√©s (estimation)")

# R√©partition par commune (TOP 10)
print("\nüìà TOP 10 DES COMMUNES :")
cursor_dwh.execute("""
SELECT TOP 10
    g.Nom_Commune,
    g.Code_INSEE,
    g.Code_Postal,
    SUM(f.Nombre_Etablissements) as Total_Etablissements,
    SUM(f.Estimation_Salaries) as Total_Salaries
FROM FAIT_ENTREPRISE_AUTOMOBILE f
INNER JOIN DIM_GEOGRAPHIE g ON f.SK_Geographie = g.SK_Geographie
GROUP BY g.Nom_Commune, g.Code_INSEE, g.Code_Postal
ORDER BY Total_Etablissements DESC
""")

for row in cursor_dwh.fetchall():
    commune = row[0]
    code_insee = row[1]
    code_postal = row[2]
    nb_etab = row[3]
    nb_salaries = int(row[4]) if row[4] else 0
    print(f"   ‚Ä¢ {commune} ({code_postal})")
    print(f"     ‚îî‚îÄ {nb_etab} √©tablissements | {nb_salaries} salari√©s (estimation)")

# R√©partition par ann√©e
print("\nüìà R√âPARTITION PAR ANN√âE :")
cursor_dwh.execute("""
SELECT 
    t.Annee,
    SUM(f.Nombre_Etablissements) as Total_Etablissements,
    SUM(f.Estimation_Salaries) as Total_Salaries
FROM FAIT_ENTREPRISE_AUTOMOBILE f
INNER JOIN DIM_TEMPS t ON f.SK_Temps = t.SK_Temps
GROUP BY t.Annee
ORDER BY t.Annee
""")

for row in cursor_dwh.fetchall():
    annee = row[0]
    nb_etab = row[1]
    nb_salaries = int(row[2]) if row[2] else 0
    print(f"   ‚Ä¢ {annee} : {nb_etab} √©tablissements | {nb_salaries} salari√©s (estimation)")

# ========================================
# EXEMPLES D'ENREGISTREMENTS
# ========================================
print("\nüìã EXEMPLES D'ENREGISTREMENTS DANS LA TABLE :")
print("=" * 70)
cursor_dwh.execute("""
SELECT TOP 10
    t.Date,
    e.SIRET,
    e.Denomination,
    a.Code_NAF,
    a.Intitule_NAF_40,
    g.Nom_Commune,
    g.Code_Postal,
    f.Nombre_Etablissements,
    f.Estimation_Salaries
FROM FAIT_ENTREPRISE_AUTOMOBILE f
INNER JOIN DIM_TEMPS t ON f.SK_Temps = t.SK_Temps
INNER JOIN DIM_ENTREPRISE e ON f.SK_Entreprise = e.SK_Entreprise
INNER JOIN DIM_ACTIVITE_NAF a ON f.SK_Activite = a.SK_Activite
INNER JOIN DIM_GEOGRAPHIE g ON f.SK_Geographie = g.SK_Geographie
ORDER BY t.Date DESC
""")

print(f"\n{'Date':<12} {'SIRET':<15} {'D√©nomination':<25} {'NAF':<8} {'Commune':<20} {'Nb Etab':<8} {'Salari√©s':<10}")
print("-" * 130)

for row in cursor_dwh.fetchall():
    date_str = row[0].strftime('%Y-%m-%d') if row[0] else ''
    siret = row[1] if row[1] else ''
    denom = row[2][:25] if row[2] else ''
    naf = row[3] if row[3] else ''
    commune = row[5][:20] if row[5] else ''
    nb_etab = row[7]
    salaries = int(row[8]) if row[8] else 0
    
    print(f"{date_str:<12} {siret:<15} {denom:<25} {naf:<8} {commune:<20} {nb_etab:<8} {salaries:<10}")

# ========================================
# V√âRIFICATION DE L'INT√âGRIT√â R√âF√âRENTIELLE
# ========================================
print("\nüîç V√âRIFICATION DE L'INT√âGRIT√â R√âF√âRENTIELLE :")
print("=" * 70)

# V√©rifier les FK vers DIM_TEMPS
cursor_dwh.execute("""
SELECT COUNT(*) 
FROM FAIT_ENTREPRISE_AUTOMOBILE f
LEFT JOIN DIM_TEMPS t ON f.SK_Temps = t.SK_Temps
WHERE t.SK_Temps IS NULL
""")
nb_orphelins_temps = cursor_dwh.fetchone()[0]

# V√©rifier les FK vers DIM_ENTREPRISE
cursor_dwh.execute("""
SELECT COUNT(*) 
FROM FAIT_ENTREPRISE_AUTOMOBILE f
LEFT JOIN DIM_ENTREPRISE e ON f.SK_Entreprise = e.SK_Entreprise
WHERE e.SK_Entreprise IS NULL
""")
nb_orphelins_entreprise = cursor_dwh.fetchone()[0]

# V√©rifier les FK vers DIM_ACTIVITE_NAF
cursor_dwh.execute("""
SELECT COUNT(*) 
FROM FAIT_ENTREPRISE_AUTOMOBILE f
LEFT JOIN DIM_ACTIVITE_NAF a ON f.SK_Activite = a.SK_Activite
WHERE a.SK_Activite IS NULL
""")
nb_orphelins_activite = cursor_dwh.fetchone()[0]

# V√©rifier les FK vers DIM_GEOGRAPHIE
cursor_dwh.execute("""
SELECT COUNT(*) 
FROM FAIT_ENTREPRISE_AUTOMOBILE f
LEFT JOIN DIM_GEOGRAPHIE g ON f.SK_Geographie = g.SK_Geographie
WHERE g.SK_Geographie IS NULL
""")
nb_orphelins_geographie = cursor_dwh.fetchone()[0]

print(f"   ‚Ä¢ Enregistrements orphelins DIM_TEMPS : {nb_orphelins_temps}")
print(f"   ‚Ä¢ Enregistrements orphelins DIM_ENTREPRISE : {nb_orphelins_entreprise}")
print(f"   ‚Ä¢ Enregistrements orphelins DIM_ACTIVITE_NAF : {nb_orphelins_activite}")
print(f"   ‚Ä¢ Enregistrements orphelins DIM_GEOGRAPHIE : {nb_orphelins_geographie}")

if (nb_orphelins_temps + nb_orphelins_entreprise + nb_orphelins_activite + nb_orphelins_geographie) == 0:
    print("\n‚úÖ Int√©grit√© r√©f√©rentielle OK : Aucun enregistrement orphelin")
else:
    print("\n‚ö†Ô∏è  ATTENTION : Des enregistrements orphelins ont √©t√© d√©tect√©s !")

# ========================================
# R√âSUM√â FINAL
# ========================================
print("\n" + "=" * 70)
print("‚úÖ CHARGEMENT TERMIN√â - FAIT_ENTREPRISE_AUTOMOBILE")
print("=" * 70)
print(f"   üìä Total d'enregistrements dans la table : {total_final}")
print(f"   ‚ûï Nouveaux enregistrements ins√©r√©s : {total_insert}")
print(f"   ‚è≠Ô∏è  Enregistrements d√©j√† existants : {skip_count}")
print("=" * 70)


üîç V√âRIFICATION FINALE

üìä Nombre total d'enregistrements dans FAIT_ENTREPRISE_AUTOMOBILE : 12398

üìà M√âTRIQUES GLOBALES :
   ‚Ä¢ Total d'√©tablissements : 12398
   ‚Ä¢ Estimation totale de salari√©s : 21792
   ‚Ä¢ Enregistrements sans estimation : 10566

üìà TOP 10 DES ACTIVIT√âS NAF :
   ‚Ä¢ 45.11Z - Comm. de voiture & v√©hicule auto. l√©ger
     ‚îî‚îÄ 6352 √©tablissements | 11447 salari√©s (estimation)
   ‚Ä¢ 45.20A - Entretien & r√©par. v√©hicule auto. l√©ger
     ‚îî‚îÄ 4041 √©tablissements | 2388 salari√©s (estimation)
   ‚Ä¢ 45.32Z - Commerce de d√©tail √©quipement automobile
     ‚îî‚îÄ 999 √©tablissements | 3384 salari√©s (estimation)
   ‚Ä¢ 45.31Z - Commerce de gros d'√©quipement automobile
     ‚îî‚îÄ 473 √©tablissements | 2924 salari√©s (estimation)
   ‚Ä¢ 45.40Z - Commerce et r√©paration de motocycles
     ‚îî‚îÄ 243 √©tablissements | 157 salari√©s (estimation)
   ‚Ä¢ 45.19Z - Commerce d'autres v√©hicules automobiles
     ‚îî‚îÄ 161 √©tablissements | 720 salari√

üì¶ Cellule 9 : Fermeture des connexions


In [12]:
print("\n" + "=" * 70)
print("üîí FERMETURE DES CONNEXIONS")
print("=" * 70)

# ========================================
# FERMETURE DU CURSEUR DWH
# ========================================
try:
    if 'cursor_dwh' in locals() and cursor_dwh:
        cursor_dwh.close()
        print("‚úÖ Curseur DWH ferm√©")
except Exception as e:
    print(f"‚ö†Ô∏è  Erreur lors de la fermeture du curseur : {e}")

# ========================================
# FERMETURE DE LA CONNEXION DWH
# ========================================
try:
    if 'cnxn_dwh' in locals() and cnxn_dwh:
        cnxn_dwh.close()
        print("‚úÖ Connexion DWH ferm√©e")
except Exception as e:
    print(f"‚ö†Ô∏è  Erreur lors de la fermeture de la connexion : {e}")

print("\n" + "=" * 70)
print("‚úÖ Toutes les connexions ont √©t√© ferm√©es avec succ√®s")
print("=" * 70)
print("\nüéâ FIN DU NOTEBOOK - ETL FAIT_ENTREPRISE_AUTOMOBILE TERMIN√â")
print("\nüìä R√âSUM√â DES OP√âRATIONS :")
print(f"   ‚Ä¢ Table de faits : FAIT_ENTREPRISE_AUTOMOBILE")
print(f"   ‚Ä¢ Dimensions utilis√©es : DIM_TEMPS, DIM_ENTREPRISE, DIM_ACTIVITE_NAF, DIM_GEOGRAPHIE")
print(f"   ‚Ä¢ M√©trique calcul√©e : Nombre_Etablissements (COUNT DISTINCT)")
print(f"   ‚Ä¢ M√©trique estim√©e : Estimation_Salaries (mapping depuis Tranche_Effectifs)")
print(f"   ‚Ä¢ Total d'enregistrements : {total_final}")
print(f"   ‚Ä¢ Nouveaux enregistrements : {total_insert}")
print("\nüíæ Votre table de faits FAIT_ENTREPRISE_AUTOMOBILE est maintenant √† jour !")
print("=" * 70)


üîí FERMETURE DES CONNEXIONS
‚úÖ Curseur DWH ferm√©
‚úÖ Connexion DWH ferm√©e

‚úÖ Toutes les connexions ont √©t√© ferm√©es avec succ√®s

üéâ FIN DU NOTEBOOK - ETL FAIT_ENTREPRISE_AUTOMOBILE TERMIN√â

üìä R√âSUM√â DES OP√âRATIONS :
   ‚Ä¢ Table de faits : FAIT_ENTREPRISE_AUTOMOBILE
   ‚Ä¢ Dimensions utilis√©es : DIM_TEMPS, DIM_ENTREPRISE, DIM_ACTIVITE_NAF, DIM_GEOGRAPHIE
   ‚Ä¢ M√©trique calcul√©e : Nombre_Etablissements (COUNT DISTINCT)
   ‚Ä¢ M√©trique estim√©e : Estimation_Salaries (mapping depuis Tranche_Effectifs)
   ‚Ä¢ Total d'enregistrements : 12398
   ‚Ä¢ Nouveaux enregistrements : 12398

üíæ Votre table de faits FAIT_ENTREPRISE_AUTOMOBILE est maintenant √† jour !
