üì¶ Cellule 1 : Imports et Configuration


In [31]:
# ========================================
# IMPORTS
# ========================================
import pandas as pd
import pyodbc
from azure.storage.blob import BlobServiceClient
from dotenv import load_dotenv
import os
from io import BytesIO
from tqdm import tqdm
import warnings
import sys

warnings.filterwarnings('ignore')

print("=" * 70)
print("üìä ETL - CHARGEMENT DE DIM_ACTIVITE_NAF DEPUIS AZURE DATA LAKE")
print("=" * 70)

# ========================================
# CHARGEMENT DES VARIABLES D'ENVIRONNEMENT
# ========================================
load_dotenv()

# Configuration Azure Data Lake
STORAGE_ACCOUNT_NAME = os.getenv('STORAGE_ACCOUNT_NAME')
STORAGE_ACCOUNT_KEY = os.getenv('STORAGE_ACCOUNT_KEY')
CONTAINER_NAME_DATA_GOUV = "data-gouv"

# Configuration DWH
DB_SERVER_DWH = 'carter-cash-serveur.database.windows.net'
DB_DATABASE_DWH = 'DWH_E5_projet_AUTO'
DB_USERNAME_DWH = os.getenv('DB_USERNAME')
DB_PASSWORD_DWH = os.getenv('DB_PASSWORD')

print("\n‚úÖ Variables d'environnement charg√©es")
print(f"   ‚Ä¢ Storage Account : {STORAGE_ACCOUNT_NAME}")
print(f"   ‚Ä¢ Container : {CONTAINER_NAME_DATA_GOUV}")
print(f"   ‚Ä¢ DWH Database : {DB_DATABASE_DWH}")

üìä ETL - CHARGEMENT DE DIM_ACTIVITE_NAF DEPUIS AZURE DATA LAKE

‚úÖ Variables d'environnement charg√©es
   ‚Ä¢ Storage Account : datalakecertifimpe
   ‚Ä¢ Container : data-gouv
   ‚Ä¢ DWH Database : DWH_E5_projet_AUTO


üì¶ Cellule 2 : Connexion au Data Lake Azure


In [32]:
print("\n" + "=" * 70)
print("üîó CONNEXION AU DATA LAKE AZURE")
print("=" * 70)

try:
    # Cr√©er le client Blob Storage
    connection_string = f"DefaultEndpointsProtocol=https;AccountName={STORAGE_ACCOUNT_NAME};AccountKey={STORAGE_ACCOUNT_KEY};EndpointSuffix=core.windows.net"
    blob_service_client = BlobServiceClient.from_connection_string(connection_string)
    
    # Tester la connexion
    container_client = blob_service_client.get_container_client(CONTAINER_NAME_DATA_GOUV)
    
    print(f"‚úÖ Connexion r√©ussie au Data Lake : {STORAGE_ACCOUNT_NAME}")
    print(f"‚úÖ Container : {CONTAINER_NAME_DATA_GOUV}")
    
except Exception as e:
    print(f"‚ùå Erreur de connexion au Data Lake : {e}")
    raise


üîó CONNEXION AU DATA LAKE AZURE
‚úÖ Connexion r√©ussie au Data Lake : datalakecertifimpe
‚úÖ Container : data-gouv


üì¶ Cellule 3 : Connexion au DWH


In [33]:
print("\n" + "=" * 70)
print("üîó CONNEXION AU DATA WAREHOUSE")
print("=" * 70)

try:
    connection_string_dwh = (
        f'DRIVER={{ODBC Driver 17 for SQL Server}};'
        f'SERVER={DB_SERVER_DWH};'
        f'DATABASE={DB_DATABASE_DWH};'
        f'UID={DB_USERNAME_DWH};'
        f'PWD={DB_PASSWORD_DWH}'
    )
    
    cnxn_dwh = pyodbc.connect(connection_string_dwh)
    cursor_dwh = cnxn_dwh.cursor()
    
    print(f"‚úÖ Connexion r√©ussie au DWH")
    print(f"   ‚Ä¢ Serveur : {DB_SERVER_DWH}")
    print(f"   ‚Ä¢ Base de donn√©es : {DB_DATABASE_DWH}")
    
except Exception as e:
    print(f"‚ùå Erreur de connexion au DWH : {e}")
    raise


üîó CONNEXION AU DATA WAREHOUSE
‚úÖ Connexion r√©ussie au DWH
   ‚Ä¢ Serveur : carter-cash-serveur.database.windows.net
   ‚Ä¢ Base de donn√©es : DWH_E5_projet_AUTO


üì¶ Cellule 4 : T√©l√©chargement et Lecture du fichier NAF


In [34]:
print("\n" + "=" * 70)
print("üì• T√âL√âCHARGEMENT DU FICHIER NAF DEPUIS LE DATA LAKE")
print("=" * 70)

# ========================================
# S√âLECTIONNER LE BON FICHIER
# ========================================
# On a trouv√© ces fichiers dans la cellule pr√©c√©dente :
#   ‚Ä¢ data_NAF (dossier - √† ignorer)
#   ‚Ä¢ data_NAF/naf_rev2_20250129.xls
#   ‚Ä¢ data_NAF/naf_rev2_20250225.xls

# S√©lectionner le fichier le plus r√©cent (20250225)
blob_path = "data_NAF/naf_rev2_20250225.xls"

print(f"üìÇ Fichier s√©lectionn√© : {blob_path}")

try:
    # ========================================
    # T√âL√âCHARGER LE FICHIER
    # ========================================
    print(f"\n‚è≥ T√©l√©chargement du fichier...")
    
    blob_client = blob_service_client.get_blob_client(
        container=CONTAINER_NAME_DATA_GOUV, 
        blob=blob_path
    )
    
    # V√©rifier que le blob existe
    if not blob_client.exists():
        raise FileNotFoundError(f"Le fichier {blob_path} n'existe pas")
    
    # T√©l√©charger le contenu
    blob_data = blob_client.download_blob()
    blob_content = blob_data.readall()
    
    print(f"‚úÖ Fichier t√©l√©charg√© : {len(blob_content):,} octets ({len(blob_content)/1024:.2f} KB)")
    
    # ========================================
    # LIRE LE FICHIER EXCEL
    # ========================================
    print("\n‚è≥ Lecture du fichier Excel...")
    
    # Le fichier .xls n√©cessite le moteur 'xlrd'
    # Si erreur, installer : pip install xlrd
    df_naf_raw = pd.read_excel(BytesIO(blob_content), engine='xlrd')
    
    print(f"‚úÖ Fichier charg√© : {len(df_naf_raw)} lignes √ó {len(df_naf_raw.columns)} colonnes")
    
    # ========================================
    # AFFICHER LES DONN√âES BRUTES
    # ========================================
    print(f"\nüìä APER√áU DES PREMI√àRES LIGNES (BRUTES) :")
    print("=" * 70)
    print(df_naf_raw.head(20))
    
    print(f"\nüìä COLONNES D√âTECT√âES :")
    print(list(df_naf_raw.columns))
    
    print(f"\nüìä INFO SUR LE DATAFRAME :")
    df_naf_raw.info()
    
except FileNotFoundError as e:
    print(f"‚ùå Erreur : {e}")
    print("\nüí° SOLUTION :")
    print("   Le fichier n'existe pas √† ce chemin.")
    print("   Fichiers disponibles :")
    print("   ‚Ä¢ data_NAF/naf_rev2_20250129.xls")
    print("   ‚Ä¢ data_NAF/naf_rev2_20250225.xls")
    raise

except ImportError as e:
    print(f"‚ùå Erreur : Module 'xlrd' manquant")
    print("\nüí° SOLUTION :")
    print("   Installe le module xlrd pour lire les fichiers .xls :")
    print("   pip install xlrd")
    raise

except Exception as e:
    print(f"‚ùå Erreur lors du t√©l√©chargement/lecture du fichier : {e}")
    print(f"\nüîç Type d'erreur : {type(e).__name__}")
    print(f"üìÑ Chemin utilis√© : {blob_path}")
    raise


üì• T√âL√âCHARGEMENT DU FICHIER NAF DEPUIS LE DATA LAKE
üìÇ Fichier s√©lectionn√© : data_NAF/naf_rev2_20250225.xls

‚è≥ T√©l√©chargement du fichier...
‚úÖ Fichier t√©l√©charg√© : 311,808 octets (304.50 KB)

‚è≥ Lecture du fichier Excel...
‚úÖ Fichier charg√© : 2109 lignes √ó 5 colonnes

üìä APER√áU DES PREMI√àRES LIGNES (BRUTES) :
    ligne       Code       Intitul√©s de la  NAF r√©v. 2, version finale   \
0       1        NaN                                                NaN   
1       2  SECTION A                 AGRICULTURE, SYLVICULTURE ET P√äCHE   
2       3        NaN                                                NaN   
3       4         01  Culture et production animale, chasse et servi...   
4       5        NaN                                                NaN   
5       6       01.1                           Cultures non permanentes   
6       7      01.11  Culture de c√©r√©ales (√† l'exception du riz), de...   
7       8     01.11Z  Culture de c√©r√©ales (√† l'excepti

In [35]:
# Supprimer toutes les lignes o√π la colonne "Code" contient des NaN
df_naf_raw = df_naf_raw.dropna(subset=['Code'])



# R√©initialiser l'index
df_naf_raw = df_naf_raw.reset_index(drop=True)

df_naf_filtered = df_naf_raw[df_naf_raw['Code'].str.startswith(('45'))]


df_naf_raw = df_naf_filtered


In [36]:
df_naf_raw

Unnamed: 0,ligne,Code,"Intitul√©s de la NAF r√©v. 2, version finale","Intitul√©s NAF r√©v. 2, \nen 65 caract√®res","Intitul√©s NAF r√©v. 2, \nen 40 caract√®res"
874,1059,45,Commerce et r√©paration d'automobiles et de mot...,Commerce et r√©paration d'automobiles et de mot...,Commerce & r√©par. automobile & motocycle
875,1061,45.1,Commerce de v√©hicules automobiles,Commerce de v√©hicules automobiles,Commerce de v√©hicules automobiles
876,1062,45.11,Commerce de voitures et de v√©hicules automobil...,Commerce de voitures et de v√©hicules automobil...,Comm. de voiture & v√©hicule auto. l√©ger
877,1063,45.11Z,Commerce de voitures et de v√©hicules automobil...,Commerce de voitures et de v√©hicules automobil...,Comm. de voiture & v√©hicule auto. l√©ger
878,1064,45.19,Commerce d'autres v√©hicules automobiles,Commerce d'autres v√©hicules automobiles,Commerce d'autres v√©hicules automobiles
879,1065,45.19Z,Commerce d'autres v√©hicules automobiles,Commerce d'autres v√©hicules automobiles,Commerce d'autres v√©hicules automobiles
880,1067,45.2,Entretien et r√©paration de v√©hicules automobiles,Entretien et r√©paration de v√©hicules automobiles,Entretien & r√©par. de v√©hicule auto.
881,1068,45.20,Entretien et r√©paration de v√©hicules automobiles,Entretien et r√©paration de v√©hicules automobiles,Entretien & r√©par. de v√©hicule auto.
882,1069,45.20A,Entretien et r√©paration de v√©hicules automobil...,Entretien et r√©paration de v√©hicules automobil...,Entretien & r√©par. v√©hicule auto. l√©ger
883,1070,45.20B,Entretien et r√©paration d'autres v√©hicules aut...,Entretien et r√©paration d'autres v√©hicules aut...,Entretien & r√©par. autre v√©hicule auto.


In [37]:
from tqdm import tqdm

print("\n" + "=" * 70)
print("üì• ETL - CHARGEMENT DE DIM_ACTIVITE_NAF")
print("=" * 70)

# ========================================
# √âTAPE 1 : RENOMMER LES COLONNES
# ========================================
print("\n‚è≥ Pr√©paration des donn√©es...")

df_naf_clean = df_naf_raw.copy()

# Renommer les colonnes pour correspondre au sch√©ma DWH
df_naf_clean = df_naf_clean.rename(columns={
    'Code': 'Code_NAF',
    'Intitul√©s NAF r√©v. 2, \nen 65 caract√®res': 'Intitule_NAF_65',
    'Intitul√©s NAF r√©v. 2, \nen 40 caract√®res': 'Intitule_NAF_40'
})

# ========================================
# √âTAPE 2 : IDENTIFIER SECTION ET DIVISION
# ========================================
print("‚è≥ Identification des sections et divisions...")

df_naf_clean['Section'] = ''
df_naf_clean['Division'] = ''

current_section = ''
current_division = ''

for idx, row in df_naf_clean.iterrows():
    code = str(row['Code_NAF']).strip()
    
    # Identifier une SECTION (ex: "SECTION A")
    if code.startswith('SECTION'):
        current_section = code
        current_division = ''
        df_naf_clean.at[idx, 'Section'] = current_section
    
    # Identifier une Division (code √† 2 chiffres uniquement, ex: "01", "45")
    elif code.replace('.', '').isdigit() and len(code) == 2:
        current_division = code
        df_naf_clean.at[idx, 'Section'] = current_section
        df_naf_clean.at[idx, 'Division'] = current_division
    
    # Codes avec point (ex: "45.1", "45.11Z")
    else:
        df_naf_clean.at[idx, 'Section'] = current_section
        df_naf_clean.at[idx, 'Division'] = current_division

# ========================================
# √âTAPE 3 : FILTRER LES LIGNES SECTION
# ========================================
print("‚è≥ Filtrage des codes NAF valides...")

# Exclure les lignes qui sont uniquement des sections (on garde uniquement les codes NAF)
df_naf_final = df_naf_clean[~df_naf_clean['Code_NAF'].str.startswith('SECTION')].copy()

# S√©lectionner uniquement les colonnes n√©cessaires
df_naf_final = df_naf_final[['Code_NAF', 'Intitule_NAF_65', 'Intitule_NAF_40', 'Section', 'Division']].copy()

# Nettoyer les NaN
df_naf_final = df_naf_final.fillna('')

# Supprimer les doublons sur Code_NAF
df_naf_final = df_naf_final.drop_duplicates(subset=['Code_NAF'])

print(f"‚úÖ {len(df_naf_final)} codes NAF uniques pr√©par√©s")

# ========================================
# √âTAPE 4 : CHARGER LES CODES NAF EXISTANTS
# ========================================
print("\n‚è≥ Chargement des codes NAF d√©j√† pr√©sents dans le DWH...")
cursor_dwh.execute("SELECT Code_NAF FROM DIM_ACTIVITE_NAF")
naf_existants = set(row[0] for row in cursor_dwh.fetchall())
print(f"‚úÖ {len(naf_existants)} codes NAF d√©j√† pr√©sents dans DIM_ACTIVITE_NAF")

# ========================================
# √âTAPE 5 : FILTRER LES NOUVEAUX CODES NAF
# ========================================
df_naf_nouveaux = df_naf_final[~df_naf_final['Code_NAF'].isin(naf_existants)]
skip_count = len(df_naf_final) - len(df_naf_nouveaux)

print(f"‚úÖ {len(df_naf_nouveaux)} nouveaux codes NAF √† ins√©rer")
print(f"‚ö†Ô∏è  {skip_count} codes NAF d√©j√† existants (ignor√©s)")

# ========================================
# √âTAPE 6 : INSERTION PAR BATCH
# ========================================
if len(df_naf_nouveaux) > 0:
    print("\n‚è≥ Insertion des nouveaux codes NAF...")
    
    insert_query = """
    INSERT INTO DIM_ACTIVITE_NAF (
        Code_NAF, Intitule_NAF_65, Intitule_NAF_40, Section, Division
    ) VALUES (?, ?, ?, ?, ?)
    """
    
    batch_size = 300
    total_insert = 0
    tuples = [tuple(x) for x in df_naf_nouveaux.values]
    
    for i in tqdm(range(0, len(tuples), batch_size), desc="Insertion codes NAF", unit="batch"):
        batch = tuples[i:i+batch_size]
        try:
            cursor_dwh.executemany(insert_query, batch)
            cnxn_dwh.commit()
            total_insert += len(batch)
        except Exception as e:
            print(f"\n‚ö†Ô∏è  Erreur batch {i//batch_size+1}: {e}")
            # Ins√©rer ligne par ligne en cas d'erreur
            for row in batch:
                try:
                    cursor_dwh.execute(insert_query, row)
                    total_insert += 1
                except Exception as e_detail:
                    print(f"   ‚ùå Erreur : {e_detail}")
                    print(f"   Code NAF : {row[0]}")
            cnxn_dwh.commit()
    
    print(f"\n‚úÖ Insertion termin√©e : {total_insert} codes NAF ins√©r√©s")
else:
    print("\n‚úÖ Aucun nouveau code NAF √† ins√©rer")
    total_insert = 0

# ========================================
# √âTAPE 7 : V√âRIFICATIONS FINALES
# ========================================
print("\nüîç V√âRIFICATION FINALE")
print("=" * 70)

cursor_dwh.execute("SELECT COUNT(*) FROM DIM_ACTIVITE_NAF")
total_final = cursor_dwh.fetchone()[0]
print(f"üìä Nombre total de codes NAF dans DIM_ACTIVITE_NAF : {total_final}")

# Statistiques par section
print("\nüìà R√©partition par section :")
cursor_dwh.execute("""
SELECT 
    Section,
    COUNT(*) as Nb_Codes
FROM DIM_ACTIVITE_NAF
WHERE Section != ''
GROUP BY Section
ORDER BY Section
""")

for row in cursor_dwh.fetchall():
    print(f"   ‚Ä¢ {row[0]} : {row[1]} codes")

# Exemples de codes NAF ins√©r√©s
print("\nüìã EXEMPLES DE CODES NAF (section automobile) :")
cursor_dwh.execute("""
SELECT TOP 10
    Code_NAF, Intitule_NAF_65, Section, Division
FROM DIM_ACTIVITE_NAF
WHERE Code_NAF LIKE '45%'
ORDER BY Code_NAF
""")

for row in cursor_dwh.fetchall():
    print(f"   ‚Ä¢ {row[0]} : {row[1]}")
    print(f"     Section: {row[2]} | Division: {row[3]}")

print("\n" + "=" * 70)
print("‚úÖ CHARGEMENT TERMIN√â - DIM_ACTIVITE_NAF")
print("=" * 70)
print(f"   üìä Total de codes NAF : {total_final}")
print(f"   ‚ûï Nouveaux codes ins√©r√©s : {total_insert}")
print(f"   ‚è≠Ô∏è  Codes d√©j√† existants : {skip_count}")
print("=" * 70)


üì• ETL - CHARGEMENT DE DIM_ACTIVITE_NAF

‚è≥ Pr√©paration des donn√©es...
‚è≥ Identification des sections et divisions...
‚è≥ Filtrage des codes NAF valides...
‚úÖ 18 codes NAF uniques pr√©par√©s

‚è≥ Chargement des codes NAF d√©j√† pr√©sents dans le DWH...
‚úÖ 0 codes NAF d√©j√† pr√©sents dans DIM_ACTIVITE_NAF
‚úÖ 18 nouveaux codes NAF √† ins√©rer
‚ö†Ô∏è  0 codes NAF d√©j√† existants (ignor√©s)

‚è≥ Insertion des nouveaux codes NAF...


Insertion codes NAF: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00,  1.52batch/s]


‚úÖ Insertion termin√©e : 18 codes NAF ins√©r√©s

üîç V√âRIFICATION FINALE
üìä Nombre total de codes NAF dans DIM_ACTIVITE_NAF : 18

üìà R√©partition par section :

üìã EXEMPLES DE CODES NAF (section automobile) :
   ‚Ä¢ 45 : Commerce et r√©paration d'automobiles et de motocycles
     Section:  | Division: 45
   ‚Ä¢ 45.1 : Commerce de v√©hicules automobiles
     Section:  | Division: 45
   ‚Ä¢ 45.11 : Commerce de voitures et de v√©hicules automobiles l√©gers
     Section:  | Division: 45
   ‚Ä¢ 45.11Z : Commerce de voitures et de v√©hicules automobiles l√©gers
     Section:  | Division: 45
   ‚Ä¢ 45.19 : Commerce d'autres v√©hicules automobiles
     Section:  | Division: 45
   ‚Ä¢ 45.19Z : Commerce d'autres v√©hicules automobiles
     Section:  | Division: 45
   ‚Ä¢ 45.2 : Entretien et r√©paration de v√©hicules automobiles
     Section:  | Division: 45
   ‚Ä¢ 45.20 : Entretien et r√©paration de v√©hicules automobiles
     Section:  | Division: 45
   ‚Ä¢ 45.20A : Entretien et r√©pa


