In [0]:
# Cellule 1 : Configuration Azure Data Lake Gen2
STORAGE_ACCOUNT_NAME = "datalakecertifimpe"
STORAGE_ACCOUNT_KEY = "xxxxxxxxxxxxxxxxxx" # Remplace par ta cl√©
CONTAINER_NAME = "data-gouv"


print("‚úÖ Configuration charg√©e")
print(f"üì¶ Compte de stockage : {STORAGE_ACCOUNT_NAME}")
print(f"üìÇ Conteneur : {CONTAINER_NAME}")

# Cellule 2 : Configuration Spark pour Azure Data Lake Gen2
spark.conf.set(
    f"fs.azure.account.key.{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net",
    STORAGE_ACCOUNT_KEY
)

print("‚úÖ Configuration Spark pour ADLS Gen2 effectu√©e")

# Cellule 3 : Lister tous les fichiers disponibles dans le dossier sirene
print(f"\n{'='*60}")
print(f"üìÇ Recherche des fichiers Parquet dans le dossier sirene...")

try:
    # Lister le conteneur racine
    root_path = f"abfss://{CONTAINER_NAME}@{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net/"
    print(f"\nüîç Contenu du conteneur '{CONTAINER_NAME}' :")
    
    root_files = dbutils.fs.ls(root_path)
    for item in root_files:
        item_type = "üìÅ" if item.isDir() else "üìÑ"
        size_mb = item.size / (1024**2) if item.size > 0 else 0
        print(f"  {item_type} {item.name} ({size_mb:.2f} MB)")
    
    # Essayer le dossier sirene/raw si il existe
    try:
        sirene_path = f"abfss://{CONTAINER_NAME}@{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net/sirene/raw/"
        print(f"\nüîç Contenu du dossier 'sirene/raw/' :")
        sirene_files = dbutils.fs.ls(sirene_path)
        for item in sirene_files:
            item_type = "üìÅ" if item.isDir() else "üìÑ"
            size_mb = item.size / (1024**2) if item.size > 0 else 0
            print(f"  {item_type} {item.name} ({size_mb:.2f} MB)")
    except Exception as e:
        print(f"‚ö†Ô∏è  Le dossier 'sirene/raw/' n'existe pas encore")
        
except Exception as e:
    print(f"‚ùå Erreur lors du listage : {str(e)}")

# Cellule 4 : D√©finir le chemin du fichier
# Le chemin trouv√© dans la cellule 3
adls_path = f"abfss://{CONTAINER_NAME}@{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net/sirene/raw/sirene_stock_etablissement_20251114_183648.parquet"

print(f"üìç Chemin du fichier : {adls_path}")
print(f"‚úÖ Chemin configur√© pour le fichier Parquet")

# Cellule 5 : Lecture du fichier Parquet
print(f"\n{'='*60}")
print(f"üìñ Lecture des donn√©es depuis ADLS Gen2...")

try:
    df = spark.read.parquet(adls_path)
    
    print(f"‚úÖ Lecture r√©ussie !")
    print(f"üìã Nombre de colonnes : {len(df.columns)}")
    
    # Compter le nombre de lignes (peut prendre du temps sur de gros datasets)
    print(f"\n‚è≥ Comptage du nombre total de lignes en cours...")
    total_rows = df.count()
    print(f"üìä Nombre total de lignes : {total_rows:,}")
    
except Exception as e:
    print(f"‚ùå Erreur lors de la lecture : {str(e)}")
    print(f"\nüí° Retourne √† la cellule 3 pour v√©rifier le chemin correct du fichier")
    df = None

# Cellule 6 : Afficher le sch√©ma
if df is not None:
    print(f"\n{'='*60}")
    print(f"üìã Sch√©ma du DataFrame :")
    df.printSchema()
else:
    print("‚ö†Ô∏è  DataFrame non charg√©. V√©rifie les cellules pr√©c√©dentes.")

# Cellule 7 : Afficher les 10 premi√®res lignes
if df is not None:
    print(f"\n{'='*60}")
    print(f"üîé Les 10 premi√®res lignes :")
    df.show(10, truncate=False)
else:
    print("‚ö†Ô∏è  DataFrame non charg√©. V√©rifie les cellules pr√©c√©dentes.")

# Cellule 8 : Aper√ßu avec limite de caract√®res (plus lisible)
if df is not None:
    print(f"\n{'='*60}")
    print(f"üîé Les 10 premi√®res lignes (tronqu√© √† 50 caract√®res) :")
    df.show(10, truncate=50)
else:
    print("‚ö†Ô∏è  DataFrame non charg√©. V√©rifie les cellules pr√©c√©dentes.")

# Cellule 9 : Afficher les noms des colonnes
if df is not None:
    print(f"\n{'='*60}")
    print(f"üìã Liste des colonnes ({len(df.columns)} colonnes) :")
    for i, col in enumerate(df.columns, 1):
        print(f"  {i}. {col}")
else:
    print("‚ö†Ô∏è  DataFrame non charg√©. V√©rifie les cellules pr√©c√©dentes.")

# Cellule 10 : Statistiques de base sur quelques colonnes num√©riques
if df is not None:
    print(f"\n{'='*60}")
    print(f"üìà Statistiques de base :")
    df.describe().show()
else:
    print("‚ö†Ô∏è  DataFrame non charg√©. V√©rifie les cellules pr√©c√©dentes.")

# Cellule 11 : Conversion en Pandas pour affichage (ATTENTION: seulement 10 lignes)
if df is not None:
    print(f"\n{'='*60}")
    print(f"üêº Conversion en Pandas (10 premi√®res lignes) :")
    df_pandas = df.limit(10).toPandas()
    print(df_pandas)
else:
    print("‚ö†Ô∏è  DataFrame non charg√©. V√©rifie les cellules pr√©c√©dentes.")

# Cellule 12 : S√©lectionner des colonnes sp√©cifiques
if df is not None:
    print(f"\n{'='*60}")
    print(f"üéØ S√©lection de colonnes sp√©cifiques (exemple) :")
    
    # Remplace par les noms de colonnes qui t'int√©ressent
    # Exemple : si tu as des colonnes comme 'siren', 'siret', 'denomination'
    # df_selected = df.select('siren', 'siret', 'denomination')
    # df_selected.show(10, truncate=50)
    
    print("üí° D√©commente et adapte la s√©lection ci-dessus selon tes besoins")
else:
    print("‚ö†Ô∏è  DataFrame non charg√©. V√©rifie les cellules pr√©c√©dentes.")

‚úÖ Configuration charg√©e
üì¶ Compte de stockage : datalakecertifimpe
üìÇ Conteneur : data-gouv
‚úÖ Configuration Spark pour ADLS Gen2 effectu√©e

üìÇ Recherche des fichiers Parquet dans le dossier sirene...

üîç Contenu du conteneur 'data-gouv' :
  üìÅ data_NAF/ (0.00 MB)
  üìÅ data_to_BDD_data_gouv_city_france/ (0.00 MB)
  üìÅ scrap_auto/ (0.00 MB)
  üìÅ sirene/ (0.00 MB)

üîç Contenu du dossier 'sirene/raw/' :
  üìÅ sirene_stock_etablissement_20251114_183648.parquet/ (0.00 MB)
üìç Chemin du fichier : abfss://data-gouv@datalakecertifimpe.dfs.core.windows.net/sirene/raw/sirene_stock_etablissement_20251114_183648.parquet
‚úÖ Chemin configur√© pour le fichier Parquet

üìñ Lecture des donn√©es depuis ADLS Gen2...
‚úÖ Lecture r√©ussie !
üìã Nombre de colonnes : 53

‚è≥ Comptage du nombre total de lignes en cours...
üìä Nombre total de lignes : 42,151,993

üìã Sch√©ma du DataFrame :
root
 |-- siren: string (nullable = true)
 |-- nic: long (nullable = true)
 |-- siret: strin