In [0]:
# Databricks - installation des libs Python
%pip install azure-storage-blob requests tqdm python-dotenv

# Cellule 1 : Imports
import requests
from datetime import datetime
from tqdm import tqdm
import os

# Cellule 2 : Configuration Azure Data Lake Gen2
STORAGE_ACCOUNT_NAME = "datalakecertifimpe"
STORAGE_ACCOUNT_KEY = "xxxxxxxxxxxxxx" # Remplace par ta cl√©
CONTAINER_NAME = "data-gouv"

# URL du fichier Parquet SIRENE
PARQUET_URL = "https://object.files.data.gouv.fr/data-pipeline-open/siren/stock/StockEtablissement_utf8.parquet" 

print("‚úÖ Configuration charg√©e")
print(f"üì¶ Compte de stockage : {STORAGE_ACCOUNT_NAME}")
print(f"üìÇ Conteneur : {CONTAINER_NAME}")

# Cellule 3 : Configuration Spark pour Azure Data Lake Gen2
spark.conf.set(
    f"fs.azure.account.key.{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net",
    STORAGE_ACCOUNT_KEY
)

print("‚úÖ Configuration Spark pour ADLS Gen2 effectu√©e")


[43mNote: you may need to restart the kernel using %restart_python or dbutils.library.restartPython() to use updated packages.[0m
‚úÖ Configuration charg√©e
üì¶ Compte de stockage : datalakecertifimpe
üìÇ Conteneur : data-gouv
‚úÖ Configuration Spark pour ADLS Gen2 effectu√©e


In [0]:

# Cellule 4 : Fonction de t√©l√©chargement avec barre de progression
def download_parquet_with_progress(url, local_path):
    """
    T√©l√©charge un fichier avec barre de progression
    """
    try:
        print(f"üì• D√©marrage du t√©l√©chargement...")
        print(f"üîó URL : {url}")
        
        # Requ√™te HEAD pour obtenir la taille du fichier
        response = requests.head(url, allow_redirects=True, timeout=30)
        file_size = int(response.headers.get('content-length', 0))
        
        print(f"üì¶ Taille du fichier : {file_size / (1024**3):.2f} GB")
        
        # T√©l√©chargement avec streaming et barre de progression
        response = requests.get(url, stream=True, timeout=300)
        response.raise_for_status()
        
        # Cr√©er le dossier si n√©cessaire
        os.makedirs(os.path.dirname(local_path), exist_ok=True)
        
        # T√©l√©chargement avec barre de progression
        with open(local_path, 'wb') as file:
            with tqdm(total=file_size, unit='B', unit_scale=True, desc="T√©l√©chargement") as pbar:
                for chunk in response.iter_content(chunk_size=8192):
                    if chunk:
                        file.write(chunk)
                        pbar.update(len(chunk))
        
        print(f"‚úÖ T√©l√©chargement termin√© : {local_path}")
        return True
        
    except Exception as e:
        print(f"‚ùå Erreur lors du t√©l√©chargement : {str(e)}")
        return False


In [0]:
# Cellule 5 : T√©l√©chargement du fichier Parquet
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
# Chemin pour Python (avec /dbfs/)
local_parquet_path = f"/dbfs/tmp/sirene_stock_etablissement_{timestamp}.parquet"
# Chemin pour Spark (avec dbfs:/ sans /dbfs/)
spark_parquet_path = f"dbfs:/tmp/sirene_stock_etablissement_{timestamp}.parquet"

success = download_parquet_with_progress(PARQUET_URL, local_parquet_path)

if success:
    # V√©rifier la taille du fichier t√©l√©charg√©
    file_size_mb = os.path.getsize(local_parquet_path) / (1024**2)
    print(f"üìä Taille locale : {file_size_mb:.2f} MB")
    print(f"üìç Chemin Python : {local_parquet_path}")
    print(f"üìç Chemin Spark : {spark_parquet_path}")


üì• D√©marrage du t√©l√©chargement...
üîó URL : https://object.files.data.gouv.fr/data-pipeline-open/siren/stock/StockEtablissement_utf8.parquet
üì¶ Taille du fichier : 1.94 GB


T√©l√©chargement:   0%|          | 0.00/2.09G [00:00<?, ?B/s]T√©l√©chargement:   0%|          | 2.24M/2.09G [00:00<01:33, 22.4MB/s]T√©l√©chargement:   0%|          | 4.97M/2.09G [00:00<01:22, 25.3MB/s]T√©l√©chargement:   0%|          | 7.50M/2.09G [00:00<01:32, 22.4MB/s]T√©l√©chargement:   0%|          | 10.2M/2.09G [00:00<01:26, 24.0MB/s]T√©l√©chargement:   1%|          | 12.6M/2.09G [00:00<01:30, 22.9MB/s]T√©l√©chargement:   1%|          | 15.3M/2.09G [00:00<01:25, 24.2MB/s]T√©l√©chargement:   1%|          | 18.0M/2.09G [00:00<01:22, 25.0MB/s]T√©l√©chargement:   1%|          | 20.8M/2.09G [00:00<01:20, 25.8MB/s]T√©l√©chargement:   1%|          | 23.4M/2.09G [00:00<01:23, 24.8MB/s]T√©l√©chargement:   1%|          | 25.9M/2.09G [00:01<01:30, 22.9MB/s]T√©l√©chargement:   1%|‚ñè         | 28.4M/2.09G [00:01<01:27, 23.6MB/s]T√©l√©chargement:   2%|‚ñè         | 31.4M/2.09G [00:01<01:21, 25.2MB/s]T√©l√©chargement:   2%|‚ñè         | 33.9M/2.09G [00:01<01:23, 24.7MB/s]T√©l√©ch

‚úÖ T√©l√©chargement termin√© : /dbfs/tmp/sirene_stock_etablissement_20251114_183648.parquet
üìä Taille locale : 1990.99 MB
üìç Chemin Python : /dbfs/tmp/sirene_stock_etablissement_20251114_183648.parquet
üìç Chemin Spark : dbfs:/tmp/sirene_stock_etablissement_20251114_183648.parquet





In [0]:
# Cellule 6 : Upload vers Azure Data Lake Gen2
if success:
    try:
        print(f"\n{'='*60}")
        print(f"‚òÅÔ∏è  Upload vers Azure Data Lake Gen2...")
        
        # Chemin de destination dans ADLS Gen2
        adls_path = f"abfss://{CONTAINER_NAME}@{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net/sirene/raw/sirene_stock_etablissement_{timestamp}.parquet"
        
        # Utiliser le chemin dbfs:/ pour Spark (sans /dbfs au d√©but)
        dbfs_path = f"dbfs:/tmp/sirene_stock_etablissement_{timestamp}.parquet"
        
        # Lecture du fichier local en tant que DataFrame Spark
        df = spark.read.parquet(dbfs_path)
        
        print(f"üìä Nombre de lignes : {df.count():,}")
        print(f"üìã Sch√©ma du fichier :")
        df.printSchema()
        
        # √âcriture dans ADLS Gen2
        print(f"üíæ √âcriture dans ADLS Gen2...")
        df.write.mode("overwrite").parquet(adls_path)
        
        print(f"‚úÖ Fichier upload√© avec succ√®s dans ADLS Gen2")
        print(f"üìç Chemin : {adls_path}")
        
        # Nettoyage du fichier temporaire
        os.remove(local_parquet_path)
        print(f"üßπ Fichier temporaire supprim√©")
        
    except Exception as e:
        print(f"‚ùå Erreur lors de l'upload : {str(e)}")


‚òÅÔ∏è  Upload vers Azure Data Lake Gen2...
üìä Nombre de lignes : 42,151,993
üìã Sch√©ma du fichier :
root
 |-- siren: string (nullable = true)
 |-- nic: long (nullable = true)
 |-- siret: string (nullable = true)
 |-- statutDiffusionEtablissement: string (nullable = true)
 |-- dateCreationEtablissement: date (nullable = true)
 |-- trancheEffectifsEtablissement: string (nullable = true)
 |-- anneeEffectifsEtablissement: long (nullable = true)
 |-- activitePrincipaleRegistreMetiersEtablissement: string (nullable = true)
 |-- dateDernierTraitementEtablissement: timestamp_ntz (nullable = true)
 |-- etablissementSiege: boolean (nullable = true)
 |-- nombrePeriodesEtablissement: long (nullable = true)
 |-- complementAdresseEtablissement: string (nullable = true)
 |-- numeroVoieEtablissement: string (nullable = true)
 |-- indiceRepetitionEtablissement: string (nullable = true)
 |-- dernierNumeroVoieEtablissement: string (nullable = true)
 |-- indiceRepetitionDernierNumeroVoieEtablissemen

In [0]:
# Cellule 7 : V√©rification et aper√ßu des donn√©es
try:
    print(f"\n{'='*60}")
    print(f"üîç V√©rification des donn√©es dans ADLS Gen2...")
    
    # Relire depuis ADLS Gen2
    df_adls = spark.read.parquet(adls_path)
    
    print(f"‚úÖ Lecture r√©ussie depuis ADLS Gen2")
    print(f"üìä Nombre de lignes : {df_adls.count():,}")
    print(f"üìã Nombre de colonnes : {len(df_adls.columns)}")
    
    print(f"\nüîé Aper√ßu des 5 premi√®res lignes :")
    df_adls.show(5, truncate=False)
    
    print(f"\nüìà Statistiques de base :")
    df_adls.describe().show()
    
except Exception as e:
    print(f"‚ùå Erreur lors de la v√©rification : {str(e)}")


üîç V√©rification des donn√©es dans ADLS Gen2...
‚úÖ Lecture r√©ussie depuis ADLS Gen2
üìä Nombre de lignes : 42,151,993
üìã Nombre de colonnes : 53

üîé Aper√ßu des 5 premi√®res lignes :
+---------+---+--------------+----------------------------+-------------------------+-----------------------------+---------------------------+----------------------------------------------+----------------------------------+------------------+---------------------------+------------------------------+-----------------------+-----------------------------+------------------------------+----------------------------------------------+---------------------+----------------------------+-----------------------+---------------------------+-----------------------------------+---------------------------------+------------------------+----------------------+-------------------------+-----------------------------+--------------------------------+-------------------------------+------------------------------