In [None]:
import requests, pandas as pd
import os
from pathlib import Path
from google.cloud import storage
from google.oauth2 import service_account
from dotenv import load_dotenv

# Charger les variables d'environnement
load_dotenv()

ROOT = Path.cwd().parent

# Dossier de t√©l√©chargement des donn√©es
DATA_DIR = ROOT.joinpath("data")
DATA_DIR.mkdir(exist_ok=True)

# Configuration Google Cloud
PROJECT_ID = os.getenv("PROJECT_ID")
SA_PATH = Path.cwd().parent.joinpath(Path(os.getenv("GOOGLE_APPLICATION_CREDENTIALS")))
BUCKET_NAME = os.getenv("BUCKET_NAME")


In [38]:
# Authentification Google Cloud
creds = service_account.Credentials.from_service_account_file(SA_PATH)
storage_client = storage.Client(project=PROJECT_ID, credentials=creds)

In [39]:
# R√©cup√©rer la liste des fichiers ZIP disponibles via l'API IDFM
URL = "https://data.iledefrance-mobilites.fr/api/explore/v2.1/catalog/datasets/histo-validations-reseau-ferre/records"
print("R√©cup√©ration de la liste des fichiers disponibles...")
r = requests.get(URL, timeout=60)
r.raise_for_status()

response_data = r.json()
records = response_data.get("results", [])
print(f"Nombre de fichiers trouv√©s: {len(records)}")

# Cr√©er un DataFrame avec les m√©tadonn√©es
data = []
for record in records:
    data.append({
        'annee': int(record.get('annee')),
        'filename': record.get('reseau_ferre', {}).get('filename'),
        'url': record.get('reseau_ferre', {}).get('url')
    })

df_metadata = pd.DataFrame(data)
print("\nFichiers disponibles:")
display(df_metadata)

R√©cup√©ration de la liste des fichiers disponibles...
Nombre de fichiers trouv√©s: 10

Fichiers disponibles:


Unnamed: 0,annee,filename,url
0,2017,data-rf-2017.zip,https://data.iledefrance-mobilites.fr/api/expl...
1,2019,data-rf-2019.zip,https://data.iledefrance-mobilites.fr/api/expl...
2,2020,data-rf-2020.zip,https://data.iledefrance-mobilites.fr/api/expl...
3,2021,data-rf-2021.zip,https://data.iledefrance-mobilites.fr/api/expl...
4,2016,data-rf-2016.zip,https://data.iledefrance-mobilites.fr/api/expl...
5,2018,data-rf-2018.zip,https://data.iledefrance-mobilites.fr/api/expl...
6,2022,data-rf-2022.zip,https://data.iledefrance-mobilites.fr/api/expl...
7,2023,data-rf-2023.zip,https://data.iledefrance-mobilites.fr/api/expl...
8,2015,data-rf-2015.zip,https://data.iledefrance-mobilites.fr/api/expl...
9,2024,data-rf-2024.zip,https://data.iledefrance-mobilites.fr/api/expl...


In [40]:
import requests
from zipfile import ZipFile

# Base directory where zips are saved and extracted
BASE_DIR = DATA_DIR / "histo-validations-reseau-ferre"
BASE_DIR.mkdir(parents=True, exist_ok=True)

for _, row in df_metadata.iterrows():
    year = row["annee"]
    file_url = row["url"]
    file_name = row["filename"]

    # Cr√©er un dossier pour l'ann√©e
    year_dir = BASE_DIR / str(year)
    year_dir.mkdir(exist_ok=True)
    
    # Chemin complet du fichier ZIP √† t√©l√©charger
    zip_file_path = year_dir / file_name

    print(f"T√©l√©chargement de {year} ({file_name})...")
    try:
        resp = requests.get(file_url, timeout=300)
        resp.raise_for_status()
        
        # √âcrire le fichier ZIP
        with open(zip_file_path, "wb") as f:
            f.write(resp.content)
        
        print(f"T√©l√©charg√©: {zip_file_path}")
        print(f"Extraction de {file_name}...")
        
        # Extraire le ZIP
        with ZipFile(zip_file_path, "r") as zf:
            zf.extractall(year_dir)
        
        print(f"Extrait dans: {year_dir}")
        
        # Supprimer le fichier ZIP apr√®s extraction
        zip_file_path.unlink()
        print(f"Fichier ZIP supprim√©")
        
    except Exception as e:
        print(f"Erreur pour {year}: {e}")
        continue

print(f"\nT√©l√©chargement et extraction termin√©s dans: {BASE_DIR}")


T√©l√©chargement de 2017 (data-rf-2017.zip)...
T√©l√©charg√©: c:\Users\oettouileb\core_reims\m2-univ-reims-sep-cs-etl-sncf-gcp\data\histo-validations-reseau-ferre\2017\data-rf-2017.zip
Extraction de data-rf-2017.zip...
Extrait dans: c:\Users\oettouileb\core_reims\m2-univ-reims-sep-cs-etl-sncf-gcp\data\histo-validations-reseau-ferre\2017
Fichier ZIP supprim√©
T√©l√©chargement de 2019 (data-rf-2019.zip)...
T√©l√©charg√©: c:\Users\oettouileb\core_reims\m2-univ-reims-sep-cs-etl-sncf-gcp\data\histo-validations-reseau-ferre\2019\data-rf-2019.zip
Extraction de data-rf-2019.zip...
Extrait dans: c:\Users\oettouileb\core_reims\m2-univ-reims-sep-cs-etl-sncf-gcp\data\histo-validations-reseau-ferre\2019
Fichier ZIP supprim√©
T√©l√©chargement de 2020 (data-rf-2020.zip)...
T√©l√©charg√©: c:\Users\oettouileb\core_reims\m2-univ-reims-sep-cs-etl-sncf-gcp\data\histo-validations-reseau-ferre\2020\data-rf-2020.zip
Extraction de data-rf-2020.zip...
Extrait dans: c:\Users\oettouileb\core_reims\m2-univ-reims-

In [42]:
def delete_zip_files(folder_path):
    """
    Fonction simple pour supprimer tous les fichiers ZIP dans un dossier et ses sous-dossiers
    
    Args:
        folder_path (str): Chemin du dossier √† nettoyer
    """
    print(f"üóëÔ∏è Suppression des fichiers ZIP dans {folder_path}")
    
    folder = Path(folder_path)
    deleted_files = 0
    
    # Parcourir tous les fichiers ZIP dans le dossier et ses sous-dossiers
    for zip_file in folder.rglob("*.zip"):
        try:
            zip_file.unlink()  # Supprimer le fichier
            deleted_files += 1
            print(f"  ‚úÖ Supprim√©: {zip_file.relative_to(folder)}")
        except Exception as e:
            print(f"  ‚ùå Erreur lors de la suppression de {zip_file}: {e}")
    
    print(f"\nüéâ Nettoyage termin√©! {deleted_files} fichiers ZIP supprim√©s")

# Utiliser la fonction pour nettoyer le dossier
data_folder = DATA_DIR / "histo-validations-reseau-ferre"
delete_zip_files(data_folder)


üóëÔ∏è Suppression des fichiers ZIP dans c:\Users\oettouileb\core_reims\m2-univ-reims-sep-cs-etl-sncf-gcp\data\histo-validations-reseau-ferre
  ‚úÖ Supprim√©: 2020\data-rf-2015.zip
  ‚úÖ Supprim√©: 2020\data-rf-2016.zip
  ‚úÖ Supprim√©: 2020\data-rf-2017.zip
  ‚úÖ Supprim√©: 2020\data-rf-2018.zip
  ‚úÖ Supprim√©: 2020\data-rf-2019.zip

üéâ Nettoyage termin√©! 5 fichiers ZIP supprim√©s


In [43]:
# Fonction simple pour uploader le dossier vers GCS
def upload_folder_to_gcs(local_folder_path, bucket_name, gcs_folder_path):
    """
    Fonction simple pour uploader un dossier local vers Google Cloud Storage
    """
    print(f"Upload du dossier {local_folder_path} vers gs://{bucket_name}/{gcs_folder_path}")
    
    # R√©cup√©rer le bucket
    bucket = storage_client.bucket(bucket_name)
    
    # Parcourir tous les fichiers dans le dossier local
    local_path = Path(local_folder_path)
    uploaded_files = 0
    
    for file_path in local_path.rglob("*"):  # rglob pour parcourir r√©cursivement
        if file_path.is_file():
            # Calculer le chemin relatif
            relative_path = file_path.relative_to(local_path)
            
            # Cr√©er le chemin de destination dans GCS
            gcs_file_path = f"{gcs_folder_path}/{relative_path}".replace("\\", "/")
            
            # Upload le fichier
            blob = bucket.blob(gcs_file_path)
            blob.upload_from_filename(file_path)
            
            uploaded_files += 1
            print(f"  ‚úÖ {relative_path} ‚Üí {gcs_file_path}")
    
    print(f"\nüéâ Upload termin√©! {uploaded_files} fichiers upload√©s vers gs://{bucket_name}/{gcs_folder_path}")

# Utiliser la fonction pour uploader le dossier
local_data_folder = DATA_DIR / "histo-validations-reseau-ferre"
gcs_destination = "bronze/histo-validations-reseau-ferre"

upload_folder_to_gcs(local_data_folder, BUCKET_NAME, gcs_destination)

Upload du dossier c:\Users\oettouileb\core_reims\m2-univ-reims-sep-cs-etl-sncf-gcp\data\histo-validations-reseau-ferre vers gs://bronze-sncf-etl/bronze/histo-validations-reseau-ferre
  ‚úÖ 2015\data-rf-2015\2015S1_NB_FER.csv ‚Üí bronze/histo-validations-reseau-ferre/2015/data-rf-2015/2015S1_NB_FER.csv
  ‚úÖ 2015\data-rf-2015\2015S1_PROFIL_FER.csv ‚Üí bronze/histo-validations-reseau-ferre/2015/data-rf-2015/2015S1_PROFIL_FER.csv
  ‚úÖ 2015\data-rf-2015\2015S2_NB_FER.csv ‚Üí bronze/histo-validations-reseau-ferre/2015/data-rf-2015/2015S2_NB_FER.csv
  ‚úÖ 2015\data-rf-2015\2015S2_PROFIL_FER.csv ‚Üí bronze/histo-validations-reseau-ferre/2015/data-rf-2015/2015S2_PROFIL_FER.csv
  ‚úÖ 2016\data-rf-2016\2016S1_NB_FER.txt ‚Üí bronze/histo-validations-reseau-ferre/2016/data-rf-2016/2016S1_NB_FER.txt
  ‚úÖ 2016\data-rf-2016\2016S1_PROFIL_FER.txt ‚Üí bronze/histo-validations-reseau-ferre/2016/data-rf-2016/2016S1_PROFIL_FER.txt
  ‚úÖ 2016\data-rf-2016\2016S2_NB_FER.txt ‚Üí bronze/histo-validations-re