In [1]:
# Import libraries
import os
import requests
import boto3
from botocore.exceptions import NoCredentialsError
import pyarrow.parquet as pq
import pandas as pd
from tqdm import tqdm

In [2]:
# Fonction de téléchargement des données depuis S3 ou une URL avec barre de progression
def download_data(local_path, url=None, s3_path=None, bucket=None, endpoint=None):
    """
    Télécharge un fichier depuis S3 ou une URL et le sauvegarde localement.
    """
    # Créer le dossier si nécessaire
    dir_path = os.path.dirname(local_path)
    if not os.path.exists(dir_path):
        os.makedirs(dir_path)
    
    # Vérifier si le fichier existe déjà
    if os.path.exists(local_path):
        print(f"Les données sont déjà téléchargées : {local_path}")
        return

    # Télécharger depuis S3
    if s3_path and bucket and endpoint:
        print("Téléchargement depuis le bucket S3...")
        try:
            s3 = boto3.client('s3', endpoint_url=endpoint)
            s3.download_file(bucket, s3_path, local_path)
            print(f"Téléchargement effectué avec succès depuis S3 : {local_path}")
        except NoCredentialsError as e:
            print(f"Erreur d'authentification S3 : {e}")
        except Exception as e:
            print(f"Erreur lors du téléchargement depuis S3 : {e}")
            return

    # Télécharger depuis une URL
    elif url:
        print("Téléchargement depuis l'URL...")
        try:
            response = requests.get(url, stream=True)
            response.raise_for_status()
            
            # Barre de progression
            total_size = int(response.headers.get('content-length', 0))
            with open(local_path, 'wb') as f, tqdm(
                desc=f"Téléchargement {os.path.basename(local_path)}",
                total=total_size,
                unit='B',
                unit_scale=True,
                unit_divisor=1024,
            ) as bar:
                for data in response.iter_content(chunk_size=1024):
                    f.write(data)
                    bar.update(len(data))
            print(f"Téléchargement effectué avec succès : {local_path}")
        except requests.RequestException as e:
            print(f"Erreur lors du téléchargement depuis l'URL : {e}")
            return

    else:
        print("Ni URL, ni chemin S3 spécifié. Impossible de télécharger les données.")
        return

# Fonction pour lire les fichiers Parquet
def read_parquet_data(local_path):
    if os.path.exists(local_path):
        try:
            data = pq.read_table(local_path).to_pandas()
            print(f"Données Parquet chargées avec succès depuis : {local_path}")
            return data
        except Exception as e:
            print(f"Erreur lors de la lecture du fichier Parquet : {e}")
    else:
        print(f"Le fichier n'existe pas : {local_path}")
    return None

# Fonction pour lire les fichiers CSV
def read_csv_data(local_path):
    if os.path.exists(local_path):
        try:
            data = pd.read_csv(local_path, sep=';')
            print(f"Données CSV chargées avec succès depuis : {local_path}")
            return data
        except Exception as e:
            print(f"Erreur lors de la lecture du fichier CSV : {e}")
    else:
        print(f"Le fichier n'existe pas : {local_path}")
    return None

In [5]:
# Définir le répertoire courant
os.chdir('/home/onyxia/work/Hackathon_Accessibilite')

# Vérification
print("Nouveau répertoire courant :", os.getcwd())

Nouveau répertoire courant : /home/onyxia/work/Hackathon_Accessibilite


In [8]:
# Téléchargement des fichiers en local

# Depuis une URL
download_data(
    local_path="data/acces_libre.csv",
    url="https://www.data.gouv.fr/fr/datasets/r/93ae96a7-1db7-4cb4-a9f1-6d778370b640"
)

Téléchargement depuis l'URL...


Téléchargement acces_libre.csv: 191MB [00:04, 48.7MB/s] 

Téléchargement effectué avec succès : data/acces_libre.csv





In [10]:
# Lecture des fichiers CSV
data_acces_libre = read_csv_data("data/acces_libre.csv")

Erreur lors de la lecture du fichier CSV : Error tokenizing data. C error: Expected 1 fields in line 17090, saw 2



In [11]:
# Afficher un aperçu des données
print(data_acces_libre.head())

AttributeError: 'NoneType' object has no attribute 'head'