In [1]:
# Import libraries
import os
import requests
import boto3
from botocore.exceptions import NoCredentialsError
import pyarrow.parquet as pq
import pandas as pd
from tqdm import tqdm

ModuleNotFoundError: No module named 'boto3'

In [3]:
# Fonction de téléchargement des données depuis S3 ou une URL avec barre de progression
def download_data(local_path, url=None, s3_path=None, bucket=None, endpoint=None):
    """
    Télécharge un fichier depuis S3 ou une URL et le sauvegarde localement.
    """
    # Créer le dossier si nécessaire
    dir_path = os.path.dirname(local_path)
    if not os.path.exists(dir_path):
        os.makedirs(dir_path)
    
    # Vérifier si le fichier existe déjà
    if os.path.exists(local_path):
        print(f"Les données sont déjà téléchargées : {local_path}")
        return

    # Télécharger depuis S3
    if s3_path and bucket and endpoint:
        print("Téléchargement depuis le bucket S3...")
        try:
            s3 = boto3.client('s3', endpoint_url=endpoint)
            s3.download_file(bucket, s3_path, local_path)
            print(f"Téléchargement effectué avec succès depuis S3 : {local_path}")
        except NoCredentialsError as e:
            print(f"Erreur d'authentification S3 : {e}")
        except Exception as e:
            print(f"Erreur lors du téléchargement depuis S3 : {e}")
            return

    # Télécharger depuis une URL
    elif url:
        print("Téléchargement depuis l'URL...")
        try:
            response = requests.get(url, stream=True)
            response.raise_for_status()
            
            # Barre de progression
            total_size = int(response.headers.get('content-length', 0))
            with open(local_path, 'wb') as f, tqdm(
                desc=f"Téléchargement {os.path.basename(local_path)}",
                total=total_size,
                unit='B',
                unit_scale=True,
                unit_divisor=1024,
            ) as bar:
                for data in response.iter_content(chunk_size=1024):
                    f.write(data)
                    bar.update(len(data))
            print(f"Téléchargement effectué avec succès : {local_path}")
        except requests.RequestException as e:
            print(f"Erreur lors du téléchargement depuis l'URL : {e}")
            return

    else:
        print("Ni URL, ni chemin S3 spécifié. Impossible de télécharger les données.")
        return

# Fonction pour lire les fichiers Parquet
def read_parquet_data(local_path):
    if os.path.exists(local_path):
        try:
            data = pq.read_table(local_path).to_pandas()
            print(f"Données Parquet chargées avec succès depuis : {local_path}")
            return data
        except Exception as e:
            print(f"Erreur lors de la lecture du fichier Parquet : {e}")
    else:
        print(f"Le fichier n'existe pas : {local_path}")
    return None

# Fonction pour lire les fichiers CSV
def read_csv_data(local_path):
    if os.path.exists(local_path):
        try:
            data = pd.read_csv(local_path, sep=';')
            print(f"Données CSV chargées avec succès depuis : {local_path}")
            return data
        except Exception as e:
            print(f"Erreur lors de la lecture du fichier CSV : {e}")
    else:
        print(f"Le fichier n'existe pas : {local_path}")
    return None

In [4]:
# Fonction de téléchargement des données depuis S3 ou une URL avec barre de progression
def download_data(local_path, url=None, s3_path=None, bucket=None, endpoint=None):
    """
    Télécharge un fichier depuis S3 ou une URL et le sauvegarde localement.
    """
    # Créer le dossier si nécessaire
    dir_path = os.path.dirname(local_path)
    if not os.path.exists(dir_path):
        os.makedirs(dir_path)
    
    # Vérifier si le fichier existe déjà
    if os.path.exists(local_path):
        print(f"Les données sont déjà téléchargées : {local_path}")
        return

    # Télécharger depuis S3
    if s3_path and bucket and endpoint:
        print("Téléchargement depuis le bucket S3...")
        try:
            s3 = boto3.client('s3', endpoint_url=endpoint)
            s3.download_file(bucket, s3_path, local_path)
            print(f"Téléchargement effectué avec succès depuis S3 : {local_path}")
        except NoCredentialsError as e:
            print(f"Erreur d'authentification S3 : {e}")
        except Exception as e:
            print(f"Erreur lors du téléchargement depuis S3 : {e}")
            return

    # Télécharger depuis une URL
    elif url:
        print("Téléchargement depuis l'URL...")
        try:
            response = requests.get(url, stream=True)
            response.raise_for_status()
            
            # Barre de progression
            total_size = int(response.headers.get('content-length', 0))
            with open(local_path, 'wb') as f, tqdm(
                desc=f"Téléchargement {os.path.basename(local_path)}",
                total=total_size,
                unit='B',
                unit_scale=True,
                unit_divisor=1024,
            ) as bar:
                for data in response.iter_content(chunk_size=1024):
                    f.write(data)
                    bar.update(len(data))
            print(f"Téléchargement effectué avec succès : {local_path}")
        except requests.RequestException as e:
            print(f"Erreur lors du téléchargement depuis l'URL : {e}")
            return

    else:
        print("Ni URL, ni chemin S3 spécifié. Impossible de télécharger les données.")
        return

# Fonction pour lire les fichiers Parquet
def read_parquet_data(local_path):
    if os.path.exists(local_path):
        try:
            data = pq.read_table(local_path).to_pandas()
            print(f"Données Parquet chargées avec succès depuis : {local_path}")
            return data
        except Exception as e:
            print(f"Erreur lors de la lecture du fichier Parquet : {e}")
    else:
        print(f"Le fichier n'existe pas : {local_path}")
    return None

# Fonction pour lire les fichiers CSV
def read_csv_data(local_path):
    if os.path.exists(local_path):
        try:
            data = pd.read_csv(local_path, sep=';')
            print(f"Données CSV chargées avec succès depuis : {local_path}")
            return data
        except Exception as e:
            print(f"Erreur lors de la lecture du fichier CSV : {e}")
    else:
        print(f"Le fichier n'existe pas : {local_path}")
    return None

In [5]:
# Définir le répertoire courant
os.chdir('/home/onyxia/work/Hackathon_Accessibilite')

# Vérification
print("Nouveau répertoire courant :", os.getcwd())

Nouveau répertoire courant : /home/onyxia/work/Hackathon_Accessibilite


In [19]:
# Téléchargement des fichiers en local

# Depuis une URL
download_data(
    local_path="data/acces_libre.csv",
    url="https://www.data.gouv.fr/fr/datasets/accessibilite-des-etablissements-recevant-du-public-erp-pour-les-personnes-en-situation-de-handicap/#/resources/5b0f44f2-e6ea-4a58-874d-6fe364b40342"
)

download_data(
    local_path="data/classement_hotels.csv",
    url="https://minio.lab.sspcloud.fr/inesh/hackathon-tourisme/export%20hotels.csv"
)


download_data(
    local_path="data/classement_residences_camping.csv",
    url="https://minio.lab.sspcloud.fr/inesh/hackathon-tourisme/export%20residences,%20campings,%20PRL,%20Auberges,%20villages%20de%20vacance.csv"
)


Les données sont déjà téléchargées : data/acces_libre.csv
Téléchargement depuis l'URL...



éléchargement classement_hotels.csv: 100%|██████████| 2.53M/2.53M [00:00<00:00, 41.8MB/s]

Téléchargement effectué avec succès : data/classement_hotels.csv
Téléchargement depuis l'URL...


Téléchargement classement_residences_camping.csv: 100%|██████████| 1.53M/1.53M [00:00<00:00, 35.3MB/s]

Téléchargement effectué avec succès : data/classement_residences_camping.csv





In [25]:
data_acces_libre = pd.read_csv(
    "data/acces_libre.csv",
    sep=";",
    quotechar='"',
    on_bad_lines="skip",
    encoding="ISO-8859-1",
    low_memory=False  # Désactive le mode mémoire réduite
)

In [27]:
data_classement_hotels = pd.read_csv(
    "data/classement_hotels.csv",
    sep=";",
    quotechar='"',  # Gère les champs entourés de guillemets
    on_bad_lines="skip",  # Ignore les lignes problématiques
    encoding="ISO-8859-1"  # Utilise un encodage alternatif
)

In [34]:
data_classement_residences_camping = pd.read_csv(
    "data/classement_residences_camping.csv",
    sep=";",
    quotechar='"',  # Gère les champs entourés de guillemets
    on_bad_lines="skip",  # Ignore les lignes problématiques
    encoding="ISO-8859-1"  # Utilise un encodage alternatif
)

In [35]:
# Afficher un aperçu des données
print(data_acces_libre.head())
print(data_classement_hotels.head())
print(data_classement_residences_camping.head())

  id,name,postal_code,commune,numero,voie,lieu_dit,code_insee,siret,activite,contact_url,site_internet,longitude,latitude,transport_station_presence,stationnement_presence,stationnement_pmr,stationnement_ext_presence,stationnement_ext_pmr,cheminement_ext_presence,cheminement_ext_terrain_stable,cheminement_ext_plain_pied,cheminement_ext_ascenseur,cheminement_ext_nombre_marches,cheminement_ext_reperage_marches,cheminement_ext_sens_marches,cheminement_ext_main_courante,cheminement_ext_rampe,cheminement_ext_pente_presence,cheminement_ext_pente_degre_difficulte,cheminement_ext_pente_longueur,cheminement_ext_devers,cheminement_ext_bande_guidage,cheminement_ext_retrecissement,entree_reperage,entree_vitree,entree_vitree_vitrophanie,entree_plain_pied,entree_ascenseur,entree_marches,entree_marches_reperage,entree_marches_main_courante,entree_marches_rampe,entree_marches_sens,entree_dispositif_appel,entree_dispositif_appel_type,entree_balise_sonore,entree_aide_humaine,entree_largeur_mini,entree_p

In [37]:
# Afficher les noms des colonnes
columns = data_acces_libre.columns.tolist()
print(columns)

columns = data_classement_hotels.columns.tolist()
print(columns)

columns = data_classement_residences_camping.columns.tolist()
print(columns)

['id,name,postal_code,commune,numero,voie,lieu_dit,code_insee,siret,activite,contact_url,site_internet,longitude,latitude,transport_station_presence,stationnement_presence,stationnement_pmr,stationnement_ext_presence,stationnement_ext_pmr,cheminement_ext_presence,cheminement_ext_terrain_stable,cheminement_ext_plain_pied,cheminement_ext_ascenseur,cheminement_ext_nombre_marches,cheminement_ext_reperage_marches,cheminement_ext_sens_marches,cheminement_ext_main_courante,cheminement_ext_rampe,cheminement_ext_pente_presence,cheminement_ext_pente_degre_difficulte,cheminement_ext_pente_longueur,cheminement_ext_devers,cheminement_ext_bande_guidage,cheminement_ext_retrecissement,entree_reperage,entree_vitree,entree_vitree_vitrophanie,entree_plain_pied,entree_ascenseur,entree_marches,entree_marches_reperage,entree_marches_main_courante,entree_marches_rampe,entree_marches_sens,entree_dispositif_appel,entree_dispositif_appel_type,entree_balise_sonore,entree_aide_humaine,entree_largeur_mini,entree_p

In [39]:
columns = data_classement_hotels.columns.tolist()
print(columns)

['Etablissement - Identifiant public', 'Etablissement - Nom commercial', 'Etablissement - Adresse - Code postal', 'Etablissement - Adresse - Département', 'Etablissement - Adresse - Ligne 1', 'Etablissement - Adresse - Ligne 2', 'Etablissement - Adresse - Ligne 3', 'Etablissement - Adresse - Région', 'Etablissement - Adresse - Ville', 'batiment_principal_nb_etage', 'nb_chambre_1personne', 'nb_chambre_2personnes', 'nb_chambre_3personnes', 'nb_chambre_4personnes', 'nb_chambre_5personnes', 'nb_chambre_6personnes', 'nb_chambre_7personnes', 'nb_chambre_8personnes', 'presence_batiment_annexe', "Capacité d'accueil maximum", 'Hôtels - Nombre de chambres', 'Hôtels - Nombre de chambres accessibles', "Nombre d'employés", 'Classement actuel', 'Classement précédent', 'Date de caducité prévisionnelle', "Date de l'arrêté (ou décision) classement actuel de l'établissement", 'Etablissement permanent / saisonnier', 'Etablissement - Marques']


In [18]:
# Afficher les valeurs de "sanitaire adapté" dans la source data_acces_libre

# Afficher la liste des valeurs et leur fréquence
frequences = data_acces_libre['sanitaires_adaptes'].value_counts(dropna=False)

# Convertir en DataFrame pour un affichage plus clair
frequences_df = frequences.reset_index()
frequences_df.columns = ['Valeur', 'Fréquence']

# Afficher le tableau
print(frequences_df)

  Valeur  Fréquence
0    NaN     397614
1   True     105355
2  False      23125


In [40]:
# Afficher les valeurs de "Hôtels - Nombre de chambres accessibles" dans la source data_classement_hotels

# Afficher la liste des valeurs et leur fréquence
frequences = data_classement_hotels['Hôtels - Nombre de chambres accessibles'].value_counts(dropna=False)

# Convertir en DataFrame pour un affichage plus clair
frequences_df = frequences.reset_index()
frequences_df.columns = ['Valeur', 'Fréquence']

# Afficher le tableau
print(frequences_df)

     Valeur  Fréquence
0         0       2902
1         2       2672
2         1       2342
3         3       1967
4         4        566
..      ...        ...
194     330          1
195     247          1
196     155          1
197     193          1
198     303          1

[199 rows x 2 columns]
