In [1]:
import os
import subprocess
import zipfile

def download_and_unzip_kaggle_dataset(competition_name, download_path="./data"):
    """
    Télécharge un dataset Kaggle pour une compétition donnée et le décompresse.
    
    Arguments :
    - competition_name (str) : Le nom de la compétition Kaggle (comme dans l'URL).
    - download_path (str) : Le répertoire où télécharger et décompresser le dataset.
    """
    # Création du dossier de destination s'il n'existe pas
    if not os.path.exists(download_path):
        os.makedirs(download_path)
    
    # Construction de la commande de téléchargement
    command = [
        "kaggle",
        "competitions",
        "download",
        "-c",
        competition_name,
        "-p",
        download_path
    ]
    
    try:
        # Exécution de la commande
        print("Téléchargement du dataset en cours...")
        subprocess.run(command, check=True)
        print(f"Le dataset pour la compétition '{competition_name}' a été téléchargé dans le dossier '{download_path}'")
        
        # Décompression des fichiers ZIP dans le dossier de destination
        for file in os.listdir(download_path):
            if file.endswith(".zip"):
                file_path = os.path.join(download_path, file)
                print(f"Décompression du fichier : {file}")
                try:
                    with zipfile.ZipFile(file_path, 'r') as zip_ref:
                        zip_ref.extractall(download_path)
                    print(f"Décompression terminée : {file}")
                    # Suppression du fichier ZIP après décompression
                    os.remove(file_path)
                    print(f"Fichier ZIP supprimé : {file}")
                except zipfile.BadZipFile:
                    print(f"Erreur : Le fichier {file} n'est pas un ZIP valide.")
        
    except subprocess.CalledProcessError as e:
        print("Erreur lors du téléchargement du dataset :", e)
    except FileNotFoundError:
        print("Assurez-vous que Kaggle est installé et configuré correctement.")

# Utilisation de la fonction
competition_name = "intelligent-text-extraction"
download_path = "./data"
download_and_unzip_kaggle_dataset(competition_name, download_path)


Téléchargement du dataset en cours...
Downloading intelligent-text-extraction.zip to ./data


100%|██████████| 397M/397M [01:02<00:00, 6.63MB/s] 



Le dataset pour la compétition 'intelligent-text-extraction' a été téléchargé dans le dossier './data'
Décompression du fichier : intelligent-text-extraction.zip
Décompression terminée : intelligent-text-extraction.zip
Fichier ZIP supprimé : intelligent-text-extraction.zip
