In [1]:
# Kaggle API konfigurieren
import os
from kaggle.api.kaggle_api_extended import KaggleApi

# Funktion: Kaggle-API konfigurieren und Dataset herunterladen
def download_kaggle_dataset(dataset: str, output_dir: str = "data/raw"):
    """
    Lädt einen Datensatz von Kaggle herunter und speichert ihn in einem angegebenen Ordner,
    falls der Datensatz noch nicht existiert.
    
    Parameters:
        dataset (str): Der Kaggle-Datensatz (z. B. 'ruthgn/wine-quality-data-set-red-white-wine').
        output_dir (str): Zielordner zum Speichern der Daten.
    """
    # Sicherstellen, dass der Ordner existiert
    os.makedirs(output_dir, exist_ok=True)

    # Prüfen, ob der Datensatz bereits existiert
    dataset_files = os.listdir(output_dir)
    if dataset_files:
        print(f"Der Datensatz existiert bereits im Ordner '{output_dir}'. Kein erneuter Download erforderlich.")
        return
    
    # Kaggle API initialisieren
    api = KaggleApi()
    try:
        api.authenticate()
        print(f"Lade den Datensatz '{dataset}' herunter...")
        api.dataset_download_files(dataset, path=output_dir, unzip=True)
        print(f"Der Datensatz wurde erfolgreich in '{output_dir}' heruntergeladen.")
    except Exception as e:
        print(f"Fehler beim Herunterladen: {e}")

# Beispiel: Weinqualitäts-Datensatz herunterladen
dataset_name = "ruthgn/wine-quality-data-set-red-white-wine"  # Benutzerdefinierter Dataset-Name
output_directory = "raw"

download_kaggle_dataset(dataset_name, output_directory)

Lade den Datensatz 'ruthgn/wine-quality-data-set-red-white-wine' herunter...
Dataset URL: https://www.kaggle.com/datasets/ruthgn/wine-quality-data-set-red-white-wine
Der Datensatz wurde erfolgreich in 'raw' heruntergeladen.
