# 1) Datensatz herunterladen

## 1.1 Importieren der Bibliotheken

In [4]:
import os
import shutil
from kaggle.api.kaggle_api_extended import KaggleApi

## 1.2 Datensatz herunterladen

In [8]:
# Funktion: Kaggle-API konfigurieren und Dataset herunterladen
def download_kaggle_dataset(dataset: str, output_dir: str = "raw", output_filename: str = "wine_quality.csv"):
    
    # Sicherstellen, dass der Ordner existiert
    os.makedirs(output_dir, exist_ok=True)
    
    # Prüfen, ob der Ziel-CSV-Dateiname bereits existiert
    output_path = os.path.join(output_dir, output_filename)
    if os.path.exists(output_path):
        print(f"Die Datei '{output_filename}' existiert bereits im Ordner '{output_dir}'. Kein erneuter Download erforderlich.")
        return
    
    # Kaggle API initialisieren
    api = KaggleApi()
    try:
        api.authenticate()
        print(f"Lade den Datensatz '{dataset}' herunter...")
        temp_dir = os.path.join(output_dir, "temp")
        os.makedirs(temp_dir, exist_ok=True)
        
        # Datensatz herunterladen und entpacken
        api.dataset_download_files(dataset, path=temp_dir, unzip=True)
        
        # Überprüfen, ob Dateien vorhanden sind und umbenennen
        downloaded_files = os.listdir(temp_dir)
        if downloaded_files:
            first_file = os.path.join(temp_dir, downloaded_files[0])
            shutil.move(first_file, output_path)
            print(f"Der Datensatz wurde erfolgreich als '{output_filename}' in '{output_dir}' gespeichert.")
        else:
            print("Keine Dateien zum Verschieben gefunden!")
        
        # Temporäres Verzeichnis entfernen
        shutil.rmtree(temp_dir)
        
    except Exception as e:
        print(f"Fehler beim Herunterladen: {e}")

# Weinqualitäts-Datensatz herunterladen
dataset_name = "ruthgn/wine-quality-data-set-red-white-wine" 
output_directory = "raw"

download_kaggle_dataset(dataset_name, output_directory)

Lade den Datensatz 'ruthgn/wine-quality-data-set-red-white-wine' herunter...
Dataset URL: https://www.kaggle.com/datasets/ruthgn/wine-quality-data-set-red-white-wine
Der Datensatz wurde erfolgreich als 'wine_quality.csv' in 'raw' gespeichert.


### Next Step:
- Explorative Datenanalyse (EDA): Daten beschreiben, Identifizierung und Verstehen von Beziehungen und Gruppen