### Importierte Biblotheken

In [37]:
import os
from kaggle.api.kaggle_api_extended import KaggleApi



#### Voraussetzungen
* **Bibliotheken:** `kaggle`, `os`, `shutil` (`pip install kaggle`).
* **Kaggle API Key:** Eine `kaggle.json` API-Schlüsseldatei im Verzeichnis `~/.kaggle/` ist **zwingend erforderlich**. 
Ohne sie schlägt die Authentifizierung im Download-Schritt fehl. Details zur Einrichtung finden Sie in der [Kaggle Dokumentation](https://www.kaggle.com/docs/api).


In [38]:
DATASET_ID = "thecoderenroute/instagram-posts-dataset"
DATASET_SUBFOLDER = DATASET_ID.split('/')[-1]

try:
    current_notebook_dir = os.path.dirname(__file__)
except NameError:
    current_notebook_dir = os.getcwd() 

project_root = os.path.abspath(os.path.join(current_notebook_dir)) 
target_dataset_path = os.path.join(project_root, "daten", "rohdaten", DATASET_SUBFOLDER)
parent_dir_for_target = os.path.dirname(target_dataset_path)

print(f"Projekt-Root (berechnet): {project_root}")
print(f"Zielpfad für Datensatz (berechnet): {target_dataset_path}")


Projekt-Root (berechnet): /Users/zhanna97yan/Library/CloudStorage/OneDrive-SEPadersoftGmbH&Co.KG/Dokumente/FHDW/FHDW Projects/ADA_Instagram_Like_Vorhersage
Zielpfad für Datensatz (berechnet): /Users/zhanna97yan/Library/CloudStorage/OneDrive-SEPadersoftGmbH&Co.KG/Dokumente/FHDW/FHDW Projects/ADA_Instagram_Like_Vorhersage/daten/rohdaten/instagram-posts-dataset


### Prüfung, Download (Cache) und Kopieren

Die nächste Code-Zelle führt die Kernlogik aus:

1.  **Prüfung:** Testet, ob der Datensatz bereits am `target_dataset_path` existiert und Inhalt hat.
2.  **Download (falls nötig):**
    * **Kaggle API:** Die `kaggle` API wird initialisiert und authentifiziert sich über Ihre `~/.kaggle/kaggle.json`-Datei.
    * **Download & Entpacken:** `api.dataset_download_files(...)` lädt den Datensatz mit der `DATASET_ID` herunter und entpackt (`unzip=True`) dessen Inhalt direkt in den `target_dataset_path`.


In [39]:
os.makedirs(parent_dir_for_target, exist_ok=True)
data_exists = False

valid_files = [f for f in os.listdir(target_dataset_path) if not f.startswith('.')]
if os.path.exists(target_dataset_path) and valid_files:
    try:
        if len(os.listdir(target_dataset_path)) > 0:
             data_exists = True
        else:
             print(f"Hinweis: Zielordner '{target_dataset_path}' existiert, ist aber leer.")
    except OSError:
         print(f"Hinweis: Pfad '{target_dataset_path}' existiert, aber Inhalt konnte nicht gelesen werden.")


if not data_exists:
    print(f"Datensatz nicht oder nur leer vorhanden unter '{target_dataset_path}'. Starte Download via Kaggle API...")
    try:
        print("Initialisiere Kaggle API...")
        api = KaggleApi()
        api.authenticate() 
        print("Authentifizierung erfolgreich.")

        print(f"Lade '{DATASET_ID}' nach '{target_dataset_path}' herunter und entpacke...")
        api.dataset_download_files(DATASET_ID, path=target_dataset_path, unzip=True)
        print("Download und Entpacken abgeschlossen.")

    except ImportError:
         print(f"**FEHLER:** Bibliothek 'kaggle' nicht gefunden. Bitte installieren: pip install kaggle")
    except Exception as e:
        print(f"**FEHLER** beim Download via Kaggle API: {e}")
else:
    print("Datensatz bereits vorhanden.")
for file in os.listdir(target_dataset_path):
    print(f"Gefundene Datei: {file}")

Datensatz bereits vorhanden.
Gefundene Datei: .DS_Store
Gefundene Datei: Data


In [None]:
valid_files = [f for f in os.listdir(target_dataset_path) if not f.startswith('.')]
if os.path.exists(target_dataset_path) and valid_files:
    print(f"Erfolg: Daten in '{target_dataset_path}' bereit.")
    print(f"Inhalt (Auszug): {valid_files[:5]}")
else:
    print(f"FEHLER: Daten konnten nicht bereitgestellt werden!")
    print("Bitte überprüfen Sie, ob der Download korrekt durchgeführt wurde.")

Erfolg: Daten in '/Users/zhanna97yan/Library/CloudStorage/OneDrive-SEPadersoftGmbH&Co.KG/Dokumente/FHDW/FHDW Projects/ADA_Instagram_Like_Vorhersage/daten/rohdaten/instagram-posts-dataset' bereit.
Inhalt (Auszug): ['Data']


### Finale Prüfung und Ausblick

Hier wird geprüft, ob der Datensatz nun am Zielort `target_dataset_path` verfügbar ist und gibt eine entsprechende Statusmeldung aus.

* Bei **Erfolg** können die nachfolgenden Analyse-Schritte auf die Daten zugreifen.
* Bei **Fehler** müssen die Ursachen behoben werden.

In [41]:
if os.path.exists(target_dataset_path) and os.listdir(target_dataset_path):
     print(f"Erfolg:Daten in '{target_dataset_path}' bereit.")
     try:
         print(f"Inhalt (Auszug): {os.listdir(target_dataset_path)[:5]}")
     except Exception as list_e:
         print(f" Konnte Inhalt nicht auflisten: {list_e}")
else:
     print(f"FEHLER: Daten konnten nicht bereitgestellt werden!")

Erfolg:Daten in '/Users/zhanna97yan/Library/CloudStorage/OneDrive-SEPadersoftGmbH&Co.KG/Dokumente/FHDW/FHDW Projects/ADA_Instagram_Like_Vorhersage/daten/rohdaten/instagram-posts-dataset' bereit.
Inhalt (Auszug): ['.DS_Store', 'Data']
