# Task 5D – Teil 1: Setup & Daten-Download

**Umfang dieses Notebooks (Teil 1):**

1. Überprüfung der Umgebung (JupyterHub, Linux, optional GPU)
2. Anlegen einer sauberen Projektverzeichnisstruktur
3. (Optional) Installation notwendiger Python-Pakete im lokalen User-Scope
4. Anmeldung bei Hugging Face (HF-Token)
5. Download der benötigten Archive (z. B. `train_without_central_videos.zip`, `dev_without_central_videos.zip`)
6. Entpacken der Archive nach `data/raw/{train,dev}`
7. Sanity-Checks ausführen (Erwartung: `speaker_to_cluster.json` und `spk_*.vtt` vorhanden)

> **Hinweis:** Dies ist ein minimaler, reproduzierbarer Einstieg. Es werden **keine Änderungen am Projekt-Repository** vorgenommen. Das Notebook ist dafür gedacht, direkt in deiner **JupyterHub-Umgebung** ausgeführt zu werden.


## Reproduzierbarkeit & Konventionen

* Alle Arbeitsschritte erfolgen innerhalb des **JupyterHub-Home-Verzeichnisses**.
* Es wird ein eigenes Projekt-Root verwendet: `~/task5D_ml_prototype/`
* Datenstruktur:

  ```
  task5D_ml_prototype/
  ├── data/
  │   ├── raw/
  │   │   ├── train/      # entpacktes Trainings-Set
  │   │   └── dev/        # entpacktes Entwicklungs-Set
  │   └── downloads/      # ursprüngliche .zip-Dateien
  └── run_config.json     # speichert Pfade und HF-Repo-Metadaten für Reproduzierbarkeit
  ```
* Bei Bedarf kann der Speicherort angepasst werden, indem die Variable `PROJECT_ROOT` entsprechend geändert wird.



In [1]:
# ------------------------------------------
# 1) Umgebungs-Check & Verzeichnis-Bootstrap
# ------------------------------------------
# Zweck dieses Blocks:
# - Ausgabe zentraler Systeminformationen (Python-Version, OS, Hostname, Uhrzeit) zur schnellen Einordnung von Logs
# - Optionaler Test, ob PyTorch/GPU verfügbar ist (rein informativ; für Download/Entpacken nicht erforderlich)
# - Anlage einer sauberen Projektverzeichnisstruktur unter ~/AUVIS/task5D_ml_prototype
# - Persistenz einer minimalen Konfigurationsdatei (run_config.json) für Reproduzierbarkeit der Pfade

import sys, platform, json
from pathlib import Path
from datetime import datetime

# --- Systeminformationen (für spätere Fehlersuche hilfreich) ---
print("Python:", sys.version)               # Beispiel: "3.11.6 (main, ...)"
print("Platform:", platform.platform())     # Beispiel: "Linux-5.15.0-...-x86_64-with-glibc2.35"
print("Hostname:", platform.node())         # Knoten-/Rechnername im Cluster
print("Time:", datetime.now())              # Zeitstempel für Nachvollziehbarkeit

# --- Optionaler GPU-Check via PyTorch ---
# Hinweis: Für Teil 1 (Download/Entpacken) nicht notwendig. Die Ausgabe dient nur als Statusinformation.
try:
    import torch
    print("PyTorch:", torch.__version__)
    print("CUDA available:", torch.cuda.is_available())
    if torch.cuda.is_available():
        print("CUDA device:", torch.cuda.get_device_name(0))
except Exception as e:
    # PyTorch ist ggf. nicht installiert oder nicht initialisierbar; für diesen Schritt unkritisch.
    print("PyTorch nicht verfügbar (für diesen Schritt unkritisch).", e)

# --- Projektverzeichnis festlegen ---
# PROJECT_ROOT definiert den Arbeitsordner für das Task-5D-Teilprojekt.
# Anpassung möglich, z. B. auf ein schnelleres Storage (Scratch).
PROJECT_ROOT = Path.home() / "AUVIS/task5D_ml_prototype"

# --- Unterordner für klar definierte Datenablage ---
DATA_DIR  = PROJECT_ROOT / "data"       # Oberordner für alle Daten
DL_DIR    = DATA_DIR / "downloads"      # Ablage für ursprüngliche ZIP-Downloads
RAW_DIR   = DATA_DIR / "raw"            # Zielbasis für entpackte Inhalte
TRAIN_DIR = RAW_DIR / "train"           # Entpacktes Trainings-Set
DEV_DIR   = RAW_DIR / "dev"             # Entpacktes Entwicklungs-Set

# --- Verzeichnisse anlegen (idempotent) ---
# parents=True erzeugt ggf. fehlende Zwischenordner.
# exist_ok=True sorgt dafür, dass kein Fehler geworfen wird, falls Ordner bereits existieren.
for p in [PROJECT_ROOT, DATA_DIR, DL_DIR, RAW_DIR, TRAIN_DIR, DEV_DIR]:
    p.mkdir(parents=True, exist_ok=True)
    print("OK:", p)

# --- Minimale Lauf-Konfiguration schreiben ---
# Die Datei run_config.json dient als "Anker" für Pfade/Metadaten und erleichtert reproduzierbare Ausführung.
RUN_CONFIG = {
    "project_root": str(PROJECT_ROOT),
    "data": {
        "downloads": str(DL_DIR),
        "raw_train": str(TRAIN_DIR),
        "raw_dev": str(DEV_DIR),
    },
    "created_at": datetime.now().isoformat(timespec="seconds"),
    "notes": "Task 5D – Part 1 setup created."
}

with open(PROJECT_ROOT / "run_config.json", "w", encoding="utf-8") as f:
    json.dump(RUN_CONFIG, f, indent=2)

print("\nGespeichert:", PROJECT_ROOT / "run_config.json")


Python: 3.11.6 | packaged by conda-forge | (main, Oct  3 2023, 10:40:35) [GCC 12.3.0]
Platform: Linux-5.15.0-134-generic-x86_64-with-glibc2.35
Hostname: jupyter-ercel001
Time: 2025-09-13 09:25:21.611124
PyTorch: 2.4.0+cu124
CUDA available: True
CUDA device: NVIDIA A100-SXM4-80GB
OK: /home/ercel001/AUVIS/task5D_ml_prototype
OK: /home/ercel001/AUVIS/task5D_ml_prototype/data
OK: /home/ercel001/AUVIS/task5D_ml_prototype/data/downloads
OK: /home/ercel001/AUVIS/task5D_ml_prototype/data/raw
OK: /home/ercel001/AUVIS/task5D_ml_prototype/data/raw/train
OK: /home/ercel001/AUVIS/task5D_ml_prototype/data/raw/dev

Gespeichert: /home/ercel001/AUVIS/task5D_ml_prototype/run_config.json


## 2) (Optional) Abhängigkeiten

Für **Teil 1** (Download und Entpacken) werden lediglich die Standardbibliotheken sowie das Paket `huggingface_hub` benötigt.

Falls das Paket noch nicht vorhanden ist, erfolgt die Installation im **User-Scope**; Administratorrechte sind dafür nicht erforderlich.

> Für GPU-gestützte Embeddings wird in **Teil 3** optional das Paket `sentence-transformers` ergänzt.



In [2]:
# ------------------------------------------------
# 2) (Optional) Abhängigkeiten installieren/prüfen
# ------------------------------------------------
# Zweck dieses Blocks:
# - Prüfen, ob das Paket "huggingface_hub" verfügbar ist
# - Falls nicht vorhanden, Installation im User-Scope (keine Administratorrechte erforderlich)
# Hintergrund:
# - "huggingface_hub" stellt hf_hub_download & Login bereit, um Dateien aus HF-Dataset-Repositories zu laden.

try:
    import huggingface_hub
    print("huggingface_hub bereits verfügbar:", huggingface_hub.__version__)
except ImportError:
    print("huggingface_hub nicht gefunden. Installation wird durchgeführt ...")
    # %pip ist in Jupyter der empfohlene Weg, Pakete in die laufende Kernel-Umgebung zu installieren.
    # --user: Installation in das Benutzerverzeichnis (keine Admin-Rechte)
    # -q: weniger Ausgabemenge; für ausführlichere Logs kann -q entfernt werden.
    %pip install -q --user "huggingface_hub>=0.24,<0.26"
    import huggingface_hub
    print("Installation abgeschlossen. Version:", huggingface_hub.__version__)


huggingface_hub bereits verfügbar: 0.29.3


## 3) Anmeldung bei Hugging Face

Für den Zugriff wird ein gültiges **HF Access Token** mit **Lese-Berechtigung** benötigt. Zwei Varianten stehen zur Verfügung:

* **Umgebungsvariable (empfohlen):** Das Token wird in der Jupyter-Umgebung als `HUGGINGFACE_TOKEN` gesetzt.
* **Interaktive Eingabe:** Das Token wird bei der Abfrage im Notebook manuell eingefügt (Eingabe bleibt verborgen).

Die Zugangsdaten werden anschließend über `huggingface_hub.login(...)` im **Credential Store** hinterlegt und stehen damit auch in späteren Notebook-Zellen zur Verfügung.



In [3]:
# -----------------------------
# 3) Anmeldung bei Hugging Face
# -----------------------------
# Zweck dieses Blocks:
# - Laden eines persönlichen Hugging-Face-Tokens aus einer Datei im Projektverzeichnis
# - Anmeldung mit Lese-Berechtigung (read), um Datensätze herunterladen zu können
# Sicherheitsaspekt:
# - Das Token liegt außerhalb des Notebooks (keine Klartext-Hinterlegung im Code)
# - Rechte der Datei sollten restriktiv gesetzt sein (z. B. chmod 600)

from huggingface_hub import login, whoami

token_file = PROJECT_ROOT / ".huggingface_token"  # erwarteter Speicherort des Tokens (projektspezifisch)

# Datei lesen und Token validieren
with open(token_file, "r", encoding="utf-8") as f:
    token = f.read().strip()

assert token, "Hugging-Face-Token-Datei fehlt oder ist leer."

# Anmeldung: nur Lese-Rechte erforderlich; Credentials werden für Folgezellen hinterlegt
login(token=token, write_permission=False, add_to_git_credential=True)

# Kurze Rückmeldung zur Kontrolle
print("Angemeldet als:", whoami().get("name", "<unbekannt>"))


Token has not been saved to git credential helper.


[1m[31mCannot authenticate through git-credential as no helper is defined on your machine.
You might have to re-authenticate when pushing to the Hugging Face Hub.
Run the following command in your terminal in case you want to set the 'store' credential helper as default.

git config --global credential.helper store

Read https://git-scm.com/book/en/v2/Git-Tools-Credential-Storage for more details.[0m
Angemeldet als: HumanError91


## 4) Datenquelle (Hugging Face)

Es wird ein **Dataset-Repository-Identifier** sowie eine Liste der erwarteten **Dateinamen** definiert, die heruntergeladen werden sollen.
Befinden sich die Dateien in einem Hugging-Face-*Dataset-Repository*, bleibt `repo_type="dataset"` unverändert.

> `REPO_ID` ist durch den projektspezifischen Repository-Namen zu ersetzen (z. B. `"my-org/mcorec-task1-derivatives"`).

In [4]:
# --------------------------------------------------------------
# 4) Datenquelle definieren (Hugging Face Dataset Repository)
# --------------------------------------------------------------
# Dieser Abschnitt legt fest:
# - Welches Hugging-Face-Dataset-Repository verwendet werden soll (REPO_ID)
# - Welche Dateien daraus heruntergeladen werden sollen (FILENAMES)
# - Welcher Repository-Typ es ist (REPO_TYP), typischerweise "dataset"

# >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
# WICHTIG: Hier den tatsächlichen Repository-Namen auf Hugging Face eintragen.
# Beispiel: "my-org/mcorec-task1-derivatives"
REPO_ID  = "MCoRecChallenge/MCoRec"
REPO_TYP = "dataset"                   # Für Datensätze immer "dataset"
# <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

# Erwartete Dateinamen im Repository – müssen mit dem HF-Dataset-Repo übereinstimmen
FILENAMES = [
    "train_without_central_videos.zip",  # Trainingsdaten (ohne zentrale Kameraspur)
    "dev_without_central_videos.zip",    # Entwicklungsdaten (ohne zentrale Kameraspur)
]

# Ausgabe der gesetzten Variablen zur Kontrolle im Notebook
display(REPO_ID, REPO_TYP, FILENAMES)

# Sicherheitsabfrage:
# Bricht die Ausführung ab, wenn REPO_ID nicht angepasst wurde
assert "REPLACE" not in REPO_ID, "Bitte REPO_ID auf den tatsächlichen Hugging-Face-Dataset-Namen setzen."


'MCoRecChallenge/MCoRec'

'dataset'

['train_without_central_videos.zip', 'dev_without_central_videos.zip']

## 5) Archive herunterladen

Die Funktion `huggingface_hub.hf_hub_download` wird verwendet, um die angegebenen Dateien in das Verzeichnis `data/downloads/` herunterzuladen.

Alternativ können die Dateien auch manuell (z. B. über die Benutzeroberfläche von Hugging Face) heruntergeladen und im Verzeichnis `data/downloads/` abgelegt werden.
In diesem Fall sollte anschließend direkt die Zelle zur **Entpackung (Extraction)** ausgeführt werden.


In [5]:
# ------------------------
# 5) Archive herunterladen
# ------------------------
# Ziel dieses Blocks:
# - Die in FILENAMES definierten ZIP-Dateien vom Hugging-Face-Repository herunterladen
# - Zielordner: DL_DIR (data/downloads/)
# - Existierende Dateien mit gültiger Größe werden übersprungen
# - Fortschritt und Dateigröße werden ausgegeben
"""
import shutil                     # Für Dateikopien (copy2 = inkl. Metadaten)
from huggingface_hub import hf_hub_download  # Zum Herunterladen aus HF-Datasets
from tqdm import tqdm             # Optional: Fortschrittsanzeige (hier nicht genutzt, aber vorbereitet)

targets = []  # Liste aller lokal verarbeiteten Zieldateien

for fname in FILENAMES:
    dst = DL_DIR / fname  # Zielpfad der Datei im Downloadverzeichnis
    
    # Wenn die Datei bereits vorhanden ist und eine sinnvolle Größe hat → überspringen
    if dst.exists() and dst.stat().st_size > 0:
        print(f"Übersprungen (bereits vorhanden): {dst}")
        targets.append(dst)
        continue

    # Andernfalls: Herunterladen und in DL_DIR kopieren
    print(f"Herunterladen: {fname} → {dst}")
    
    # Lokaler temporärer Speicherort aus dem HF-Cache
    local_path = hf_hub_download(
        repo_id=REPO_ID,         # ID des Datasets auf Hugging Face
        filename=fname,          # Name der Datei, die geladen werden soll
        repo_type=REPO_TYP       # Typ des Repositories (z. B. "dataset")
    )
    
    # Kopieren vom Cache-Verzeichnis in das eigene Projektverzeichnis
    shutil.copy2(local_path, dst)
    print("Gespeichert:", dst)
    
    targets.append(dst)

# Zusammenfassung: Alle verarbeiteten Zieldateien mit Größenangabe
print("\nHeruntergeladene Dateien:")
for t in targets:
    print(" -", t, f"({t.stat().st_size:,} Bytes)")

"""


Herunterladen: train_without_central_videos.zip → /home/ercel001/AUVIS/task5D_ml_prototype/data/downloads/train_without_central_videos.zip


train_without_central_videos.zip:   0%|          | 0.00/36.2G [00:00<?, ?B/s]

Error while downloading from https://cas-bridge.xethub.hf.co/xet-bridge-us/68591d18f6c5019c67fb9a44/55d229c2d303442c3f9aeaf09358590a9c392a49329ece4feba231b11c2360ea?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20250913%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250913T093414Z&X-Amz-Expires=3600&X-Amz-Signature=2c8b817998a6c6dc20e18f462f2fbbcb3a321039d2e9f4f53f585f51ad3113ca&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=6884ce688dce0eec8a19a37f&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27train_without_central_videos.zip%3B+filename%3D%22train_without_central_videos.zip%22%3B&response-content-type=application%2Fzip&x-id=GetObject&Expires=1757759654&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc1Nzc1OTY1NH19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2FzLWJyaWRnZS54ZXRodWIuaGYuY28veGV0LWJyaWRnZS11cy82ODU5MWQxOGY2YzUwMTljNjdmYjlhNDQvNTVkMjI5YzJkMzAzNDQyYzNmOWFlYWYwOTM1ODU5MGE5YzM5MmE0OTMyOWVjZTRmZWJh

train_without_central_videos.zip:  26%|##6       | 9.50G/36.2G [00:00<?, ?B/s]

Gespeichert: /home/ercel001/AUVIS/task5D_ml_prototype/data/downloads/train_without_central_videos.zip
Herunterladen: dev_without_central_videos.zip → /home/ercel001/AUVIS/task5D_ml_prototype/data/downloads/dev_without_central_videos.zip


dev_without_central_videos.zip:   0%|          | 0.00/6.12G [00:00<?, ?B/s]

Gespeichert: /home/ercel001/AUVIS/task5D_ml_prototype/data/downloads/dev_without_central_videos.zip

Heruntergeladene Dateien:
 - /home/ercel001/AUVIS/task5D_ml_prototype/data/downloads/train_without_central_videos.zip (36,233,911,826 Bytes)
 - /home/ercel001/AUVIS/task5D_ml_prototype/data/downloads/dev_without_central_videos.zip (6,124,183,644 Bytes)


## 6) Archive entpacken

Die Archivdateien mit dem Präfix `train_*.zip` werden nach `data/raw/train/` entpackt,
die Dateien mit dem Präfix `dev_*.zip` nach `data/raw/dev/`.


In [6]:
# ---------------------
# 6) Archive entpacken
# ---------------------
# Ziel dieses Blocks:
# - Die heruntergeladenen ZIP-Dateien aus der Liste `targets` entpacken
# - Dateien mit "train" im Namen → nach TRAIN_DIR (data/raw/train/)
# - Dateien mit "dev" im Namen → nach DEV_DIR (data/raw/dev/)
# - Sonstige ZIPs (falls vorhanden) → nach RAW_DIR (data/raw/)
# - Danach: Ausgabe, wie viele Dateien in train/dev enthalten sind
"""
import zipfile  # Für das Arbeiten mit ZIP-Archiven

def extract_zip(zip_path: Path, out_dir: Path):
    """
    # Entpackt eine ZIP-Datei in das angegebene Zielverzeichnis.
    # Das Zielverzeichnis wird bei Bedarf angelegt.
    """
    out_dir.mkdir(parents=True, exist_ok=True)
    print(f"Entpacke: {zip_path.name} → {out_dir}")
    with zipfile.ZipFile(zip_path, "r") as z:
        z.extractall(out_dir)
    print("Fertig.")

# Hauptschleife: Alle ZIP-Dateien aus der Download-Liste verarbeiten
for zf in targets:
    name = zf.name.lower()
    if "train" in name:
        extract_zip(zf, TRAIN_DIR)
    elif "dev" in name:
        extract_zip(zf, DEV_DIR)
    else:
        print("Kein Split erkannt für:", zf.name, "→ entpacke nach raw/")
        extract_zip(zf, RAW_DIR)

# Kontrollausgabe: Wie viele Dateien liegen nun in train/dev
print("\nDateiübersicht nach Entpacken:")
print("train:", len(list(TRAIN_DIR.rglob('*'))), "Dateien")
print("dev:  ", len(list(DEV_DIR.rglob('*'))), "Dateien")
"""

Entpacke: train_without_central_videos.zip → /home/ercel001/AUVIS/task5D_ml_prototype/data/raw/train
Fertig.
Entpacke: dev_without_central_videos.zip → /home/ercel001/AUVIS/task5D_ml_prototype/data/raw/dev
Fertig.

Dateiübersicht nach Entpacken:
train: 5806 Dateien
dev:   1553 Dateien


## 7) Plausibilitätsprüfung (Sanity Checks)

Für jede Session werden mindestens folgende Dateien erwartet:

* `speaker_to_cluster.json`
* eine oder mehrere Dateien vom Typ `spk_*.vtt`


In [7]:
# ----------------------------------------
# 7) Plausibilitätsprüfung (Sanity Checks)
# ----------------------------------------
# Ziel dieses Blocks:
# - Überprüfung, ob alle erwarteten Kern-Dateien pro Session vorhanden sind:
#     - speaker_to_cluster.json
#     - spk_*.vtt (zeitgestempelte Transkripte)
# - Durchführung der Prüfung separat für Trainings- und Entwicklungsdaten
# - Frühes Erkennen von Pfadfehlern oder unvollständigem Entpacken

def scan_split(root: Path):
    """
    Durchsucht rekursiv ein Verzeichnis nach:
    - speaker_to_cluster.json (Cluster-Zuordnung)
    - spk_*.vtt (Einzelaussagen je Sprecher)
    Gibt jeweils eine Liste zurück.
    """
    clusters = list(root.rglob("speaker_to_cluster.json"))
    vtts     = list(root.rglob("spk_*.vtt"))
    return clusters, vtts

# Suche in train/ und dev/
train_clusters, train_vtts = scan_split(TRAIN_DIR)
dev_clusters, dev_vtts     = scan_split(DEV_DIR)

# Ausgabe der Gesamtzahlen
print("Train: Cluster-Dateien:", len(train_clusters), "| VTT-Dateien:", len(train_vtts))
print("Dev:   Cluster-Dateien:", len(dev_clusters),   "| VTT-Dateien:", len(dev_vtts))

# Frühzeitige Prüfungen zur Fehlervermeidung bei Folgeoperationen
assert len(train_clusters) > 0, "Keine speaker_to_cluster.json in raw/train gefunden – Entpackung prüfen."
assert len(train_vtts) > 0, "Keine spk_*.vtt in raw/train gefunden – Entpackung prüfen."
assert len(dev_clusters) > 0, "Keine speaker_to_cluster.json in raw/dev gefunden – Entpackung prüfen."
assert len(dev_vtts) > 0, "Keine spk_*.vtt in raw/dev gefunden – Entpackung prüfen."

# Beispielhafte Ausgabe einer Cluster- und VTT-Datei pro Split (zur Sichtkontrolle)
sample_files = [
    ("train cluster", train_clusters[0] if train_clusters else None),
    ("train vtt",     train_vtts[0] if train_vtts else None),
    ("dev cluster",   dev_clusters[0] if dev_clusters else None),
    ("dev vtt",       dev_vtts[0] if dev_vtts else None),
]
for label, path in sample_files:
    if path:
        print(f"{label}: {path.relative_to(PROJECT_ROOT)}")


Train: Cluster-Dateien: 56 | VTT-Dateien: 291
Dev:   Cluster-Dateien: 25 | VTT-Dateien: 139
train cluster: data/raw/train/train/session_71/labels/speaker_to_cluster.json
train vtt: data/raw/train/train/session_71/labels/spk_0.vtt
dev cluster: data/raw/dev/dev/session_51/labels/speaker_to_cluster.json
dev vtt: data/raw/dev/dev/session_51/labels/spk_5.vtt


## 8) Minimale Konfiguration speichern

Speichert `REPO_ID`, Dateinamen sowie die aufgelösten Pfade in `run_config.json`,
um die Nachvollziehbarkeit (Traceability) der Datenquelle sicherzustellen.


In [8]:
# ------------------------------------
# 8) Minimale Konfiguration speichern
# ------------------------------------
# Ziel dieses Blocks:
# - Ergänzen der bestehenden Datei `run_config.json` um:
#     - Hugging Face Repository-ID (REPO_ID)
#     - Repository-Typ (z. B. "dataset")
#     - Dateinamen der heruntergeladenen ZIP-Archive
# - Dadurch ist die Herkunft der Daten später eindeutig nachvollziehbar (Traceability)
# - Die Datei liegt im Projektverzeichnis unter: PROJECT_ROOT/run_config.json

RUN_CONFIG_UPDATE = {
    "hf": {
        "repo_id": REPO_ID,        # z. B. "MCoRecChallenge/MCoRec"
        "repo_type": REPO_TYP,     # meist "dataset"
        "filenames": FILENAMES,    # Liste der verwendeten ZIP-Dateien
    }
}

# Pfad zur bestehenden Konfigurationsdatei
cfg_path = PROJECT_ROOT / "run_config.json"

# 1) Vorhandene Konfiguration einlesen
with open(cfg_path, "r", encoding="utf-8") as f:
    cfg = json.load(f)

# 2) Aktualisierung mit den neuen HF-Infos
cfg.update(RUN_CONFIG_UPDATE)

# 3) Zurückschreiben der aktualisierten Konfiguration
with open(cfg_path, "w", encoding="utf-8") as f:
    json.dump(cfg, f, indent=2)

# 4) Ausgabe zur Kontrolle (nur die ersten 800 Zeichen)
print("Aktualisiert:", cfg_path)
print(json.dumps(cfg, indent=2)[:800], "...")


Aktualisiert: /home/ercel001/AUVIS/task5D_ml_prototype/run_config.json
{
  "project_root": "/home/ercel001/AUVIS/task5D_ml_prototype",
  "data": {
    "downloads": "/home/ercel001/AUVIS/task5D_ml_prototype/data/downloads",
    "raw_train": "/home/ercel001/AUVIS/task5D_ml_prototype/data/raw/train",
    "raw_dev": "/home/ercel001/AUVIS/task5D_ml_prototype/data/raw/dev"
  },
  "created_at": "2025-09-13T09:25:40",
  "notes": "Task 5D \u2013 Part 1 setup created.",
  "hf": {
    "repo_id": "MCoRecChallenge/MCoRec",
    "repo_type": "dataset",
    "filenames": [
      "train_without_central_videos.zip",
      "dev_without_central_videos.zip"
    ]
  }
} ...


### ✅ Nächste Schritte (für Teil 2)

Fahre mit dem nächsten Notebook **Teil 2: Datenladen & Äußerungsextraktion** fort, sobald die Sanity Checks erfolgreich waren:

* Parsen der `spk_*.vtt`-Dateien in ein normalisiertes DataFrame mit den Spalten:
  `session_id`, `speaker_id`, `utt_id`, `start_s`, `end_s`, `text`
* Laden der `speaker_to_cluster.json`-Dateien pro Session
* Verknüpfen der Äußerungen mit den zugehörigen Cluster-Zuordnungen
* Persistieren als **Parquet-Datei** zur schnellen Wiederverwendung
