# Setup & Sanity Runbook (macOS CPU-only, 8 GB RAM)

## Projektbeschreibung & Scope
Dieses Notebook richtet eine minimale, reproduzierbare Umgebung ein, um **FUNSD** mit **LayoutLM** und **LayoutLMv3** auf **CPU-only** zu prüfen.
Der Fokus liegt auf einem **einzigen Seed**, kleinen Subsets und klaren, nachvollziehbaren Run-Schritten.


## Environment-Check (Python-Version, CPU-only)
Führe diese Zelle zuerst aus. CPU-only wird in den Import-Checks verifiziert.


In [None]:
import os
import platform
import sys

print(f'Python: {sys.version.split()[0]}')
print(f'Platform: {platform.platform()}')
print(f"CUDA_VISIBLE_DEVICES: {os.environ.get('CUDA_VISIBLE_DEVICES', '<not set>')}")


## Import-Checks (benötigte Libraries)
Diese Importe müssen ohne Fehler laufen. Zusätzlich wird hier CPU-only geprüft.


In [None]:
import numpy as np
import pandas as pd
import torch
from datasets import load_dataset
from PIL import Image
from transformers import LayoutLMForTokenClassification, LayoutLMv3ForTokenClassification

print('NumPy:', np.__version__)
print('Pandas:', pd.__version__)
print('Torch:', torch.__version__)
print('Transformers: LayoutLM/LMv3 import OK')
print('Datasets: load_dataset import OK')
print('PIL:', Image.__version__)

assert not torch.cuda.is_available(), 'CPU-only erwartet: torch.cuda.is_available() muss False sein.'
print('CPU-only bestätigt (kein CUDA).')


## Config (fixe Parameter)
Alle Konfigurationswerte werden hier zentral definiert.


In [None]:
from pathlib import Path

CONFIG = {
    'seed': 13,
    'epochs': 1,
    'batch_size': 2,
    'train_subset_size': 50,
    'eval_subset_size': 20,
    'output_root': Path('results'),
    'run_id': None,
    'run_dir': None,
}

CONFIG


## Output-Verzeichnisstruktur + Run-ID
Erzeugt eine eindeutige Run-ID und legt die Verzeichnisstruktur unter `results/` an.


In [None]:
from datetime import datetime

run_id = datetime.now().strftime('run-%Y%m%d-%H%M%S')
run_dir = CONFIG['output_root'] / run_id

(run_dir / 'logs').mkdir(parents=True, exist_ok=True)
(run_dir / 'models').mkdir(parents=True, exist_ok=True)
(run_dir / 'metrics').mkdir(parents=True, exist_ok=True)

CONFIG['run_id'] = run_id
CONFIG['run_dir'] = run_dir

print('Run-ID:', run_id)
print('Run-Verzeichnis:', run_dir)

CONFIG


## Hinweis: Wie dieses Notebook getestet wird
1. Zellen werden **von oben nach unten** ausgeführt.
2. Imports müssen ohne Fehler laufen (CPU-only).
3. `results/<run-id>/` wird erstellt und enthält `logs/`, `models/`, `metrics/`.
4. Keine GPU-Abhängigkeiten, minimaler Speicherverbrauch (8 GB RAM).
