# Lokales OCR-Setup (Tesseract + Calamari)

Dieses Notebook hilft dir, die lokale Umgebung zu prüfen und vorzubereiten. Es installiert **nichts automatisch** systemweit, sondern zeigt dir klare Schritte.

## Voraussetzungen (lokal)

1. Tesseract muss lokal installiert sein (inkl. Fraktur/Deutsch-Modelle, falls nötig).
2. Python-Pakete: `pytesseract`, `Pillow`, `numpy`, optional `matplotlib`.
3. Calamari OCR muss lokal installiert sein.
4. Ein Calamari-Frakturmodell muss lokal vorliegen (Pfad wird unten gesetzt).

In [1]:
from pathlib import Path
import shutil
import sys

# Funktioniert sowohl aus dem Repo-Root als auch aus ./notebooks.
CANDIDATE_ROOTS = [Path.cwd().resolve(), Path.cwd().resolve().parent]
PROJECT_ROOT = next((p for p in CANDIDATE_ROOTS if (p / 'Abl_1900_X__S__0287.tif').exists()), CANDIDATE_ROOTS[0])
TEST_IMAGE = PROJECT_ROOT / 'Abl_1900_X__S__0287.tif'
VENV311_BIN = PROJECT_ROOT / '.venv311' / 'bin'
CALAMARI_PREDICT_BIN = VENV311_BIN / 'calamari-predict'

print('Project root:', PROJECT_ROOT)
print('Test image exists:', TEST_IMAGE.exists(), TEST_IMAGE)

print('Python:', sys.version.split()[0])
print('tesseract in PATH:', shutil.which('tesseract'))
print('calamari-predict in PATH:', shutil.which('calamari-predict'))
print('calamari-predict in .venv311:', CALAMARI_PREDICT_BIN, CALAMARI_PREDICT_BIN.exists())


Project root: /Users/stazh/Documents/GithubRepos_stazh/ocr_2
Test image exists: True /Users/stazh/Documents/GithubRepos_stazh/ocr_2/Abl_1900_X__S__0287.tif
Python: 3.11.14
tesseract in PATH: /opt/homebrew/bin/tesseract
calamari-predict in PATH: /Users/stazh/Documents/GithubRepos_stazh/ocr_2/.venv311/bin/calamari-predict
calamari-predict in .venv311: /Users/stazh/Documents/GithubRepos_stazh/ocr_2/.venv311/bin/calamari-predict True


## Optionale Paketinstallation (im aktiven Environment)

Wenn du in einer virtuellen Umgebung bist, kannst du diese Zelle einmalig ausführen.

In [3]:
%pip install --upgrade pip
%pip install jupyterlab pytesseract pillow numpy matplotlib calamari-ocr==2.3.1


Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


## Calamari-Frakturmodell konfigurieren

Lege das Frakturmodell lokal ab und setze den Pfad hier. Du kannst auch mehrere Modellpfade angeben (Ensemble).

In [2]:
from pathlib import Path

# Default: das geklonte Ensemble-Modell fraktur_19th_century (0-4).
MODEL_DIR = Path('../models/calamari_models/fraktur_19th_century').resolve()
CALAMARI_MODEL_PATHS = [
    MODEL_DIR / '0.ckpt.json',
    MODEL_DIR / '1.ckpt.json',
    MODEL_DIR / '2.ckpt.json',
    MODEL_DIR / '3.ckpt.json',
    MODEL_DIR / '4.ckpt.json',
]

for p in CALAMARI_MODEL_PATHS:
    print(p, 'exists:', p.exists())


/Users/stazh/Documents/GithubRepos_stazh/ocr_2/models/calamari_models/fraktur_19th_century/0.ckpt.json exists: True
/Users/stazh/Documents/GithubRepos_stazh/ocr_2/models/calamari_models/fraktur_19th_century/1.ckpt.json exists: True
/Users/stazh/Documents/GithubRepos_stazh/ocr_2/models/calamari_models/fraktur_19th_century/2.ckpt.json exists: True
/Users/stazh/Documents/GithubRepos_stazh/ocr_2/models/calamari_models/fraktur_19th_century/3.ckpt.json exists: True
/Users/stazh/Documents/GithubRepos_stazh/ocr_2/models/calamari_models/fraktur_19th_century/4.ckpt.json exists: True


Wenn hier `exists: False` steht, ist der Pfad noch nicht korrekt gesetzt.