# Парсинг PDF → Markdown (Docling)

В этом ноутбуке выполняем конвертацию исходных PDF (PHB/DMG) в Markdown при помощи Docling.

- Вход: `data/raw/*.pdf`
- Выход: `data/processed/md/{PHB,DMG}.md`
- OCR: включён (языковые подсказки `rus`, `eng`) для лучшего распознавания буквиц и многоязычных фрагментов.

Мы используем Markdown как основной артефакт, так как он лучше сохраняет структуру (заголовки, списки, таблицы) и подписи к изображениям. Комментарии и пояснения — на русском, как вы просили.


In [None]:
# Импорт и запуск пайплайна Docling
import sys, os
from pathlib import Path


def _detect_repo_root() -> Path:
    start = Path.cwd().resolve()
    for p in [start] + list(start.parents):
        if (p / 'src').is_dir() and (p / 'data').is_dir():
            return p
    return start


try:
    # Сработает, если код запускается как скрипт, а не ноутбук
    repo_root = Path(__file__).resolve().parent.parent
except NameError:
    # В ноутбуке __file__ нет — ищем корень по структуре проекта
    repo_root = _detect_repo_root()


# Добавляем src/ в PYTHONPATH, чтобы импортировать пакет dnd_rag
sys.path.append(str(repo_root / 'src'))

from dnd_rag.core.pipelines import parse_docs_pipeline  # type: ignore

RAW_DIR = repo_root / 'data' / 'raw'
OUT_MD_DIR = repo_root / 'data' / 'processed' / 'md'

produced = parse_docs_pipeline(
    RAW_DIR,
    OUT_MD_DIR,
    ocr=True,
    ocr_langs=("rus",), # возможно добавить "eng" для определения разных языков
)
produced


## Проверка результата

После выполнения ячейки выше должны появиться файлы:

- `data/processed/md/PHB.md`
- `data/processed/md/DMG.md`

Откройте их и убедитесь, что:
- заголовки корректны;
- таблицы читаемы;
- подписи к картинкам включены в текст Markdown (если были).
