# Парсинг PDF → Markdown (Docling)

В этом ноутбуке выполняем конвертацию исходных PDF (PHB/DMG) в Markdown при помощи Docling.

- Вход: `data/raw/*.pdf`
- Выход: `data/processed/md/{PHB,DMG}.md`

Мы используем Markdown как основной артефакт, так как он лучше сохраняет структуру (заголовки, списки, таблицы) и подписи к изображениям. Комментарии и пояснения — на русском, как вы просили.


In [None]:
# Импорт и запуск пайплайна Docling
import sys, os
from pathlib import Path


def _detect_repo_root() -> Path:
    start = Path.cwd().resolve()
    for p in [start] + list(start.parents):
        if (p / 'src').is_dir() and (p / 'data').is_dir():
            return p
    return start


try:
    # Сработает, если код запускается как скрипт, а не ноутбук
    repo_root = Path(__file__).resolve().parent.parent
except NameError:
    # В ноутбуке __file__ нет — ищем корень по структуре проекта
    repo_root = _detect_repo_root()


# Добавляем src/ в PYTHONPATH, чтобы импортировать пакет dnd_rag
sys.path.append(str(repo_root / 'src'))

from dnd_rag.core.pipelines import parse_docs_pipeline  # type: ignore

RAW_DIR = repo_root / 'data' / 'raw'
OUT_MD_DIR = repo_root / 'data' / 'processed' / 'md'

produced = parse_docs_pipeline(RAW_DIR, OUT_MD_DIR, ocr=False)
produced


2025-10-31 19:35:15,222 - INFO - detected formats: [<InputFormat.PDF: 'pdf'>]
2025-10-31 19:35:15,459 - INFO - Going to convert document batch...
2025-10-31 19:35:15,460 - INFO - Initializing pipeline for StandardPdfPipeline with options hash 75463f421d05cb4304e1f714cf00d35d
2025-10-31 19:35:15,509 - INFO - Loading plugin 'docling_defaults'
2025-10-31 19:35:15,516 - INFO - Registered picture descriptions: ['vlm', 'api']
2025-10-31 19:35:15,559 - INFO - Loading plugin 'docling_defaults'
2025-10-31 19:35:15,574 - INFO - Registered ocr engines: ['auto', 'easyocr', 'ocrmac', 'rapidocr', 'tesserocr', 'tesseract']
2025-10-31 19:35:15,590 - INFO - Accelerator device: 'cpu'
2025-10-31 19:35:17,851 - INFO - Accelerator device: 'cpu'
2025-10-31 19:35:18,256 - INFO - Processing document Dungeon_Masters_Guide.pdf
2025-10-31 19:53:42,540 - INFO - Finished converting document Dungeon_Masters_Guide.pdf in 1107.33 sec.
2025-10-31 19:53:44,067 - INFO - detected formats: [<InputFormat.PDF: 'pdf'>]
2025-

[WindowsPath('C:/Users/Shchurov/Хранилище/Документы/05_Программирование/02_projects/personal/dnd_rule_assistant/data/processed/md/DMG.md'),
 WindowsPath('C:/Users/Shchurov/Хранилище/Документы/05_Программирование/02_projects/personal/dnd_rule_assistant/data/processed/md/PHB.md')]

## Проверка результата

После выполнения ячейки выше должны появиться файлы:

- `data/processed/md/PHB.md`
- `data/processed/md/DMG.md`

Откройте их и убедитесь, что:
- заголовки корректны;
- таблицы читаемы;
- подписи к картинкам включены в текст Markdown (если были).
