# Парсинг PDF → Markdown (Docling)

В этом ноутбуке выполняем конвертацию исходных PDF (PHB/DMG) в Markdown при помощи Docling.

- Вход: `data/raw/*.pdf`
- Выход: `data/processed/md/{PHB,DMG}.md`
- OCR: включён (языковые подсказки `rus`, `eng`) для лучшего распознавания буквиц и многоязычных фрагментов.

Мы используем Markdown как основной артефакт, так как он лучше сохраняет структуру (заголовки, списки, таблицы) и подписи к изображениям. Комментарии и пояснения — на русском, как вы просили.


In [1]:
# Импорт и запуск пайплайна Docling
import sys, os
from pathlib import Path


def _detect_repo_root() -> Path:
    start = Path.cwd().resolve()
    for p in [start] + list(start.parents):
        if (p / 'src').is_dir() and (p / 'data').is_dir():
            return p
    return start


try:
    # Сработает, если код запускается как скрипт, а не ноутбук
    repo_root = Path(__file__).resolve().parent.parent
except NameError:
    # В ноутбуке __file__ нет — ищем корень по структуре проекта
    repo_root = _detect_repo_root()


# Добавляем src/ в PYTHONPATH, чтобы импортировать пакет dnd_rag
sys.path.append(str(repo_root / 'src'))

from dnd_rag.core.pipelines import parse_docs_pipeline  # type: ignore

RAW_DIR = repo_root / 'data' / 'raw'
OUT_MD_DIR = repo_root / 'data' / 'processed' / 'md'

produced = parse_docs_pipeline(
    RAW_DIR,
    OUT_MD_DIR,
    ocr=True,
    ocr_langs=("rus", "eng"),
)
produced


  import pkg_resources
2025-11-09 18:21:27,917 - INFO - Loading dictionaries from c:\Users\Shchurov\AppData\Local\Programs\Python\Python312\Lib\site-packages\pymorphy2_dicts_ru\data
2025-11-09 18:21:27,954 - INFO - format: 2.4, revision: 417127, updated: 2020-10-11T15:05:51.070345
2025-11-09 18:21:28,039 - INFO - detected formats: [<InputFormat.PDF: 'pdf'>]
2025-11-09 18:21:28,560 - INFO - Going to convert document batch...
2025-11-09 18:21:28,561 - INFO - Initializing pipeline for StandardPdfPipeline with options hash 8b0243289554b785a9023ebdd7040d63
2025-11-09 18:21:28,622 - INFO - Loading plugin 'docling_defaults'
2025-11-09 18:21:28,631 - INFO - Registered picture descriptions: ['vlm', 'api']
2025-11-09 18:21:28,680 - INFO - Loading plugin 'docling_defaults'
2025-11-09 18:21:28,704 - INFO - Registered ocr engines: ['auto', 'easyocr', 'ocrmac', 'rapidocr', 'tesserocr', 'tesseract']
2025-11-09 18:21:28,739 - INFO - command: C:\Program Files\Tesseract-OCR\tesseract.exe --list-langs
20

[WindowsPath('C:/Users/Shchurov/Хранилище/Документы/05_Программирование/02_projects/personal/dnd_rule_assistant/data/processed/md/DMG.md'),
 WindowsPath('C:/Users/Shchurov/Хранилище/Документы/05_Программирование/02_projects/personal/dnd_rule_assistant/data/processed/md/PHB.md')]

## Проверка результата

После выполнения ячейки выше должны появиться файлы:

- `data/processed/md/PHB.md`
- `data/processed/md/DMG.md`

Откройте их и убедитесь, что:
- заголовки корректны;
- таблицы читаемы;
- подписи к картинкам включены в текст Markdown (если были).
