In [25]:
!pip install -q pathlib docling

In [27]:
# библиотеки
import os
import logging
from pathlib import Path, PosixPath
from docling.document_converter import DocumentConverter
from google.colab import drive

In [4]:
drive.mount('/content/drive')

Mounted at /content/drive


In [11]:
BASE_DIR = Path('/content/drive/MyDrive/Colab Notebooks')
PDF_DIR = BASE_DIR / 'PDF_files'
MD_DIR = BASE_DIR / 'MD_files'

In [32]:
def __converter_initializer__() -> DocumentConverter:
    """Инициализатор конвертера
    Возвращает инициализированный конвертер"""
    try:
        converter = DocumentConverter()
        return converter
    except Exception as e:
        return

def __parse_pdf_to_markdown__(converter: DocumentConverter,
                        pdf_path: PosixPath,
                        md_path: PosixPath) -> PosixPath:
    """Парсер файла формата .pdf в формат .md.

    Берет один файл pdf по указанному пути из PDF_DIR, парсит их с помощью Docling,
    сохраняет результат в Markdown в каталог MD_DIR и возвращает путь до сохраненного файла.

    Принимает:
    convert: DocumentConverter - инициализированный конвертер
    pdf_path: pathlib - путь до файла .pdf
    md_path: pathlib  - путь до каталога с файлами .md

    Возвращает:
    pathlib.PosixPath - путь до конвертированного файла .md

    Примечание:
    НЕ проверяет на наличие каталога md_path
    """

    # формируем путь для выходного файла .md
    md_filename = pdf_path.stem + ".md"
    md_path = md_path / md_filename

    # проверяем на наличие конвертированного файла в папке, если существует то выходим
    if md_path.exists():
        return md_path

    try:
        # конвертация документа
        result = converter.convert(str(pdf_path))

        # извлечение содержимого в Markdown
        markdown_content = result.document.export_to_markdown()

        # сохраняем Markdown в файл
        with open(md_path, "w", encoding="utf-8") as f:
            f.write(markdown_content)

        return md_path

    except Exception as e:
        return

In [35]:
def all_pdfs_to_markdown():
    """Обработка всех PDF-файлов из PDF_DIR и сохранением результатов в Markdown в MD_DIR"""

    # проверяем и создаем целевой каталог
    MD_DIR.mkdir(parents=True, exist_ok=True)

    # инициализация конвертера Docling
    converter = __converter_initializer__()

    # итерирование по всем PDF-файлам - используем glob() для поиска всех файлов с расширением .pdf

    for pdf_path in PDF_DIR.glob("*.pdf"):
      print(f'ОБработка документа {pdf_path} начата')
        # вызываем функцию парсинга, путь до файла в /dev/null
      _ = __parse_pdf_to_markdown__(converter=converter, pdf_path=pdf_path, md_path=MD_DIR)
      print(f'ОБработка документа {pdf_path} выполнена')
    print(f'ОБработка всех документов закончена')
    return

In [None]:
all_pdfs_to_markdown()