In [1]:
%pip install -q pymupdf4llm pypandoc-binary

Note: you may need to restart the kernel to use updated packages.


In [2]:
import os
import subprocess
from typing import Dict

import pymupdf4llm

In [35]:
def office_to_pdf(file_path: str) -> str:
    output_dir = os.path.dirname(file_path)
    base_name = os.path.basename(file_path)
    pdf_file = os.path.join(output_dir, os.path.splitext(base_name)[0] + ".pdf")
    subprocess.run(
        [
            "libreoffice",
            "--headless",
            "--convert-to",
            "pdf",
            file_path,
            "--outdir",
            output_dir,
        ],
        capture_output=True,
        text=True,
    )
    return pdf_file


def convert_to_markdown(file_path: str) -> Dict[str, str]:
    _, ext = os.path.splitext(file_path)
    ext = ext.lower()

    metadata = {
        "original_file": file_path,
        "file_type": ext[1:],  # Убираем точку из расширения
        "conversion_method": "",
    }

    converters = {
        (".doc", ".docx", ".rtf"): lambda f: (
            pymupdf4llm.to_markdown(
                office_to_pdf(f),
                write_images=False,
                embed_images=False,
                graphics_limit=None,
                # extract_words=True,
                # page_chunks=True,
                margins=(0, 0, 0, 0),
                table_strategy="lines_strict",
                fontsize_limit=1,
                ignore_code=True,
                show_progress=False,
            ),
            "office_to_pdf",
        ),
        ".pdf": lambda f: (
            pymupdf4llm.to_markdown(
                f,
                write_images=False,
                embed_images=False,
                graphics_limit=None,
                # extract_words=True,
                # page_chunks=True,
                margins=(0, 0, 0, 0),
                table_strategy="lines_strict",
                fontsize_limit=1,
                ignore_code=True,
                show_progress=False,
            ),
            "direct_pdf",
        ),
    }

    for extensions, converter in converters.items():
        if ext in extensions:
            content, method = converter(file_path)
            metadata["conversion_method"] = method
            return {"content": content, "metadata": metadata}

    raise ValueError(f"Unsupported file extension: {ext}")

In [36]:
# Пример использования
file_path = '../data/public/Приложение № 6. Корректировочный акт о выполненных работах (оказанных услугах).doc'
markdown_content = convert_to_markdown(file_path)

In [38]:
from IPython.display import Markdown

Markdown(markdown_content['content'])
# display(markdown_content['content'])

ФОРМА


# Приложение № 6 к Договору от _____________20__ г. № _______________

Код

Форма по 03058

ОКУД 67


ОАО «РЖД» по ОКПО

(организация)

БЕ

(структурное подразделение, адрес)

«Компания» по ОКПО

(организация)

БЕ


ОБЪЕКТ


(структурное подразделение, адрес) бизнескод
объекта

Номер Дата

# КОРРЕКТИРОВОЧНЫЙ АКТ

|Номер|Дата|
|---|---|
|||


#              о выполненных работах (оказанных услугах)

по

(договору (наряду-заказу), дата, номер)

на

(наименование договора (наряда-заказа))

Мы, нижеподписавшиеся, представитель «Компании»
_,_

(должность, Ф.И.О.)

действующий на
основании

(вид документа, дата, номер)

и представитель
ОАО «РЖД»

(должность, Ф.И.О.)

действующий на
основании

(вид документа, дата, номер)

составили настоящий акт о том, что работы (услуги), выполненные «Компанией»
по

(наименование работ (услуг, этапа))

в период с "___" "___"20___ г. по "___" "_____"20___ г. :

|Наименование видов и этапов выполненных работ (оказанных услуг)|Показатели в связи с изменением стоимости|ед. изм.|выполнено работ (оказано услуг)|Col5|Col6|Col7|Col8|
|---|---|---|---|---|---|---|---|
||||количе ство|цена за един ицу, руб.к оп.|стоимо сть без НДС, руб.|НДС, руб.|стоим ость с НДС, руб.|
|||||||||
||А (до изменения)|||||||


-----

|Col1|Б (после изменения)|Col3|Col4|Col5|Col6|Col7|Col8|
|---|---|---|---|---|---|---|---|
||В (увеличение )|||||||
||Г (уменьшени е)|||||||
|Итого||||||||
|в том числе по источникам финансирования||||||||
|||||||||
|||||||||

|Справочно:|Col2|Col3|Col4|
|---|---|---|---|
|Сумма гарантийных удержаний||||
|По акту||||
|в том числе по источникам финансирования||||
|||||
|||||
|Сумма выплаченных авансов||||
|За период||||
|в том числе по источникам финансирования||||
|||||
|||||
|Зачтено авансов||||
|По акту||||
|в том числе по источникам финансирования||||
|||||
|||||
|Итого к оплате||||
|в том числе по источникам финансирования||||
|||||
|||||


соответствуют
условиям


2

_Справочно:_

**_Сумма гарантийных удержаний_**

**_Сумма выплаченных авансов_**

**_Зачтено авансов_**

договора (наряда-заказа)


Работу сдал: Работу принял:

«Компания» ОАО «РЖД»

(должность) (должность)

(расшифровка

(подпись) подписи) (подпись) (расшифровка подписи)

М.П. М.П.

Исп. Ф.И.О.
тел.


-----

