In [1]:
!pip install PyMuPDF pdfplumber pandas Pillow

Collecting PyMuPDF
  Downloading pymupdf-1.25.3-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Collecting pdfplumber
  Downloading pdfplumber-0.11.5-py3-none-any.whl.metadata (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.5/42.5 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
Collecting pdfminer.six==20231228 (from pdfplumber)
  Downloading pdfminer.six-20231228-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.1-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.2/48.2 kB[0m [31m387.4 kB/s[0m eta [36m0:00:00[0m
Downloading pymupdf-1.25.3-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (20.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.0/20.0 MB[0m [31m18.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pdfplumber-0.11.5-py3-none-any.whl (59 kB)

In [4]:
import os
import json
import fitz  # PyMuPDF
import pdfplumber
import pandas as pd
from PIL import Image
import concurrent.futures
from pathlib import Path
import re
import uuid
import logging

# Настройка логирования
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

class PDFStructureExtractor:
    """
    Класс для извлечения структурированных данных из PDF-документов
    с сохранением форматирования для последующего перевода
    """

    def __init__(self, pdf_path, output_dir="output", assets_dir="assets"):
        """
        Инициализация экстрактора структуры PDF

        Args:
            pdf_path (str): Путь к PDF файлу
            output_dir (str): Директория для сохранения выходных данных
            assets_dir (str): Директория для сохранения изображений
        """
        self.pdf_path = pdf_path
        self.output_dir = output_dir
        self.assets_dir = os.path.join(output_dir, assets_dir)

        # Создаем необходимые директории
        os.makedirs(self.output_dir, exist_ok=True)
        os.makedirs(self.assets_dir, exist_ok=True)

        # Имя файла без расширения для использования в именовании
        self.base_filename = os.path.splitext(os.path.basename(pdf_path))[0]

        # Инициализация объектов для работы с PDF
        self.doc_fitz = fitz.open(pdf_path)
        self.doc_plumber = pdfplumber.open(pdf_path)

        logger.info(f"Инициализирован экстрактор для файла: {pdf_path}")

    def __del__(self):
        """Закрытие документов при уничтожении объекта"""
        try:
            if hasattr(self, 'doc_fitz'):
                self.doc_fitz.close()
            if hasattr(self, 'doc_plumber'):
                self.doc_plumber.close()
        except Exception as e:
            logger.error(f"Ошибка при закрытии документов: {e}")

    def extract_metadata(self):
        """
        Извлечение метаданных документа

        Returns:
            dict: Словарь с метаданными
        """
        metadata = {}

        # Извлечение метаданных через PyMuPDF
        try:
            metadata = {
                "title": self.doc_fitz.metadata.get("title", ""),
                "author": self.doc_fitz.metadata.get("author", ""),
                "subject": self.doc_fitz.metadata.get("subject", ""),
                "keywords": self.doc_fitz.metadata.get("keywords", ""),
                "creator": self.doc_fitz.metadata.get("creator", ""),
                "producer": self.doc_fitz.metadata.get("producer", ""),
                "creationDate": self.doc_fitz.metadata.get("creationDate", ""),
                "modDate": self.doc_fitz.metadata.get("modDate", ""),
                "pageCount": len(self.doc_fitz)
            }
        except Exception as e:
            logger.error(f"Ошибка при извлечении метаданных: {e}")

        # Извлечение гиперссылок
        hyperlinks = []
        try:
            for page_num in range(len(self.doc_fitz)):
                page = self.doc_fitz[page_num]
                links = page.get_links()
                for link in links:
                    if "uri" in link:
                        # Добавляем информацию о гиперссылке
                        rect = link.get("rect", [0, 0, 0, 0])
                        hyperlinks.append({
                            "page": page_num + 1,
                            "bbox": [rect[0], rect[1], rect[2], rect[3]],
                            "url": link["uri"]
                        })
            metadata["hyperlinks"] = hyperlinks
        except Exception as e:
            logger.error(f"Ошибка при извлечении гиперссылок: {e}")
            metadata["hyperlinks"] = []

        logger.info(f"Извлечены метаданные документа")
        return metadata

    def detect_language(self, text):
        """
        Определение языка текста (упрощенная версия)

        Args:
            text (str): Текст для анализа

        Returns:
            str: Код языка (ru, en, etc.)
        """
        # Простая эвристика по наличию кириллицы
        if re.search('[а-яА-Я]', text):
            return "ru"
        else:
            return "en"

        # В реальном приложении здесь следует использовать
        # более сложные алгоритмы определения языка, например:
        # from langdetect import detect
        # return detect(text)

    def extract_text_block(self, block, page_num):
        """
        Извлечение информации о текстовом блоке

        Args:
            block (dict): Блок текста из PyMuPDF
            page_num (int): Номер страницы

        Returns:
            dict: Структурированные данные о текстовом блоке
        """
        lines = []
        block_text = ""

        for line in block.get("lines", []):
            spans = []
            line_text = ""

            for span in line.get("spans", []):
                text = span.get("text", "").strip()
                if not text:
                    continue

                line_text += text + " "
                block_text += text + " "

                # Извлечение информации о шрифте
                font_info = {
                    "text": text,
                    "font": span.get("font", ""),
                    "size": span.get("size", 0),
                    "color": f"#{span.get('color', 0):06x}" if span.get('color') is not None else "#000000",
                    "flags": span.get("flags", 0)  # Битовая маска: 1=жирный, 2=курсив, 4=моноширинный, 8=с засечками
                }

                spans.append(font_info)

            if spans:
                lines.append({
                    "bbox": line.get("bbox", [0, 0, 0, 0]),
                    "text": line_text.strip(),
                    "spans": spans
                })

        # Определяем язык блока по тексту
        language = self.detect_language(block_text.strip())

        return {
            "type": "text",
            "bbox": block.get("bbox", [0, 0, 0, 0]),
            "language": language,
            "lines": lines
        }

    def extract_tables(self, page_num):
        """
        Извлечение таблиц со страницы

        Args:
            page_num (int): Номер страницы

        Returns:
            list: Список с данными о таблицах
        """
        tables = []

        try:
            # Получаем страницу из pdfplumber
            page = self.doc_plumber.pages[page_num]
            # Находим таблицы
            found_tables = page.find_tables()

            for table_idx, table in enumerate(found_tables):
                cells = []

                # Проверяем, содержит ли таблица достаточно ячеек
                if not hasattr(table, 'cells') or not table.cells:
                    continue

                # Извлекаем данные ячеек
                table_data = []
                for cell in table.cells:
                    if cell is None:
                        continue

                    # Извлекаем текст ячейки
                    cell_bbox = [cell.x0, cell.y0, cell.x1, cell.y1]
                    cell_text = page.crop(cell_bbox).extract_text() or ""

                    cells.append({
                        "bbox": cell_bbox,
                        "text": cell_text.strip(),
                        "row": cell.row,
                        "col": cell.col,
                        "rowspan": getattr(cell, 'rowspan', 1),
                        "colspan": getattr(cell, 'colspan', 1)
                    })

                    # Добавляем в DataFrame для визуализации
                    row_data = {
                        'row': cell.row,
                        'col': cell.col,
                        'text': cell_text.strip()
                    }
                    table_data.append(row_data)

                # Создаем DataFrame для отладки
                try:
                    df = pd.DataFrame(table_data)
                    pivot_table = df.pivot(index='row', columns='col', values='text')

                    # Сохраняем таблицу в CSV для проверки (опционально)
                    csv_path = os.path.join(self.output_dir, f"{self.base_filename}_page{page_num+1}_table{table_idx+1}.csv")
                    pivot_table.to_csv(csv_path)
                except Exception as e:
                    logger.warning(f"Не удалось создать DataFrame для таблицы: {e}")

                if cells:
                    # Вычисляем общие границы таблицы
                    x0 = min(cell["bbox"][0] for cell in cells)
                    y0 = min(cell["bbox"][1] for cell in cells)
                    x1 = max(cell["bbox"][2] for cell in cells)
                    y1 = max(cell["bbox"][3] for cell in cells)

                    tables.append({
                        "type": "table",
                        "bbox": [x0, y0, x1, y1],
                        "cells": cells
                    })
        except Exception as e:
            logger.error(f"Ошибка при извлечении таблиц со страницы {page_num+1}: {e}")

        return tables

    def extract_images(self, page_num):
        """
        Извлечение изображений со страницы

        Args:
            page_num (int): Номер страницы

        Returns:
            list: Список с данными об изображениях
        """
        images = []

        try:
            page = self.doc_fitz[page_num]
            image_list = page.get_images(full=True)

            for img_idx, img_info in enumerate(image_list):
                xref = img_info[0]  # Ссылка на изображение в PDF

                # Извлекаем изображение
                try:
                    base_image = self.doc_fitz.extract_image(xref)
                    image_bytes = base_image["image"]
                    image_ext = base_image["ext"]

                    # Генерируем имя файла
                    image_filename = f"{self.base_filename}_page{page_num+1}_img{img_idx+1}.{image_ext}"
                    image_path = os.path.join(self.assets_dir, image_filename)

                    # Сохраняем изображение
                    with open(image_path, "wb") as img_file:
                        img_file.write(image_bytes)

                    # Получаем координаты изображения на странице
                    # (Это упрощенный подход, для точных координат нужен дополнительный анализ)
                    rect = page.get_image_bbox(img_info)
                    if rect:
                        bbox = [rect.x0, rect.y0, rect.x1, rect.y1]
                    else:
                        # Если не удалось получить координаты, используем приблизительные
                        # на основе размера изображения и страницы
                        img = Image.open(image_path)
                        width, height = img.size
                        page_width, page_height = page.rect.width, page.rect.height
                        scale = min(page_width / width, page_height / height) * 0.5
                        img_width, img_height = width * scale, height * scale

                        # Приблизительное положение в центре страницы
                        x0 = (page_width - img_width) / 2
                        y0 = (page_height - img_height) / 2
                        bbox = [x0, y0, x0 + img_width, y0 + img_height]

                    # Формируем относительный путь для JSON
                    rel_path = os.path.join("assets", image_filename)

                    images.append({
                        "type": "image",
                        "bbox": bbox,
                        "path": rel_path,
                        "size": [base_image.get("width", 0), base_image.get("height", 0)],
                        "xref": xref
                    })

                except Exception as e:
                    logger.error(f"Ошибка при извлечении изображения {xref} со страницы {page_num+1}: {e}")
        except Exception as e:
            logger.error(f"Ошибка при обработке изображений на странице {page_num+1}: {e}")

        return images

    def process_page(self, page_num):
        """
        Обработка отдельной страницы PDF

        Args:
            page_num (int): Номер страницы (начиная с 0)

        Returns:
            dict: Структурированные данные о странице
        """
        logger.info(f"Обработка страницы {page_num+1}")

        page_fitz = self.doc_fitz[page_num]

        # Инициализация данных страницы
        page_data = {
            "number": page_num + 1,
            "size": [page_fitz.rect.width, page_fitz.rect.height],
            "rotation": page_fitz.rotation,
            "blocks": []
        }

        # Извлечение текстовых блоков
        text_page = page_fitz.get_text("dict")
        for block in text_page["blocks"]:
            if block["type"] == 0:  # 0 = текстовый блок
                text_block = self.extract_text_block(block, page_num)
                page_data["blocks"].append(text_block)

        # Извлечение таблиц
        tables = self.extract_tables(page_num)
        page_data["blocks"].extend(tables)

        # Извлечение изображений
        images = self.extract_images(page_num)
        page_data["blocks"].extend(images)

        # Сортировка блоков по вертикальной позиции для сохранения порядка чтения
        page_data["blocks"].sort(key=lambda x: x["bbox"][1])

        return page_data

    def extract_structure(self):
        """
        Извлечение полной структуры документа

        Returns:
            dict: Структурированные данные о документе
        """
        # Структура для сохранения всех данных
        output = {
            "version": "1.0",
            "filename": self.base_filename,
            "metadata": self.extract_metadata(),
            "pages": []
        }

        # Параллельная обработка страниц для ускорения
        with concurrent.futures.ThreadPoolExecutor() as executor:
            # Запускаем обработку всех страниц параллельно
            future_to_page = {
                executor.submit(self.process_page, page_num): page_num
                for page_num in range(len(self.doc_fitz))
            }

            # Собираем результаты в правильном порядке
            pages = [None] * len(self.doc_fitz)
            for future in concurrent.futures.as_completed(future_to_page):
                page_num = future_to_page[future]
                try:
                    page_data = future.result()
                    pages[page_num] = page_data
                except Exception as e:
                    logger.error(f"Ошибка при обработке страницы {page_num+1}: {e}")
                    # Создаем пустую страницу в случае ошибки
                    pages[page_num] = {
                        "number": page_num + 1,
                        "size": [0, 0],
                        "blocks": [],
                        "error": str(e)
                    }

        # Фильтруем None значения (на случай ошибок)
        output["pages"] = [page for page in pages if page is not None]

        return output

    def save_structure(self, output=None):
        """
        Сохранение структуры документа в JSON-файл

        Args:
            output (dict, optional): Структура для сохранения.
                                     Если None, будет извлечена автоматически.

        Returns:
            str: Путь к сохраненному JSON-файлу
        """
        if output is None:
            output = self.extract_structure()

        # Создаем имя файла для вывода
        json_filename = f"{self.base_filename}_structure.json"
        json_path = os.path.join(self.output_dir, json_filename)

        # Сохраняем в JSON с отступами для удобочитаемости
        with open(json_path, 'w', encoding='utf-8') as f:
            json.dump(output, f, ensure_ascii=False, indent=2)

        logger.info(f"Структура документа сохранена в {json_path}")
        return json_path


class PDFTranslator:
    """
    Класс для перевода текста в структуре PDF
    """

    def __init__(self, structure_path, target_language="en"):
        """
        Инициализация переводчика

        Args:
            structure_path (str): Путь к JSON файлу со структурой документа
            target_language (str): Целевой язык перевода (код языка)
        """
        self.structure_path = structure_path
        self.target_language = target_language

        # Загружаем структуру
        with open(structure_path, 'r', encoding='utf-8') as f:
            self.structure = json.load(f)

        # Директория для сохранения выходных данных
        self.output_dir = os.path.dirname(structure_path)

        logger.info(f"Инициализирован переводчик для {structure_path}")

    def translate_text(self, text, source_lang, target_lang):
        """
        Перевод текста на целевой язык

        Args:
            text (str): Исходный текст
            source_lang (str): Исходный язык
            target_lang (str): Целевой язык

        Returns:
            str: Переведенный текст
        """
        # Здесь должна быть интеграция с API переводчика
        # В данном примере используем заглушку

        # В реальном приложении здесь нужно использовать API перевода, например:
        # from googletrans import Translator
        # translator = Translator()
        # return translator.translate(text, src=source_lang, dest=target_lang).text

        # Заглушка для примера (имитация перевода)
        if source_lang == "ru" and target_lang == "en":
            # Простая заглушка русский -> английский
            translations = {
                "Пример": "Example",
                "текста": "text",
                "таблица": "table",
                "изображение": "image",
                "заголовок": "header",
                "документ": "document",
                "страница": "page"
            }

            # Заменяем известные слова
            for ru, en in translations.items():
                text = text.replace(ru, en)

            # Добавляем метку, чтобы было видно, что текст "переведен"
            return f"[Translated: {text}]"
        else:
            # Для других языков просто возвращаем исходный текст
            return f"[Would translate: {text}]"

    def translate_structure(self):
        """
        Перевод всех текстовых элементов в структуре документа

        Returns:
            dict: Переведенная структура документа
        """
        # Создаем копию структуры
        translated_structure = self.structure.copy()

        # Переводим метаданные
        metadata = translated_structure.get("metadata", {})
        if "title" in metadata:
            metadata["title"] = self.translate_text(
                metadata["title"],
                "ru",  # Предполагаем, что исходный язык русский
                self.target_language
            )

        # Перебираем все страницы
        for page_idx, page in enumerate(translated_structure.get("pages", [])):
            logger.info(f"Перевод страницы {page_idx+1}")

            # Перебираем все блоки на странице
            for block_idx, block in enumerate(page.get("blocks", [])):
                block_type = block.get("type")

                # Обрабатываем текстовые блоки
                if block_type == "text":
                    source_lang = block.get("language", "ru")

                    # Перебираем строки
                    for line_idx, line in enumerate(block.get("lines", [])):
                        # Переводим текст строки
                        if "text" in line:
                            line["text"] = self.translate_text(
                                line["text"],
                                source_lang,
                                self.target_language
                            )

                        # Переводим отдельные фрагменты текста
                        for span_idx, span in enumerate(line.get("spans", [])):
                            if "text" in span:
                                span["text"] = self.translate_text(
                                    span["text"],
                                    source_lang,
                                    self.target_language
                                )

                # Обрабатываем таблицы
                elif block_type == "table":
                    for cell_idx, cell in enumerate(block.get("cells", [])):
                        if "text" in cell:
                            cell["text"] = self.translate_text(
                                cell["text"],
                                "ru",  # Предполагаем русский
                                self.target_language
                            )

        return translated_structure

    def save_translated_structure(self, translated_structure=None):
        """
        Сохранение переведенной структуры в файл

        Args:
            translated_structure (dict, optional): Переведенная структура.
                                                 Если None, будет создана автоматически.

        Returns:
            str: Путь к сохраненному файлу
        """
        if translated_structure is None:
            translated_structure = self.translate_structure()

        # Создаем имя файла
        base_filename = self.structure.get("filename", "document")
        json_filename = f"{base_filename}_translated_{self.target_language}.json"
        json_path = os.path.join(self.output_dir, json_filename)

        # Сохраняем в JSON
        with open(json_path, 'w', encoding='utf-8') as f:
            json.dump(translated_structure, f, ensure_ascii=False, indent=2)

        logger.info(f"Переведенная структура сохранена в {json_path}")
        return json_path


class PDFReconstructor:
    """
    Класс для воссоздания PDF из структурированных данных
    """

    def __init__(self, structure_path):
        """
        Инициализация реконструктора PDF

        Args:
            structure_path (str): Путь к JSON-файлу со структурой
        """
        self.structure_path = structure_path

        # Загружаем структуру
        with open(structure_path, 'r', encoding='utf-8') as f:
            self.structure = json.load(f)

        # Директория с исходной структурой
        self.base_dir = os.path.dirname(structure_path)

        # Директория для сохранения выходных файлов
        self.output_dir = os.path.join(self.base_dir, "reconstructed")
        os.makedirs(self.output_dir, exist_ok=True)

        logger.info(f"Инициализирован реконструктор для {structure_path}")

    def construct_pdf(self):
        """
        Создание PDF-документа на основе структурированных данных

        Returns:
            str: Путь к созданному PDF-файлу
        """
        # В этом примере мы используем PyMuPDF (fitz) для создания PDF

        # Создаем новый документ
        doc = fitz.open()

        # Получаем метаданные
        metadata = self.structure.get("metadata", {})

        # Перебираем страницы
        for page_data in self.structure.get("pages", []):
            # Создаем страницу с нужными размерами
            page_size = page_data.get("size", [595, 842])  # A4 по умолчанию
            page = doc.new_page(width=page_size[0], height=page_size[1])

            # Обрабатываем блоки на странице
            for block in page_data.get("blocks", []):
                block_type = block.get("type")

                if block_type == "text":
                    # Обрабатываем текстовые блоки
                    for line in block.get("lines", []):
                        for span in line.get("spans", []):
                            text = span.get("text", "")
                            if not text:
                                continue

                            # Получаем координаты
                            bbox = line.get("bbox", [0, 0, 100, 20])

                            # Получаем информацию о шрифте
                            font_name = span.get("font", "helv")
                            font_size = span.get("size", 11)
                            color_hex = span.get("color", "#000000")

                            # Преобразуем цвет из HEX в RGB
                            try:
                                color_hex = color_hex.lstrip('#')
                                r, g, b = tuple(int(color_hex[i:i+2], 16) for i in (0, 2, 4))
                                color = (r/255, g/255, b/255)
                            except Exception:
                                color = (0, 0, 0)  # Черный по умолчанию

                            # Вставляем текст
                            page.insert_text(
                                point=(bbox[0], bbox[1] + font_size),
                                text=text,
                                fontname=font_name,
                                fontsize=font_size,
                                color=color
                            )

                elif block_type == "image":
                    # Обрабатываем изображения
                    image_path = block.get("path", "")
                    if not image_path:
                        continue

                    # Проверяем, существует ли файл изображения
                    full_image_path = os.path.join(self.base_dir, image_path)
                    if not os.path.exists(full_image_path):
                        logger.warning(f"Изображение не найдено: {full_image_path}")
                        continue

                    # Получаем координаты
                    bbox = block.get("bbox", [0, 0, 100, 100])

                    # Вставляем изображение
                    try:
                        page.insert_image(fitz.Rect(bbox), filename=full_image_path)
                    except Exception as e:
                        logger.error(f"Ошибка при вставке изображения {full_image_path}: {e}")

                elif block_type == "table":
                    # Для таблиц мы используем упрощенный подход - рисуем ячейки и вставляем текст
                    cells = block.get("cells", [])

                    for cell in cells:
                        # Получаем координаты ячейки
                        cell_bbox = cell.get("bbox", [0, 0, 0, 0])

                        # Рисуем границы ячейки
                        rect = fitz.Rect(cell_bbox)
                        page.draw_rect(rect, color=(0, 0, 0), width=0.5)

                        # Вставляем текст ячейки
                        cell_text = cell.get("text", "")
                        if cell_text:
                            # Вычисляем положение текста (примерно в центре ячейки)
                            x = (cell_bbox[0] + cell_bbox[2]) / 2
                            y = (cell_bbox[1] + cell_bbox[3]) / 2

                            # Вставляем текст
                            page.insert_text(
                                point=(x, y),
                                text=cell_text,
                                fontname="helv",
                                fontsize=9,
                                color=(0, 0, 0)
                            )
        # Устанавливаем метаданные документа
            if metadata:
                doc.set_metadata({
                    "title": metadata.get("title", ""),
                    "author": metadata.get("author", ""),
                    "subject": metadata.get("subject", ""),
                    "keywords": metadata.get("keywords", ""),
                    "creator": metadata.get("creator", "Translated Document"),
                    "producer": "PDF Structure Extractor"
                })

            # Добавляем гиперссылки
            for link in metadata.get("hyperlinks", []):
                page_num = link.get("page", 1) - 1
                if 0 <= page_num < len(doc):
                    page = doc[page_num]
                    bbox = link.get("bbox", [0, 0, 0, 0])
                    url = link.get("url", "")
                    if url:
                        page.insert_link({
                            "kind": fitz.LINK_URI,
                            "from": fitz.Rect(bbox),
                            "uri": url
                        })

        # Формируем имя выходного файла
        base_filename = self.structure.get("filename", "document")
        output_filename = f"{base_filename}_reconstructed.pdf"
        output_path = os.path.join(self.output_dir, output_filename)

        # Сохраняем документ
        doc.save(output_path)
        doc.close()

        logger.info(f"PDF успешно создан: {output_path}")
        return output_path

    def add_fonts(self, doc):
        """
        Добавление шрифтов в документ

        Args:
            doc: PDF документ
        """
        # Этот метод может быть расширен для загрузки дополнительных шрифтов
        # По умолчанию в PyMuPDF доступны базовые шрифты (helv, tiro, cour)
        # В реальном приложении здесь можно добавить загрузку пользовательских шрифтов
        pass

    def optimize_images(self, image_path, max_size=1000):
        """
        Оптимизация размера изображения

        Args:
            image_path (str): Путь к изображению
            max_size (int): Максимальный размер (ширина или высота)

        Returns:
            str: Путь к оптимизированному изображению
        """
        try:
            # Открываем изображение
            img = Image.open(image_path)

            # Проверяем, нужно ли изменять размер
            width, height = img.size
            if width > max_size or height > max_size:
                # Вычисляем новый размер с сохранением пропорций
                if width > height:
                    new_width = max_size
                    new_height = int(height * (max_size / width))
                else:
                    new_height = max_size
                    new_width = int(width * (max_size / height))

                # Изменяем размер
                img = img.resize((new_width, new_height), Image.LANCZOS)

                # Создаем новое имя файла
                filename, ext = os.path.splitext(image_path)
                optimized_path = f"{filename}_optimized{ext}"

                # Сохраняем оптимизированное изображение
                img.save(optimized_path, quality=85, optimize=True)

                return optimized_path
        except Exception as e:
            logger.error(f"Ошибка при оптимизации изображения {image_path}: {e}")

        # В случае ошибки возвращаем исходный путь
        return image_path

    def create_table_image(self, table_data, page_size):
        """
        Создание изображения таблицы для более качественного отображения

        Args:
            table_data (dict): Данные таблицы
            page_size (list): Размер страницы [ширина, высота]

        Returns:
            str: Путь к созданному изображению
        """
        try:
            cells = table_data.get("cells", [])
            if not cells:
                return None

            # Определяем границы таблицы
            bbox = table_data.get("bbox", [0, 0, 0, 0])
            width = bbox[2] - bbox[0]
            height = bbox[3] - bbox[1]

            # Создаем новое изображение с белым фоном
            from PIL import Image, ImageDraw, ImageFont

            # Создаем изображение с небольшим запасом
            img = Image.new('RGB', (int(width + 20), int(height + 20)), 'white')
            draw = ImageDraw.Draw(img)

            # Пытаемся загрузить шрифт (если не удастся, будет использован стандартный)
            try:
                font = ImageFont.truetype("Arial", 10)
            except:
                font = ImageFont.load_default()

            # Смещение для начала координат
            offset_x = -bbox[0] + 10
            offset_y = -bbox[1] + 10

            # Рисуем ячейки и текст
            for cell in cells:
                cell_bbox = cell.get("bbox", [0, 0, 0, 0])

                # Вычисляем координаты с учетом смещения
                x0 = cell_bbox[0] + offset_x
                y0 = cell_bbox[1] + offset_y
                x1 = cell_bbox[2] + offset_x
                y1 = cell_bbox[3] + offset_y

                # Рисуем границы ячейки
                draw.rectangle([x0, y0, x1, y1], outline="black", width=1)

                # Вставляем текст
                text = cell.get("text", "")
                if text:
                    # Вычисляем положение текста (с отступами от краев)
                    text_x = x0 + 3
                    text_y = y0 + 3

                    # Рисуем текст
                    draw.text((text_x, text_y), text, fill="black", font=font)

            # Генерируем имя файла и сохраняем изображение
            table_id = str(uuid.uuid4())[:8]
            image_filename = f"table_{table_id}.png"
            image_path = os.path.join(self.output_dir, image_filename)

            img.save(image_path)
            return image_path

        except Exception as e:
            logger.error(f"Ошибка при создании изображения таблицы: {e}")
            return None

    def advanced_construct_pdf(self):
        """
        Создание PDF-документа с использованием продвинутых техник отрисовки

        Returns:
            str: Путь к созданному PDF-файлу
        """
        # Создаем новый документ
        doc = fitz.open()

        # Получаем метаданные
        metadata = self.structure.get("metadata", {})

        # Словарь для хранения ранее загруженных изображений (оптимизация)
        image_cache = {}

        # Перебираем страницы
        for page_idx, page_data in enumerate(self.structure.get("pages", [])):
            logger.info(f"Создание страницы {page_idx+1}")

            # Создаем страницу с нужными размерами
            page_size = page_data.get("size", [595, 842])  # A4 по умолчанию
            rotation = page_data.get("rotation", 0)

            page = doc.new_page(width=page_size[0], height=page_size[1])

            # Применяем поворот, если требуется
            if rotation != 0:
                page.set_rotation(rotation)

            # Создаем словарь для отслеживания уже занятых областей (для избежания перекрытий)
            occupied_areas = []

            # Предварительно сортируем блоки по типу, чтобы сначала рисовать изображения, затем таблицы, затем текст
            # Это помогает избежать перекрытия текстом изображений
            blocks = sorted(page_data.get("blocks", []), key=lambda b:
                            0 if b.get("type") == "image" else
                            1 if b.get("type") == "table" else 2)

            # Обрабатываем блоки на странице
            for block in blocks:
                block_type = block.get("type")
                block_bbox = block.get("bbox", [0, 0, 0, 0])

                if block_type == "text":
                    # Проверяем, не перекрывается ли текст с уже занятыми областями
                    text_rect = fitz.Rect(block_bbox)
                    skip_text = False

                    for area in occupied_areas:
                        if text_rect.intersects(area) and area.get_area() > text_rect.get_area() * 0.7:
                            # Если текст сильно перекрывается с занятой областью, пропускаем его
                            skip_text = True
                            break

                    if skip_text:
                        continue

                    # Обрабатываем текстовые блоки
                    for line in block.get("lines", []):
                        line_bbox = line.get("bbox", [0, 0, 0, 0])
                        text_y = line_bbox[1]  # Базовая y-координата для строки

                        for span in line.get("spans", []):
                            text = span.get("text", "")
                            if not text:
                                continue

                            # Получаем информацию о шрифте
                            font_name = span.get("font", "helv")
                            font_size = span.get("size", 11)
                            color_hex = span.get("color", "#000000")
                            font_flags = span.get("flags", 0)

                            # Определяем стиль шрифта
                            font_style = ""
                            if font_flags & 1:  # Жирный
                                font_style += "bold"
                            if font_flags & 2:  # Курсив
                                font_style += "italic"

                            # Преобразуем цвет из HEX в RGB
                            try:
                                color_hex = color_hex.lstrip('#')
                                r, g, b = tuple(int(color_hex[i:i+2], 16) for i in (0, 2, 4))
                                color = (r/255, g/255, b/255)
                            except Exception:
                                color = (0, 0, 0)  # Черный по умолчанию

                            # Вставляем текст на позиции текущего span
                            # Для более точного позиционирования используем координаты span, если они доступны
                            span_bbox = span.get("bbox", line_bbox)

                            # Вставляем текст
                            page.insert_text(
                                point=(span_bbox[0], text_y + font_size * 0.8),  # Корректируем позицию для базовой линии
                                text=text,
                                fontname=font_name,
                                fontsize=font_size,
                                color=color
                            )

                    # Добавляем блок в занятые области
                    occupied_areas.append(fitz.Rect(block_bbox))

                elif block_type == "image":
                    # Обрабатываем изображения
                    image_path = block.get("path", "")
                    if not image_path:
                        continue

                    # Проверяем, существует ли файл изображения
                    full_image_path = os.path.join(self.base_dir, image_path)
                    if not os.path.exists(full_image_path):
                        logger.warning(f"Изображение не найдено: {full_image_path}")
                        continue

                    # Оптимизируем изображение, если это ещё не было сделано
                    if full_image_path not in image_cache:
                        optimized_path = self.optimize_images(full_image_path)
                        image_cache[full_image_path] = optimized_path
                    else:
                        optimized_path = image_cache[full_image_path]

                    # Получаем прямоугольник для изображения
                    rect = fitz.Rect(block_bbox)

                    # Вставляем изображение
                    try:
                        page.insert_image(rect, filename=optimized_path)
                        # Добавляем область изображения в занятые области
                        occupied_areas.append(rect)
                    except Exception as e:
                        logger.error(f"Ошибка при вставке изображения {optimized_path}: {e}")

                elif block_type == "table":
                    # Для сложных таблиц создаем изображение таблицы
                    # Это обеспечивает более точное отображение, чем отрисовка через примитивы
                    table_image_path = self.create_table_image(block, page_size)

                    if table_image_path:
                        # Получаем прямоугольник для таблицы
                        rect = fitz.Rect(block_bbox)

                        # Вставляем изображение таблицы
                        try:
                            page.insert_image(rect, filename=table_image_path)
                            # Добавляем область таблицы в занятые области
                            occupied_areas.append(rect)
                            continue  # Пропускаем дальнейшую обработку ячеек
                        except Exception as e:
                            logger.error(f"Ошибка при вставке изображения таблицы: {e}")

                    # Если не удалось создать изображение, рисуем таблицу стандартным способом
                    cells = block.get("cells", [])

                    for cell in cells:
                        # Получаем координаты ячейки
                        cell_bbox = cell.get("bbox", [0, 0, 0, 0])

                        # Рисуем границы ячейки
                        rect = fitz.Rect(cell_bbox)
                        page.draw_rect(rect, color=(0, 0, 0), width=0.5)

                        # Вставляем текст ячейки
                        cell_text = cell.get("text", "")
                        if cell_text:
                            # Вычисляем положение текста (с отступами от краев)
                            x = cell_bbox[0] + 3
                            y = cell_bbox[1] + 3 + 9  # Добавляем размер шрифта

                            # Вставляем текст
                            page.insert_text(
                                point=(x, y),
                                text=cell_text,
                                fontname="helv",
                                fontsize=9,
                                color=(0, 0, 0)
                            )

                    # Добавляем область таблицы в занятые области
                    occupied_areas.append(fitz.Rect(block_bbox))

        # Устанавливаем метаданные документа
        if metadata:
            doc.set_metadata({
                "title": metadata.get("title", ""),
                "author": metadata.get("author", ""),
                "subject": metadata.get("subject", ""),
                "keywords": metadata.get("keywords", ""),
                "creator": metadata.get("creator", "Translated Document"),
                "producer": "PDF Structure Extractor and Translator"
            })

        # Добавляем гиперссылки
        for link in metadata.get("hyperlinks", []):
            page_num = link.get("page", 1) - 1
            if 0 <= page_num < len(doc):
                page = doc[page_num]
                bbox = link.get("bbox", [0, 0, 0, 0])
                url = link.get("url", "")
                if url:
                    page.insert_link({
                        "kind": fitz.LINK_URI,
                        "from": fitz.Rect(bbox),
                        "uri": url
                    })

        # Формируем имя выходного файла
        base_filename = self.structure.get("filename", "document")
        output_filename = f"{base_filename}_reconstructed_advanced.pdf"
        output_path = os.path.join(self.output_dir, output_filename)

        # Сохраняем документ с оптимизацией
        doc.save(output_path, garbage=4, deflate=True, clean=True)
        doc.close()

        logger.info(f"PDF успешно создан с использованием продвинутых техник: {output_path}")
        return output_path


In [3]:
def main():
    """
    Основная функция для демонстрации работы системы
    """
    import argparse

    # Настройка аргументов командной строки
    parser = argparse.ArgumentParser(description="PDF Structure Extraction, Translation and Reconstruction")
    parser.add_argument("pdf_path", help="Path to the PDF file")
    parser.add_argument("--target-lang", default="en", help="Target language for translation (default: en)")
    parser.add_argument("--output-dir", default="output", help="Output directory (default: output)")
    parser.add_argument("--extract-only", action="store_true", help="Only extract structure without translation")
    parser.add_argument("--advanced", action="store_true", help="Use advanced PDF reconstruction techniques")

    args = parser.parse_args()

    try:
        # Шаг 1: Извлечение структуры
        extractor = PDFStructureExtractor(args.pdf_path, output_dir=args.output_dir)
        structure_path = extractor.save_structure()

        if args.extract_only:
            logger.info(f"Структура извлечена и сохранена в {structure_path}")
            return

        # Шаг 2: Перевод структуры
        translator = PDFTranslator(structure_path, target_language=args.target_lang)
        translated_structure_path = translator.save_translated_structure()

        # Шаг 3: Восстановление PDF
        reconstructor = PDFReconstructor(translated_structure_path)

        if args.advanced:
            output_path = reconstructor.advanced_construct_pdf()
        else:
            output_path = reconstructor.construct_pdf()

        logger.info(f"Процесс завершен. Результат сохранен в {output_path}")

    except Exception as e:
        logger.error(f"Произошла ошибка: {e}")
        import traceback
        logger.error(traceback.format_exc())

if __name__ == "__main__":
    main()

usage: colab_kernel_launcher.py [-h] [--target-lang TARGET_LANG] [--output-dir OUTPUT_DIR]
                                [--extract-only] [--advanced]
                                pdf_path
colab_kernel_launcher.py: error: unrecognized arguments: -f


SystemExit: 2