In [1]:
import os
import sys
from pathlib import Path
from PIL import Image
from pdf2image import convert_from_path
import logging


In [2]:
# Настройка логирования
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

In [3]:
def test_pdf_conversion():
    """Тестирование конвертации PDF в изображения."""
    pdf_dir = Path("pdf-for-test")
    
    if not pdf_dir.exists():
        logger.error(f"Директория {pdf_dir} не существует")
        return False
    
    # Поиск PDF файлов
    pdf_files = list(pdf_dir.glob("*.pdf"))
    
    if not pdf_files:
        logger.error(f"В директории {pdf_dir} не найдено PDF файлов")
        return False
    
    logger.info(f"Найдено {len(pdf_files)} PDF файлов")
    
    # Создание директории для тестовых изображений
    test_images_dir = Path("test_images")
    test_images_dir.mkdir(exist_ok=True)
    
    for pdf_file in pdf_files:
        try:
            logger.info(f"Обработка файла: {pdf_file}")
            
            # Конвертация PDF в изображения
            images = convert_from_path(str(pdf_file), dpi=150)  # Используем меньшее разрешение для теста
            
            logger.info(f"Получено {len(images)} изображений из {pdf_file.name}")
            
            # Сохранение первых двух страниц каждого PDF для проверки
            for i, image in enumerate(images[:2]):  # Только первые 2 страницы для теста
                output_path = test_images_dir / f"{pdf_file.stem}_page_{i+1}.png"
                image.save(output_path, "PNG")
                logger.info(f"Сохранено изображение: {output_path}")
            
            logger.info(f"Успешно обработан файл: {pdf_file}")
            
        except Exception as e:
            logger.error(f"Ошибка при обработке файла {pdf_file}: {e}")
            return False
    
    logger.info("Тестирование конвертации PDF завершено успешно")
    logger.info(f"Изображения сохранены в директории: {test_images_dir}")
    return True

In [4]:
test_pdf_conversion()

2025-12-16 21:23:18,641 - INFO - Найдено 2 PDF файлов
2025-12-16 21:23:18,641 - INFO - Обработка файла: pdf-for-test/standartizatsiya-i-kachestvo-zhizni.pdf
2025-12-16 21:23:18,700 - INFO - Получено 3 изображений из standartizatsiya-i-kachestvo-zhizni.pdf
2025-12-16 21:23:18,749 - INFO - Сохранено изображение: test_images/standartizatsiya-i-kachestvo-zhizni_page_1.png
2025-12-16 21:23:18,805 - INFO - Сохранено изображение: test_images/standartizatsiya-i-kachestvo-zhizni_page_2.png
2025-12-16 21:23:18,805 - INFO - Успешно обработан файл: pdf-for-test/standartizatsiya-i-kachestvo-zhizni.pdf
2025-12-16 21:23:18,805 - INFO - Обработка файла: pdf-for-test/o-predelnom-mnogomernom-raspredelenii.pdf
2025-12-16 21:23:18,863 - INFO - Получено 4 изображений из o-predelnom-mnogomernom-raspredelenii.pdf
2025-12-16 21:23:18,902 - INFO - Сохранено изображение: test_images/o-predelnom-mnogomernom-raspredelenii_page_1.png
2025-12-16 21:23:18,941 - INFO - Сохранено изображение: test_images/o-predelnom-m

True

In [3]:
def check_dependencies():
    """Проверка наличия необходимых зависимостей."""
    try:
        import pdf2image
        logger.info("✓ pdf2image установлен")
    except ImportError:
        logger.error("✗ pdf2image не установлен. Установите с помощью: pip install pdf2image")
        return False
    
    try:
        from PIL import Image
        logger.info("✓ Pillow установлен")
    except ImportError:
        logger.error("✗ Pillow не установлен. Установите с помощью: pip install pillow")
        return False
    
    # Проверка наличия poppler
    try:
        import subprocess
        result = subprocess.run(['pdftoppm', '-v'], capture_output=True, text=True)
        if result.returncode == 0:
            logger.info("✓ Poppler установлен")
        else:
            logger.error("✗ Poppler не установлен или не работает корректно")
            logger.error("Установите Poppler согласно инструкциям в README.md")
            return False
    except FileNotFoundError:
        logger.error("✗ Poppler не найден")
        logger.error("Установите Poppler согласно инструкциям в README.md")
        return False
    
    return True

In [6]:
check_dependencies()

2025-12-16 21:23:18,966 - INFO - ✓ pdf2image установлен
2025-12-16 21:23:18,966 - INFO - ✓ Pillow установлен
2025-12-16 21:23:18,971 - INFO - ✓ Poppler установлен


True

In [5]:
def main():
    """Основная функция."""
    logger.info("Начало тестирования извлечения текста из PDF")
    
    # Проверка зависимостей
    if not check_dependencies():
        logger.error("Проверка зависимостей не пройдена")
        sys.exit(1)
    
    # Тестирование конвертации PDF
    if not test_pdf_conversion():
        logger.error("Тестирование конвертации PDF не пройдено")
        sys.exit(1)
    
    logger.info("Все тесты пройдены успешно!")
    logger.info("Теперь вы можете запустить основной скрипт:")
    logger.info("python pdf_text_extractor.py")

if __name__ == "__main__":
    main()

2025-12-18 14:33:00,224 - INFO - Начало тестирования извлечения текста из PDF
2025-12-18 14:33:00,225 - INFO - ✓ pdf2image установлен
2025-12-18 14:33:00,225 - INFO - ✓ Pillow установлен
2025-12-18 14:33:00,229 - INFO - ✓ Poppler установлен
2025-12-18 14:33:00,230 - INFO - Найдено 2 PDF файлов
2025-12-18 14:33:00,230 - INFO - Обработка файла: pdf-for-test/standartizatsiya-i-kachestvo-zhizni.pdf
2025-12-18 14:33:00,230 - INFO - Создана подпапка: test_images/standartizatsiya-i-kachestvo-zhizni
2025-12-18 14:33:00,294 - INFO - Получено 3 изображений из standartizatsiya-i-kachestvo-zhizni.pdf
2025-12-18 14:33:00,343 - INFO - Сохранено изображение: test_images/standartizatsiya-i-kachestvo-zhizni/page_001.png
2025-12-18 14:33:00,399 - INFO - Сохранено изображение: test_images/standartizatsiya-i-kachestvo-zhizni/page_002.png
2025-12-18 14:33:00,448 - INFO - Сохранено изображение: test_images/standartizatsiya-i-kachestvo-zhizni/page_003.png
2025-12-18 14:33:00,448 - INFO - Успешно обработан фа

In [4]:
def test_pdf_conversion():
    """Тестирование конвертации PDF в изображения с созданием подпапок."""
    pdf_dir = Path("pdf-for-test")
    
    if not pdf_dir.exists():
        logger.error(f"Директория {pdf_dir} не существует")
        return False
    
    # Поиск PDF файлов
    pdf_files = list(pdf_dir.glob("*.pdf"))
    
    if not pdf_files:
        logger.error(f"В директории {pdf_dir} не найдено PDF файлов")
        return False
    
    logger.info(f"Найдено {len(pdf_files)} PDF файлов")
    
    # Создание основной директории для тестовых изображений
    test_images_dir = Path("test_images")
    test_images_dir.mkdir(exist_ok=True)
    
    for pdf_file in pdf_files:
        try:
            logger.info(f"Обработка файла: {pdf_file}")
            
            # Создание подпапки для текущего PDF файла
            pdf_subfolder = test_images_dir / pdf_file.stem
            pdf_subfolder.mkdir(exist_ok=True)
            logger.info(f"Создана подпапка: {pdf_subfolder}")
            
            # Конвертация PDF в изображения
            images = convert_from_path(str(pdf_file), dpi=150)
            
            logger.info(f"Получено {len(images)} изображений из {pdf_file.name}")
            
            # Сохранение первых двух страниц каждого PDF для проверки
            # for i, image in enumerate(images[:2]):  # Только первые 2 страницы для теста
            for i, image in enumerate(images[:]): 
                output_path = pdf_subfolder / f"page_{i+1:03d}.png"  # Форматирование с ведущими нулями
                image.save(output_path, "PNG")
                logger.info(f"Сохранено изображение: {output_path}")
            
            logger.info(f"Успешно обработан файл: {pdf_file}")
            
        except Exception as e:
            logger.error(f"Ошибка при обработке файла {pdf_file}: {e}")
            logger.error(traceback.format_exc())
            return False
    
    logger.info("Тестирование конвертации PDF завершено успешно")
    logger.info(f"Изображения сохранены в директории: {test_images_dir}")
    return True
