TextExtractor — это простое приложение для извлечения текста с изображений с помощью pytesseract
(Tesseract OCR) и tkinter
для графического интерфейса.
- Распознавание текста на русском и английском языках
- Поддержка изображений форматов: PNG, JPG, JPEG, BMP
- Графический интерфейс для выбора файла и отображения результата
- Предобработка изображения для повышения точности (опционально)
- Установи Python (3.8+)
- Установи зависимости:
pip install pytesseract pillow
Скачивайте и установите Tesseract OCR
Рекомендуемая сборка для Windows: UB Mannheim
Путь к tesseract.exe в коде, если он не в системной переменной PATH:
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
- Запусти файл main.py
- Нажми кнопку "Выбрать изображение"
- Программа распознает текст и выведет результат в окне
TextExtractor/
├── main.py
├── README.md
└── requirements.txt
- pytesseract
- Pillow
- tkinter (обычно входит в стандартную библиотеку Python)
- Tesseract OCR