Una aplicación de escritorio diseñada para extraer de forma inteligente el texto resaltado en tus imágenes y documentos escaneados.
[Aquí va una captura de pantalla o GIF de la aplicación]
- 🔍 OCR por Color: Extrae texto específicamente de áreas resaltadas en amarillo, verde, rosa o violeta.
- 📂 Procesamiento por Lotes: Arrastra una carpeta completa para analizar múltiples imágenes de una sola vez.
- 🖼️ Interfaz Intuitiva: Arrastra y suelta imágenes directamente en la aplicación para una vista previa instantánea.
- ✍️ Limpieza de Texto: Incluye una herramienta para eliminar saltos de línea innecesarios y formatear el texto extraído con un solo clic.
- 💾 Exportación Fácil: Copia el texto al portapapeles o guarda los resultados individualmente o todos a la vez en archivos
.txt. - 🎨 Estilo Único: Una interfaz personalizada "Green & Pink" con una barra de título manejable y tooltips de ayuda.
Para que la aplicación funcione, necesitas tener Tesseract OCR instalado en tu sistema o disponible junto al ejecutable.
- Descarga la versión portable de Tesseract para Windows desde UB Mannheim.
- Descomprime el archivo y renombra la carpeta a
Tesseract-OCR. - Copia esta carpeta
Tesseract-OCRy pégala en el mismo directorio donde está elExtractorOCR.exe.
- Instala Tesseract OCR usando el instalador oficial.
- Asegúrate de que la ruta de instalación (
C:\Program Files\Tesseract-OCR) esté accesible.
- Descarga la última versión del
.exedesde la sección de Releases de este repositorio. - Asegúrate de cumplir con los Requisitos mencionados arriba.
- Ejecuta
ExtractorOCR.exe. - Arrastra una imagen o una carpeta a la ventana.
- Selecciona el color del resaltador que quieres detectar.
- Haz clic en "Extraer Texto". Los resultados aparecerán en la lista de la derecha.
- Usa los botones de acción para limpiar, copiar o guardar el texto.
Si deseas modificar o compilar el proyecto tú mismo, sigue estos pasos:
git clone https://github.com/martin-ratti/Extractor-OCR-Python.git
cd Extractor-OCR-Pythonpython -m venv venv
# En Windows (CMD/PowerShell)
.\venv\Scripts\Activate
# En macOS/Linux (Bash/Zsh)
source venv/bin/activatepip install -r requirements.txtpython main.pyEl siguiente comando empaqueta la aplicación en un solo .exe. Asume que tienes una carpeta assets/ con tus iconos en la raíz del proyecto.
# En Windows (usa ; como separador)
pyinstaller --onefile --noconsole --name ExtractorOCR --add-data "assets;assets" main.py
# En macOS/Linux (usa : como separador)
pyinstaller --onefile --noconsole --name ExtractorOCR --add-data "assets:assets" main.pyNota: Para que la versión compilada funcione, recuerda colocar la carpeta
Tesseract-OCRjunto al.exegenerado en la carpetadist/.
- Python 🐍
- CustomTkinter y TkinterDnD2 para la interfaz gráfica.
- OpenCV para el procesamiento de imágenes y detección de color.
- Pytesseract (Tesseract) como motor de OCR.
- Pillow para el manejo de imágenes.
- PyInstaller para el empaquetado.
Este proyecto puedes usarlo, modificarlo y distribuirlo libremente, siempre citando la autoría correspondiente.