<a href="https://colab.research.google.com/github/jserrataylor/cursoAI/blob/main/Proyecto_OCR_JAST.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Aplicación de OCR en Python**

### **Descripción de la Aplicación**:
La aplicación es un script de Python diseñado para ejecutarse en un entorno como Google Colab o una máquina local con Python instalado. Su función es tomar una imagen o un archivo PDF cargado por el usuario, extraer el texto utilizando OCR y guardar ese texto en un documento de Word. Esta aplicación es útil para digitalizar documentos impresos y hacer que su contenido sea editable y accesible para el procesamiento de texto.

### **Requerimientos de la Aplicación**:
1. **Python**: Debes tener Python 3 instalado en tu sistema. Google Colab ya viene con Python preinstalado.
2. **Bibliotecas de Python**: La aplicación depende de varias bibliotecas que deben estar instaladas en tu entorno Python. Estas son:
   - `pytesseract`: Una herramienta de OCR que actúa como un envoltorio para el programa Tesseract OCR.
   - `Pillow` (PIL Fork): Una biblioteca de Python para abrir, manipular y guardar muchos formatos de archivo de imágenes diferentes.
   - `PyMuPDF` (fitz): Una biblioteca para trabajar con archivos PDF y realizar diversas operaciones sobre ellos, como la conversión de páginas a imágenes.
   - `python-docx`: Una biblioteca de Python para crear y modificar archivos de Word (.docx).
3. **Tesseract OCR**: Es el motor de OCR en el que se basa `pytesseract`. Si estás trabajando en una máquina local, debes instalar Tesseract OCR y asegurarte de que los archivos de datos de idioma necesarios estén disponibles.
4. **Google Colab (opcional)**: Si prefieres no lidiar con la configuración local, puedes ejecutar el script en Google Colab, que es un entorno Jupyter notebook alojado que proporciona recursos de cómputo gratuitos.

### **Pasos para Instalar y Ejecutar la Aplicación**:
1. **Instalación de Bibliotecas**: En Google Colab, puedes instalar las bibliotecas necesarias ejecutando el siguiente comando en una celda del notebook:
   ```python
   !pip install pytesseract Pillow PyMuPDF python-docx
   ```
   En una máquina local, puedes usar el mismo comando en tu terminal o añadir estas dependencias a un archivo `requirements.txt` y ejecutar `pip install -r requirements.txt`.
   
2. **Configuración de Tesseract**: En una máquina local, instala Tesseract OCR desde su [repositorio oficial en GitHub](https://github.com/tesseract-ocr/tesseract) o utilizando un gestor de paquetes adecuado para tu sistema operativo. En Google Colab, puedes instalar Tesseract ejecutando `!apt install tesseract-ocr`.

3. **Ejecución del Script**: Una vez que todas las dependencias estén instaladas, puedes cargar el script en Google Colab o ejecutarlo en tu entorno local. Si usas Google Colab, puedes cargar archivos desde tu sistema local directamente a través de la interfaz de usuario de Colab.

4. **Carga de Archivos y Extracción de Texto**: Usa las funciones proporcionadas en el script para cargar tus archivos y extraer el texto. El script imprimirá el texto extraído y lo guardará en un documento de Word en tu entorno de Colab o en tu máquina local.

5. **Descarga de Resultados**: En Google Colab, puedes descargar el documento de Word generado directamente a tu sistema local. En una máquina local, el archivo se guardará en el directorio especificado en el script.

Estos pasos deberían ayudarte a configurar y ejecutar la aplicación de OCR. Si necesitas una guía más detallada o tienes problemas específicos durante la instalación o la ejecución, no dudes en pedir asistencia adicional.

In [None]:
## Instalación de los requerimientos
!pip install pytesseract tesseract
!sudo apt install tesseract-ocr
!sudo apt-get install -y tesseract-ocr-spa
!tesseract --list-langs
!pip install PyMuPDF
!pip install python-docx

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 24 not upgraded.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr-spa is already the newest version (1:4.00~git30-7274cfa-1.1).
0 upgraded, 0 newly installed, 0 to remove and 24 not upgraded.
List of available languages (3):
eng
osd
spa


In [None]:
## App para extraer texto a imagenes en distintos formatos.
import pytesseract
from PIL import Image
import fitz  # PyMuPDF
import io
from docx import Document
import re
from google.colab import files

# Función para limpiar el texto de caracteres no compatibles con XML
def clean_xml_compatible_text(text):
    return re.sub(r'[\x00-\x08\x0b\x0c\x0e-\x1f\x7f-\x9f]', '', text)

# Función para añadir texto a un documento de Word
def add_text_to_doc(text, doc_name):
    clean_text = clean_xml_compatible_text(text)
    doc = Document()
    doc.add_paragraph(clean_text)
    doc.save(doc_name)

# Función para procesar imágenes
def process_image(image_path, uploaded):
    image = Image.open(io.BytesIO(uploaded[image_path]))
    text = pytesseract.image_to_string(image, lang='spa')
    return text

# Función para procesar PDFs
def process_pdf(pdf_path, uploaded):
    text = ''
    pdf_file = fitz.open(stream=io.BytesIO(uploaded[pdf_path]), filetype="pdf")
    for page_num in range(len(pdf_file)):
        page = pdf_file[page_num]
        pix = page.get_pixmap()
        image = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
        text += pytesseract.image_to_string(image, lang='spa')
    pdf_file.close()
    return text

# Cargar un archivo desde el sistema local
uploaded = files.upload()
file_path = next(iter(uploaded))

# Determinar si el archivo es una imagen o un PDF y procesarlo
if file_path.lower().endswith(('.png', '.jpg', '.jpeg', '.tiff', '.bmp', '.gif')):
    extracted_text = process_image(file_path, uploaded)
elif file_path.lower().endswith('.pdf'):
    extracted_text = process_pdf(file_path, uploaded)
else:
    print("Archivo no soportado.")
    extracted_text = None

# Si se extrajo texto, guardarlo en un documento de Word
if extracted_text:
    word_doc_name = 'Extracted_Text.docx'
    add_text_to_doc(extracted_text, word_doc_name)
    files.download(word_doc_name)  # Esta línea permite descargar el archivo resultante en Google Colab
    print(f'Texto extraído guardado en {word_doc_name}')


Saving Aplicación de la IA a problemas del mundo real - imagen.png to Aplicación de la IA a problemas del mundo real - imagen.png


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Texto extraído guardado en Extracted_Text.docx
