<a href="https://colab.research.google.com/github/aemosdaeva/Demo1/blob/main/Copia_de_lectura_de_imagen_ocr.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Instalar dependencias necesarias
!pip install pytesseract
!pip install pdf2image
!apt-get install -y tesseract-ocr
!apt-get install -y poppler-utils

# Importar librerías
import pytesseract
from PIL import Image, ImageEnhance, ImageFilter
from pdf2image import convert_from_path

# Configurar Tesseract
pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'

def procesar_imagen(imagen, calidad="alta"):
    """
    Ajusta la imagen según la calidad especificada para mejorar la precisión del OCR.
    :param imagen: Objeto de imagen de PIL.
    :param calidad: Puede ser "alta", "media" o "baja".
    :return: Imagen procesada.
    """
    if calidad == "alta":
        # Mejora de contraste y nitidez
        imagen = imagen.convert("L")  # Convertir a escala de grises
        imagen = ImageEnhance.Contrast(imagen).enhance(2)  # Incrementar contraste
        imagen = ImageEnhance.Sharpness(imagen).enhance(2)  # Incrementar nitidez
    elif calidad == "media":
        # Menor nivel de mejora
        imagen = imagen.convert("L")  # Escala de grises
        imagen = ImageEnhance.Contrast(imagen).enhance(1.5)
    elif calidad == "baja":
        # Sin mejoras adicionales
        imagen = imagen.convert("L")
    return imagen

def leer_imagen(archivo_path, calidad="alta"):
    """
    Lee texto de una imagen usando OCR.
    :param archivo_path: Ruta de la imagen.
    :param calidad: Calidad de procesamiento: "alta", "media" o "baja".
    :return: Texto extraído.
    """
    imagen = Image.open(archivo_path)
    imagen = procesar_imagen(imagen, calidad)
    texto = pytesseract.image_to_string(imagen)
    return texto

def leer_pdf(archivo_path, calidad="alta"):
    """
    Lee texto de un PDF usando OCR.
    :param archivo_path: Ruta del archivo PDF.
    :param calidad: Calidad de procesamiento: "alta", "media" o "baja".
    :return: Texto extraído.
    """
    paginas = convert_from_path(archivo_path)
    texto = ""
    for pagina in paginas:
        pagina_procesada = procesar_imagen(pagina, calidad)
        texto += pytesseract.image_to_string(pagina_procesada)
    return texto

def leer_documento(archivo_path, calidad="alta"):
    """
    Determina el tipo de archivo y utiliza el método apropiado para leer el texto.
    :param archivo_path: Ruta del archivo.
    :param calidad: Calidad de procesamiento: "alta", "media" o "baja".
    :return: Texto extraído o mensaje de error.
    """
    if archivo_path.lower().endswith((".jpg", ".jpeg", ".png")):
        return leer_imagen(archivo_path, calidad)
    elif archivo_path.lower().endswith(".pdf"):
        return leer_pdf(archivo_path, calidad)
    else:
        return "Formato de archivo no soportado."

# Ejemplo de uso:
# Proporciona la ruta correcta dentro de Google Drive
archivo = "/content/drive/My Drive/cedula_1144048177.jpg"  # Cambia esta ruta por el archivo en tu Drive
texto_alta = leer_documento(archivo, calidad="alta")
print("Texto en calidad alta:")
print(texto_alta)

texto_media = leer_documento(archivo, calidad="media")
print("Texto en calidad media:")
print(texto_media)

texto_baja = leer_documento(archivo, calidad="baja")
print("Texto en calidad baja:")
print(texto_baja)


Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 49 not upgraded.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
poppler-utils is already the newest version (22.02.0-2ubuntu0.5).
0 upgraded, 0 newly installed, 0 to remove and 49 not upgraded.
Texto en calidad alta:
REPUBLICA DE COLOMBIA
IDENTIFICACION PERSONAL.
CEDULA DE CIUDADANIA
NUMENO 1.144,048.177
MARTINEZ AMAYA

\PELLIDOS

MARIA MONICA

NOMARES

 

Texto en calidad media:
REPUBLICA DE COLOMBIA
IDENTIFICACION PERSONAL. —
CEDULA DE CIUDADANIA
vuweno 1.144,048.177
MARTINEZ AMAYA

PELLIDOS

MARIA MONICA

BM og 5
a .

NOMARES

 

Texto en calidad baja:
REPUBLICA DE COLOMBIA.
IDENTIFICACION PERSONAL.
CEDULA DE CIUDADANIA

wiveno 1.144,048.177
MARTINEZ AMAYA

PELLIDOS

MARIA MONICA

NOMARES

 

