In [None]:
import pytesseract
from PIL import Image
import os

# Especifica la ruta al ejecutable de Tesseract (si no está en el PATH)
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'  # Descomentar y adaptar si es necesario

# Establecer la variable de entorno TESSDATA_PREFIX
#Poner la ruta de la pc en la que se ejecuta en caso de no tener la 
# variable de entorno declarada
os.environ['TESSDATA_PREFIX'] = 'C:/Program Files/Tesseract-OCR/tessdata'

def extraer_texto_tesseract(ruta_imagen, idioma='spa'):
    """
    Extrae texto de una imagen usando Tesseract OCR.

    Args:
        ruta_imagen (str): Ruta al archivo de imagen.
        idioma (str): Código del idioma para el OCR (ej: 'spa' para español, 'eng' para inglés).

    Returns:
        str: Texto extraído de la imagen.
    """
    #try:
    imagen = Image.open(ruta_imagen)
    texto = pytesseract.image_to_string(imagen, lang=idioma)
    return texto
    #except Exception as e:
    #    print(f"Error al procesar la imagen: {e}")
    #    return None


# Ejemplo de uso:
ruta_imagen = "imagen_100_ohcbh_ch_social1927_4_v12_n4_0_detected_0_0_caption_0.57.jpg"  # Reemplaza con la ruta a tu imagen
texto_extraido = extraer_texto_tesseract(ruta_imagen, idioma='spa')

if texto_extraido:
    print("Texto extraído:\n", texto_extraido)
else:
    print("No se pudo extraer texto de la imagen.")


####################################################
def procesar_imagenes_carpeta(ruta_carpeta_imagenes, ruta_carpeta_textos, idioma='spa'):
    """
    Procesa todas las imágenes de una carpeta, extrae el texto y guarda cada resultado en un archivo de texto.

    Args:
        ruta_carpeta_imagenes (str): Ruta a la carpeta que contiene las imágenes.
        ruta_carpeta_textos (str): Ruta a la carpeta donde se guardarán los archivos de texto.
        idioma (str): Código del idioma para el OCR (ej: 'spa' para español, 'eng' para inglés).
    """

    # Verificar si la carpeta de textos existe, si no, la creamos
    if not os.path.exists(ruta_carpeta_textos):
        os.makedirs(ruta_carpeta_textos)
    
    for nombre_archivo in os.listdir(ruta_carpeta_imagenes):
        if nombre_archivo.lower().endswith(('.png', '.jpg', '.jpeg', '.tiff', '.bmp')):  # Verificamos la extensión de la imagen
            ruta_imagen = os.path.join(ruta_carpeta_imagenes, nombre_archivo)
            texto_extraido = extraer_texto_tesseract(ruta_imagen, idioma)

            if texto_extraido:
                nombre_archivo_txt = os.path.splitext(nombre_archivo)[0] + ".txt"
                ruta_archivo_txt = os.path.join(ruta_carpeta_textos, nombre_archivo_txt)
                
                with open(ruta_archivo_txt, 'w', encoding='utf-8') as archivo_txt:
                  archivo_txt.write(texto_extraido)
                print(f"Texto de {nombre_archivo} guardado en {ruta_archivo_txt}")
            else:
                print(f"No se pudo extraer texto de {nombre_archivo}")
    print("Proceso completado.")

# Ejemplo de uso:
ruta_carpeta_imagenes = "detected_images"  # Reemplaza con la ruta a tu carpeta de imágenes
ruta_carpeta_textos = "textos_extraidos" # Reemplaza con la ruta a la carpeta donde guardarás los textos
procesar_imagenes_carpeta(ruta_carpeta_imagenes, ruta_carpeta_textos, idioma='spa')
