In [15]:
import os
from pdf2image import convert_from_path
from PIL import Image
import pytesseract
from docx import Document
from fpdf import FPDF
from PyPDF2 import PdfReader  # para obtener páginas totales

# ---------------------------------------------
# CONFIGURACIÓN DEL USUARIO (PARAMETRIZABLE)
# ---------------------------------------------

prefijo = "20250709_"
carpeta_input = prefijo + "input"
carpeta_output = prefijo + "output"
carpeta_imagenes = os.path.join(carpeta_output, prefijo + "imagenes_temp")

nombre_pdf = prefijo + "archivo.pdf"
ruta_pdf = os.path.join(carpeta_input, nombre_pdf)

archivo_txt = os.path.join(carpeta_output, prefijo + "ocr_resultado.txt")
archivo_docx = os.path.join(carpeta_output, prefijo + "ocr_resultado.docx")
archivo_pdf_salida = os.path.join(carpeta_output, prefijo + "ocr_resultado.pdf")

idioma_ocr = 'spa'  # Español
batch_size = 10

# ---------------------------------------------
# FUNCIONES PARA GUARDAR EN DOCX Y PDF
# ---------------------------------------------

def guardar_texto_en_docx(texto, ruta_docx):
    doc = Document()
    doc.add_paragraph(texto)
    doc.save(ruta_docx)

def guardar_texto_en_pdf(texto, ruta_pdf):
    pdf = FPDF()
    pdf.set_auto_page_break(auto=True, margin=15)
    pdf.add_page()
    pdf.set_font("Arial", size=12)

    for linea in texto.split('\n'):
        pdf.multi_cell(0, 10, linea)
    pdf.output(ruta_pdf)

# ---------------------------------------------
# FUNCIÓN PARA EXTRAER NÚMERO DE PÁGINAS
# ---------------------------------------------

def obtener_total_paginas(pdf_path):
    with open(pdf_path, "rb") as f:
        lector = PdfReader(f)
        return len(lector.pages)

# ---------------------------------------------
# FUNCIÓN PRINCIPAL OCR POR LOTES
# ---------------------------------------------

def convertir_pdf_a_texto_ocr(pdf_path, idioma, carpeta_imagenes, archivo_txt, archivo_docx, archivo_pdf_salida, batch_size=10):
    os.makedirs(carpeta_imagenes, exist_ok=True)
    total_paginas = obtener_total_paginas(pdf_path)
    print(f"Total de páginas en PDF: {total_paginas}")

    texto_ocr_completo = ""

    for inicio in range(1, total_paginas + 1, batch_size):
        fin = min(inicio + batch_size - 1, total_paginas)
        print(f"\nProcesando páginas {inicio} a {fin}...")

        imagenes = convert_from_path(pdf_path, dpi=300, first_page=inicio, last_page=fin)

        for i, imagen in enumerate(imagenes, start=inicio):
            ruta_imagen = os.path.join(carpeta_imagenes, f"{prefijo}pagina_{i}.png")
            imagen.save(ruta_imagen, "PNG")

            print(f"  OCR página {i}...")
            texto_extraido = pytesseract.image_to_string(Image.open(ruta_imagen), lang=idioma)
            texto_ocr_completo += f"\n\n--- Página {i} ---\n\n{texto_extraido}"

    # Guardar resultados en archivos
    with open(archivo_txt, "w", encoding="utf-8") as f:
        f.write(texto_ocr_completo)
    print(f"\n✅ Archivo TXT guardado en: {archivo_txt}")

    guardar_texto_en_docx(texto_ocr_completo, archivo_docx)
    print(f"✅ Archivo DOCX guardado en: {archivo_docx}")

    guardar_texto_en_pdf(texto_ocr_completo, archivo_pdf_salida)
    print(f"✅ Archivo PDF guardado en: {archivo_pdf_salida}")

# ---------------------------------------------
# EJECUCIÓN DEL SCRIPT
# ---------------------------------------------

if __name__ == "__main__":
    convertir_pdf_a_texto_ocr(
        pdf_path=ruta_pdf,
        idioma=idioma_ocr,
        carpeta_imagenes=carpeta_imagenes,
        archivo_txt=archivo_txt,
        archivo_docx=archivo_docx,
        archivo_pdf_salida=archivo_pdf_salida,
        batch_size=batch_size
    )


Total de páginas en PDF: 126

Procesando páginas 1 a 10...
  OCR página 1...
  OCR página 2...
  OCR página 3...
  OCR página 4...
  OCR página 5...
  OCR página 6...
  OCR página 7...
  OCR página 8...
  OCR página 9...
  OCR página 10...

Procesando páginas 11 a 20...
  OCR página 11...
  OCR página 12...
  OCR página 13...
  OCR página 14...
  OCR página 15...
  OCR página 16...
  OCR página 17...
  OCR página 18...
  OCR página 19...
  OCR página 20...

Procesando páginas 21 a 30...
  OCR página 21...
  OCR página 22...
  OCR página 23...
  OCR página 24...
  OCR página 25...
  OCR página 26...
  OCR página 27...
  OCR página 28...
  OCR página 29...
  OCR página 30...

Procesando páginas 31 a 40...
  OCR página 31...
  OCR página 32...
  OCR página 33...
  OCR página 34...
  OCR página 35...
  OCR página 36...
  OCR página 37...
  OCR página 38...
  OCR página 39...
  OCR página 40...

Procesando páginas 41 a 50...
  OCR página 41...
  OCR página 42...
  OCR página 43...
  OCR pág

UnicodeEncodeError: 'latin-1' codec can't encode character '\u2014' in position 562: ordinal not in range(256)

In [19]:
import os
from pdf2image import convert_from_path
from PIL import Image
import pytesseract
from docx import Document
from fpdf import FPDF
from PyPDF2 import PdfReader  # para obtener páginas totales

# ---------------------------------------------
# CONFIGURACIÓN DEL USUARIO (PARAMETRIZABLE)
# ---------------------------------------------

prefijo = "20250709_"
carpeta_input = prefijo + "input"
carpeta_output = prefijo + "output"
carpeta_imagenes = os.path.join(carpeta_output, prefijo + "imagenes_temp")

nombre_pdf = prefijo + "archivo.pdf"
ruta_pdf = os.path.join(carpeta_input, nombre_pdf)

archivo_txt = os.path.join(carpeta_output, prefijo + "ocr_resultado.txt")
archivo_docx = os.path.join(carpeta_output, prefijo + "ocr_resultado.docx")
archivo_pdf_salida = os.path.join(carpeta_output, prefijo + "ocr_resultado.pdf")

idioma_ocr = 'spa'  # Español
batch_size = 10

# ---------------------------------------------
# FUNCIONES PARA GUARDAR EN DOCX Y PDF
# ---------------------------------------------

def guardar_texto_en_docx(texto, ruta_docx):
    doc = Document()
    doc.add_paragraph(texto)
    doc.save(ruta_docx)

def guardar_texto_en_pdf(texto, ruta_pdf):
    pdf = FPDF()
    pdf.add_page()
    # IMPORTANTE: Usa la fuente DejaVuSans.ttf para Unicode
    pdf.add_font("DejaVu", "", "DejaVuSans.ttf", uni=True)
    pdf.set_font("DejaVu", size=12)

    for linea in texto.split('\n'):
        pdf.multi_cell(0, 10, linea)
    pdf.output(ruta_pdf)

# ---------------------------------------------
# FUNCIÓN PARA EXTRAER NÚMERO DE PÁGINAS
# ---------------------------------------------

def obtener_total_paginas(pdf_path):
    with open(pdf_path, "rb") as f:
        lector = PdfReader(f)
        return len(lector.pages)

# ---------------------------------------------
# FUNCIÓN PRINCIPAL OCR POR LOTES
# ---------------------------------------------

def convertir_pdf_a_texto_ocr(pdf_path, idioma, carpeta_imagenes, archivo_txt, archivo_docx, archivo_pdf_salida, batch_size=10):
    os.makedirs(carpeta_imagenes, exist_ok=True)
    total_paginas = obtener_total_paginas(pdf_path)
    print(f"Total de páginas en PDF: {total_paginas}")

    texto_ocr_completo = ""

    for inicio in range(1, total_paginas + 1, batch_size):
        fin = min(inicio + batch_size - 1, total_paginas)
        print(f"\nProcesando páginas {inicio} a {fin}...")

        imagenes = convert_from_path(pdf_path, dpi=300, first_page=inicio, last_page=fin)

        for i, imagen in enumerate(imagenes, start=inicio):
            ruta_imagen = os.path.join(carpeta_imagenes, f"{prefijo}pagina_{i}.png")
            imagen.save(ruta_imagen, "PNG")

            print(f"  OCR página {i}...")
            texto_extraido = pytesseract.image_to_string(Image.open(ruta_imagen), lang=idioma)
            texto_ocr_completo += f"\n\n--- Página {i} ---\n\n{texto_extraido}"

    # Guardar resultados en archivos
    with open(archivo_txt, "w", encoding="utf-8") as f:
        f.write(texto_ocr_completo)
    print(f"\n✅ Archivo TXT guardado en: {archivo_txt}")

    guardar_texto_en_docx(texto_ocr_completo, archivo_docx)
    print(f"✅ Archivo DOCX guardado en: {archivo_docx}")

    guardar_texto_en_pdf(texto_ocr_completo, archivo_pdf_salida)
    print(f"✅ Archivo PDF guardado en: {archivo_pdf_salida}")

# ---------------------------------------------
# EJECUCIÓN DEL SCRIPT
# ---------------------------------------------

if __name__ == "__main__":
    convertir_pdf_a_texto_ocr(
        pdf_path=ruta_pdf,
        idioma=idioma_ocr,
        carpeta_imagenes=carpeta_imagenes,
        archivo_txt=archivo_txt,
        archivo_docx=archivo_docx,
        archivo_pdf_salida=archivo_pdf_salida,
        batch_size=batch_size
    )


Total de páginas en PDF: 126

Procesando páginas 1 a 10...
  OCR página 1...
  OCR página 2...
  OCR página 3...
  OCR página 4...
  OCR página 5...
  OCR página 6...
  OCR página 7...
  OCR página 8...
  OCR página 9...
  OCR página 10...

Procesando páginas 11 a 20...
  OCR página 11...
  OCR página 12...
  OCR página 13...
  OCR página 14...
  OCR página 15...
  OCR página 16...
  OCR página 17...
  OCR página 18...
  OCR página 19...
  OCR página 20...

Procesando páginas 21 a 30...
  OCR página 21...
  OCR página 22...
  OCR página 23...
  OCR página 24...
  OCR página 25...
  OCR página 26...
  OCR página 27...
  OCR página 28...
  OCR página 29...
  OCR página 30...

Procesando páginas 31 a 40...
  OCR página 31...
  OCR página 32...
  OCR página 33...
  OCR página 34...
  OCR página 35...
  OCR página 36...
  OCR página 37...
  OCR página 38...
  OCR página 39...
  OCR página 40...

Procesando páginas 41 a 50...
  OCR página 41...
  OCR página 42...
  OCR página 43...
  OCR pág

RuntimeError: TTF Font file not found: DejaVuSans.ttf