In [1]:
import os 
from pdf2image import convert_from_path
import pytesseract

In [2]:
def convertirpdf_imagene(pdf_path, output_dir):
    """
    Convierte un PDF a imágenes y las guarda en un directorio.
    """
    os.makedirs(output_dir, exist_ok=True)  # Crear el directorio si no existe
    paginas = convert_from_path(pdf_path)
    imagenes_paths = []

    for i, pagina in enumerate(paginas):
        img_path = os.path.join(output_dir, f"pagina_{i + 1}.png")
        pagina.save(img_path, "PNG")
        imagenes_paths.append(img_path)

    return imagenes_paths

In [3]:
def extraer_texto_con_ocr(imagenes_paths, output_txt):
    """
    Extrae texto de imágenes utilizando OCR (Tesseract) y lo guarda en un archivo de texto.
    """
    ocr_results = []
    for img_path in imagenes_paths:
        texto = pytesseract.image_to_string(img_path, lang="spa")  # OCR en español
        ocr_results.append(texto)

    # Guardar el texto extraído en un archivo
    with open(output_txt, "w", encoding="utf-8") as f:
        f.writelines("\n\n".join(ocr_results))

    print(f"Texto extraído guardado en: {output_txt}")

In [5]:
# Ruta del PDF (en una carpeta dentro del proyecto)
pdf_path = "Toyota/CATALOGO_4RUNNER_PERU_0.pdf"
# Directorio donde se guardarán las imágenes
output_dir = "carpeta_con_imagenes"
# Archivo donde se guardará el texto extraído
output_txt = "especificaciones_ocr.txt"

# Ejecutar el proceso
print("Convirtiendo PDF a imágenes...")
imagenes_paths = convertirpdf_imagene(pdf_path, output_dir)

print("Extrayendo texto con OCR...")
extraer_texto_con_ocr(imagenes_paths, output_txt)

Convirtiendo PDF a imágenes...
Extrayendo texto con OCR...
Texto extraído guardado en: especificaciones_ocr.txt
