In [None]:
%pip install -qU langchain-community pymupdf

In [1]:
"""
This module provides functionalities for Optical Character Recognition (OCR) and text extraction from PDF files.
"""

import subprocess
from pathlib import Path
from typing import List
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_core.documents import Document


class LoadFile:
    @staticmethod
    def _ocr_pdf(input_pdf: str, output_pdf: str , language='eng+spa') -> None:
        """
        Adds an OCR text layer to scanned PDF files, allowing them to be searched using OCRmyPDF.

        Args: 
            input_pdf (str): The path to the input PDF file.
            output_pdf (str): The path to the output PDF file.
            language (str): The language(s) to use for OCR. Default is 'eng+spa' (English and Spanish).
        
        Returns:
            None
        """
        try:
            # Construir el comando
            comando = [
                'ocrmypdf',
                '-l', language,
                '--force-ocr',
                '--jobs', '6',  # Número de trabajos en paralelo
                '--output-type', 'pdf',
                input_pdf,
                output_pdf
            ]

            # Ejecutar el comando
            subprocess.run(comando, check=True)
            print(f"OCR aplicado exitosamente a {input_pdf}. Salida: {output_pdf}")
        except subprocess.CalledProcessError as e:
            print(f"Error al aplicar OCR: {e}")

    @classmethod
    def load_file(cls, file_path: str, namespace: str) -> List[Document]:
        loader = PyMuPDFLoader(file_path)
        source = Path(file_path).name
        file_content = []
        for doc in loader.lazy_load():
            doc.metadata = {
                'namespace': namespace,
                'source': source,
                'page': doc.metadata['page'],
                'author': doc.metadata['author'],
            }
            file_content.append(doc)

        return file_content

In [2]:
file = LoadFile().load_file('./example.pdf', 'jorgeang33@gmail.com')
file

[Document(metadata={'namespace': 'jorgeang33@gmail.com', 'source': 'example.pdf', 'page': 0, 'author': 'Jorge Angel Juarez Vazquez'}, page_content='Titulo\nEncabezado 1\nPara empezar ahora mismo, pulse el texto de cualquier marcador de posición (como este, por\nejemplo) y comience a escribir.\nPara aplicar facilmente cualquier formato de texto que vea en esta pagina, vaya al grupo\nEstilos, que encontrara en la pestana Inicio de la cinta de opciones.\n¢ Desea insertar una imagen de sus archivos o agregar una forma o un cuadro de texto?\n¡Adelante! En la pestaña Insertar de la cinta de opciones, pulse la opción que necesite.\n'),
 Document(metadata={'namespace': 'jorgeang33@gmail.com', 'source': 'example.pdf', 'page': 1, 'author': 'Jorge Angel Juarez Vazquez'}, page_content='Esto es texto que esta en una imagen, en la segunda\npagina del documento, a continuación, información sobre\nlos perros:\nEl perro, llamado perro doméstico o can, y en algunos\nlugares coloquialmente llamado chucho