In [2]:
%pip install -qU rapidocr-onnxruntime langchain langchain_community langchain_core pymupdf

Note: you may need to restart the kernel to use updated packages.


In [47]:
import os
from langchain.schema import Document
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_community.document_loaders.parsers import RapidOCRBlobParser
from tqdm import tqdm
from typing import List

In [49]:
PDF_DIR = "/Users/franciscobisso/Desktop/notificaciones"

In [64]:
def directory_loader(directory_path: str) -> List[Document]:
    """LOADS PDF DOCUMENTS FROM A GIVEN DIRECTORY WITH PROGRESS INDICATOR."""

    if not os.path.exists(directory_path):
        raise ValueError(
            f"directory_loader() >>> DIRECTORY {directory_path} DOESN'T EXIST."
        )

    loaded_docs: List[Document] = []

    # SEARCH IN THE GIVEN DIRECTORY FOR EACH PDF FILE IN IT AND GETS ITS PATH
    pdf_files_info = []
    for parent_dir_path, _, files in os.walk(directory_path):
        for filename in files:
            if filename.endswith(".pdf"):
                file_path = os.path.join(parent_dir_path, filename)
                pdf_files_info.append(file_path)

    # LOADS EACH PDF FILE: FILE --> LIST[DOCUMENT]
    for file_path in tqdm(pdf_files_info, desc="LOADING FILES"):
        loaded_file = PyMuPDFLoader(
            file_path,
            mode="page",
            images_inner_format="text",
            images_parser=RapidOCRBlobParser(),
        ).load()

        # DELETES UNNECESSARY METADATA AND APPENDS THE LOADED FILE TO THE LIST OF LOADED DOCS
        for page in loaded_file:
            del page.metadata["file_path"]
            del page.metadata["format"]
            del page.metadata["producer"]
            del page.metadata["creator"]
            del page.metadata["creationdate"]
            del page.metadata["author"]
            del page.metadata["subject"]
            del page.metadata["keywords"]
            del page.metadata["moddate"]
            del page.metadata["trapped"]
            del page.metadata["modDate"]
            del page.metadata["creationDate"]
            del page.metadata["page"]
            del page.metadata["total_pages"]

        loaded_docs.append(loaded_file)

    return loaded_docs

In [65]:
docs = directory_loader(PDF_DIR)

LOADING FILES: 100%|██████████| 6/6 [00:04<00:00,  1.42it/s]


In [66]:
docs[0]

[Document(metadata={'source': '/Users/franciscobisso/Desktop/notificaciones/RES 11-06-2024 -  SE CONCEDE RECURSO EN RELACION.pdf', 'title': 'Despacho CIV 1950/2024 - SE CONCEDE RECURSO EN RELACION'}, page_content='#38617791#415584608#20240611104415348\nPoder Judicial de la Nación\nJUZGADO CIVIL 58\n1950/2024\nPROVINCIA ART SA c/ INTEGRITY SEGUROS ARGENTINA \nS.A s/DILIGENCIAS PRELIMINARES\nBuenos Aires,     de  \n.- \njunio de 2024\nIGM\nConcédese en relación el recurso de  apelación interpuesto\ncontra el  pronunciamiento de fs. 16.\nOportunamente, de estar en condiciones,  elévense los autos al\nTribunal de Alzada, en la forma  de estilo.\n \nDigitally signed by MARIA DI\nFILIPPO\nDate: 2024.06.11 13:06:18 ART\nSignature Not Verified')]

In [45]:
for index, doc in enumerate(docs):
    for i, page in enumerate(doc):
        print(
            f"> DOC N°: {index}\n> PAGE N°: {i}\n\n> METADATA:\n{page.metadata}\n\n> CONTENT:\n{page.page_content}\n\n{'-'*20}\n"
        )

> DOC N°: 0
> PAGE N°: 0

> METADATA:
{'source': '/Users/franciscobisso/Desktop/notificaciones/RES 11-06-2024 -  SE CONCEDE RECURSO EN RELACION.pdf', 'total_pages': 1, 'title': 'Despacho CIV 1950/2024 - SE CONCEDE RECURSO EN RELACION', 'page': 0}

> CONTENT:
#38617791#415584608#20240611104415348
Poder Judicial de la Nación
JUZGADO CIVIL 58
1950/2024
PROVINCIA ART SA c/ INTEGRITY SEGUROS ARGENTINA 
S.A s/DILIGENCIAS PRELIMINARES
Buenos Aires,     de  
.- 
junio de 2024
IGM
Concédese en relación el recurso de  apelación interpuesto
contra el  pronunciamiento de fs. 16.
Oportunamente, de estar en condiciones,  elévense los autos al
Tribunal de Alzada, en la forma  de estilo.
 
Digitally signed by MARIA DI
FILIPPO
Date: 2024.06.11 13:06:18 ART
Signature Not Verified

--------------------

> DOC N°: 1
> PAGE N°: 0

> METADATA:
{'source': '/Users/franciscobisso/Desktop/notificaciones/RES 10-05-2024 - TÉNGASE PRESENTE.pdf', 'total_pages': 1, 'title': 'Despacho CIV 1950/2024 - ESCRITOS. DESPA