## Discovery PDF Loader Comparison

In [1]:
from pypdf import PdfReader
from langchain_community.document_loaders import PyMuPDFLoader, PyPDFLoader
import time

In [24]:
def extract_text_vanilla(reader, page_idx=0):
    return reader.pages[page_idx].extract_text()


def extract_text(reader, page_idx=0):
    docs = reader.load()
    return docs[page_idx].page_content

def filter_text(text, keyword, nb_char_continuation):
    start = text.find(keyword)
    end = start + nb_char_continuation
    return text[start:end]



pdf_path = "./data/pdf/LVMH-55-67.pdf"
vanilla_pypdf_reader = PdfReader(pdf_path)
pypdf_reader = PyPDFLoader(pdf_path)
pymupdf_reader = PyMuPDFLoader(pdf_path)

readers = {
    "vanilla_pypdf_reader" : vanilla_pypdf_reader,
    "pypdf_reader": pypdf_reader,
    "pymupdf_reader" : pymupdf_reader
}

page_idx = 2

for reader_name, reader in readers.items():
    print("-"*10)
    print(reader_name.upper())
    print("-"*10)
    start_time = time.time()
    if "vanilla" in reader_name:
        output = extract_text_vanilla(reader=reader, page_idx=page_idx)
    else:
        output = extract_text(reader=reader, page_idx=page_idx)
    duration = time.time() - start_time
    print(filter_text(output, "Europe", nb_char_continuation=250))
    print(f"{duration:.3f} s")

----------
VANILLA_PYPDF_READER
----------
Europe Amérique  
du Nord
Asie Autres
Répartition	des	fournisseurs	en	volume	d’achats	(en %) 63 20 15 2
Répartition	des	fournisseurs	en	nombre	(en %) 73 13 11 3
Répartition	des	audits	(en %) 67 1 28 4
Certaines Maisons complètent leurs audits en util
0.054 s
----------
PYPDF_READER
----------
Europe Amérique  
du Nord
Asie Autres
Répartition	des	fournisseurs	en	volume	d’achats	(en %) 63 20 15 2
Répartition	des	fournisseurs	en	nombre	(en %) 73 13 11 3
Répartition	des	audits	(en %) 67 1 28 4
Certaines Maisons complètent leurs audits en util
0.369 s
----------
PYMUPDF_READER
----------
Europe
Amérique 
du Nord
Asie
Autres
Répartition des fournisseurs en volume d’achats (en %) 
63
20
15
2
Répartition des fournisseurs en nombre (en %) 
73
13
11
3
Répartition des audits (en %) 
67
1
28
4
Certaines Maisons complètent leurs audits en ut
0.078 s


I prefer the **PyMuPDFLoader** for its speed and handling of multi-column tables.