---
sidebar_label: PyMuPDF4LLM
---

# PyMuPDF4LLM 加载器

本 Notebook 提供了 PyMuPDF4LLM [文档加载器](https://python.langchain.com/docs/concepts/#document-loaders) 的快速入门概述。要获取 PyMuPDF4LLMLoader 所有功能和配置的详细文档，请访问 [GitHub 仓库](https://github.com/lakinduboteju/langchain-pymupdf4llm)。

## 概述

### 集成详情

| 类 | 包 | 本地 | 可序列化 | JS 支持 |
| :--- | :--- | :---: | :---: |  :---: |
| [PyMuPDF4LLMLoader](https://github.com/lakinduboteju/langchain-pymupdf4llm) | [langchain_pymupdf4llm](https://pypi.org/project/langchain-pymupdf4llm) | ✅ | ❌ | ❌ |

### 加载器功能

| 源 | 文档延迟加载 | 原生异步支持 | 提取图片 | 提取表格 |
| :---: | :---: | :---: | :---: | :---: |
| PyMuPDF4LLMLoader | ✅ | ❌ | ✅ | ✅ |

## 设置

要访问 PyMuPDF4LLM 文档加载器，您需要安装 `langchain-pymupdf4llm` 集成包。

### 凭证

使用 PyMuPDF4LLMLoader 不需要任何凭证。

要启用模型调用的自动跟踪，请设置您的 [LangSmith](https://docs.smith.langchain.com/) API 密钥：

In [None]:
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
# os.environ["LANGSMITH_TRACING"] = "true"

### 安装

安装 **langchain_community** 和 **langchain-pymupdf4llm**。

In [1]:
%pip install -qU langchain_community langchain-pymupdf4llm

Note: you may need to restart the kernel to use updated packages.


## 初始化

现在我们可以实例化模型对象并加载文档了：

In [3]:
from langchain_pymupdf4llm import PyMuPDF4LLMLoader

file_path = "./example_data/layout-parser-paper.pdf"
loader = PyMuPDF4LLMLoader(file_path)

## 加载

In [4]:
docs = loader.load()
docs[0]

Document(metadata={'producer': 'pdfTeX-1.40.21', 'creator': 'LaTeX with hyperref', 'creationdate': '2021-06-22T01:27:10+00:00', 'source': './example_data/layout-parser-paper.pdf', 'file_path': './example_data/layout-parser-paper.pdf', 'total_pages': 16, 'format': 'PDF 1.5', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'moddate': '2021-06-22T01:27:10+00:00', 'trapped': '', 'modDate': 'D:20210622012710Z', 'creationDate': 'D:20210622012710Z', 'page': 0}, page_content='```\nLayoutParser: A Unified Toolkit for Deep\n\n## Learning Based Document Image Analysis\n\n```\n\nZejiang Shen[1] (�), Ruochen Zhang[2], Melissa Dell[3], Benjamin Charles Germain\nLee[4], Jacob Carlson[3], and Weining Li[5]\n\n1 Allen Institute for AI\n```\n              shannons@allenai.org\n\n```\n2 Brown University\n```\n             ruochen zhang@brown.edu\n\n```\n3 Harvard University\n_{melissadell,jacob carlson}@fas.harvard.edu_\n4 University of Washington\n```\n              bcgl@cs.washington.edu\n\n`

In [5]:
import pprint

pprint.pp(docs[0].metadata)

{'producer': 'pdfTeX-1.40.21',
 'creator': 'LaTeX with hyperref',
 'creationdate': '2021-06-22T01:27:10+00:00',
 'source': './example_data/layout-parser-paper.pdf',
 'file_path': './example_data/layout-parser-paper.pdf',
 'total_pages': 16,
 'format': 'PDF 1.5',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'moddate': '2021-06-22T01:27:10+00:00',
 'trapped': '',
 'modDate': 'D:20210622012710Z',
 'creationDate': 'D:20210622012710Z',
 'page': 0}


## 延迟加载

In [6]:
pages = []
for doc in loader.lazy_load():
    pages.append(doc)
    if len(pages) >= 10:
        # do some paged operation, e.g.
        # index.upsert(page)

        pages = []
len(pages)

6

In [None]:
from IPython.display import Markdown, display

part = pages[0].page_content[778:1189]
print(part)
# Markdown rendering
display(Markdown(part))

In [23]:
pprint.pp(pages[0].metadata)

{'producer': 'pdfTeX-1.40.21',
 'creator': 'LaTeX with hyperref',
 'creationdate': '2021-06-22T01:27:10+00:00',
 'source': './example_data/layout-parser-paper.pdf',
 'file_path': './example_data/layout-parser-paper.pdf',
 'total_pages': 16,
 'format': 'PDF 1.5',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'moddate': '2021-06-22T01:27:10+00:00',
 'trapped': '',
 'modDate': 'D:20210622012710Z',
 'creationDate': 'D:20210622012710Z',
 'page': 10}


metadata 属性至少包含以下键：
- source
- page (如果处于 *page* 模式)
- total_page
- creationdate
- creator
- producer

其他元数据特定于每个解析器。
这些信息可能很有帮助 (例如，用于对您的 PDF 进行分类)。

## 分割模式和自定义页面分隔符

加载 PDF 文件时，您可以通过两种不同的方式进行拆分：
- 按页拆分
- 作为单一文本流

默认情况下，PyMuPDF4LLMLoader 将按页拆分 PDF。

### 按页提取 PDF。每页提取为一个 langchain Document 对象：

In [None]:
loader = PyMuPDF4LLMLoader(
    "./example_data/layout-parser-paper.pdf",
    mode="page",
)
docs = loader.load()

print(len(docs))
pprint.pp(docs[0].metadata)

16
{'producer': 'pdfTeX-1.40.21',
 'creator': 'LaTeX with hyperref',
 'creationdate': '2021-06-22T01:27:10+00:00',
 'source': './example_data/layout-parser-paper.pdf',
 'file_path': './example_data/layout-parser-paper.pdf',
 'total_pages': 16,
 'format': 'PDF 1.5',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'moddate': '2021-06-22T01:27:10+00:00',
 'trapped': '',
 'modDate': 'D:20210622012710Z',
 'creationDate': 'D:20210622012710Z',
 'page': 0}


在此模式下，PDF 将按页面分割，生成的 Documents 元数据包含 `page`（页码）。但在某些情况下，我们可能希望将 PDF 作为单一文本流进行处理（这样可以避免将某些段落截断）。在这种情况下，您可以使用 *single* 模式：

### 将整个 PDF 文件提取为单个 langchain `Document` 对象：

In [None]:
loader = PyMuPDF4LLMLoader(
    "./example_data/layout-parser-paper.pdf",
    mode="single",
)
docs = loader.load()

print(len(docs))
pprint.pp(docs[0].metadata)

1
{'producer': 'pdfTeX-1.40.21',
 'creator': 'LaTeX with hyperref',
 'creationdate': '2021-06-22T01:27:10+00:00',
 'source': './example_data/layout-parser-paper.pdf',
 'file_path': './example_data/layout-parser-paper.pdf',
 'total_pages': 16,
 'format': 'PDF 1.5',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'moddate': '2021-06-22T01:27:10+00:00',
 'trapped': '',
 'modDate': 'D:20210622012710Z',
 'creationDate': 'D:20210622012710Z'}


在逻辑上，在此模式下，`page`（页码）元数据会消失。以下是如何在文本流中清晰地识别页面结束位置的方法：

### 将自定义的 `pages_delimiter` 添加到 `single` 模式中，以识别页面结束的位置：

In [None]:
loader = PyMuPDF4LLMLoader(
    "./example_data/layout-parser-paper.pdf",
    mode="single",
    pages_delimiter="\n-------THIS IS A CUSTOM END OF PAGE-------\n\n",
)
docs = loader.load()

part = docs[0].page_content[10663:11317]
print(part)
display(Markdown(part))

默认的 `pages_delimiter` 是 `\n-----\n\n`。
但也可以简单地使用 `\n`，或者 `\f` 来清晰地指示分页，或者使用 `<!-- PAGE BREAK -->` 来无缝地嵌入到 Markdown 查看器中，而不会产生视觉效果。

# 从 PDF 中提取图像

您可以通过三种不同的解决方案从 PDF 中提取图像（文本形式）：
- rapidOCR（轻量级光学字符识别工具）
- Tesseract（高精度 OCR 工具）
- Multimodal language model

结果将插入到页面文本的末尾。

### 使用 rapidOCR 从 PDF 中提取图像：

In [14]:
%pip install -qU rapidocr-onnxruntime pillow

Note: you may need to restart the kernel to use updated packages.


In [None]:
from langchain_community.document_loaders.parsers import RapidOCRBlobParser

loader = PyMuPDF4LLMLoader(
    "./example_data/layout-parser-paper.pdf",
    mode="page",
    extract_images=True,
    images_parser=RapidOCRBlobParser(),
)
docs = loader.load()

part = docs[5].page_content[1863:]
print(part)
display(Markdown(part))

请注意，RapidOCR 是为中文和英文设计的，不适用于其他语言。

### 使用 Tesseract 从 PDF 中提取图像：

In [16]:
%pip install -qU pytesseract

Note: you may need to restart the kernel to use updated packages.


In [None]:
from langchain_community.document_loaders.parsers import TesseractBlobParser

loader = PyMuPDF4LLMLoader(
    "./example_data/layout-parser-paper.pdf",
    mode="page",
    extract_images=True,
    images_parser=TesseractBlobParser(),
)
docs = loader.load()

print(docs[5].page_content[1863:])

### 使用多模态模型从 PDF 中提取图像：

In [38]:
%pip install -qU langchain_openai

Note: you may need to restart the kernel to use updated packages.


In [39]:
import os

from dotenv import load_dotenv

load_dotenv()

True

In [40]:
from getpass import getpass

if not os.environ.get("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = getpass("OpenAI API key =")

In [None]:
from langchain_community.document_loaders.parsers import LLMImageBlobParser
from langchain_openai import ChatOpenAI

loader = PyMuPDF4LLMLoader(
    "./example_data/layout-parser-paper.pdf",
    mode="page",
    extract_images=True,
    images_parser=LLMImageBlobParser(
        model=ChatOpenAI(model="gpt-4o-mini", max_tokens=1024)
    ),
)
docs = loader.load()

print(docs[5].page_content[1863:])

# 从 PDF 中提取表格

使用 PyMUPDF4LLM，您可以将 PDF 中的表格提取为 *markdown* 格式：

In [None]:
loader = PyMuPDF4LLMLoader(
    "./example_data/layout-parser-paper.pdf",
    mode="page",
    # "lines_strict" is the default strategy and
    # is the most accurate for tables with column and row lines,
    # but may not work well with all documents.
    # "lines" is a less strict strategy that may work better with
    # some documents.
    # "text" is the least strict strategy and may work better
    # with documents that do not have tables with lines.
    table_strategy="lines",
)
docs = loader.load()

part = docs[4].page_content[3210:]
print(part)
display(Markdown(part))

## 处理文件

许多文档加载器都涉及解析文件。这类加载器之间的区别通常源于文件的解析方式，而不是文件本身的加载方式。例如，你可以使用 `open` 来读取 PDF 或 markdown 文件的二进制内容，但你需要不同的解析逻辑才能将这些二进制数据转换为文本。

因此，将解析逻辑与加载逻辑解耦会很有帮助，这样可以更轻松地重用给定的解析器，无论数据是如何加载的。
你可以使用此策略来分析不同的文件，并应用相同的解析参数。

In [None]:
from langchain_community.document_loaders import FileSystemBlobLoader
from langchain_community.document_loaders.generic import GenericLoader
from langchain_pymupdf4llm import PyMuPDF4LLMParser

loader = GenericLoader(
    blob_loader=FileSystemBlobLoader(
        path="./example_data/",
        glob="*.pdf",
    ),
    blob_parser=PyMuPDF4LLMParser(),
)
docs = loader.load()

part = docs[0].page_content[:562]
print(part)
display(Markdown(part))

## API 参考

有关 PyMuPDF4LLMLoader 所有功能和配置的详细文档，请访问 GitHub 仓库：https://github.com/lakinduboteju/langchain-pymupdf4llm