# PDF to Markdown

**为什么选择 Markdown 而不是纯文本或 JSON？**

虽然纯文本提取速度快，JSON 提供结构化数据，但 Markdown 对 RAG 系统更优越，因为它：

1. 保持文档结构：标题、子标题、列表和格式层次结构保持完整，有助于 LLMs 理解各部分之间的逻辑流程和关系
2. 保持语义意义：粗体、斜体、代码块和其他格式提示提供上下文，有助于理解
3. 自然处理复杂元素：表格、代码块、数学公式和引用块以标准化的易读格式表示
4. 人类和机器均可读取：与 JSON 的刚性键值结构或纯文本的缺乏层次结构不同，Markdown 在人类和 LLMs 的可读性之间取得了平衡
5. 最适合分块：清晰的结构边界（标题、段落）使智能文档分块便于检索

纯文本会丢失所有格式和结构，这使得检索系统难以区分标题、正文文本和元数据。JSON 可以捕获结构，但通常需要自定义模式，并且对于文本密集型文档来说冗长。Markdown 自然地弥合了这一差距。

**PDF文件可以根据复杂程度分为3个级别：**

1. 简单 PDF 文件：标准布局的纯文本文档
2. 中等复杂PDF：包含表格，偶尔带有图像，或者扫描而成的PDF(需要额外的OCR处理)
3. 复杂PDF：视觉元素占重的文档，复杂的图表和图表信息，混合内容类型与空间关系

# 快速文本处理

当PDF 文件是数字格式（非扫描）、主要包含文本且格式简单、且没有关键视觉元素时，可以直接进行快速文本处理(Fast Text Extraction)

In [None]:
# 代码实现
# 使用 LangChian 框架中集成的 PyMuPDF4LLMLoader 包
# 方便演示，没有使用懒加载，需要注意pdf的大小 不要爆内存
from langchain_pymupdf4llm import PyMuPDF4LLMLoader

FILE_PATH = "./data/相亲中的套路.pdf"
loader = PyMuPDF4LLMLoader(FILE_PATH, mode="single")

docs = loader.load()
print(docs[0].page_content[:200])

In [None]:
# 保存文件
from pathlib import Path

out_path = Path("./data/相亲中的套路.md")
out_path.parent.mkdir(parents=True, exist_ok=True)

md_text = "\n\n---\n\n".join(d.page_content for d in docs if getattr(d, "page_content", None))

out_path.write_text(md_text, encoding="utf-8")
print(f"已保存到: {out_path.resolve()}")