# 数据加载

**数据加载十分重要，高质量输入是高质量输出的前提。**

## 文档加载器



文档加载器负责将各种格式的非结构化文档（如PDF、Word、Markdown、HTML等）转换为程序可以处理的结构化数据。

### 主要功能

- 文档格式解析：将不同格式的文档（如PDF、Word、Markdown等）解析为文本内容。

- 元数据提取：在解析文档内容的同时，提取相关的元数据信息，如文档来源、页码等。

- 统一数据格式：将解析后的内容转换为统一的数据格式，便于后续处理。

### 主流 RAG 文档加载器

- PyMuPDF4LLM：将 PDF 文档转化为 Markdown，OCR + 表格识别。

- TextLoader：基础文本文件加载，用于纯文本处理。

- DirectoryLoader：批量目录文件处理。

- Unstructured：多格式文档解析，支持 PDF、Word、HTML 等。

- FireCrawlLoader：网页内容抓取。

- LlamaParse EuropeParse：深度 PDF 结构解析。

- Docling：模块化企业级解析。

- Marker：PDF 转 Markdown。

- MinerU：多模态集成解析。

## Unstructured

Unstructured 是一个专业的文档处理库，专门设计用于RAG和AI微调场景的非结构化数据预处理。

### 优势

- 格式支持广泛

  - 支持多种文档格式：PDF、Word、Excel、HTML、Markdown等。
    
  - 统一的API接口，无需为不同格式编写不同代码。

- 智能内容解析

    - 自动识别文档结构：标题、段落、表格、列表等

    - 保留文档元数据信息

Unstructured能够识别和分类以下文档元素：

| 元素类型 | 描述 |
|---------|------|
| `Title` | 文档标题 |
| `NarrativeText` | 由多个完整句子组成的正文文本，不包括标题、页眉、页脚和说明文字 |
| `ListItem` | 列表项，属于列表的正文文本元素 |
| `Table` | 表格 |
| `Image` | 图像元数据 |
| `Formula` | 公式 |
| `Address` | 物理地址 |
| `EmailAddress` | 邮箱地址 |
| `FigureCaption` | 图片标题/说明文字 |
| `Header` | 文档页眉 |
| `Footer` | 文档页脚 |
| `CodeSnippet` | 代码片段 |
| `PageBreak` | 页面分隔符 |
| `PageNumber` | 页码 |
| `UncategorizedText` | 未分类的自由文本 |
| `CompositeElement` | 分块处理时产生的复合元素* |

### 直接使用 Unstructured

In [3]:
from unstructured.partition.auto import partition

# PDF文件路径
pdf_path = "data/rag.pdf"

# 使用Unstructured加载并解析PDF文档
elements = partition(
    filename=pdf_path,
    content_type="application/pdf"
)

# 打印解析结果
print(f"解析完成: {len(elements)} 个元素, {sum(len(str(e)) for e in elements)} 字符")

# 统计元素类型
from collections import Counter
types = Counter(e.category for e in elements)
print(f"元素类型: {dict(types)}")

# 显示所有元素
print("\n所有元素:")
for i, element in enumerate(elements, 1):
    print(f"Element {i} ({element.category}):")
    print(element)
    print("=" * 60)


  from .autonotebook import tqdm as notebook_tqdm
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because None cannot be parsed as 4 floats
Could get FontBBox from font descriptor because 

解析完成: 279 个元素, 7500 字符
元素类型: {'Header': 22, 'Title': 195, 'UncategorizedText': 41, 'NarrativeText': 3, 'Footer': 15, 'ListItem': 3}

所有元素:
Element 1 (Header):
网页
Element 2 (Header):
新闻
Element 3 (Header):
贴吧
Element 4 (Header):
知道
Element 5 (Header):
网盘
Element 6 (Header):
图片
Element 7 (Header):
视频
Element 8 (Header):
地图
Element 9 (Header):
文库
Element 10 (Header):
资讯
Element 11 (Header):
采购
Element 12 (Header):
百科
Element 13 (Header):
百度首页 登录 注册
Element 14 (Title):
检索增强生成
Element 15 (Title):
进⼊词条
Element 16 (Title):
全站搜索
Element 17 (Title):
帮助
Element 18 (Title):
近期有不法分子冒充百度百科官方人员，以删除词条为由威胁并敲诈相关企业。在此严正声明：百度百科是免费编辑平台，绝不存在收费代编服务，请勿上当受骗！ 详情>>
Element 19 (Title):
首页
Element 20 (Title):
秒懂百科
Element 21 (Title):
特色百科
Element 22 (Title):
知识专题
Element 23 (Title):
加入百科
Element 24 (Title):
百科团队
Element 25 (Title):
权威合作
Element 26 (Title):
检索增强生成 播报 ⼤模型前沿技术之⼀ 展开2个同名词条
Element 27 (Title):
锁定
Element 28 (Title):
讨论
Element 29 (UncategorizedText):
1
Element 30 (Title):
上传视频
Element 31 (Title):
一分钟了解