# 一、LangChain文档加载器

- LangChain的设计：对于 Source 中多种不同的数据源，我们可以用一种统一的形式读取、调用。

## 1、TextLoader

- TextLoader是 LangChain 中最基础的文档加载器,用于加载纯文本文件
- TextLoader的主要功能:
    - 读取本地文本文件,支持指定字符编码（UTF-8、GBK等）
    - 将文本内容转换为 Document 对象,自动提取文件元数据信息

### 1.1、基础使用

In [8]:
from langchain_community.document_loaders import TextLoader

# 指定要加载的文本文件路径
file_path = "./document/load/01-langchain-utf-8.txt"

# 创建 TextLoader 实例，指定文件路径和编码格式
text_loader = TextLoader(
    file_path=file_path,
    encoding="utf-8",  # 指定 UTF-8 编码，支持中文字符,需要和原文本的编码格式相同
)

# 加载文档，返回 Document 对象列表
docs = text_loader.load()

# 查看加载的文档数量
print(f"docs len: {len(docs)}")
print(f"docs type: {type(docs[0])}")  # <class 'langchain_core.documents.base.Document'>
print(f"docs metadata: {docs[0].metadata}")  # {'source': './document/load/01-langchain-utf-8.txt'}
print(f"docs page_content: {docs[0].page_content}")
print("=" * 20)
print(f"docs: {docs}")

docs len: 1
docs type: <class 'langchain_core.documents.base.Document'>
docs metadata: {'source': './document/load/01-langchain-utf-8.txt'}
docs page_content: LangChain 框架核心介绍

一、什么是 LangChain

LangChain 是一个用于构建基于大语言模型（LLM）应用的开发框架，旨在帮助开发者更高效地集成、管理和增强大语言模型的能力，构建端到端的应用程序。

它提供了一套模块化工具和接口，支持从简单的文本生成到复杂的多步骤推理任务。

二、核心特性

1. 模块化设计
LangChain 采用模块化架构，开发者可以根据需求选择和使用不同的组件。主要模块包括：
- 文档加载器（Document Loaders）：支持从各种数据源加载文档
- 文本分割器（Text Splitters）：将长文本分割成适合处理的块
- 向量存储（Vector Stores）：存储和检索文档的向量表示
- 链（Chains）：将多个组件串联起来执行复杂任务
- 代理（Agents）：让 LLM 能够自主决策和调用工具
- 记忆（Memory）：管理对话历史和上下文信息

2. 丰富的集成能力
LangChain 支持与多种 LLM 提供商集成，包括：
- OpenAI GPT 系列模型
- 开源模型（如 Llama、Mistral 等）
- 本地部署的模型

3. 强大的文档处理能力
通过 TextLoader 等文档加载器，LangChain 可以：
- 加载各种格式的文档（TXT、PDF、HTML、Markdown 等）
- 处理不同编码的文本文件（UTF-8、GBK 等）
- 提取文档的元数据信息
- 将文档转换为标准化的 Document 对象

三、TextLoader 的作用

TextLoader 是 LangChain 中最基础的文档加载器之一，它的主要功能包括：

1. 文件读取
TextLoader 可以读取本地文本文件，支持指定文件编码格式。

2. 文档转换
将文本文件内容转换为 LangChain 的 Document 对象，包含：
- page_content：文档的文本内容
- m

### 1.2、关键特性

1）编码支持
TextLoader 支持多种字符编码格式：
- **UTF-8**：国际通用编码，支持所有 Unicode 字符（包括中文、日文、韩文等）
- **GBK**：中文 Windows 系统常用编码
- **ASCII**：基础英文字符编码

2）文档对象结构
TextLoader 将文本文件转换为 `Document` 对象，包含：
- **page_content**：文档的文本内容（字符串）
- **metadata**：文档的元数据（字典），通常包含：
  - `source`: 文件路径
  - `encoding`:文件编码格式

### 1.3、注意事项

- 1) **文件路径**：确保文件路径正确，可以使用相对路径或绝对路径
- 2) **编码格式**：如果文件包含中文或其他非 ASCII 字符，务必指定正确的编码格式
- 3) **文件大小**：TextLoader 会将整个文件加载到内存中，对于超大文件需要考虑使用其他加载器
- 4) **文档分割**：TextLoader 将整个文件作为一个 Document 对象返回，如需分割文档，需要使用 TextSplitter
- 5) **元数据**：可以通过 metadata 参数添加自定义元数据信息

## 2、PyPDFLoader

- LangChain加载PDF文件使用的是pypdf，先安装依赖库:  pip install pypdf

In [11]:
from langchain_community.document_loaders import PyPDFLoader

pdf_loader = PyPDFLoader(file_path="./document/load/02-load.pdf")

docs = pdf_loader.load()

print(f"docs len: {len(docs)}")
print(f"docs metadata: {docs[0].metadata}")
print(f"docs page_content: {docs[0].page_content}")

docs len: 1
docs metadata: {'producer': 'Microsoft® Word 2019', 'creator': 'Microsoft® Word 2019', 'creationdate': '2025-06-20T17:18:19+08:00', 'moddate': '2025-06-20T17:18:19+08:00', 'source': './document/load/02-load.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}
docs page_content: "他的车，他的命！ 他忽然想起来，一年，二年，至少有三四年；一滴汗，两滴汗，不
知道多少万滴汗，才挣出那辆车。从风里雨里的咬牙，从饭里茶里的自苦，才赚出那辆车。
那辆车是他的一切挣扎与困苦的总结果与报酬，像身经百战的武士的一颗徽章。……他老想
着远远的一辆车，可以使他自由，独立，像自己的手脚的那么一辆车。" 
 
"他吃，他喝，他嫖，他赌，他懒，他狡猾， 因为他没了心，他的心被人家摘了去。他
只剩下那个高大的肉架子，等着溃烂，预备着到乱死岗子去。……体面的、要强的、好梦想
的、利己的、个人的、健壮的、伟大的祥子，不知陪着人家送了多少回殡；不知道何时何地
会埋起他自己来， 埋起这堕落的、 自私的、 不幸的、 社会病胎里的产儿， 个人主义的末路鬼！
"
page_content='"他的车，他的命！ 他忽然想起来，一年，二年，至少有三四年；一滴汗，两滴汗，不
知道多少万滴汗，才挣出那辆车。从风里雨里的咬牙，从饭里茶里的自苦，才赚出那辆车。
那辆车是他的一切挣扎与困苦的总结果与报酬，像身经百战的武士的一颗徽章。……他老想
着远远的一辆车，可以使他自由，独立，像自己的手脚的那么一辆车。" 
 
"他吃，他喝，他嫖，他赌，他懒，他狡猾， 因为他没了心，他的心被人家摘了去。他
只剩下那个高大的肉架子，等着溃烂，预备着到乱死岗子去。……体面的、要强的、好梦想
的、利己的、个人的、健壮的、伟大的祥子，不知陪着人家送了多少回殡；不知道何时何地
会埋起他自己来， 埋起这堕落的、 自私的、 不幸的、 社会病胎里的产儿， 个人主义的末路鬼！
"' metadata={'producer': 'Microsoft® W

In [12]:
docs = pdf_loader.load_and_split() #底层默认使用了递归字符文本切分器
print(docs)

[Document(metadata={'producer': 'Microsoft® Word 2019', 'creator': 'Microsoft® Word 2019', 'creationdate': '2025-06-20T17:18:19+08:00', 'moddate': '2025-06-20T17:18:19+08:00', 'source': './document/load/02-load.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}, page_content='"他的车，他的命！ 他忽然想起来，一年，二年，至少有三四年；一滴汗，两滴汗，不\n知道多少万滴汗，才挣出那辆车。从风里雨里的咬牙，从饭里茶里的自苦，才赚出那辆车。\n那辆车是他的一切挣扎与困苦的总结果与报酬，像身经百战的武士的一颗徽章。……他老想\n着远远的一辆车，可以使他自由，独立，像自己的手脚的那么一辆车。" \n \n"他吃，他喝，他嫖，他赌，他懒，他狡猾， 因为他没了心，他的心被人家摘了去。他\n只剩下那个高大的肉架子，等着溃烂，预备着到乱死岗子去。……体面的、要强的、好梦想\n的、利己的、个人的、健壮的、伟大的祥子，不知陪着人家送了多少回殡；不知道何时何地\n会埋起他自己来， 埋起这堕落的、 自私的、 不幸的、 社会病胎里的产儿， 个人主义的末路鬼！\n"')]


PyPDFLoader,依然是使用 .page_content 和 .metadata 去访问数据, 即每一个文档加载器虽然代码逻辑不同，应用需求不同，但使用方式是相同的

## 3.CSVLoader

- 加载csv中的所有列

In [15]:
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path="./document/load/03-load.csv")

# 加载csv中的所有列
data = loader.load()

print(f"data type: {type(data)}")  # <class 'list'>
print(f"data[0] type:{type(data[0])}") # <class 'langchain_core.documents.base.Document'>
print(f"len(data):{len(data)}")  # 4

print("=" * 20)
print(f"data: {data}")
for e in data:
    print(e)

data type: <class 'list'>
data[0] type:<class 'langchain_core.documents.base.Document'>
len(data):4
data: [Document(metadata={'source': './document/load/03-load.csv', 'row': 0}, page_content='id: 1\ntitle: Introduction to Python\ncontent: Python is a popular programming language.\nauthor: Guido van Rossum'), Document(metadata={'source': './document/load/03-load.csv', 'row': 1}, page_content='id: 2\ntitle: Data Science Basics\ncontent: Data science involves statistics and machine learning.\nauthor: Jane Smith'), Document(metadata={'source': './document/load/03-load.csv', 'row': 2}, page_content='id: 3\ntitle: Web Development\ncontent: HTML, CSS and JavaScript are core web technologies.\nauthor: Mike Johnson'), Document(metadata={'source': './document/load/03-load.csv', 'row': 3}, page_content='id: 4\ntitle: Artificial Intelligence\ncontent: AI is transforming many industries.\nauthor: Sarah Williams')]
page_content='id: 1
title: Introduction to Python
content: Python is a popular progra

- 加载指定列

In [26]:
loader = CSVLoader(
    file_path="./document/load/03-load.csv",
    source_column='title'  # 用指定加载列的数据 覆盖 metadata中source的值
)
data = loader.load()

for e in  data:
    print(e)

page_content='id: 1
title: Introduction to Python
content: Python is a popular programming language.
author: Guido van Rossum' metadata={'source': 'Introduction to Python', 'row': 0}
page_content='id: 2
title: Data Science Basics
content: Data science involves statistics and machine learning.
author: Jane Smith' metadata={'source': 'Data Science Basics', 'row': 1}
page_content='id: 3
title: Web Development
content: HTML, CSS and JavaScript are core web technologies.
author: Mike Johnson' metadata={'source': 'Web Development', 'row': 2}
page_content='id: 4
title: Artificial Intelligence
content: AI is transforming many industries.
author: Sarah Williams' metadata={'source': 'Artificial Intelligence', 'row': 3}


## 4、JSONLoader

- LangChain提供的JSON格式的文档加载器是 JSONLoader,需要安装第三方库:  pip install jq
- 在实际应用场景中，JSON格式的数据占有很大比例,且JSON的形式也是多样的,需要特别关注。
- JSONLoader 使用指定的 jq结构来解析 JSON 文件。jq是一个轻量级的命令行 JSON 处理器,可以对JSON格式的数据进行数据过滤、映射、减少和转换等各种复杂的处理操作

 - 加载所有列(metadata中source值为加载文件的路径)

In [45]:
from langchain_community.document_loaders.json_loader import JSONLoader

# 错误的写法:
# loader = JSONLoader(file_path="./document/load/03-load.json")

loader = JSONLoader(
    file_path="./document/load/04-load.json",
    jq_schema=".",  #直接提取完整的JSON对象（包括所有字段）
    text_content=False  # 将加载的JSON对象转化为字符串
)



data = loader.load()
print(f"data type: {type(data)}")
print(f"data len: {len(data)}")
print("=-" * 20)
for e in data:
    print(e)

data type: <class 'list'>
data len: 1
=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
page_content='{"msglist": [{"sender": "Alice", "content": "Hello, how are you today?", "timestamp": "2023-05-15T10:00:00"}, {"sender": "Bob", "content": "I'm doing well, thanks for asking!", "timestamp": "2023-05-15T10:02:00"}, {"sender": "Alice", "content": "Would you like to meet for lunch?", "timestamp": "2023-05-15T10:05:00"}, {"sender": "Bob", "content": "Sure, that sounds great!", "timestamp": "2023-05-15T10:07:00"}], "conversation_id": "conv_12345", "participants": ["Alice", "Bob"]}' metadata={'source': 'D:\\ai-in-action\\langchain-in-action\\retrieval\\document\\load\\04-load.json', 'seq_num': 1}


- 加载JSON文件中msglist的所有content字段(会用content字段覆盖掉 原metadata中的source值)

In [42]:
loader = JSONLoader(
     file_path="./document/load/04-load.json",
     jq_schema=".msglist[].content",
)
data = loader.load()
for e in data:
    print(e)

page_content='Hello, how are you today?' metadata={'source': 'D:\\ai-in-action\\langchain-in-action\\retrieval\\document\\load\\04-load.json', 'seq_num': 1}
page_content='I'm doing well, thanks for asking!' metadata={'source': 'D:\\ai-in-action\\langchain-in-action\\retrieval\\document\\load\\04-load.json', 'seq_num': 2}
page_content='Would you like to meet for lunch?' metadata={'source': 'D:\\ai-in-action\\langchain-in-action\\retrieval\\document\\load\\04-load.json', 'seq_num': 3}
page_content='Sure, that sounds great!' metadata={'source': 'D:\\ai-in-action\\langchain-in-action\\retrieval\\document\\load\\04-load.json', 'seq_num': 4}


- 提取JSON中的嵌套字段、数组元素,可使用`content_key`配合`is_content_key_jq_parsable=True`,通过 jq 语法精准定位目标数据

In [51]:
loader = JSONLoader(
    file_path="./document/load/04-response.json",
    jq_schema=".data.items[]",
    content_key='.title + " => " + .content',
    is_content_key_jq_parsable=True   # 使用jq解析title和content
)
data = loader.load()
print(f"data type: {type(data)}")
for e in data:
    print(e.page_content)

data type: <class 'list'>
Understanding JSONLoader => This article explains how to parse API responses...
Advanced jq Schema Patterns => Learn to handle nested structures with...
LangChain Metadata Handling => Best practices for preserving metadata...
