### 用LangChain加载文档并创建Documents

#### 1. 用LangChain读入txt文档
LangChain Document对象和其中的元数据
1. metadata：即元数据，存储与文档相关的元信息，例如文档的来源路径、作者、日期等。元数据虽然不是文档具体内容，但信息含量丰富，在RAG系统中很有用。
2. page_content：保存实际的文本内容，是文档的主要数据部分。

In [2]:
from langchain_community.document_loaders import TextLoader
import pprint

loader = TextLoader("data/黑神话悟空/黑悟空wiki.txt")
documents = loader.load()
# 打印每个文档的元数据
for doc in documents:
    pprint.pprint(doc.model_dump())

{'id': None,
 'metadata': {'source': 'data/黑神话悟空/黑悟空wiki.txt'},
 'page_content': '黑神话：悟空\n'
                 '\n'
                 '类型\t动作角色扮演[1]\n'
                 '平台\t\n'
                 'Microsoft Windows\n'
                 'PlayStation 5\n'
                 'Xbox Series X/S\n'
                 '开发商\t游戏科学\n'
                 '发行商\t出版单位：浙江出版集团数字传媒有限公司\n'
                 '运营单位：天津市游科互动科技有限公司[2]\n'
                 '制作人\t冯骥、杨奇\n'
                 '编剧\t冯骥\n'
                 '美术\t杨奇[3]\n'
                 '音乐\t8082 Audio\n'
                 '引擎\t虚幻引擎5[4]\n'
                 '模式\t单人游戏\n'
                 '发行日\t\n'
                 '2024年8月20日\n'
                 '《黑神话：悟空》是一款由游戏科学开发和发行的动作角色扮演游戏，被媒体誉为中国首款“3A游戏”[5]，游戏于2024年8月20日登录Windows（Steam、Epic '
                 'Games、WeGame）及PlayStation 5平台，Xbox Series X/S版的发售日期待定.\n'
                 '\n'
                 '游戏内容改编自中国四大名著之一的《西游记》[6][7]，在正式发布前，游戏已获得业界媒体与评论家们的普遍好评，称赞其在战斗系统、视觉设计以及世界观方面的构建.游戏上线后迅速登顶多个平台的销量榜首，[8]两周内的全球销量超过1800万份，成为有史以来

#### 2. 创建Document对象

In [3]:
from langchain_core.documents import Document
import pprint

documents = [
    Document(
        page_content="悟空是大师兄.",
        metadata={"source": "师徒四人.txt"},
    ),
    Document(
        page_content="八戒是二师兄.",
        metadata={"source": "师徒四人.txt "},
    ),
]
# 打印每个文档的元数据
for doc in documents:
    pprint.pprint(doc.model_dump())

{'id': None,
 'metadata': {'source': '师徒四人.txt'},
 'page_content': '悟空是大师兄.',
 'type': 'Document'}
{'id': None,
 'metadata': {'source': '师徒四人.txt '},
 'page_content': '八戒是二师兄.',
 'type': 'Document'}


#### 3. 加载目录中所有文档

In [4]:
from langchain_community.document_loaders import DirectoryLoader
import pprint

loader = DirectoryLoader("data/黑神话悟空")
docs = loader.load()
print(f"文档数：{len(docs)}")  # 输出文档总数

# 输出第一个文档中的元数据
if docs[0]:
    pprint.pprint(docs[0].model_dump())

CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox


文档数：7
{'id': None,
 'metadata': {'source': 'data/黑神话悟空/黑神话悟空.pdf'},
 'page_content': '08.20 直面天命\n'
                 '\n'
                 '序章\n'
                 '\n'
                 '《黑神话：悟空》是一款基于《西游记》改编的中国神话动作角色扮演游戏，玩家化身 '
                 '“天命之人”，在险象环生的西游冒险中追寻传说背后的秘密。\n'
                 '\n'
                 '改编自公元1592年中国神魔小说《西游记》\n'
                 '\n'
                 '启程\n'
                 '\n'
                 '无惧\n'
                 '\n'
                 '历练\n'
                 '\n'
                 '逢缘\n'
                 '\n'
                 '启程B\n'
                 '\n'
                 'L\n'
                 '\n'
                 'C\n'
                 '\n'
                 'A\n'
                 '\n'
                 'K\n'
                 '\n'
                 'M\n'
                 '\n'
                 'Y\n'
                 '\n'
                 'W U\n'
                 '\n'
                 'G\n'
                 '\n'
                 'K\n'
                 '\n

#### 4. 指定加载参数  

In [5]:
from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader(
    "data/黑神话悟空",
    glob="**/*.md",  # 使用glob模式匹配文件,**表示递归搜索所有子目录,*.md表示所有md后缀文件
    use_multithreading=True,  # 使用多线程加载文件,可以提高加载速度
    show_progress=True,  # 显示加载进度条
)
docs = loader.load()
print(f"文档数：{len(docs)}")  # 输出文档总数
print(docs[0].page_content[:100])  # 输出第一个文档

100%|██████████| 1/1 [00:00<00:00, 73.95it/s]

文档数：1
黑神话：悟空 🐵

黑神话：悟空 是由中国游戏开发团队制作的一款备受瞩目的动作冒险游戏，以《西游记》为背景，重新演绎了经典故事，带来了极具冲击力的视觉和游戏体验。

游戏版本介绍

1. 数字标准版 





#### 5. 更改加载工具
使用 TextLoader 加载器的方式，可以保留文件的原始结构信息

In [17]:
from langchain_community.document_loaders import DirectoryLoader, TextLoader

# 加载目录下所有 Markdown 文件
loader = DirectoryLoader(
    "data/黑神话悟空", 
    glob="**/*.md",  # 使用glob模式匹配文件,**表示递归搜索所有子目录,*.md表示所有md后缀文件
    use_multithreading=True,  # 使用多线程加载文件,可以提高加载速度
    show_progress=True,  # 显示加载进度条
    loader_cls=TextLoader  # 指定使用TextLoader来加载文本文件,TextLoader是最基础的文本加载器
    )
docs = loader.load()
print(f"文档数：{len(docs)}")  # 输出文档总数
print(docs[0].page_content[:100])  # 打印第一个文档内容的前100个字符

100%|██████████| 1/1 [00:00<00:00, 557.90it/s]

文档数：1
# 黑神话：悟空 🐵

> 黑神话：悟空 是由中国游戏开发团队制作的一款备受瞩目的动作冒险游戏，以《西游记》为背景，重新演绎了经典故事，带来了极具冲击力的视觉和游戏体验。

## 游戏版本介绍

##





#### 6. 跳过出错的文件

In [16]:
from langchain_community.document_loaders import DirectoryLoader, TextLoader

# 加载目录下所有文件，跳过出错文件，因为有些文件是图片，TextLoader 无法加载
loader = DirectoryLoader(
    "data/黑神话悟空", 
    silent_errors=True,  # 设置为True时会跳过加载出错的文件,而不是抛出异常中断执行
    loader_cls=TextLoader  # 指定使用TextLoader作为加载器,用于加载文本文件
    )

docs = loader.load()
print(docs[0].page_content[:100])  # 打印第一个文档内容的前100个字符

Error loading file data/黑神话悟空/黑神话悟空.pdf: Error loading data/黑神话悟空/黑神话悟空.pdf
Error loading file data/黑神话悟空/黑悟空英文.jpg: Error loading data/黑神话悟空/黑悟空英文.jpg
Error loading file data/黑神话悟空/黑悟空销量.jpg: Error loading data/黑神话悟空/黑悟空销量.jpg


黑神话：悟空

类型	动作角色扮演[1]
平台	
Microsoft Windows
PlayStation 5
Xbox Series X/S
开发商	游戏科学
发行商	出版单位：浙江出版集团数字传
