In [2]:
from langchain_community.document_loaders import TextLoader

# 创建加载器实例，指定文件路径
loader = TextLoader("test_text.txt")

# 加载文件并获取Document对象
docs = loader.load()

# 查看加载的文档信息
print(f"加载的文档数量: {len(docs)}")
print(f"文档内容长度: {len(docs[0].page_content)} 字符")
print(f"文档元数据: {docs[0].metadata}")
print("\n文档内容：")
print(docs[0].page_content)

加载的文档数量: 1
文档内容长度: 233 字符
文档元数据: {'source': 'test_text.txt'}

文档内容：
LangChain简介

LangChain是一个强大的框架，用于开发由大型语言模型(LLM)驱动的应用程序。
它提供了一套工具和库，使开发人员能够轻松构建复杂的AI应用。

主要特性：
1. 文档加载器 - 支持多种数据源
2. 文本分割器 - 将长文本分成小块
3. 向量存储 - 进行语义搜索
4. 链 - 组合多个组件
5. 代理 - 实现智能决策

LangChain的应用场景包括：
- 问答系统
- 文档分析
- 检索增强生成(RAG)
- 聊天机器人


## 编码

In [4]:
from langchain_community.document_loaders import TextLoader

# 也可以尝试自动检测编码
loader = TextLoader("test_text.txt", encoding="utf-8")
try:
    docs = loader.load()
except Exception as e:
    print(f"编码错误: {e}")
    # 可以尝试其他编码，如 "gbk", "latin-1", "iso-8859-1"
    loader = TextLoader("test_text.txt", encoding="gbk")
    docs = loader.load()

print(docs[0].page_content)

LangChain简介

LangChain是一个强大的框架，用于开发由大型语言模型(LLM)驱动的应用程序。
它提供了一套工具和库，使开发人员能够轻松构建复杂的AI应用。

主要特性：
1. 文档加载器 - 支持多种数据源
2. 文本分割器 - 将长文本分成小块
3. 向量存储 - 进行语义搜索
4. 链 - 组合多个组件
5. 代理 - 实现智能决策

LangChain的应用场景包括：
- 问答系统
- 文档分析
- 检索增强生成(RAG)
- 聊天机器人


## 加载多个文件

In [6]:
from langchain_community.document_loaders import DirectoryLoader

# 使用DirectoryLoader加载目录下的所有.txt文件
loader = DirectoryLoader(
    "./test/file",           # 目录路径
    glob="**/*.txt",    # 文件匹配模式
    loader_cls=TextLoader,  # 使用TextLoader
    show_progress=True  # 显示加载进度
)

docs = loader.load()

print(f"总共加载 {len(docs)} 个文档")
for i, doc in enumerate(docs):
    print(f"\n文档 {i+1}:")
    print(f"  来源: {doc.metadata['source']}")
    print(f"  内容长度: {len(doc.page_content)} 字符")

100%|██████████| 1/1 [00:00<00:00, 1512.01it/s]

总共加载 1 个文档

文档 1:
  来源: test\file\test_text.txt
  内容长度: 233 字符





## 处理大文件

In [None]:
from langchain_community.document_loaders import TextLoader

# 对于非常大的文件，可以使用lazy_load避免一次性加载整个文件
loader = TextLoader("large_file.txt")

# lazy_load() 返回迭代器，而不是一次性加载所有内容
for doc in loader.lazy_load():
    print(f"处理块: {len(doc.page_content)} 字符")
    # 处理每个文档块