# LangChain文档加载器(Document Loaders)详解

## 1. 什么是文档加载器

文档加载器是LangChain中的一个核心组件，用于将各种格式的数据源转换为标准化的文档格式。它能够处理多种类型的输入源，并将其转换为LangChain可以处理的统一格式。

### 1.1 基本概念
- **Document对象**: 加载器将数据转换为Document对象，包含:
  - `page_content`: 文档的文本内容
  - `metadata`: 文档的元数据(如来源、作者等)

### 1.2 核心特点
- 统一的接口
- 多格式支持
- 自动提取和处理
- 元数据保留
- 批量处理能力

## 2. 支持的文档类型

### 2.1 文本文件
- 纯文本文件 (.txt)
- Markdown文件 (.md)
- JSON文件 (.json)
- CSV文件 (.csv)

### 2.2 办公文档
- Word文档 (.doc, .docx)
- Excel表格 (.xls, .xlsx)
- PowerPoint演示文稿 (.ppt, .pptx)
- PDF文档 (.pdf)

### 2.3 电子邮件
- Email文件 (.eml)
- Outlook消息 (.msg)

### 2.4 网页内容
- HTML文件
- XML文件
- 网页URL

### 2.5 其他格式
- EPUB电子书
- 压缩文件
- 数据库文件

## 2.代码示例

### 加载电子书

In [8]:
from langchain.document_loaders import GutenbergLoader

loader = GutenbergLoader("https://www.gutenberg.org/cache/epub/75815/pg75815.txt")

data = loader.load()

print(data)

print(data[0].page_content[0:200])


[Document(metadata={'source': 'https://www.gutenberg.org/cache/epub/75815/pg75815.txt'}, page_content='The Project Gutenberg eBook of Lord Northcliffe\r\n\n\n    \r\n\n\nThis ebook is for the use of anyone anywhere in the United States and\r\n\n\nmost other parts of the world at no cost and with almost no restrictions\r\n\n\nwhatsoever. You may copy it, give it away or re-use it under the terms\r\n\n\nof the Project Gutenberg License included with this ebook or online\r\n\n\nat www.gutenberg.org. If you are not located in the United States,\r\n\n\nyou will have to check the laws of the country where you are located\r\n\n\nbefore using this eBook.\r\n\n\n\r\n\n\nTitle: Lord Northcliffe\r\n\n\n\r\n\n\nAuthor: Andrée Viollis\r\n\n\n\r\n\n\nRelease date: April 8, 2025 [eBook #75815]\r\n\n\n\r\n\n\nLanguage: French\r\n\n\n\r\n\n\nOriginal publication: Paris: Librairie Bernard Grasset, 1919\r\n\n\n\r\n\n\nCredits: Claudine Corbasson and the Online Distributed Proofreading Team at https://www

### 加载网页


In [15]:
from langchain.document_loaders import UnstructuredURLLoader

urls = [
    "https://python.langchain.com/docs/integrations/providers/openai/"        
]

loader = UnstructuredURLLoader(urls)

data = loader.load()

print(data[0].page_content[0:200])


Open on GitHub

OpenAI

All functionality related to OpenAI

OpenAI is American artificial intelligence (AI) research laboratory consisting of the non-profit OpenAI Incorporated and its for-profit sub


# LangChain 文档分割器详解

## 什么是文档分割器？

文档分割器（Document Splitters）是 LangChain 中的一个重要组件，用于将大型文档分割成更小的、可管理的片段。这对于处理大型文本数据、构建向量数据库或进行文本分析非常有用。

## 主要特点

1. **智能分割**：可以根据不同的策略（如字符数、段落、句子等）进行分割
2. **重叠控制**：可以设置分割片段之间的重叠，以保持上下文连贯性
3. **格式保持**：支持保持原始文档的格式和结构
4. **多种实现**：提供多种分割策略的实现

## 常用分割器类型

### 1. RecursiveCharacterTextSplitter
- 递归字符分割器
- 可以按照多个分隔符（如换行符、句号、空格等）进行分割
- 支持设置最大块大小和重叠大小

### 2. CharacterTextSplitter
- 简单字符分割器
- 按照固定字符数进行分割
- 适合处理格式简单的文本

### 3. TokenTextSplitter
- 基于 token 的分割器
- 按照语言模型的 token 数量进行分割
- 确保分割后的文本符合模型的输入限制

### 4. MarkdownTextSplitter
- 专门用于处理 Markdown 文档
- 保持 Markdown 的格式和结构
- 可以按照标题、段落等进行分割

## 最佳实践

1. **选择合适的块大小**：
   - 考虑模型的上下文窗口大小
   - 平衡信息完整性和处理效率

2. **设置适当的重叠**：
   - 确保上下文连贯性
   - 避免信息丢失

3. **考虑文档类型**：
   - 根据文档格式选择合适的分割器
   - 保持文档的语义完整性

4. **性能优化**：
   - 对于大型文档，考虑分批处理
   - 使用合适的分割策略减少计算开销

## 应用场景

1. 构建向量数据库
2. 文档问答系统
3. 文本摘要生成
4. 信息检索系统
5. 知识图谱构建

## 注意事项

1. 分割可能会影响文档的语义完整性
2. 需要根据具体应用场景调整分割参数
3. 注意处理特殊格式的文档（如代码、表格等）
4. 考虑多语言文本的处理需求

## 代码示例
### 创建分割器实例

In [18]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

with open("book.txt", "r", encoding="utf-8") as f:
    org_docs = f.read()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=20,
    length_function=len,
)

docs = text_splitter.create_documents([org_docs])

print(f"发现: {len(docs)} 个文档")

for i in range(0,10):
    content = docs[i].page_content
    print(f"文档{i}的内容：{content}")


发现: 574 个文档
文档0的内容：The Project Gutenberg eBook of Four square Jane
    
This ebook is for the use of anyone anywhere in the United States and
most other parts of the world at no cost and with almost no restrictions
whatsoever. You may copy it, give it away or re-use it under the terms
of the Project Gutenberg License included with this ebook or online
at www.gutenberg.org. If you are not located in the United States,
you will have to check the laws of the country where you are located
before using this eBook.
文档1的内容：Title: Four square Jane

Author: Edgar Wallace

Illustrator: C. Dudley Tennant

Release date: April 7, 2025 [eBook #75808]

Language: English

Original publication: London: The Readers Library Publishing Company Ltd, 1929

Credits: an anonymous Project Gutenberg volunteer


*** START OF THE PROJECT GUTENBERG EBOOK FOUR SQUARE JANE ***





 FOUR SQUARE
 JANE

 BY
 EDGAR WALLACE

 _Author of “Angel Esquire,” “The Melody of Death,”
 “The Thief in the Night,” “Elegant Edward,”

# LangChain 文档检索详解

## 什么是文档检索？

文档检索（Document Retrieval）是 LangChain 中的一个核心功能，它允许我们从大量文档中快速找到与用户查询最相关的信息。这个过程通常包括文档的加载、分割、存储和检索等步骤。

## 主要组件

### 1. 文档加载器（Document Loaders）
文档加载器用于从各种来源加载文档，支持多种格式：
- 文本文件
- PDF 文档
- 网页内容
- 数据库记录
- 等等

### 2. 文本分割器（Text Splitters）
由于大文档可能超出模型的处理能力，需要将文档分割成更小的块：
- 按字符分割
- 按标记分割
- 按段落分割
- 自定义分割规则

### 3. 向量存储（Vector Stores）
文档被转换为向量并存储在向量数据库中：
- 使用嵌入模型将文本转换为向量
- 支持多种向量数据库（如 FAISS、Chroma、Pinecone 等）
- 实现高效的相似度搜索

### 4. 检索器（Retrievers）
负责执行实际的检索操作：
- 基于相似度的检索
- 混合检索（结合多个检索策略）
- 上下文感知检索

## 工作流程

1. **文档准备**
   - 加载原始文档
   - 分割成适当大小的块
   - 生成文档嵌入

2. **存储**
   - 将文档块和对应的嵌入存储在向量数据库中

3. **检索**
   - 接收用户查询
   - 将查询转换为向量
   - 在向量空间中查找最相似的文档块
   - 返回相关文档

## 应用场景

- 问答系统
- 知识库搜索
- 文档摘要
- 信息提取
- 智能客服

## 优势

1. **高效性**：通过向量相似度搜索实现快速检索
2. **可扩展性**：支持处理大量文档
3. **灵活性**：可自定义各个组件
4. **准确性**：基于语义相似度的检索更准确

## 最佳实践

1. 选择合适的文档分割策略
2. 根据需求调整检索参数
3. 定期更新文档库
4. 监控检索质量
5. 优化向量存储配置

## 注意事项

- 注意文档分割的粒度
- 考虑检索的准确性和召回率
- 注意处理多语言文档
- 关注性能和资源消耗
- 确保数据安全性和隐私保护 

## 代码示例

In [36]:
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS
from dashscope import TextEmbedding
from langchain.embeddings.base import Embeddings
import json
import numpy as np
import time

# 读取配置文件
with open("config.json", "r") as f:
    config = json.load(f)

class DashScopeEmbeddings(Embeddings):
    def __init__(self, api_key: str = None):
        """初始化 DashScope Embeddings"""
        self.api_key = api_key
        self.embedding_dimension = 1536  # 千问的text-embedding-v2维度为1536

    def embed_documents(self, texts: list) -> list:
        """
        获取多个文本的嵌入向量，添加进度指示和批处理
        :param texts: 文本列表
        :return: 嵌入向量列表
        """
        if not texts:
            return []
            
        all_embeddings = []
        # 添加进度指示
        batch_size = 5  # 设置合适的批量大小，避免API压力过大
        total_texts = len(texts)
        
        for i in range(0, total_texts, batch_size):
            batch_texts = texts[i:i+batch_size]
            print(f"正在处理 {i+1}-{min(i+batch_size, total_texts)}/{total_texts} 个文档...")
            
            batch_embeddings = []
            for text in batch_texts:
                embedding = self.embed_query(text)
                if embedding:
                    batch_embeddings.append(embedding)
                else:
                    # 如果获取失败则使用后备方法
                    batch_embeddings.append(self._fallback_embed(text))
                    
                # 添加短暂延时，避免API限制
                time.sleep(0.1)
                
            all_embeddings.extend(batch_embeddings)
            print(f"完成批次 {i//batch_size + 1}/{(total_texts-1)//batch_size + 1}")
                
        return all_embeddings

    def embed_query(self, text: str) -> list:
        """获取单个文本的嵌入向量"""
        # 添加重试机制
        max_retries = 3
        for attempt in range(max_retries):
            try:
                response = TextEmbedding.call(
                    model='text-embedding-v2',
                    input=text,
                    api_key=self.api_key
                )
                
                if response.status_code == 200:
                    # 确保返回的是纯数值列表
                    embedding_vector = response.output['embeddings'][0]
                    return embedding_vector['embedding']
                else:
                    print(f"API调用失败: {response.code} - {response.message}")
                    if attempt < max_retries - 1:
                        wait_time = 2 ** attempt  # 指数退避
                        print(f"等待 {wait_time} 秒后重试...")
                        time.sleep(wait_time)
                    else:
                        return self._fallback_embed(text)
                    
            except Exception as e:
                print(f"生成嵌入向量时出错: {str(e)}")
                if attempt < max_retries - 1:
                    wait_time = 2 ** attempt
                    print(f"等待 {wait_time} 秒后重试...")
                    time.sleep(wait_time)
                else:
                    return self._fallback_embed(text)
    
    def _fallback_embed(self, text: str) -> list:
        """
        简单的后备嵌入方法
        :param text: 输入文本
        :return: 嵌入向量
        """
        print("使用后备嵌入方法")
        vector = np.zeros(self.embedding_dimension, dtype=np.float32)
        
        # 将文本转换为数值向量
        for i, char in enumerate(text):
            if i >= self.embedding_dimension:
                break
            vector[i] = ord(char) / 255.0  # 归一化字符码
            
        # 填充剩余位置
        for i in range(min(len(text), self.embedding_dimension), self.embedding_dimension):
            vector[i] = 0.0
            
        # 归一化向量
        norm = np.linalg.norm(vector)
        if norm > 0:
            vector = vector / norm
            
        return vector.tolist()

# 建议处理文档的函数，分批处理以避免中断
def process_documents_in_batches(docs, embeddings, batch_size=50):
    total_docs = len(docs)
    vectorstore = None
    
    for i in range(0, total_docs, batch_size):
        end_idx = min(i + batch_size, total_docs)
        print(f"处理文档批次 {i+1}-{end_idx} (共 {total_docs} 个)...")
        
        batch_docs = docs[i:end_idx]
        
        # 首次创建向量存储
        if vectorstore is None:
            vectorstore = FAISS.from_documents(batch_docs, embeddings)
        else:
            # 向现有存储添加文档
            batch_texts = [doc.page_content for doc in batch_docs]
            batch_metadatas = [doc.metadata for doc in batch_docs]
            vectorstore.add_texts(batch_texts, batch_metadatas)
            
        print(f"已完成 {end_idx}/{total_docs} 个文档的向量化")
    
    return vectorstore

# 主代码
try:
    # 加载文档
    loader = TextLoader("xhs.txt")
    documents = loader.load()
    print(f"已加载文档，总长度: {len(documents)}")

    # 文本分割器 - 调整分割参数以减少处理时间
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=2000,  # 减小块大小
        chunk_overlap=20,
        length_function=len,
    )
    docs = text_splitter.split_documents(documents)
    print(f"文档分割完成，共 {len(docs)} 个文档块")

    # 创建嵌入模型
    embeddings = DashScopeEmbeddings(api_key=config["api_key"])
    
    # 分批处理文档向量化
    vectorstore = process_documents_in_batches(docs, embeddings)
    
    # 保存向量库以避免重复处理
    vectorstore.save_local("faiss_index")
    print("向量存储已保存到本地")

    # 检索示例
    query = "怎么变得富有"
    retrieved_docs = vectorstore.similarity_search(query, k=1)
    print("\n检索结果:")
    print(retrieved_docs[0].page_content)

except KeyboardInterrupt:
    print("\n处理被用户中断，已完成的部分可能已保存")
except Exception as e:
    print(f"发生错误: {str(e)}")

已加载文档，总长度: 1
文档分割完成，共 56 个文档块
处理文档批次 1-50 (共 56 个)...
正在处理 1-5/50 个文档...
完成批次 1/10
正在处理 6-10/50 个文档...
完成批次 2/10
正在处理 11-15/50 个文档...
完成批次 3/10
正在处理 16-20/50 个文档...
完成批次 4/10
正在处理 21-25/50 个文档...
完成批次 5/10
正在处理 26-30/50 个文档...
完成批次 6/10
正在处理 31-35/50 个文档...
完成批次 7/10
正在处理 36-40/50 个文档...
完成批次 8/10
正在处理 41-45/50 个文档...
完成批次 9/10
正在处理 46-50/50 个文档...
完成批次 10/10
已完成 50/56 个文档的向量化
处理文档批次 51-56 (共 56 个)...
正在处理 1-5/6 个文档...
完成批次 1/2
正在处理 6-6/6 个文档...
完成批次 2/2
已完成 56/56 个文档的向量化
向量存储已保存到本地

检索结果:
“如果你想富有，你必须读懂并理解数字。”这话我从富爸爸那听到一千次了，同样频繁出现的话还有“富人得到资产而穷人和中产阶级得到负债”。 
 
　　下面是区分资产和负债的方法。大多数会计师和财务专业人员不会同意这种定义法，但是这些简单的画却是两个小孩建立坚实的经济基础的开端。 
 
　　为了教两个不到10岁的孩子，富爸爸简化了每件事，尽可能地多用图，少用文字，并且很多年一直未加进数字。 
 
 
 
  
 
　　上图是收入表，常被称为损益表。它常用来衡量收入和支出以及钱进钱出。下图是资产负债表，它被用来说明资产与负债情况。许多初学经济的人都弄不清收人表和资产负债表间的联系，而这种联系对于理解它们却是至关重要的。‘很多人长期处于财务困境的根本原因就在于他们从来就不明白资产和负债的区别，而引起误会的原因就是定义它们时所用的词语。如果你想了解怎样叫作含糊不清，只需去字典里查查“资产”和“负债”这两个词。 
 
　　当然，字典中的定义对于受过训练的会计人员来说是有用的，但对于普通人，这种定义过于专业、严谨，你读出了那些定义里的字却很难理解它们串在一起时的真正含义。 
 
　　所以正如我前面说过的，富爸爸只