# Data Connection 核心组件


* Data Connection 是 LangChain 中处理外部数据的核心模块，包含以下主要组件：
* Document Loaders - 文档加载器
* Text Splitters - 文本分割器
* Embedding Models - 嵌入模型
* Vector Stores - 向量存储
* Retrievers - 检索器

In [2]:
"""
LangChain 0.3 Data Connection 完整示例
包含文档加载、文本分割、向量化、存储和检索的完整流程
"""

import os
from typing import List, Dict, Any
import asyncio

# 核心导入
from langchain_community.document_loaders import (
    TextLoader,
    PyPDFLoader,
    CSVLoader,
    JSONLoader,
    WebBaseLoader,
    DirectoryLoader
)
from langchain.text_splitter import (
    RecursiveCharacterTextSplitter,
    CharacterTextSplitter,
    TokenTextSplitter,
    MarkdownHeaderTextSplitter
)
from langchain_ollama import OllamaEmbeddings
from langchain_community.vectorstores import (
    FAISS,
    Chroma,
    Qdrant
)
from langchain_core.documents import Document
from langchain.retrievers import (
    BM25Retriever,
    EnsembleRetriever,
    MultiQueryRetriever
)
from langchain_ollama import ChatOllama

print("✅ 所有库导入成功")

USER_AGENT environment variable not set, consider setting it to identify your requests.


✅ 所有库导入成功


## 1. Document Loaders 示例

### 1. 文本文件加载器

In [14]:
from langchain_community.document_loaders import TextLoader
from langchain_core.documents import Document
import os

def text_loader_examples():
    """文本文件加载器示例"""

    # 1.1 基础文本加载
    with open("sample.txt", "w", encoding="utf-8") as f:
        f.write("人工智能是计算机科学的一个分支。\n机器学习是AI的子集。")

    loader = TextLoader("sample.txt", encoding="utf-8")
    documents = loader.load()
    print(f"文档数量: {len(documents)}")
    print(f"内容: {documents[0].page_content}")
    print(f"元数据: {documents[0].metadata}")

    # # 1.2 处理大文件
    # loader_large = TextLoader("large_file.txt", encoding="utf-8")
    # try:
    #     docs = loader_large.load()
    #     print(f"大文件加载成功，文档数: {len(docs)}")
    # except Exception as e:
    #     print(f"加载失败: {e}")

    # # 1.3 自动编码检测
    # loader_auto = TextLoader("file.txt", autodetect_encoding=True)
    # docs = loader_auto.load()
text_loader_examples()

文档数量: 1
内容: 人工智能是计算机科学的一个分支。
机器学习是AI的子集。
元数据: {'source': 'sample.txt'}


### 2. PDF 文档加载器

In [20]:
from langchain_community.document_loaders import PyPDFLoader, PDFMinerLoader, PDFPlumberLoader

def pdf_loader_examples():
    """PDF加载器示例"""

    # 2.1 PyPDFLoader - 最常用
    pdf_loader = PyPDFLoader("docs/Multi-level Wavelet-CNN for Image Restoration.pdf")
    pages = pdf_loader.load()
    print(f"PDF页数: {len(pages)}")

    for i, page in enumerate(pages[:2]):
        print(f"第{i+1}页内容: {page.page_content[:100]}...")
        print(f"页面元数据: {page.metadata}")

    # 2.2 PDFMinerLoader - 更好的文本提取
    pdf_miner_loader = PDFMinerLoader("docs/Multi-level Wavelet-CNN for Image Restoration.pdf")
    docs = pdf_miner_loader.load()

    # 2.3 PDFPlumberLoader - 表格处理更好
    pdf_plumber_loader = PDFPlumberLoader("docs/Multi-level Wavelet-CNN for Image Restoration.pdf")
    docs = pdf_plumber_loader.load()

    # 2.4 分页加载
    pdf_loader = PyPDFLoader("docs/Multi-level Wavelet-CNN for Image Restoration.pdf")
    pages = pdf_loader.load_and_split()

    # # 2.5 密码保护的PDF
    # protected_loader = PyPDFLoader("docs/Multi-level Wavelet-CNN for Image Restoration.pdf", password="password123")
    # docs = protected_loader.load()

pdf_loader_examples()

PDF页数: 10
第1页内容: Multi-level Wavelet-CNN for Image Restoration
Pengju Liu1, Hongzhi Zhang ∗1, Kai Zhang1, Liang Lin2,...
页面元数据: {'producer': 'pdfTeX-1.40.17', 'creator': 'LaTeX with hyperref package', 'creationdate': '2018-05-23T00:19:39+00:00', 'author': '', 'keywords': '', 'moddate': '2018-05-23T00:19:39+00:00', 'ptex.fullbanner': 'This is pdfTeX, Version 3.14159265-2.6-1.40.17 (TeX Live 2016) kpathsea version 6.2.2', 'subject': '', 'title': '', 'trapped': '/False', 'source': 'docs/Multi-level Wavelet-CNN for Image Restoration.pdf', 'total_pages': 10, 'page': 0, 'page_label': '1'}
第2页内容: is adopted to enlarge receptive ﬁeld without the sacriﬁce
of computational cost. Dilated ﬁltering, h...
页面元数据: {'producer': 'pdfTeX-1.40.17', 'creator': 'LaTeX with hyperref package', 'creationdate': '2018-05-23T00:19:39+00:00', 'author': '', 'keywords': '', 'moddate': '2018-05-23T00:19:39+00:00', 'ptex.fullbanner': 'This is pdfTeX, Version 3.14159265-2.6-1.40.17 (TeX Live 2016) kpathsea version 6.2.

### 3. CSV 数据加载器

In [None]:
from langchain_community.document_loaders import CSVLoader
import pandas as pd

def csv_loader_examples():
    """CSV加载器示例"""

    # 创建示例CSV
    df = pd.DataFrame({
        'name': ['张三', '李四', '王五'],
        'age': [25, 30, 35],
        'department': ['技术部', '销售部', '市场部'],
        'description': ['Python开发工程师', '销售经理', '市场专员']
    })
    df.to_csv("employees.csv", index=False, encoding="utf-8")

    # 3.1 基础CSV加载
    csv_loader = CSVLoader("employees.csv", encoding="utf-8")
    docs = csv_loader.load()
    print(f"CSV文档数量: {len(docs)}")
    print(f"第一条记录: {docs[0].page_content}")

    # 3.2 指定源列
    csv_loader_with_source = CSVLoader(
        "employees.csv",
        source_column="name",
        encoding="utf-8"
    )
    docs = csv_loader_with_source.load()

    # 3.3 自定义CSV参数
    csv_loader_custom = CSVLoader(
        "employees.csv",
        csv_args={
            'delimiter': ',',
            'quotechar': '"',
            'fieldnames': ['姓名', '年龄', '部门', '描述']
        }
    )
    docs = csv_loader_custom.load()

    # 3.4 过滤特定列
    csv_loader_filtered = CSVLoader(
        "employees.csv",
        content_columns=['name', 'description'],
        encoding="utf-8"
    )
    docs = csv_loader_filtered.load()
csv_loader_examples()

### 4. JSON 数据加载器

In [None]:
from langchain_community.document_loaders import JSONLoader
import json

def json_loader_examples():
    """JSON加载器示例"""

    # 创建示例JSON数据
    data = [
        {
            "id": 1,
            "title": "Python编程指南",
            "content": "Python是一种高级编程语言，语法简洁优雅。",
            "author": "张三",
            "tags": ["编程", "Python", "教程"]
        },
        {
            "id": 2,
            "title": "机器学习入门",
            "content": "机器学习是人工智能的一个重要分支。",
            "author": "李四",
            "tags": ["AI", "机器学习", "数据科学"]
        }
    ]

    with open("articles.json", "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=2)

    # 4.1 提取特定字段
    json_loader = JSONLoader(
        "articles.json",
        jq_schema=".[].content",
        text_content=False
    )
    docs = json_loader.load()
    print(f"JSON文档数量: {len(docs)}")

    # 4.2 提取多个字段
    json_loader_multi = JSONLoader(
        "articles.json",
        jq_schema=".[]",
        content_key="content"
    )
    docs = json_loader_multi.load()

    # 4.3 复杂JSON结构
    complex_data = {
        "articles": {
            "tech": [
                {"title": "AI发展", "body": "人工智能快速发展"},
                {"title": "云计算", "body": "云计算改变了IT架构"}
            ],
            "business": [
                {"title": "数字化转型", "body": "企业数字化转型势在必行"}
            ]
        }
    }

    with open("complex.json", "w", encoding="utf-8") as f:
        json.dump(complex_data, f, ensure_ascii=False, indent=2)

    # 提取嵌套数据
    json_loader_nested = JSONLoader(
        "complex.json",
        jq_schema=".articles.tech[].body"
    )
    docs = json_loader_nested.load()

    # 4.4 JSONL格式
    jsonl_data = [
        {"text": "第一行数据", "label": "A"},
        {"text": "第二行数据", "label": "B"}
    ]

    with open("data.jsonl", "w", encoding="utf-8") as f:
        for item in jsonl_data:
            f.write(json.dumps(item, ensure_ascii=False) + "\n")

    from langchain_community.document_loaders import JSONLinesLoader
    jsonl_loader = JSONLinesLoader("data.jsonl", jq_schema=".text")
    docs = jsonl_loader.load()

### 5. 网页内容加载器

In [None]:
from langchain_community.document_loaders import WebBaseLoader, AsyncHtmlLoader
from langchain_community.document_transformers import Html2TextTransformer

def web_loader_examples():
    """网页加载器示例"""

    # 5.1 基础网页加载
    web_loader = WebBaseLoader("https://example.com")
    docs = web_loader.load()
    print(f"网页文档: {docs[0].page_content[:200]}...")

    # 5.2 多个URL批量加载
    urls = [
        "https://example.com/page1",
        "https://example.com/page2",
        "https://example.com/page3"
    ]
    web_loader_multi = WebBaseLoader(urls)
    docs = web_loader_multi.load()

    # 5.3 自定义请求头
    web_loader_headers = WebBaseLoader(
        "https://api.example.com/data",
        header_template={
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
            "Authorization": "Bearer your-token"
        }
    )
    docs = web_loader_headers.load()

    # 5.4 CSS选择器过滤
    from bs4 import BeautifulSoup

    web_loader_css = WebBaseLoader(
        "https://news.example.com",
        bs_kwargs={
            "parse_only": BeautifulSoup.SoupStrainer("div", {"class": "article-content"})
        }
    )
    docs = web_loader_css.load()

    # 5.5 异步网页加载
    async def async_web_loading():
        urls = ["https://example.com/1", "https://example.com/2"]
        async_loader = AsyncHtmlLoader(urls)
        html_docs = async_loader.load()

        # HTML转文本
        html2text = Html2TextTransformer()
        text_docs = html2text.transform_documents(html_docs)
        return text_docs

    # 5.6 处理JavaScript渲染页面
    from langchain_community.document_loaders import SeleniumURLLoader

    selenium_loader = SeleniumURLLoader(
        urls=["https://spa-example.com"],
        browser="chrome",
        headless=True
    )
    docs = selenium_loader.load()

### 6. 目录批量加载器

In [None]:
from langchain_community.document_loaders import DirectoryLoader
from langchain_community.document_loaders import TextLoader, PyPDFLoader, CSVLoader

def directory_loader_examples():
    """目录加载器示例"""

    # 创建测试目录结构
    os.makedirs("documents/texts", exist_ok=True)
    os.makedirs("documents/pdfs", exist_ok=True)
    os.makedirs("documents/data", exist_ok=True)

    # 创建测试文件
    for i in range(3):
        with open(f"documents/texts/doc_{i}.txt", "w", encoding="utf-8") as f:
            f.write(f"这是文档{i}的内容，包含重要信息。")

    # 6.1 加载特定类型文件
    txt_loader = DirectoryLoader(
        "documents/texts",
        glob="*.txt",
        loader_cls=TextLoader,
        loader_kwargs={"encoding": "utf-8"}
    )
    txt_docs = txt_loader.load()
    print(f"文本文档数量: {len(txt_docs)}")

    # 6.2 多种文件类型混合加载
    from langchain_community.document_loaders import UnstructuredFileLoader

    mixed_loader = DirectoryLoader(
        "documents",
        glob="**/*",  # 递归搜索
        loader_cls=UnstructuredFileLoader,
        recursive=True,
        show_progress=True
    )
    mixed_docs = mixed_loader.load()

    # 6.3 自定义文件类型映射
    def get_loader_for_file(file_path: str):
        if file_path.endswith('.txt'):
            return TextLoader(file_path, encoding="utf-8")
        elif file_path.endswith('.pdf'):
            return PyPDFLoader(file_path)
        elif file_path.endswith('.csv'):
            return CSVLoader(file_path, encoding="utf-8")
        else:
            return UnstructuredFileLoader(file_path)

    # 6.4 过滤和排除文件
    filtered_loader = DirectoryLoader(
        "documents",
        glob="*.txt",
        exclude=["temp_*", "*.tmp"],
        loader_cls=TextLoader,
        loader_kwargs={"encoding": "utf-8"}
    )
    filtered_docs = filtered_loader.load()

    # 6.5 并行加载
    parallel_loader = DirectoryLoader(
        "documents",
        glob="**/*",
        loader_cls=UnstructuredFileLoader,
        use_multithreading=True,
        max_concurrency=4
    )
    parallel_docs = parallel_loader.load()

### 7. 数据库加载器

In [None]:
from langchain_community.document_loaders import SQLDatabaseLoader
from sqlalchemy import create_engine, text

def database_loader_examples():
    """数据库加载器示例"""

    # 7.1 SQLite数据库加载
    engine = create_engine("sqlite:///example.db")

    # 创建示例表和数据
    with engine.connect() as conn:
        conn.execute(text("""
            CREATE TABLE IF NOT EXISTS articles (
                id INTEGER PRIMARY KEY,
                title TEXT,
                content TEXT,
                author TEXT,
                created_at TIMESTAMP
            )
        """))

        conn.execute(text("""
            INSERT OR REPLACE INTO articles VALUES
            (1, 'Python教程', 'Python是一种编程语言', '张三', '2024-01-01'),
            (2, 'AI发展', '人工智能快速发展', '李四', '2024-01-02')
        """))
        conn.commit()

    # 加载数据库内容
    db_loader = SQLDatabaseLoader(
        query="SELECT title, content, author FROM articles",
        db=engine,
        page_content_columns=["title", "content"],
        metadata_columns=["author"]
    )
    docs = db_loader.load()
    print(f"数据库文档数量: {len(docs)}")

    # 7.2 PostgreSQL示例
    # pg_engine = create_engine("postgresql://user:password@localhost/dbname")
    # pg_loader = SQLDatabaseLoader(
    #     query="SELECT * FROM documents WHERE category = 'tech'",
    #     db=pg_engine
    # )
    # pg_docs = pg_loader.load()

    # 7.3 MongoDB加载器
    from langchain_community.document_loaders import MongodbLoader

    # mongodb_loader = MongodbLoader(
    #     connection_string="mongodb://localhost:27017/",
    #     db_name="mydb",
    #     collection_name="documents",
    #     filter_criteria={"status": "published"}
    # )
    # mongo_docs = mongodb_loader.load()

### 8. 云存储加载器

In [None]:
def cloud_storage_examples():
    """云存储加载器示例"""

    # 8.1 AWS S3加载器
    from langchain_community.document_loaders import S3DirectoryLoader, S3FileLoader

    # 单个S3文件
    s3_file_loader = S3FileLoader(
        bucket="my-bucket",
        key="documents/report.pdf"
    )
    s3_docs = s3_file_loader.load()

    # S3目录
    s3_dir_loader = S3DirectoryLoader(
        bucket="my-bucket",
        prefix="documents/",
        aws_access_key_id="your-access-key",
        aws_secret_access_key="your-secret-key"
    )
    s3_dir_docs = s3_dir_loader.load()

    # 8.2 Google Drive加载器
    from langchain_community.document_loaders import GoogleDriveLoader

    # gdrive_loader = GoogleDriveLoader(
    #     folder_id="your-folder-id",
    #     credentials_path="path/to/credentials.json",
    #     token_path="path/to/token.json"
    # )
    # gdrive_docs = gdrive_loader.load()

    # 8.3 Azure Blob Storage
    from langchain_community.document_loaders import AzureBlobStorageContainerLoader

    # azure_loader = AzureBlobStorageContainerLoader(
    #     conn_str="your-connection-string",
    #     container="documents"
    # )
    # azure_docs = azure_loader.load()

### 9. 自定义文档加载器

In [None]:
from langchain_core.document_loaders import BaseLoader
from langchain_core.documents import Document
from typing import List, Iterator
import requests

class CustomAPILoader(BaseLoader):
    """自定义API加载器"""

    def __init__(self, api_url: str, headers: dict = None):
        self.api_url = api_url
        self.headers = headers or {}

    def load(self) -> List[Document]:
        """加载文档"""
        response = requests.get(self.api_url, headers=self.headers)
        response.raise_for_status()

        data = response.json()
        documents = []

        for item in data.get('items', []):
            doc = Document(
                page_content=item.get('content', ''),
                metadata={
                    'source': self.api_url,
                    'id': item.get('id'),
                    'title': item.get('title'),
                    'timestamp': item.get('created_at')
                }
            )
            documents.append(doc)

        return documents

    def lazy_load(self) -> Iterator[Document]:
        """懒加载文档"""
        response = requests.get(self.api_url, headers=self.headers)
        response.raise_for_status()

        data = response.json()
        for item in data.get('items', []):
            yield Document(
                page_content=item.get('content', ''),
                metadata={
                    'source': self.api_url,
                    'id': item.get('id'),
                    'title': item.get('title')
                }
            )

class DatabaseStreamLoader(BaseLoader):
    """流式数据库加载器"""

    def __init__(self, connection_string: str, query: str, batch_size: int = 1000):
        self.connection_string = connection_string
        self.query = query
        self.batch_size = batch_size

    def lazy_load(self) -> Iterator[Document]:
        """分批加载大量数据"""
        from sqlalchemy import create_engine, text

        engine = create_engine(self.connection_string)
        offset = 0

        while True:
            paginated_query = f"{self.query} LIMIT {self.batch_size} OFFSET {offset}"

            with engine.connect() as conn:
                result = conn.execute(text(paginated_query))
                rows = result.fetchall()

                if not rows:
                    break

                for row in rows:
                    yield Document(
                        page_content=str(row[1]),  # 假设第二列是内容
                        metadata={
                            'id': row[0],  # 假设第一列是ID
                            'source': 'database',
                            'batch': offset // self.batch_size
                        }
                    )

                offset += self.batch_size

def custom_loader_examples():
    """自定义加载器使用示例"""

    # 使用自定义API加载器
    api_loader = CustomAPILoader(
        api_url="https://api.example.com/articles",
        headers={"Authorization": "Bearer your-token"}
    )

    try:
        api_docs = api_loader.load()
        print(f"API文档数量: {len(api_docs)}")
    except Exception as e:
        print(f"API加载失败: {e}")

    # 使用流式数据库加载器
    db_stream_loader = DatabaseStreamLoader(
        connection_string="sqlite:///large_db.db",
        query="SELECT id, content FROM large_table",
        batch_size=500
    )

    # 懒加载处理大量数据
    for i, doc in enumerate(db_stream_loader.lazy_load()):
        if i >= 10:  # 只处理前10个文档作为示例
            break
        print(f"文档 {i}: {doc.page_content[:50]}...")

### 10. 完整使用示例

In [None]:
def complete_document_loader_example():
    """完整的文档加载器使用示例"""

    print("🚀 LangChain 0.3 Document Loaders 完整示例")
    print("=" * 60)

    all_documents = []

    # 1. 文本文件
    print("\n📄 加载文本文件...")
    text_docs = text_loader_examples()
    all_documents.extend(text_docs)

    # 2. CSV数据
    print("\n📊 加载CSV数据...")
    csv_docs = csv_loader_examples()
    all_documents.extend(csv_docs)

    # 3. JSON数据
    print("\n🔧 加载JSON数据...")
    json_docs = json_loader_examples()
    all_documents.extend(json_docs)

    # 4. 目录批量加载
    print("\n📁 批量加载目录...")
    dir_docs = directory_loader_examples()
    all_documents.extend(dir_docs)

    # 5. 数据库加载
    print("\n🗄️ 加载数据库...")
    db_docs = database_loader_examples()
    all_documents.extend(db_docs)

    # 6. 自定义加载器
    print("\n⚙️ 自定义加载器...")
    custom_docs = custom_loader_examples()

    # 统计信息
    print(f"\n📈 加载统计:")
    print(f"总文档数量: {len(all_documents)}")

    # 按来源分组
    sources = {}
    for doc in all_documents:
        source = doc.metadata.get('source', 'unknown')
        sources[source] = sources.get(source, 0) + 1

    print("按来源分布:")
    for source, count in sources.items():
        print(f"  {source}: {count} 个文档")

    # 内容长度统计
    lengths = [len(doc.page_content) for doc in all_documents]
    if lengths:
        print(f"内容长度统计:")
        print(f"  平均长度: {sum(lengths) / len(lengths):.0f} 字符")
        print(f"  最短: {min(lengths)} 字符")
        print(f"  最长: {max(lengths)} 字符")

    return all_documents

if __name__ == "__main__":
    documents = complete_document_loader_example()

    # 清理临时文件
    import shutil
    for path in ["sample.txt", "employees.csv", "articles.json", "documents"]:
        if os.path.exists(path):
            if os.path.isdir(path):
                shutil.rmtree(path)
            else:
                os.remove(path)

    print("\n🧹 临时文件已清理")

### 总结
1. LangChain 0.3 的 Document Loaders 提供了丰富的数据源支持：
#### 主要特点：
3. 统一的 Document 接口
4. 丰富的文件格式支持
5. 云存储集成
6. 自定义加载器扩展
7. 批量和流式处理
8. 元数据保留

#### 选择建议：
10. 简单文本：使用 TextLoader
11. PDF文档：推荐 PyPDFLoader
12. 结构化数据：使用 CSVLoader 或 JSONLoader
13. 网页内容：使用 WebBaseLoader
14. 大量文件：使用 DirectoryLoader
15. 云存储：使用对应的云存储加载器
16. 特殊需求：实现自定义加载器

In [21]:

# 1. Document Loaders 示例
def document_loaders_example():
    """文档加载器示例"""
    print("\n" + "=" * 60)
    print("1. Document Loaders 文档加载器示例")
    print("=" * 60)

    # 1.1 文本文件加载
    print("\n1.1 文本文件加载")
    # 创建示例文本文件
    with open("sample.txt", "w", encoding="utf-8") as f:
        f.write("""
        人工智能（AI）是计算机科学的一个分支，致力于创建能够执行通常需要人类智能的任务的系统。
        机器学习是AI的一个子集，它使计算机能够从数据中学习而无需明确编程。
        深度学习是机器学习的一个子集，使用神经网络来模拟人脑的工作方式。
        """)

    loader = TextLoader("sample.txt", encoding="utf-8")
    documents = loader.load()
    print(f"加载的文档数量: {len(documents)}")
    print(f"文档内容预览: {documents[0].page_content[:100]}...")

    # 1.2 CSV文件加载
    print("\n1.2 CSV文件加载")
    import pandas as pd

    # 创建示例CSV
    df = pd.DataFrame({
        'name': ['张三', '李四', '王五'],
        'age': [25, 30, 35],
        'city': ['北京', '上海', '深圳'],
        'description': ['软件工程师', '数据科学家', '产品经理']
    })
    df.to_csv("sample.csv", index=False, encoding="utf-8")

    csv_loader = CSVLoader("sample.csv", encoding="utf-8")
    csv_docs = csv_loader.load()
    print(f"CSV文档数量: {len(csv_docs)}")
    print(f"CSV文档示例: {csv_docs[0].page_content}")

    # 1.3 JSON文件加载
    print("\n1.3 JSON文件加载")
    import json

    sample_data = [
        {"title": "Python编程", "content": "Python是一种高级编程语言", "category": "技术"},
        {"title": "数据分析", "content": "数据分析是从数据中提取洞察的过程", "category": "数据科学"}
    ]

    with open("sample.json", "w", encoding="utf-8") as f:
        json.dump(sample_data, f, ensure_ascii=False, indent=2)

    json_loader = JSONLoader("sample.json", jq_schema=".[].content")
    json_docs = json_loader.load()
    print(f"JSON文档数量: {len(json_docs)}")
    print(f"JSON文档示例: {json_docs[0].page_content}")

    # 1.4 目录批量加载
    print("\n1.4 目录批量加载")
    os.makedirs("docs", exist_ok=True)

    # 创建多个文档
    for i in range(3):
        with open(f"docs/doc_{i}.txt", "w", encoding="utf-8") as f:
            f.write(f"这是第{i + 1}个文档的内容。包含关于技术{i + 1}的详细信息。")

    dir_loader = DirectoryLoader("docs", glob="*.txt",
                                 loader_cls=TextLoader,
                                 loader_kwargs={"encoding": "utf-8"})
    dir_docs = dir_loader.load()
    print(f"目录文档数量: {len(dir_docs)}")

    return documents + csv_docs + json_docs + dir_docs

documents = document_loaders_example()


1. Document Loaders 文档加载器示例

1.1 文本文件加载
加载的文档数量: 1
文档内容预览: 
        人工智能（AI）是计算机科学的一个分支，致力于创建能够执行通常需要人类智能的任务的系统。
        机器学习是AI的一个子集，它使计算机能够从数据中学习而无需明确编程。
   ...

1.2 CSV文件加载
CSV文档数量: 3
CSV文档示例: name: 张三
age: 25
city: 北京
description: 软件工程师

1.3 JSON文件加载
JSON文档数量: 2
JSON文档示例: Python是一种高级编程语言

1.4 目录批量加载
目录文档数量: 3


## 2. Text Splitters 示例

In [None]:
"""
LangChain 0.3 Text Splitters 完整示例
包含所有主要分割器类型和高级用法
"""

import os
from typing import List, Dict, Any
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import (
    RecursiveCharacterTextSplitter,
    CharacterTextSplitter,
    TokenTextSplitter,
    MarkdownHeaderTextSplitter,
    HTMLHeaderTextSplitter,
    PythonCodeTextSplitter,
    LatexTextSplitter
)
from langchain_core.documents import Document

### 创建示例文档用于测试

In [24]:

def create_sample_documents():
    """创建示例文档用于测试"""

    # 长文本示例
    long_text = """
人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。

随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。

80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。

机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。

自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。

未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。
    """

    return Document(page_content=long_text.strip(), metadata={"source": "ai_history"})
create_sample_documents()

Document(metadata={'source': 'ai_history'}, page_content='人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。\n\n在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。\n\n随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。\n\n80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。\n\n21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。\n\n今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。\n\n机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。\n\n自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。\n\n未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。')

### 递归字符分割器示例 - 推荐使用

In [25]:

def recursive_character_splitter_example():
    """递归字符分割器示例 - 推荐使用"""
    print("=" * 60)
    print("1. RecursiveCharacterTextSplitter（推荐）")
    print("=" * 60)

    doc = create_sample_documents()

    # 1.1 基础用法
    print("\n1.1 基础递归分割")
    basic_splitter = RecursiveCharacterTextSplitter(
        chunk_size=200,           # 块大小
        chunk_overlap=50,         # 重叠大小
        length_function=len,      # 长度计算函数
        is_separator_regex=False  # 分隔符是否为正则表达式
    )

    basic_chunks = basic_splitter.split_documents([doc])
    print(f"基础分割块数: {len(basic_chunks)}")
    for i, chunk in enumerate(basic_chunks[:3]):
        print(f"块 {i+1} (长度: {len(chunk.page_content)}): {chunk.page_content[:80]}...")

    # 1.2 自定义分隔符
    print("\n1.2 自定义分隔符优先级")
    custom_splitter = RecursiveCharacterTextSplitter(
        chunk_size=150,
        chunk_overlap=30,
        separators=[
            "\n\n",    # 段落分隔符（最高优先级）
            "\n",      # 行分隔符
            "。",      # 中文句号
            "！",      # 中文感叹号
            "？",      # 中文问号
            "，",      # 中文逗号
            " ",       # 空格
            ""         # 字符级分割（最后手段）
        ]
    )

    custom_chunks = custom_splitter.split_documents([doc])
    print(f"自定义分割块数: {len(custom_chunks)}")

    # 1.3 保持段落完整性
    print("\n1.3 段落优先分割")
    paragraph_splitter = RecursiveCharacterTextSplitter(
        chunk_size=300,
        chunk_overlap=50,
        separators=["\n\n", "\n", "。", " ", ""]
    )

    para_chunks = paragraph_splitter.split_documents([doc])
    print(f"段落分割块数: {len(para_chunks)}")

    return basic_chunks
recursive_character_splitter_example()

1. RecursiveCharacterTextSplitter（推荐）

1.1 基础递归分割
基础分割块数: 3
块 1 (长度: 190): 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达特茅斯会议上，人工智能这个术语首次被正式...
块 2 (长度: 169): 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

今天...
块 3 (长度: 103): 自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。

未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融...

1.2 自定义分隔符优先级
自定义分割块数: 4

1.3 段落优先分割
段落分割块数: 2


[Document(metadata={'source': 'ai_history'}, page_content='人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。\n\n在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。\n\n随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。\n\n80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。'),
 Document(metadata={'source': 'ai_history'}, page_content='80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。\n\n21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。\n\n今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。\n\n机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。'),
 Document(metadata={'source': 'ai_history'}, page_content='自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。\n\n未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。')]

### 字符文本分割器示例

In [None]:

def character_text_splitter_example():
    """字符文本分割器示例"""
    print("\n" + "=" * 60)
    print("2. CharacterTextSplitter")
    print("=" * 60)

    doc = create_sample_documents()

    # 2.1 按段落分割
    print("\n2.1 按段落分割")
    para_splitter = CharacterTextSplitter(
        chunk_size=300,
        chunk_overlap=50,
        separator="\n\n"  # 只使用段落分隔符
    )

    para_chunks = para_splitter.split_documents([doc])
    print(f"段落分割块数: {len(para_chunks)}")

    # 2.2 按句子分割
    print("\n2.2 按句子分割")
    sentence_splitter = CharacterTextSplitter(
        chunk_size=100,
        chunk_overlap=20,
        separator="。"  # 按中文句号分割
    )

    sentence_chunks = sentence_splitter.split_documents([doc])
    print(f"句子分割块数: {len(sentence_chunks)}")

    # 2.3 自定义分隔符
    print("\n2.3 自定义分隔符")
    custom_text = "项目A|项目B|项目C|项目D|项目E的详细描述和分析报告"
    custom_doc = Document(page_content=custom_text)

    custom_splitter = CharacterTextSplitter(
        chunk_size=20,
        chunk_overlap=0,
        separator="|"
    )

    custom_chunks = custom_splitter.split_documents([custom_doc])
    print(f"自定义分割块数: {len(custom_chunks)}")
    for chunk in custom_chunks:
        print(f"  - {chunk.page_content}")

    return para_chunks
character_text_splitter_example()

### Token文本分割器示例

In [26]:

def token_text_splitter_example():
    """Token文本分割器示例"""
    print("\n" + "=" * 60)
    print("3. TokenTextSplitter")
    print("=" * 60)

    doc = create_sample_documents()

    # 3.1 基础Token分割
    print("\n3.1 基础Token分割")
    token_splitter = TokenTextSplitter(
        chunk_size=100,      # Token数量
        chunk_overlap=20,    # 重叠Token数
        model_name="gpt-3.5-turbo"  # 指定tokenizer模型
    )

    token_chunks = token_splitter.split_documents([doc])
    print(f"Token分割块数: {len(token_chunks)}")

    # 显示每块的实际token数
    for i, chunk in enumerate(token_chunks[:3]):
        token_count = token_splitter._tokenizer.encode(chunk.page_content)
        print(f"块 {i+1} Token数: {len(token_count)}, 内容: {chunk.page_content[:60]}...")

    # 3.2 不同模型的Token分割
    print("\n3.2 不同模型Token分割对比")
    models = ["gpt-3.5-turbo", "text-davinci-003", "gpt-4"]

    for model in models:
        try:
            model_splitter = TokenTextSplitter(
                chunk_size=50,
                chunk_overlap=10,
                model_name=model
            )
            model_chunks = model_splitter.split_documents([doc])
            print(f"{model}: {len(model_chunks)} 块")
        except Exception as e:
            print(f"{model}: 不支持 ({e})")

    return token_chunks
token_text_splitter_example()


3. TokenTextSplitter

3.1 基础Token分割
Token分割块数: 6
块 1 Token数: 100, 内容: 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达...
块 2 Token数: 100, 内容: 次被正式提出。这标志着AI作为一个独立学科的诞生。

随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天...
块 3 Token数: 100, 内容: 年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI...

3.2 不同模型Token分割对比
gpt-3.5-turbo: 11 块
text-davinci-003: 21 块
gpt-4: 11 块


[Document(metadata={'source': 'ai_history'}, page_content='人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。\n\n在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独'),
 Document(metadata={'source': 'ai_history'}, page_content='次被正式提出。这标志着AI作为一个独立学科的诞生。\n\n随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。\n\n80年代末到90年代初，由于技术限制和过高期望，AI进'),
 Document(metadata={'source': 'ai_history'}, page_content='年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。\n\n21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。\n\n今天，AI已经在图像识别、自然语言处理、推荐系统等领'),
 Document(metadata={'source': 'ai_history'}, page_content='在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。\n\n机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。\n\n自然语'),
 Document(metadata={'source': 'ai_history'}, page_content='学习则是机器学习的一个重要分支。\n\n自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。\n\n未来，AI将在更多领域发挥重要作用，包括医疗、教育、'),
 Document(metadata={'source': 'ai_history'}, page_content='�重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。')]

### Markdown标题分割器示例

In [27]:

def markdown_header_splitter_example():
    """Markdown标题分割器示例"""
    print("\n" + "=" * 60)
    print("4. MarkdownHeaderTextSplitter")
    print("=" * 60)

    # 创建Markdown文档
    markdown_text = """
# 人工智能技术指南

## 1. 机器学习基础

### 1.1 监督学习
监督学习是机器学习的一个重要分支，使用标记的训练数据来学习输入到输出的映射。

常见算法包括：
- 线性回归
- 逻辑回归
- 决策树
- 随机森林

### 1.2 无监督学习
无监督学习从未标记的数据中发现隐藏的模式。

主要方法：
- 聚类分析
- 降维技术
- 关联规则挖掘

## 2. 深度学习

### 2.1 神经网络基础
神经网络是深度学习的基础，模拟人脑神经元的工作方式。

### 2.2 卷积神经网络
CNN主要用于图像处理和计算机视觉任务。

### 2.3 循环神经网络
RNN适合处理序列数据，如文本和时间序列。

## 3. 自然语言处理

### 3.1 文本预处理
包括分词、词性标注、命名实体识别等步骤。

### 3.2 语言模型
从统计语言模型到现代的Transformer模型。

# 总结

人工智能技术正在快速发展，各个领域都有重要突破。
"""

    # 4.1 基础标题分割
    print("\n4.1 基础标题分割")
    md_splitter = MarkdownHeaderTextSplitter(
        headers_to_split_on=[
            ("#", "Header 1"),
            ("##", "Header 2"),
            ("###", "Header 3"),
        ]
    )

    md_chunks = md_splitter.split_text(markdown_text)
    print(f"Markdown分割块数: {len(md_chunks)}")

    for i, chunk in enumerate(md_chunks[:5]):
        print(f"\n块 {i+1}:")
        print(f"内容: {chunk.page_content[:100]}...")
        print(f"元数据: {chunk.metadata}")

    # 4.2 结合递归分割器
    print("\n4.2 结合递归分割器进行二次分割")

    # 先按标题分割
    md_docs = md_splitter.split_text(markdown_text)

    # 再对长块进行递归分割
    recursive_splitter = RecursiveCharacterTextSplitter(
        chunk_size=200,
        chunk_overlap=50
    )

    final_chunks = []
    for doc in md_docs:
        if len(doc.page_content) > 200:
            sub_chunks = recursive_splitter.split_documents([doc])
            final_chunks.extend(sub_chunks)
        else:
            final_chunks.append(doc)

    print(f"二次分割后块数: {len(final_chunks)}")

    return md_chunks
markdown_header_splitter_example()


4. MarkdownHeaderTextSplitter

4.1 基础标题分割
Markdown分割块数: 8

块 1:
内容: 监督学习是机器学习的一个重要分支，使用标记的训练数据来学习输入到输出的映射。  
常见算法包括：
- 线性回归
- 逻辑回归
- 决策树
- 随机森林...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '1. 机器学习基础', 'Header 3': '1.1 监督学习'}

块 2:
内容: 无监督学习从未标记的数据中发现隐藏的模式。  
主要方法：
- 聚类分析
- 降维技术
- 关联规则挖掘...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '1. 机器学习基础', 'Header 3': '1.2 无监督学习'}

块 3:
内容: 神经网络是深度学习的基础，模拟人脑神经元的工作方式。...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.1 神经网络基础'}

块 4:
内容: CNN主要用于图像处理和计算机视觉任务。...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.2 卷积神经网络'}

块 5:
内容: RNN适合处理序列数据，如文本和时间序列。...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.3 循环神经网络'}

4.2 结合递归分割器进行二次分割
二次分割后块数: 8


[Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '1. 机器学习基础', 'Header 3': '1.1 监督学习'}, page_content='监督学习是机器学习的一个重要分支，使用标记的训练数据来学习输入到输出的映射。  \n常见算法包括：\n- 线性回归\n- 逻辑回归\n- 决策树\n- 随机森林'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '1. 机器学习基础', 'Header 3': '1.2 无监督学习'}, page_content='无监督学习从未标记的数据中发现隐藏的模式。  \n主要方法：\n- 聚类分析\n- 降维技术\n- 关联规则挖掘'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.1 神经网络基础'}, page_content='神经网络是深度学习的基础，模拟人脑神经元的工作方式。'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.2 卷积神经网络'}, page_content='CNN主要用于图像处理和计算机视觉任务。'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.3 循环神经网络'}, page_content='RNN适合处理序列数据，如文本和时间序列。'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '3. 自然语言处理', 'Header 3': '3.1 文本预处理'}, page_content='包括分词、词性标注、命名实体识别等步骤。'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '3. 自然语言处理', 'Header 3': '3.2 语言模型'}, page_cont

### HTML标题分割器示例

In [28]:

def html_header_splitter_example():
    """HTML标题分割器示例"""
    print("\n" + "=" * 60)
    print("5. HTMLHeaderTextSplitter")
    print("=" * 60)

    html_text = """
<!DOCTYPE html>
<html>
<head>
    <title>AI技术文档</title>
</head>
<body>
    <h1>人工智能概述</h1>
    <p>人工智能是计算机科学的一个分支。</p>

    <h2>机器学习</h2>
    <p>机器学习是AI的重要组成部分。</p>

    <h3>监督学习</h3>
    <p>使用标记数据进行训练。</p>

    <h3>无监督学习</h3>
    <p>从未标记数据中发现模式。</p>

    <h2>深度学习</h2>
    <p>基于神经网络的学习方法。</p>

    <h3>CNN</h3>
    <p>卷积神经网络用于图像处理。</p>

    <h3>RNN</h3>
    <p>循环神经网络处理序列数据。</p>
</body>
</html>
"""

    html_splitter = HTMLHeaderTextSplitter(
        headers_to_split_on=[
            ("h1", "Header 1"),
            ("h2", "Header 2"),
            ("h3", "Header 3"),
        ]
    )

    html_chunks = html_splitter.split_text(html_text)
    print(f"HTML分割块数: {len(html_chunks)}")

    for i, chunk in enumerate(html_chunks[:3]):
        print(f"\n块 {i+1}:")
        print(f"内容: {chunk.page_content[:80]}...")
        print(f"元数据: {chunk.metadata}")

    return html_chunks
html_header_splitter_example()


5. HTMLHeaderTextSplitter
HTML分割块数: 14

块 1:
内容: 人工智能概述...
元数据: {'Header 1': '人工智能概述'}

块 2:
内容: 人工智能是计算机科学的一个分支。...
元数据: {'Header 1': '人工智能概述'}

块 3:
内容: 机器学习...
元数据: {'Header 1': '人工智能概述', 'Header 2': '机器学习'}


[Document(metadata={'Header 1': '人工智能概述'}, page_content='人工智能概述'),
 Document(metadata={'Header 1': '人工智能概述'}, page_content='人工智能是计算机科学的一个分支。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习'}, page_content='机器学习'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习'}, page_content='机器学习是AI的重要组成部分。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习', 'Header 3': '监督学习'}, page_content='监督学习'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习', 'Header 3': '监督学习'}, page_content='使用标记数据进行训练。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习', 'Header 3': '无监督学习'}, page_content='无监督学习'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习', 'Header 3': '无监督学习'}, page_content='从未标记数据中发现模式。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '深度学习'}, page_content='深度学习'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '深度学习'}, page_content='基于神经网络的学习方法。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '深度学习

### 代码分割器示例

In [29]:

def code_splitter_example():
    """代码分割器示例"""
    print("\n" + "=" * 60)
    print("6. PythonCodeTextSplitter")
    print("=" * 60)

    python_code = '''
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

class DataProcessor:
    """数据处理类"""

    def __init__(self, data_path):
        self.data_path = data_path
        self.data = None

    def load_data(self):
        """加载数据"""
        self.data = pd.read_csv(self.data_path)
        return self.data

    def preprocess(self):
        """数据预处理"""
        # 处理缺失值
        self.data = self.data.dropna()

        # 特征缩放
        from sklearn.preprocessing import StandardScaler
        scaler = StandardScaler()
        numeric_columns = self.data.select_dtypes(include=[np.number]).columns
        self.data[numeric_columns] = scaler.fit_transform(self.data[numeric_columns])

        return self.data

def train_model(X, y):
    """训练模型"""
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    model = LinearRegression()
    model.fit(X_train, y_train)

    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)

    print(f"Mean Squared Error: {mse}")
    return model

def main():
    """主函数"""
    processor = DataProcessor("data.csv")
    data = processor.load_data()
    processed_data = processor.preprocess()

    X = processed_data.drop('target', axis=1)
    y = processed_data['target']

    model = train_model(X, y)
    print("模型训练完成")

if __name__ == "__main__":
    main()
'''

    # Python代码分割
    python_splitter = PythonCodeTextSplitter(
        chunk_size=500,
        chunk_overlap=50
    )

    code_chunks = python_splitter.split_text(python_code)
    print(f"Python代码分割块数: {len(code_chunks)}")

    for i, chunk in enumerate(code_chunks[:3]):
        print(f"\n代码块 {i+1} (长度: {len(chunk)}):")
        print(chunk[:200] + "..." if len(chunk) > 200 else chunk)

    return code_chunks
code_splitter_example()


6. PythonCodeTextSplitter
Python代码分割块数: 5

代码块 1 (长度: 188):
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

代码块 2 (长度: 352):
class DataProcessor:
    """数据处理类"""

    def __init__(self, data_path):
        self.data_path = data_path
        self.data = None

    def load_data(self):
        """加载数据"""
        self.data = pd...

代码块 3 (长度: 288):
# 特征缩放
        from sklearn.preprocessing import StandardScaler
        scaler = StandardScaler()
        numeric_columns = self.data.select_dtypes(include=[np.number]).columns
        self.data[numer...


['import numpy as np\nimport pandas as pd\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.linear_model import LinearRegression\nfrom sklearn.metrics import mean_squared_error',
 'class DataProcessor:\n    """数据处理类"""\n\n    def __init__(self, data_path):\n        self.data_path = data_path\n        self.data = None\n\n    def load_data(self):\n        """加载数据"""\n        self.data = pd.read_csv(self.data_path)\n        return self.data\n\n    def preprocess(self):\n        """数据预处理"""\n        # 处理缺失值\n        self.data = self.data.dropna()',
 '# 特征缩放\n        from sklearn.preprocessing import StandardScaler\n        scaler = StandardScaler()\n        numeric_columns = self.data.select_dtypes(include=[np.number]).columns\n        self.data[numeric_columns] = scaler.fit_transform(self.data[numeric_columns])\n\n        return self.data',
 'def train_model(X, y):\n    """训练模型"""\n    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=

### LaTeX分割器示例

In [30]:

def latex_splitter_example():
    """LaTeX分割器示例"""
    print("\n" + "=" * 60)
    print("7. LatexTextSplitter")
    print("=" * 60)

    latex_text = r"""
\documentclass{article}
\usepackage{amsmath}
\title{机器学习数学基础}
\author{AI研究团队}

\begin{document}
\maketitle

\section{线性代数}
线性代数是机器学习的数学基础之一。

\subsection{向量}
向量是具有大小和方向的量。在机器学习中，特征通常表示为向量。

设向量 $\mathbf{v} = [v_1, v_2, \ldots, v_n]^T$，其中 $v_i$ 是第 $i$ 个分量。

\subsection{矩阵}
矩阵是二维数组，用于表示线性变换。

矩阵乘法定义为：
\begin{equation}
(\mathbf{AB})_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}
\end{equation}

\section{概率论}
概率论为机器学习提供了不确定性建模的工具。

\subsection{贝叶斯定理}
贝叶斯定理是概率论的核心：
\begin{equation}
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
\end{equation}

\section{优化理论}
优化理论用于寻找模型的最优参数。

\subsection{梯度下降}
梯度下降是最常用的优化算法：
\begin{equation}
\theta_{t+1} = \theta_t - \alpha \nabla_\theta J(\theta)
\end{equation}

其中 $\alpha$ 是学习率，$J(\theta)$ 是损失函数。

\end{document}
"""

    latex_splitter = LatexTextSplitter(
        chunk_size=300,
        chunk_overlap=50
    )

    latex_chunks = latex_splitter.split_text(latex_text)
    print(f"LaTeX分割块数: {len(latex_chunks)}")

    for i, chunk in enumerate(latex_chunks[:3]):
        print(f"\nLaTeX块 {i+1}:")
        print(chunk[:150] + "..." if len(chunk) > 150 else chunk)

    return latex_chunks
latex_splitter_example()


7. LatexTextSplitter
LaTeX分割块数: 4

LaTeX块 1:
\documentclass{article}
\usepackage{amsmath}
\title{机器学习数学基础}
\author{AI研究团队}

\begin{document}
\maketitle

\section{线性代数}
线性代数是机器学习的数学基础之一。

\subsect...

LaTeX块 2:
$ 个分量。

\subsection{矩阵}
矩阵是二维数组，用于表示线性变换。

矩阵乘法定义为：
\begin{equation}
(\mathbf{AB})_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}
\end{equation}

\section{概率论}
概率...

LaTeX块 3:
= \frac{P(B|A)P(A)}{P(B)}
\end{equation}

\section{优化理论}
优化理论用于寻找模型的最优参数。

\subsection{梯度下降}
梯度下降是最常用的优化算法：
\begin{equation}
\theta_{t+1} = \theta_t -...


['\\documentclass{article}\n\\usepackage{amsmath}\n\\title{机器学习数学基础}\n\\author{AI研究团队}\n\n\\begin{document}\n\\maketitle\n\n\\section{线性代数}\n线性代数是机器学习的数学基础之一。\n\n\\subsection{向量}\n向量是具有大小和方向的量。在机器学习中，特征通常表示为向量。\n\n设向量 $\\mathbf{v} = [v_1, v_2, \\ldots, v_n]^T$，其中 $v_i$ 是第 $i',
 '$ 个分量。\n\n\\subsection{矩阵}\n矩阵是二维数组，用于表示线性变换。\n\n矩阵乘法定义为：\n\\begin{equation}\n(\\mathbf{AB})_{ij} = \\sum_{k=1}^{n} a_{ik}b_{kj}\n\\end{equation}\n\n\\section{概率论}\n概率论为机器学习提供了不确定性建模的工具。\n\n\\subsection{贝叶斯定理}\n贝叶斯定理是概率论的核心：\n\\begin{equation}\nP(A|B) =',
 '= \\frac{P(B|A)P(A)}{P(B)}\n\\end{equation}\n\n\\section{优化理论}\n优化理论用于寻找模型的最优参数。\n\n\\subsection{梯度下降}\n梯度下降是最常用的优化算法：\n\\begin{equation}\n\\theta_{t+1} = \\theta_t - \\alpha \\nabla_\\theta J(\\theta)\n\\end{equation}\n\n其中',
 '$\\alpha$ 是学习率，$J(\\theta)$ 是损失函数。\n\n\\end{document}']

### 高级分割技术

In [31]:

def advanced_splitting_techniques():
    """高级分割技术"""
    print("\n" + "=" * 60)
    print("8. 高级分割技术")
    print("=" * 60)

    doc = create_sample_documents()

    # 8.1 动态块大小
    print("\n8.1 动态块大小调整")

    def adaptive_chunk_size(text: str) -> int:
        """根据文本复杂度动态调整块大小"""
        sentences = text.split('。')
        avg_sentence_length = sum(len(s) for s in sentences) / len(sentences) if sentences else 100

        if avg_sentence_length > 50:
            return 300  # 长句子用大块
        elif avg_sentence_length > 30:
            return 200  # 中等句子用中块
        else:
            return 150  # 短句子用小块

    adaptive_splitter = RecursiveCharacterTextSplitter(
        chunk_size=adaptive_chunk_size(doc.page_content),
        chunk_overlap=50
    )

    adaptive_chunks = adaptive_splitter.split_documents([doc])
    print(f"自适应分割块数: {len(adaptive_chunks)}")

    # 8.2 语义感知分割
    print("\n8.2 语义感知分割")

    def semantic_splitter(text: str, max_chunk_size: int = 200) -> List[str]:
        """基于语义的分割（简化版）"""
        sentences = text.split('。')
        chunks = []
        current_chunk = ""

        for sentence in sentences:
            sentence = sentence.strip()
            if not sentence:
                continue

            # 检查是否包含关键词（新主题开始）
            topic_keywords = ['然而', '另外', '此外', '同时', '因此', '总之']
            is_new_topic = any(keyword in sentence for keyword in topic_keywords)

            if (len(current_chunk) + len(sentence) > max_chunk_size) or is_new_topic:
                if current_chunk:
                    chunks.append(current_chunk.strip())
                current_chunk = sentence + '。'
            else:
                current_chunk += sentence + '。'

        if current_chunk:
            chunks.append(current_chunk.strip())

        return chunks

    semantic_chunks = semantic_splitter(doc.page_content)
    print(f"语义分割块数: {len(semantic_chunks)}")

    # 8.3 重叠策略优化
    print("\n8.3 智能重叠策略")

    def smart_overlap_splitter(text: str, chunk_size: int = 200) -> List[Document]:
        """智能重叠分割"""
        sentences = text.split('。')
        chunks = []

        for i in range(0, len(sentences), 3):  # 每3句为一块
            chunk_sentences = sentences[i:i+4]  # 取4句（包含1句重叠）
            chunk_text = '。'.join(chunk_sentences).strip()

            if chunk_text:
                chunks.append(Document(
                    page_content=chunk_text,
                    metadata={"chunk_id": len(chunks), "overlap_strategy": "sentence_based"}
                ))

        return chunks

    smart_chunks = smart_overlap_splitter(doc.page_content)
    print(f"智能重叠分割块数: {len(smart_chunks)}")

    return adaptive_chunks
advanced_splitting_techniques()


8. 高级分割技术

8.1 动态块大小调整
自适应分割块数: 4

8.2 语义感知分割
语义分割块数: 4

8.3 智能重叠策略
智能重叠分割块数: 5


[Document(metadata={'source': 'ai_history'}, page_content='人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。\n\n在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。\n\n随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。'),
 Document(metadata={'source': 'ai_history'}, page_content='随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。\n\n80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。\n\n21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。'),
 Document(metadata={'source': 'ai_history'}, page_content='21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。\n\n今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。\n\n机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。'),
 Document(metadata={'source': 'ai_history'}, page_content='自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。\n\n未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。')]

### 分割器性能对比

In [32]:

def splitting_performance_comparison():
    """分割器性能对比"""
    print("\n" + "=" * 60)
    print("9. 分割器性能对比")
    print("=" * 60)

    doc = create_sample_documents()

    splitters = {
        "RecursiveCharacter": RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=50),
        "Character": CharacterTextSplitter(chunk_size=200, chunk_overlap=50, separator="\n\n"),
        "Token": TokenTextSplitter(chunk_size=50, chunk_overlap=10)
    }

    results = {}

    for name, splitter in splitters.items():
        try:
            import time
            start_time = time.time()
            chunks = splitter.split_documents([doc])
            end_time = time.time()

            results[name] = {
                "chunks": len(chunks),
                "time": end_time - start_time,
                "avg_length": sum(len(c.page_content) for c in chunks) / len(chunks),
                "min_length": min(len(c.page_content) for c in chunks),
                "max_length": max(len(c.page_content) for c in chunks)
            }
        except Exception as e:
            results[name] = {"error": str(e)}

    print("\n性能对比结果:")
    print(f"{'分割器':<20} {'块数':<8} {'时间(s)':<10} {'平均长度':<10} {'最小长度':<10} {'最大长度':<10}")
    print("-" * 80)

    for name, result in results.items():
        if "error" not in result:
            print(f"{name:<20} {result['chunks']:<8} {result['time']:<10.4f} "
                  f"{result['avg_length']:<10.1f} {result['min_length']:<10} {result['max_length']:<10}")
        else:
            print(f"{name:<20} 错误: {result['error']}")
splitting_performance_comparison()


9. 分割器性能对比

性能对比结果:
分割器                  块数       时间(s)      平均长度       最小长度       最大长度      
--------------------------------------------------------------------------------
RecursiveCharacter   3        0.0000     154.0      103        190       
Character            3        0.0000     154.0      103        190       
Token                21       0.0010     25.9       10         32        


### 运行所有文本分割器示例

In [33]:

def main():
    """运行所有文本分割器示例"""
    print("🚀 LangChain 0.3 Text Splitters 完整示例")
    print("=" * 80)

    # 运行所有示例
    recursive_character_splitter_example()
    character_text_splitter_example()
    token_text_splitter_example()
    markdown_header_splitter_example()
    html_header_splitter_example()
    code_splitter_example()
    latex_splitter_example()
    advanced_splitting_techniques()
    splitting_performance_comparison()

    print("\n🎉 所有文本分割器示例运行完成！")

    # 最佳实践建议
    print("\n📋 最佳实践建议:")
    print("1. 通用文本：使用 RecursiveCharacterTextSplitter")
    print("2. 结构化文档：使用对应的Header分割器")
    print("3. 代码文档：使用 PythonCodeTextSplitter")
    print("4. Token限制：使用 TokenTextSplitter")
    print("5. 简单需求：使用 CharacterTextSplitter")

if __name__ == "__main__":
    main()

🚀 LangChain 0.3 Text Splitters 完整示例
1. RecursiveCharacterTextSplitter（推荐）

1.1 基础递归分割
基础分割块数: 3
块 1 (长度: 190): 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达特茅斯会议上，人工智能这个术语首次被正式...
块 2 (长度: 169): 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

今天...
块 3 (长度: 103): 自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。

未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融...

1.2 自定义分隔符优先级
自定义分割块数: 4

1.3 段落优先分割
段落分割块数: 2

2. CharacterTextSplitter

2.1 按段落分割
段落分割块数: 2

2.2 按句子分割
句子分割块数: 6

2.3 自定义分隔符
自定义分割块数: 2
  - 项目A|项目B|项目C|项目D
  - 项目E的详细描述和分析报告

3. TokenTextSplitter

3.1 基础Token分割
Token分割块数: 6
块 1 Token数: 100, 内容: 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达...
块 2 Token数: 100, 内容: 次被正式提出。这标志着AI作为一个独立学科的诞生。

随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天...
块 3 Token数: 100, 内容: 年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI...

3.2 不同模型Token分割对比
gpt-3.5-turbo: 11 块
text-davinci-003: 21 块
gpt-4: 11 块

4. MarkdownHeaderTextSplitter

4.1 基础标题分割
Markdown

In [3]:
# 2. Text Splitters 示例
def text_splitters_example(documents: List[Document]):
    """文本分割器示例"""
    print("\n" + "=" * 60)
    print("2. Text Splitters 文本分割器示例")
    print("=" * 60)

    # 创建长文本用于分割
    long_text = """
    人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

    在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。

    随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。

    80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

    21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

    今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。
    """

    long_doc = Document(page_content=long_text, metadata={"source": "ai_history"})

    # 2.1 递归字符分割器（推荐）
    print("\n2.1 RecursiveCharacterTextSplitter")
    recursive_splitter = RecursiveCharacterTextSplitter(
        chunk_size=200,
        chunk_overlap=50,
        length_function=len,
        separators=["\n\n", "\n", "。", "，", " ", ""]
    )

    recursive_chunks = recursive_splitter.split_documents([long_doc])
    print(f"递归分割块数: {len(recursive_chunks)}")
    for i, chunk in enumerate(recursive_chunks[:2]):
        print(f"块 {i + 1}: {chunk.page_content[:100]}...")

    # 2.2 字符分割器
    print("\n2.2 CharacterTextSplitter")
    char_splitter = CharacterTextSplitter(
        chunk_size=300,
        chunk_overlap=50,
        separator="\n\n"
    )

    char_chunks = char_splitter.split_documents([long_doc])
    print(f"字符分割块数: {len(char_chunks)}")

    # 2.3 Token分割器
    print("\n2.3 TokenTextSplitter")
    token_splitter = TokenTextSplitter(
        chunk_size=100,
        chunk_overlap=20
    )

    token_chunks = token_splitter.split_documents([long_doc])
    print(f"Token分割块数: {len(token_chunks)}")

    # 2.4 Markdown分割器
    print("\n2.4 MarkdownHeaderTextSplitter")
    markdown_text = """
# 人工智能概述

## 什么是人工智能
人工智能是计算机科学的一个分支。

## AI的应用领域

### 自然语言处理
NLP是AI的重要分支。

### 计算机视觉
计算机视觉让机器能够"看见"。

## 未来发展
AI将继续快速发展。
"""

    markdown_splitter = MarkdownHeaderTextSplitter(
        headers_to_split_on=[
            ("#", "Header 1"),
            ("##", "Header 2"),
            ("###", "Header 3"),
        ]
    )

    md_doc = Document(page_content=markdown_text)
    md_chunks = markdown_splitter.split_text(markdown_text)
    print(f"Markdown分割块数: {len(md_chunks)}")

    return recursive_chunks
# 2. 文本分割
chunks = text_splitters_example(documents)


2. Text Splitters 文本分割器示例

2.1 RecursiveCharacterTextSplitter
递归分割块数: 2
块 1: 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

    在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学...
块 2: 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

    21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

    今天，AI已经在图像识别、自...

2.2 CharacterTextSplitter
字符分割块数: 1

2.3 TokenTextSplitter
Token分割块数: 7

2.4 MarkdownHeaderTextSplitter
Markdown分割块数: 4


## 3. Embedding Models 示例

In [34]:
"""
LangChain 0.3 Embedding Models 完整示例
包含所有主要嵌入模型和高级用法
"""

import os
import numpy as np
import asyncio
from typing import List, Dict, Any, Optional
from concurrent.futures import ThreadPoolExecutor
import time

# 核心嵌入模型导入
from langchain_ollama import OllamaEmbeddings
from langchain_openai import OpenAIEmbeddings
from langchain_community.embeddings import (
    HuggingFaceEmbeddings,
    HuggingFaceInstructEmbeddings,
    SentenceTransformerEmbeddings,
    CohereEmbeddings,
    BedrockEmbeddings
)
from langchain_core.documents import Document

### Ollama嵌入模型示例

In [41]:

def ollama_embeddings_example():
    """Ollama嵌入模型示例 - 本地部署"""
    print("=" * 60)
    print("1. Ollama嵌入模型示例")
    print("=" * 60)

    try:
        # 1.1 基础Ollama嵌入
        print("\n1.1 基础Ollama嵌入模型")
        embeddings = OllamaEmbeddings(
            base_url="http://localhost:11434",
            model="nomic-embed-text:latest",  # 推荐的嵌入模型
        )

        # 测试文本
        texts = [
            "人工智能是计算机科学的分支",
            "机器学习是AI的重要组成部分",
            "深度学习使用神经网络进行学习",
            "自然语言处理让计算机理解人类语言",
            "今天天气很好，适合出门散步"
        ]

        # 生成文档嵌入
        print("生成文档嵌入...")
        doc_embeddings = embeddings.embed_documents(texts)
        print(f"文档嵌入数量: {len(doc_embeddings)}")
        print(f"嵌入向量维度: {len(doc_embeddings[0])}")

        # 生成查询嵌入
        query = "什么是人工智能技术？"
        query_embedding = embeddings.embed_query(query)
        print(f"查询嵌入维度: {len(query_embedding)}")

        # 1.2 计算相似度
        print("\n1.2 语义相似度计算")

        def cosine_similarity(a: List[float], b: List[float]) -> float:
            """计算余弦相似度"""
            a_np = np.array(a)
            b_np = np.array(b)
            return np.dot(a_np, b_np) / (np.linalg.norm(a_np) * np.linalg.norm(b_np))

        print(f"查询: '{query}'")
        print("与各文档的相似度:")
        similarities = []
        for i, text in enumerate(texts):
            similarity = cosine_similarity(query_embedding, doc_embeddings[i])
            similarities.append((text, similarity))
            print(f"{i+1}. {similarity:.4f} - {text}")

        # 排序显示最相似的文档
        similarities.sort(key=lambda x: x[1], reverse=True)
        print(f"\n最相似文档: {similarities[0][0]} (相似度: {similarities[0][1]:.4f})")

        # # 1.3 不同Ollama模型对比
        # print("\n1.3 不同Ollama嵌入模型对比")
        # ollama_models = [
        #     "nomic-embed-text",
        #     "mxbai-embed-large",
        #     "all-minilm"
        # ]
        #
        # for model_name in ollama_models:
        #     try:
        #         model_embeddings = OllamaEmbeddings(
        #             base_url="http://localhost:11434",
        #             model=model_name
        #         )
        #         test_embedding = model_embeddings.embed_query("测试文本")
        #         print(f"{model_name}: 维度 {len(test_embedding)}")
        #     except Exception as e:
        #         print(f"{model_name}: 不可用 ({str(e)[:50]}...)")

        return embeddings

    except Exception as e:
        print(f"Ollama嵌入模型初始化失败: {e}")
        print("请确保Ollama服务正在运行并安装了嵌入模型")
        print("安装命令: ollama pull nomic-embed-text")
        return None
ollama_embeddings_example()

1. Ollama嵌入模型示例

1.1 基础Ollama嵌入模型
生成文档嵌入...
文档嵌入数量: 5
嵌入向量维度: 768
查询嵌入维度: 768

1.2 语义相似度计算
查询: '什么是人工智能技术？'
与各文档的相似度:
1. 0.8601 - 人工智能是计算机科学的分支
2. 0.5262 - 机器学习是AI的重要组成部分
3. 0.5862 - 深度学习使用神经网络进行学习
4. 0.7732 - 自然语言处理让计算机理解人类语言
5. 0.5400 - 今天天气很好，适合出门散步

最相似文档: 人工智能是计算机科学的分支 (相似度: 0.8601)


OllamaEmbeddings(model='nomic-embed-text:latest', validate_model_on_init=False, base_url='http://localhost:11434', client_kwargs={}, async_client_kwargs={}, sync_client_kwargs={}, mirostat=None, mirostat_eta=None, mirostat_tau=None, num_ctx=None, num_gpu=None, keep_alive=None, num_thread=None, repeat_last_n=None, repeat_penalty=None, temperature=None, stop=None, tfs_z=None, top_k=None, top_p=None)

### OpenAI嵌入模型示例

In [None]:

def openai_embeddings_example():
    """OpenAI嵌入模型示例"""
    print("\n" + "=" * 60)
    print("2. OpenAI嵌入模型示例")
    print("=" * 60)

    try:
        # 2.1 基础OpenAI嵌入
        print("\n2.1 基础OpenAI嵌入")
        embeddings = OpenAIEmbeddings(
            model="text-embedding-3-small",  # 新版本模型
            api_key=os.getenv("OPENAI_API_KEY"),
            dimensions=1536  # 可选：指定维度
        )

        texts = [
            "Artificial intelligence is a branch of computer science",
            "Machine learning is a subset of AI",
            "Deep learning uses neural networks",
            "Natural language processing enables computers to understand human language"
        ]

        doc_embeddings = embeddings.embed_documents(texts)
        query_embedding = embeddings.embed_query("What is artificial intelligence?")

        print(f"OpenAI嵌入维度: {len(doc_embeddings[0])}")

        # 2.2 不同OpenAI模型对比
        print("\n2.2 OpenAI模型对比")
        openai_models = [
            ("text-embedding-3-small", 1536),
            ("text-embedding-3-large", 3072),
            ("text-embedding-ada-002", 1536)
        ]

        for model_name, default_dim in openai_models:
            try:
                model_embeddings = OpenAIEmbeddings(
                    model=model_name,
                    api_key=os.getenv("OPENAI_API_KEY")
                )
                test_embedding = model_embeddings.embed_query("test")
                print(f"{model_name}: 维度 {len(test_embedding)}")
            except Exception as e:
                print(f"{model_name}: 不可用 ({str(e)[:50]}...)")

        # 2.3 自定义维度（仅支持text-embedding-3系列）
        print("\n2.3 自定义嵌入维度")
        try:
            custom_embeddings = OpenAIEmbeddings(
                model="text-embedding-3-large",
                dimensions=1024,  # 自定义维度
                api_key=os.getenv("OPENAI_API_KEY")
            )
            custom_embedding = custom_embeddings.embed_query("自定义维度测试")
            print(f"自定义维度嵌入: {len(custom_embedding)}")
        except Exception as e:
            print(f"自定义维度失败: {e}")

        return embeddings

    except Exception as e:
        print(f"OpenAI嵌入模型失败: {e}")
        print("请设置OPENAI_API_KEY环境变量")
        return None

### HuggingFace嵌入模型示例

In [None]:

def huggingface_embeddings_example():
    """HuggingFace嵌入模型示例"""
    print("\n" + "=" * 60)
    print("3. HuggingFace嵌入模型示例")
    print("=" * 60)

    # 3.1 基础HuggingFace嵌入
    print("\n3.1 基础HuggingFace嵌入")
    try:
        # 使用预训练的sentence-transformers模型
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2",
            model_kwargs={'device': 'cpu'},  # 或 'cuda' 如果有GPU
            encode_kwargs={'normalize_embeddings': True}  # 标准化嵌入
        )

        texts = [
            "这是一个测试文档",
            "人工智能技术发展迅速",
            "机器学习算法很重要"
        ]

        doc_embeddings = embeddings.embed_documents(texts)
        query_embedding = embeddings.embed_query("AI技术")

        print(f"HuggingFace嵌入维度: {len(doc_embeddings[0])}")

        # 3.2 中文优化模型
        print("\n3.2 中文优化嵌入模型")
        chinese_models = [
            "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
            "sentence-transformers/distiluse-base-multilingual-cased",
            "BAAI/bge-small-zh-v1.5"  # 中文优化模型
        ]

        for model_name in chinese_models:
            try:
                chinese_embeddings = HuggingFaceEmbeddings(
                    model_name=model_name,
                    model_kwargs={'device': 'cpu'}
                )
                test_embedding = chinese_embeddings.embed_query("中文测试")
                print(f"{model_name}: 维度 {len(test_embedding)}")
            except Exception as e:
                print(f"{model_name}: 加载失败 ({str(e)[:50]}...)")

        # 3.3 指令优化嵌入
        print("\n3.3 指令优化嵌入模型")
        try:
            instruct_embeddings = HuggingFaceInstructEmbeddings(
                model_name="hkunlp/instructor-xl",
                model_kwargs={'device': 'cpu'}
            )

            # 使用指令前缀
            query_instruction = "为这个查询找到最相关的文档: "
            doc_instruction = "这是一个关于技术的文档: "

            instruct_query = instruct_embeddings.embed_query(
                query_instruction + "人工智能应用"
            )
            print(f"指令嵌入维度: {len(instruct_query)}")

        except Exception as e:
            print(f"指令嵌入模型加载失败: {e}")

        return embeddings

    except Exception as e:
        print(f"HuggingFace嵌入模型失败: {e}")
        return None

### SentenceTransformers嵌入模型示例

In [None]:

def sentence_transformers_example():
    """SentenceTransformers嵌入模型示例"""
    print("\n" + "=" * 60)
    print("4. SentenceTransformers嵌入模型示例")
    print("=" * 60)

    try:
        # 4.1 多语言模型
        print("\n4.1 多语言SentenceTransformers")
        multilingual_embeddings = SentenceTransformerEmbeddings(
            model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
        )

        # 多语言测试
        multilingual_texts = [
            "Hello, how are you?",
            "你好，你好吗？",
            "Hola, ¿cómo estás?",
            "Bonjour, comment allez-vous?"
        ]

        multi_embeddings = multilingual_embeddings.embed_documents(multilingual_texts)
        print(f"多语言嵌入维度: {len(multi_embeddings[0])}")

        # 计算跨语言相似度
        english_query = multilingual_embeddings.embed_query("greeting")
        chinese_query = multilingual_embeddings.embed_query("问候")

        def cosine_similarity(a, b):
            return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

        cross_lang_similarity = cosine_similarity(english_query, chinese_query)
        print(f"跨语言相似度 (greeting vs 问候): {cross_lang_similarity:.4f}")

        # 4.2 专业领域模型
        print("\n4.2 专业领域嵌入模型")
        domain_models = [
            "sentence-transformers/all-mpnet-base-v2",  # 通用
            "sentence-transformers/msmarco-distilbert-base-v4",  # 搜索优化
            "sentence-transformers/nli-mpnet-base-v2"  # 自然语言推理
        ]

        for model_name in domain_models:
            try:
                domain_embeddings = SentenceTransformerEmbeddings(model_name=model_name)
                test_embedding = domain_embeddings.embed_query("domain test")
                print(f"{model_name.split('/')[-1]}: 维度 {len(test_embedding)}")
            except Exception as e:
                print(f"{model_name}: 不可用")

        return multilingual_embeddings

    except Exception as e:
        print(f"SentenceTransformers失败: {e}")
        return None

### 云端嵌入模型示例

In [None]:

def cloud_embeddings_example():
    """云端嵌入模型示例"""
    print("\n" + "=" * 60)
    print("5. 云端嵌入模型示例")
    print("=" * 60)

    # 5.1 Cohere嵌入
    print("\n5.1 Cohere嵌入模型")
    try:
        cohere_embeddings = CohereEmbeddings(
            cohere_api_key=os.getenv("COHERE_API_KEY"),
            model="embed-english-v3.0"  # 或 embed-multilingual-v3.0
        )

        cohere_texts = ["AI technology", "Machine learning algorithms"]
        cohere_embeds = cohere_embeddings.embed_documents(cohere_texts)
        print(f"Cohere嵌入维度: {len(cohere_embeds[0])}")

    except Exception as e:
        print(f"Cohere嵌入失败: {e}")

    # 5.2 AWS Bedrock嵌入
    print("\n5.2 AWS Bedrock嵌入模型")
    try:
        bedrock_embeddings = BedrockEmbeddings(
            credentials_profile_name="default",
            region_name="us-east-1",
            model_id="amazon.titan-embed-text-v1"
        )

        bedrock_texts = ["Cloud computing", "Serverless architecture"]
        bedrock_embeds = bedrock_embeddings.embed_documents(bedrock_texts)
        print(f"Bedrock嵌入维度: {len(bedrock_embeds[0])}")

    except Exception as e:
        print(f"Bedrock嵌入失败: {e}")

### 嵌入模型性能对比

In [None]:

def embedding_performance_comparison():
    """嵌入模型性能对比"""
    print("\n" + "=" * 60)
    print("6. 嵌入模型性能对比")
    print("=" * 60)

    # 测试文本
    test_texts = [
        "人工智能技术正在快速发展",
        "机器学习算法在各个领域都有应用",
        "深度学习模型需要大量的训练数据",
        "自然语言处理让计算机理解人类语言",
        "计算机视觉技术可以识别图像中的物体"
    ]

    test_query = "AI技术的应用领域"

    # 定义要测试的模型
    models_to_test = []

    # Ollama模型
    try:
        ollama_model = OllamaEmbeddings(
            base_url="http://localhost:11434",
            model="nomic-embed-text"
        )
        models_to_test.append(("Ollama-nomic", ollama_model))
    except:
        pass

    # HuggingFace模型
    try:
        hf_model = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2"
        )
        models_to_test.append(("HF-MiniLM", hf_model))
    except:
        pass

    # 性能测试
    results = {}

    for model_name, model in models_to_test:
        try:
            print(f"\n测试 {model_name}...")

            # 测试文档嵌入时间
            start_time = time.time()
            doc_embeddings = model.embed_documents(test_texts)
            doc_time = time.time() - start_time

            # 测试查询嵌入时间
            start_time = time.time()
            query_embedding = model.embed_query(test_query)
            query_time = time.time() - start_time

            # 计算相似度
            similarities = []
            for doc_emb in doc_embeddings:
                sim = np.dot(query_embedding, doc_emb) / (
                    np.linalg.norm(query_embedding) * np.linalg.norm(doc_emb)
                )
                similarities.append(sim)

            results[model_name] = {
                "dimension": len(doc_embeddings[0]),
                "doc_time": doc_time,
                "query_time": query_time,
                "avg_similarity": np.mean(similarities),
                "max_similarity": np.max(similarities)
            }

        except Exception as e:
            results[model_name] = {"error": str(e)}

    # 显示结果
    print("\n性能对比结果:")
    print(f"{'模型':<15} {'维度':<8} {'文档时间(s)':<12} {'查询时间(s)':<12} {'平均相似度':<12} {'最高相似度':<12}")
    print("-" * 80)

    for model_name, result in results.items():
        if "error" not in result:
            print(f"{model_name:<15} {result['dimension']:<8} {result['doc_time']:<12.4f} "
                  f"{result['query_time']:<12.4f} {result['avg_similarity']:<12.4f} "
                  f"{result['max_similarity']:<12.4f}")
        else:
            print(f"{model_name:<15} 错误: {result['error'][:50]}...")

### 高级嵌入技术

In [None]:

def advanced_embedding_techniques():
    """高级嵌入技术"""
    print("\n" + "=" * 60)
    print("7. 高级嵌入技术")
    print("=" * 60)

    # 7.1 嵌入缓存
    print("\n7.1 嵌入缓存机制")

    class CachedEmbeddings:
        """带缓存的嵌入模型"""

        def __init__(self, base_embeddings):
            self.base_embeddings = base_embeddings
            self.cache = {}

        def embed_query(self, text: str) -> List[float]:
            if text in self.cache:
                print(f"缓存命中: {text[:30]}...")
                return self.cache[text]

            embedding = self.base_embeddings.embed_query(text)
            self.cache[text] = embedding
            print(f"新计算: {text[:30]}...")
            return embedding

        def embed_documents(self, texts: List[str]) -> List[List[float]]:
            embeddings = []
            for text in texts:
                embeddings.append(self.embed_query(text))
            return embeddings

    # 使用缓存嵌入
    try:
        base_model = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2"
        )
        cached_model = CachedEmbeddings(base_model)

        # 第一次计算
        test_texts = ["AI技术", "机器学习", "AI技术"]  # 重复文本
        embeddings1 = cached_model.embed_documents(test_texts)

        # 第二次计算（应该使用缓存）
        embeddings2 = cached_model.embed_documents(test_texts)

    except Exception as e:
        print(f"缓存嵌入示例失败: {e}")

    # 7.2 批量处理优化
    print("\n7.2 批量处理优化")

    def batch_embed_documents(embeddings_model, texts: List[str], batch_size: int = 32):
        """批量处理嵌入"""
        all_embeddings = []

        for i in range(0, len(texts), batch_size):
            batch = texts[i:i + batch_size]
            print(f"处理批次 {i//batch_size + 1}: {len(batch)} 个文档")

            batch_embeddings = embeddings_model.embed_documents(batch)
            all_embeddings.extend(batch_embeddings)

        return all_embeddings

    # 7.3 异步嵌入处理
    print("\n7.3 异步嵌入处理")

    async def async_embed_documents(embeddings_model, texts: List[str]):
        """异步处理嵌入"""
        loop = asyncio.get_event_loop()

        # 将文本分组
        chunk_size = len(texts) // 4 + 1
        tasks = []

        for i in range(0, len(texts), chunk_size):
            chunk = texts[i:i + chunk_size]
            task = loop.run_in_executor(
                None,
                embeddings_model.embed_documents,
                chunk
            )
            tasks.append(task)

        # 等待所有任务完成
        results = await asyncio.gather(*tasks)

        # 合并结果
        all_embeddings = []
        for result in results:
            all_embeddings.extend(result)

        return all_embeddings

### 嵌入质量评估

In [None]:

def embedding_quality_evaluation():
    """嵌入质量评估"""
    print("\n" + "=" * 60)
    print("8. 嵌入质量评估")
    print("=" * 60)

    # 8.1 语义相似度测试
    print("\n8.1 语义相似度测试")

    # 定义测试用例
    similarity_tests = [
        ("人工智能", "AI技术", "高相似度"),
        ("机器学习", "深度学习", "中等相似度"),
        ("计算机", "苹果", "低相似度"),
        ("狗", "猫", "中等相似度"),
        ("汽车", "飞机", "低相似度")
    ]

    try:
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
        )

        print("语义相似度测试结果:")
        for text1, text2, expected in similarity_tests:
            emb1 = embeddings.embed_query(text1)
            emb2 = embeddings.embed_query(text2)

            similarity = np.dot(emb1, emb2) / (np.linalg.norm(emb1) * np.linalg.norm(emb2))
            print(f"{text1} vs {text2}: {similarity:.4f} ({expected})")

    except Exception as e:
        print(f"语义相似度测试失败: {e}")

    # 8.2 聚类质量评估
    print("\n8.2 聚类质量评估")

    def evaluate_clustering_quality(embeddings_model, texts: List[str], labels: List[str]):
        """评估聚类质量"""
        try:
            from sklearn.cluster import KMeans
            from sklearn.metrics import adjusted_rand_score

            # 生成嵌入
            embeddings = embeddings_model.embed_documents(texts)
            embeddings_array = np.array(embeddings)

            # 执行聚类
            n_clusters = len(set(labels))
            kmeans = KMeans(n_clusters=n_clusters, random_state=42)
            predicted_labels = kmeans.fit_predict(embeddings_array)

            # 计算调整兰德指数
            ari_score = adjusted_rand_score(labels, predicted_labels)
            print(f"聚类质量 (ARI): {ari_score:.4f}")

            return ari_score

        except ImportError:
            print("需要安装scikit-learn: pip install scikit-learn")
        except Exception as e:
            print(f"聚类评估失败: {e}")

### 自定义嵌入包装器

In [None]:

def custom_embedding_wrapper():
    """自定义嵌入包装器"""
    print("\n" + "=" * 60)
    print("9. 自定义嵌入包装器")
    print("=" * 60)

    from langchain_core.embeddings import Embeddings

    class MultiModelEmbeddings(Embeddings):
        """多模型集成嵌入"""

        def __init__(self, models: List[Embeddings], weights: Optional[List[float]] = None):
            self.models = models
            self.weights = weights or [1.0] * len(models)

            # 标准化权重
            total_weight = sum(self.weights)
            self.weights = [w / total_weight for w in self.weights]

        def embed_documents(self, texts: List[str]) -> List[List[float]]:
            """集成多个模型的文档嵌入"""
            all_embeddings = []

            # 获取每个模型的嵌入
            model_embeddings = []
            for model in self.models:
                embeddings = model.embed_documents(texts)
                model_embeddings.append(embeddings)

            # 加权平均
            for i in range(len(texts)):
                combined_embedding = np.zeros(len(model_embeddings[0][i]))

                for j, (embeddings, weight) in enumerate(zip(model_embeddings, self.weights)):
                    combined_embedding += np.array(embeddings[i]) * weight

                all_embeddings.append(combined_embedding.tolist())

            return all_embeddings

        def embed_query(self, text: str) -> List[float]:
            """集成多个模型的查询嵌入"""
            embeddings = self.embed_documents([text])
            return embeddings[0]

    # 使用示例
    try:
        # 创建多个基础模型
        model1 = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2"
        )

        # 如果有多个模型可用
        models = [model1]  # 可以添加更多模型
        weights = [1.0]    # 对应的权重

        multi_embeddings = MultiModelEmbeddings(models, weights)

        test_text = "多模型嵌入测试"
        result = multi_embeddings.embed_query(test_text)
        print(f"多模型嵌入维度: {len(result)}")

    except Exception as e:
        print(f"多模型嵌入失败: {e}")

In [None]:

def main():
    """运行所有嵌入模型示例"""
    print("🚀 LangChain 0.3 Embedding Models 完整示例")
    print("=" * 80)

    # 运行所有示例
    ollama_embeddings = ollama_embeddings_example()
    openai_embeddings = openai_embeddings_example()
    hf_embeddings = huggingface_embeddings_example()
    st_embeddings = sentence_transformers_example()
    cloud_embeddings_example()
    embedding_performance_comparison()
    advanced_embedding_techniques()
    embedding_quality_evaluation()
    custom_embedding_wrapper()

    print("\n🎉 所有嵌入模型示例运行完成！")

    # 最佳实践建议
    print("\n📋 嵌入模型选择建议:")
    print("1. 本地部署：Ollama + nomic-embed-text")
    print("2. 云端服务：OpenAI text-embedding-3-small")
    print("3. 开源方案：HuggingFace sentence-transformers")
    print("4. 中文优化：BAAI/bge-small-zh-v1.5")
    print("5. 多语言：paraphrase-multilingual-mpnet-base-v2")
    print("6. 高性能：text-embedding-3-large")

if __name__ == "__main__":
    main()

In [42]:
# 3. Embedding Models 示例
def embedding_models_example():
    """嵌入模型示例"""
    print("\n" + "=" * 60)
    print("3. Embedding Models 嵌入模型示例")
    print("=" * 60)

    # 3.1 Ollama嵌入模型
    print("\n3.1 Ollama嵌入模型")
    try:
        embeddings = OllamaEmbeddings(
            base_url="http://localhost:11434",
            model="nomic-embed-text"  # 或使用其他嵌入模型
        )

        # 测试文本
        texts = [
            "人工智能是计算机科学的分支",
            "机器学习是AI的子集",
            "深度学习使用神经网络",
            "今天天气很好"
        ]

        # 生成嵌入向量
        text_embeddings = embeddings.embed_documents(texts)
        query_embedding = embeddings.embed_query("什么是人工智能？")

        print(f"文档嵌入数量: {len(text_embeddings)}")
        print(f"嵌入向量维度: {len(text_embeddings[0])}")
        print(f"查询嵌入维度: {len(query_embedding)}")

        # 计算相似度
        import numpy as np

        def cosine_similarity(a, b):
            return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

        print("\n相似度计算:")
        for i, text in enumerate(texts):
            similarity = cosine_similarity(query_embedding, text_embeddings[i])
            print(f"'{text}' 相似度: {similarity:.4f}")

        return embeddings

    except Exception as e:
        print(f"Ollama嵌入模型初始化失败: {e}")
        print("请确保Ollama服务正在运行并安装了嵌入模型")
        return None
# 3. 嵌入模型
embeddings = embedding_models_example()


3. Embedding Models 嵌入模型示例

3.1 Ollama嵌入模型
文档嵌入数量: 4
嵌入向量维度: 768
查询嵌入维度: 768

相似度计算:
'人工智能是计算机科学的分支' 相似度: 0.8551
'机器学习是AI的子集' 相似度: 0.6135
'深度学习使用神经网络' 相似度: 0.5818
'今天天气很好' 相似度: 0.5851


## 4. Vector Stores 示例

### FAISS向量存储

In [6]:
"""
LangChain 0.3 Vector Stores 完整示例
包含所有主要向量存储和高级用法
"""

import os
import numpy as np
import asyncio
from typing import List, Dict, Any, Optional, Tuple
import time
import json

# 核心导入
from langchain_core.documents import Document
from langchain_ollama import OllamaEmbeddings
from langchain_openai import OpenAIEmbeddings
from langchain_community.embeddings import HuggingFaceEmbeddings

# 向量存储导入
from langchain_community.vectorstores import (
    FAISS,
    Chroma,
    Qdrant,
    Pinecone,
    Weaviate,
    Milvus,
    ElasticsearchStore,
    Redis,
    PGVector,
    SupabaseVectorStore
)

In [7]:
# 初始化嵌入模型
embeddings = OllamaEmbeddings(
    base_url="http://localhost:11434",
    model="nomic-embed-text:latest"
)

# 准备文档
documents = [
    Document(
        page_content="人工智能是计算机科学的一个分支",
        metadata={"source": "ai_intro.txt", "category": "technology"}
    )
    # ... 更多文档
]

# 创建FAISS向量存储
faiss_vectorstore = FAISS.from_documents(documents, embeddings)

# 保存索引到本地
index_path = "faiss_index"
faiss_vectorstore.save_local(index_path)

# 加载已保存的索引
loaded_vectorstore = FAISS.load_local(
    index_path,
    embeddings,
    allow_dangerous_deserialization=True
)

# 基础相似性搜索
query = "什么是人工智能技术？"
similar_docs = faiss_vectorstore.similarity_search(query, k=3)
print(similar_docs)
# # 带分数的相似性搜索
# similar_docs_with_scores = faiss_vectorstore.similarity_search_with_score(query, k=3)
#
# # # 基于阈值的搜索
# # threshold = 0.8
# # similar_docs_threshold = faiss_vectorstore.similarity_search_with_score_threshold(
# #     query,
# #     score_threshold=threshold
# # )
#
# # 添加新文档
# new_documents = [
#     Document(
#         page_content="量子计算是一种利用量子力学原理的计算方式",
#         metadata={"source": "quantum.txt", "category": "technology"}
#     )
# ]
#
# faiss_vectorstore.add_documents(new_documents)

# # 向量存储合并
# store1.merge_from(store2)
#
# # 不同索引类型（适合大规模数据）
# faiss_ivf = FAISS.from_documents(
#     documents,
#     embeddings,
#     index_type="IVF",
#     nlist=10  # 聚类中心数量
# )

[Document(id='6ad706ea-41d7-43a2-ab98-6798c1322bda', metadata={'source': 'ai_intro.txt', 'category': 'technology'}, page_content='人工智能是计算机科学的一个分支')]


In [48]:

def faiss_vectorstore_example():
    """FAISS向量存储详细示例"""
    print("=" * 60)
    print("1. FAISS向量存储示例")
    print("=" * 60)

    try:
        # 初始化嵌入模型
        # embeddings = HuggingFaceEmbeddings(
        #     model_name="sentence-transformers/all-MiniLM-L6-v2"
        # )
        embeddings = OllamaEmbeddings(
        base_url="http://localhost:11434",
        model="nomic-embed-text:latest",  # 推荐的嵌入模型
        )

        # 准备文档
        documents = [
            Document(
                page_content="人工智能是计算机科学的一个分支，致力于创建智能机器",
                metadata={"source": "ai_intro.txt", "category": "technology", "date": "2024-01-01"}
            ),
            Document(
                page_content="机器学习是人工智能的子集，使计算机能够从数据中学习",
                metadata={"source": "ml_basics.txt", "category": "technology", "date": "2024-01-02"}
            ),
            Document(
                page_content="深度学习使用神经网络来模拟人脑的工作方式",
                metadata={"source": "dl_guide.txt", "category": "technology", "date": "2024-01-03"}
            ),
            Document(
                page_content="自然语言处理让计算机理解和生成人类语言",
                metadata={"source": "nlp_overview.txt", "category": "technology", "date": "2024-01-04"}
            ),
            Document(
                page_content="计算机视觉技术可以识别和分析图像中的内容",
                metadata={"source": "cv_intro.txt", "category": "technology", "date": "2024-01-05"}
            ),
            Document(
                page_content="今天天气很好，适合出门散步和运动",
                metadata={"source": "weather.txt", "category": "daily", "date": "2024-01-06"}
            ),
            Document(
                page_content="股票市场今天表现良好，科技股领涨",
                metadata={"source": "market.txt", "category": "finance", "date": "2024-01-07"}
            )
        ]

        # 1.1 基础FAISS创建
        print("\n1.1 基础FAISS向量存储创建")
        faiss_vectorstore = FAISS.from_documents(documents, embeddings)
        print(f"✅ FAISS向量存储创建成功，包含 {len(documents)} 个文档")

        # 1.2 保存和加载
        print("\n1.2 FAISS索引保存和加载")
        index_path = "faiss_index"
        faiss_vectorstore.save_local(index_path)
        print(f"✅ FAISS索引已保存到 {index_path}")

        # 加载索引
        loaded_vectorstore = FAISS.load_local(
            index_path,
            embeddings,
            allow_dangerous_deserialization=True
        )
        print("✅ FAISS索引加载成功")

        # 1.3 基础相似性搜索
        print("\n1.3 基础相似性搜索")
        query = "什么是人工智能技术？"
        similar_docs = faiss_vectorstore.similarity_search(query, k=3)

        print(f"查询: '{query}'")
        print("最相似的文档:")
        for i, doc in enumerate(similar_docs):
            print(f"{i+1}. {doc.page_content}")
            print(f"   元数据: {doc.metadata}")
            print()

        # 1.4 带分数的相似性搜索
        print("\n1.4 带分数的相似性搜索")
        similar_docs_with_scores = faiss_vectorstore.similarity_search_with_score(query, k=3)

        print("带分数的搜索结果:")
        for i, (doc, score) in enumerate(similar_docs_with_scores):
            print(f"{i+1}. 分数: {score:.4f}")
            print(f"   内容: {doc.page_content[:80]}...")
            print(f"   来源: {doc.metadata.get('source', 'unknown')}")
            print()

        # 1.5 基于阈值的搜索
        print("\n1.5 基于阈值的相似性搜索")
        threshold = 0.8
        similar_docs_threshold = faiss_vectorstore.similarity_search_with_score_threshold(
            query,
            score_threshold=threshold
        )

        print(f"阈值 {threshold} 以上的文档:")
        for doc, score in similar_docs_threshold:
            print(f"分数: {score:.4f} - {doc.page_content[:60]}...")

        # 1.6 添加新文档
        print("\n1.6 添加新文档")
        new_documents = [
            Document(
                page_content="量子计算是一种利用量子力学原理的计算方式",
                metadata={"source": "quantum.txt", "category": "technology", "date": "2024-01-08"}
            ),
            Document(
                page_content="区块链技术提供了去中心化的数据存储方案",
                metadata={"source": "blockchain.txt", "category": "technology", "date": "2024-01-09"}
            )
        ]

        # 添加文档
        faiss_vectorstore.add_documents(new_documents)
        print(f"✅ 已添加 {len(new_documents)} 个新文档")

        # 验证添加结果
        new_query = "量子计算的原理"
        new_results = faiss_vectorstore.similarity_search(new_query, k=2)
        print(f"新查询 '{new_query}' 的结果:")
        for doc in new_results:
            print(f"- {doc.page_content[:50]}...")

        # 1.7 不同搜索算法
        print("\n1.7 不同FAISS搜索算法")

        # 使用不同的索引类型
        try:
            # 创建IVF索引（适合大规模数据）
            faiss_ivf = FAISS.from_documents(
                documents,
                embeddings,
                index_type="IVF",
                nlist=10  # 聚类中心数量
            )

            ivf_results = faiss_ivf.similarity_search("机器学习算法", k=2)
            print("IVF索引搜索结果:")
            for doc in ivf_results:
                print(f"- {doc.page_content[:50]}...")

        except Exception as e:
            print(f"IVF索引创建失败: {e}")

        return faiss_vectorstore

    except Exception as e:
        print(f"FAISS示例失败: {e}")
        return None
faiss_vectorstore_example()

1. FAISS向量存储示例

1.1 基础FAISS向量存储创建
✅ FAISS向量存储创建成功，包含 7 个文档

1.2 FAISS索引保存和加载
✅ FAISS索引已保存到 faiss_index
✅ FAISS索引加载成功

1.3 基础相似性搜索
查询: '什么是人工智能技术？'
最相似的文档:
1. 人工智能是计算机科学的一个分支，致力于创建智能机器
   元数据: {'source': 'ai_intro.txt', 'category': 'technology', 'date': '2024-01-01'}

2. 机器学习是人工智能的子集，使计算机能够从数据中学习
   元数据: {'source': 'ml_basics.txt', 'category': 'technology', 'date': '2024-01-02'}

3. 自然语言处理让计算机理解和生成人类语言
   元数据: {'source': 'nlp_overview.txt', 'category': 'technology', 'date': '2024-01-04'}


1.4 带分数的相似性搜索
带分数的搜索结果:
1. 分数: 0.3241
   内容: 人工智能是计算机科学的一个分支，致力于创建智能机器...
   来源: ai_intro.txt

2. 分数: 0.3984
   内容: 机器学习是人工智能的子集，使计算机能够从数据中学习...
   来源: ml_basics.txt

3. 分数: 0.6391
   内容: 自然语言处理让计算机理解和生成人类语言...
   来源: nlp_overview.txt


1.5 基于阈值的相似性搜索
FAISS示例失败: 'FAISS' object has no attribute 'similarity_search_with_score_threshold'


In [None]:

def chroma_vectorstore_example():
    """Chroma向量存储详细示例"""
    print("\n" + "=" * 60)
    print("2. Chroma向量存储示例")
    print("=" * 60)

    try:
        # 初始化嵌入模型
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2"
        )

        # 准备文档
        documents = [
            Document(
                page_content="Python是一种高级编程语言，语法简洁易读",
                metadata={"language": "python", "difficulty": "beginner", "topic": "programming"}
            ),
            Document(
                page_content="JavaScript是Web开发的核心语言之一",
                metadata={"language": "javascript", "difficulty": "intermediate", "topic": "web"}
            ),
            Document(
                page_content="Java是一种面向对象的编程语言，广泛用于企业开发",
                metadata={"language": "java", "difficulty": "intermediate", "topic": "enterprise"}
            ),
            Document(
                page_content="C++是一种高性能的系统编程语言",
                metadata={"language": "cpp", "difficulty": "advanced", "topic": "system"}
            ),
            Document(
                page_content="Go语言是Google开发的现代编程语言，适合并发编程",
                metadata={"language": "go", "difficulty": "intermediate", "topic": "concurrent"}
            )
        ]

        # 2.1 基础Chroma创建
        print("\n2.1 基础Chroma向量存储创建")
        persist_directory = "./chroma_db"

        chroma_vectorstore = Chroma.from_documents(
            documents=documents,
            embedding=embeddings,
            persist_directory=persist_directory,
            collection_name="programming_languages"
        )

        print(f"✅ Chroma向量存储创建成功，持久化目录: {persist_directory}")

        # 2.2 持久化
        print("\n2.2 Chroma数据持久化")
        chroma_vectorstore.persist()
        print("✅ Chroma数据已持久化")

        # 2.3 基础搜索
        print("\n2.3 基础相似性搜索")
        query = "适合初学者的编程语言"
        results = chroma_vectorstore.similarity_search(query, k=3)

        print(f"查询: '{query}'")
        for i, doc in enumerate(results):
            print(f"{i+1}. {doc.page_content}")
            print(f"   元数据: {doc.metadata}")
            print()

        # 2.4 元数据过滤搜索
        print("\n2.4 基于元数据的过滤搜索")

        # 搜索初学者难度的语言
        beginner_results = chroma_vectorstore.similarity_search(
            query="编程语言",
            k=5,
            filter={"difficulty": "beginner"}
        )

        print("初学者难度的编程语言:")
        for doc in beginner_results:
            print(f"- {doc.page_content}")
            print(f"  难度: {doc.metadata['difficulty']}")

        # 搜索Web相关的语言
        web_results = chroma_vectorstore.similarity_search(
            query="开发语言",
            k=5,
            filter={"topic": "web"}
        )

        print("\nWeb开发相关的语言:")
        for doc in web_results:
            print(f"- {doc.page_content}")
            print(f"  主题: {doc.metadata['topic']}")

        # 2.5 复杂过滤条件
        print("\n2.5 复杂过滤条件")

        # 使用$in操作符
        intermediate_results = chroma_vectorstore.similarity_search(
            query="编程",
            k=5,
            filter={"difficulty": {"$in": ["intermediate", "advanced"]}}
        )

        print("中级和高级难度的语言:")
        for doc in intermediate_results:
            print(f"- {doc.page_content}")
            print(f"  难度: {doc.metadata['difficulty']}")

        # 2.6 获取集合信息
        print("\n2.6 Chroma集合信息")
        collection = chroma_vectorstore._collection
        print(f"集合名称: {collection.name}")
        print(f"文档数量: {collection.count()}")

        # 2.7 删除文档
        print("\n2.7 删除文档操作")

        # 添加一个临时文档用于删除演示
        temp_doc = Document(
            page_content="临时测试文档，将被删除",
            metadata={"temp": True, "id": "temp_doc_1"}
        )

        doc_ids = chroma_vectorstore.add_documents([temp_doc])
        print(f"添加临时文档，ID: {doc_ids}")

        # 删除文档
        if doc_ids:
            chroma_vectorstore.delete(doc_ids)
            print("✅ 临时文档已删除")

        # 2.8 从现有集合加载
        print("\n2.8 从现有集合加载")

        # 创建新的Chroma实例连接到现有集合
        existing_chroma = Chroma(
            persist_directory=persist_directory,
            embedding_function=embeddings,
            collection_name="programming_languages"
        )

        # 验证加载成功
        test_results = existing_chroma.similarity_search("Python", k=1)
        print(f"从现有集合加载成功，测试搜索结果: {len(test_results)} 个文档")

        return chroma_vectorstore

    except Exception as e:
        print(f"Chroma示例失败: {e}")
        return None

def qdrant_vectorstore_example():
    """Qdrant向量存储示例"""
    print("\n" + "=" * 60)
    print("3. Qdrant向量存储示例")
    print("=" * 60)

    try:
        from qdrant_client import QdrantClient
        from qdrant_client.models import Distance, VectorParams

        # 初始化嵌入模型
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2"
        )

        # 3.1 本地Qdrant设置
        print("\n3.1 本地Qdrant向量存储")

        # 创建Qdrant客户端（内存模式）
        client = QdrantClient(":memory:")

        # 准备文档
        documents = [
            Document(
                page_content="机器学习算法可以分为监督学习、无监督学习和强化学习",
                metadata={"category": "ml", "type": "algorithm", "level": "intermediate"}
            ),
            Document(
                page_content="监督学习使用标记数据训练模型进行预测",
                metadata={"category": "ml", "type": "supervised", "level": "beginner"}
            ),
            Document(
                page_content="无监督学习从未标记数据中发现隐藏模式",
                metadata={"category": "ml", "type": "unsupervised", "level": "intermediate"}
            ),
            Document(
                page_content="强化学习通过与环境交互来学习最优策略",
                metadata={"category": "ml", "type": "reinforcement", "level": "advanced"}
            ),
            Document(
                page_content="神经网络是深度学习的基础架构",
                metadata={"category": "dl", "type": "architecture", "level": "intermediate"}
            )
        ]

        # 创建Qdrant向量存储
        collection_name = "ml_knowledge"
        qdrant_vectorstore = Qdrant.from_documents(
            documents,
            embeddings,
            client=client,
            collection_name=collection_name,
            force_recreate=True
        )

        print(f"✅ Qdrant向量存储创建成功，集合: {collection_name}")

        # 3.2 基础搜索
        print("\n3.2 Qdrant相似性搜索")
        query = "什么是监督学习？"
        results = qdrant_vectorstore.similarity_search(query, k=3)

        print(f"查询: '{query}'")
        for i, doc in enumerate(results):
            print(f"{i+1}. {doc.page_content}")
            print(f"   类别: {doc.metadata.get('category')}")
            print(f"   类型: {doc.metadata.get('type')}")
            print()

        # 3.3 带分数搜索
        print("\n3.3 Qdrant带分数搜索")
        results_with_scores = qdrant_vectorstore.similarity_search_with_score(query, k=3)

        for i, (doc, score) in enumerate(results_with_scores):
            print(f"{i+1}. 分数: {score:.4f}")
            print(f"   内容: {doc.page_content[:60]}...")
            print()

        # 3.4 过滤搜索
        print("\n3.4 Qdrant过滤搜索")

        # 搜索特定类别
        ml_results = qdrant_vectorstore.similarity_search(
            query="学习算法",
            k=5,
            filter={"category": "ml"}
        )

        print("机器学习类别的文档:")
        for doc in ml_results:
            print(f"- {doc.page_content[:50]}...")
            print(f"  类型: {doc.metadata.get('type')}")

        # 3.5 添加新文档
        print("\n3.5 添加新文档到Qdrant")
        new_docs = [
            Document(
                page_content="卷积神经网络特别适合图像处理任务",
                metadata={"category": "dl", "type": "cnn", "level": "intermediate"}
            ),
            Document(
                page_content="循环神经网络擅长处理序列数据",
                metadata={"category": "dl", "type": "rnn", "level": "intermediate"}
            )
        ]

        qdrant_vectorstore.add_documents(new_docs)
        print(f"✅ 已添加 {len(new_docs)} 个新文档")

        # 验证添加
        cnn_results = qdrant_vectorstore.similarity_search("卷积神经网络", k=1)
        print(f"验证添加: {cnn_results[0].page_content[:40]}...")

        return qdrant_vectorstore

    except ImportError:
        print("需要安装qdrant-client: pip install qdrant-client")
        return None
    except Exception as e:
        print(f"Qdrant示例失败: {e}")
        return None

def pinecone_vectorstore_example():
    """Pinecone向量存储示例"""
    print("\n" + "=" * 60)
    print("4. Pinecone向量存储示例")
    print("=" * 60)

    try:
        import pinecone

        # 4.1 Pinecone初始化
        print("\n4.1 Pinecone初始化")

        api_key = os.getenv("PINECONE_API_KEY")
        if not api_key:
            print("请设置PINECONE_API_KEY环境变量")
            return None

        # 初始化Pinecone
        pinecone.init(
            api_key=api_key,
            environment=os.getenv("PINECONE_ENV", "us-west1-gcp")
        )

        # 初始化嵌入模型
        embeddings = OpenAIEmbeddings(
            api_key=os.getenv("OPENAI_API_KEY")
        )

        # 准备文档
        documents = [
            Document(
                page_content="云计算提供按需访问的计算资源",
                metadata={"service": "cloud", "provider": "general", "type": "infrastructure"}
            ),
            Document(
                page_content="AWS是亚马逊提供的云计算平台",
                metadata={"service": "cloud", "provider": "aws", "type": "platform"}
            ),
            Document(
                page_content="Azure是微软的云计算服务",
                metadata={"service": "cloud", "provider": "microsoft", "type": "platform"}
            ),
            Document(
                page_content="Google Cloud Platform提供各种云服务",
                metadata={"service": "cloud", "provider": "google", "type": "platform"}
            )
        ]

        # 4.2 创建Pinecone索引
        print("\n4.2 创建Pinecone索引")

        index_name = "langchain-demo"
        dimension = 1536  # OpenAI嵌入维度

        # 检查索引是否存在
        if index_name not in pinecone.list_indexes():
            pinecone.create_index(
                name=index_name,
                dimension=dimension,
                metric="cosine"
            )
            print(f"✅ 创建Pinecone索引: {index_name}")
        else:
            print(f"✅ 使用现有Pinecone索引: {index_name}")

        # 4.3 创建Pinecone向量存储
        print("\n4.3 创建Pinecone向量存储")

        pinecone_vectorstore = Pinecone.from_documents(
            documents,
            embeddings,
            index_name=index_name
        )

        print("✅ Pinecone向量存储创建成功")

        # 4.4 搜索测试
        print("\n4.4 Pinecone搜索测试")

        query = "什么是云计算平台？"
        results = pinecone_vectorstore.similarity_search(query, k=3)

        print(f"查询: '{query}'")
        for i, doc in enumerate(results):
            print(f"{i+1}. {doc.page_content}")
            print(f"   提供商: {doc.metadata.get('provider')}")
            print()

        # 4.5 命名空间使用
        print("\n4.5 Pinecone命名空间")

        # 使用命名空间分离不同类型的数据
        namespace_vectorstore = Pinecone.from_existing_index(
            index_name=index_name,
            embedding=embeddings,
            namespace="cloud_services"
        )

        # 添加文档到特定命名空间
        namespace_docs = [
            Document(
                page_content="Kubernetes是容器编排平台",
                metadata={"type": "orchestration", "category": "devops"}
            )
        ]

        namespace_vectorstore.add_documents(namespace_docs)
        print("✅ 文档已添加到命名空间")

        return pinecone_vectorstore

    except ImportError:
        print("需要安装pinecone-client: pip install pinecone-client")
        return None
    except Exception as e:
        print(f"Pinecone示例失败: {e}")
        return None

def elasticsearch_vectorstore_example():
    """Elasticsearch向量存储示例"""
    print("\n" + "=" * 60)
    print("5. Elasticsearch向量存储示例")
    print("=" * 60)

    try:
        from elasticsearch import Elasticsearch

        # 5.1 Elasticsearch连接
        print("\n5.1 Elasticsearch连接")

        # 连接到本地Elasticsearch
        es_client = Elasticsearch(
            [{"host": "localhost", "port": 9200}],
            # 如果有认证，添加以下配置
            # http_auth=("username", "password"),
            # use_ssl=True,
            # verify_certs=True
        )

        # 检查连接
        if not es_client.ping():
            print("无法连接到Elasticsearch，请确保服务正在运行")
            return None

        print("✅ Elasticsearch连接成功")

        # 初始化嵌入模型
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2"
        )

        # 准备文档
        documents = [
            Document(
                page_content="搜索引擎技术是信息检索的核心",
                metadata={"domain": "search", "complexity": "medium", "year": 2024}
            ),
            Document(
                page_content="全文搜索可以在大量文档中快速找到相关内容",
                metadata={"domain": "search", "complexity": "low", "year": 2024}
            ),
            Document(
                page_content="倒排索引是搜索引擎的基础数据结构",
                metadata={"domain": "search", "complexity": "high", "year": 2024}
            ),
            Document(
                page_content="分布式搜索可以处理大规模数据集",
                metadata={"domain": "distributed", "complexity": "high", "year": 2024}
            )
        ]

        # 5.2 创建Elasticsearch向量存储
        print("\n5.2 创建Elasticsearch向量存储")

        index_name = "langchain_demo"

        es_vectorstore = ElasticsearchStore.from_documents(
            documents,
            embeddings,
            es_connection=es_client,
            index_name=index_name,
            distance_strategy="COSINE"
        )

        print(f"✅ Elasticsearch向量存储创建成功，索引: {index_name}")

        # 5.3 基础搜索
        print("\n5.3 Elasticsearch搜索")

        query = "如何实现快速搜索？"
        results = es_vectorstore.similarity_search(query, k=3)

        print(f"查询: '{query}'")
        for i, doc in enumerate(results):
            print(f"{i+1}. {doc.page_content}")
            print(f"   领域: {doc.metadata.get('domain')}")
            print(f"   复杂度: {doc.metadata.get('complexity')}")
            print()

        # 5.4 混合搜索（向量+关键词）
        print("\n5.4 Elasticsearch混合搜索")

        # 结合向量搜索和关键词搜索
        hybrid_results = es_vectorstore.similarity_search(
            query="搜索引擎",
            k=3,
            filter={"term": {"metadata.domain.keyword": "search"}}
        )

        print("混合搜索结果:")
        for doc in hybrid_results:
            print(f"- {doc.page_content}")
            print(f"  复杂度: {doc.metadata.get('complexity')}")

        # 5.5 聚合查询
        print("\n5.5 Elasticsearch聚合查询")

        # 获取不同复杂度的文档数量
        agg_query = {
            "aggs": {
                "complexity_count": {
                    "terms": {
                        "field": "metadata.complexity.keyword"
                    }
                }
            }
        }

        # 执行聚合查询
        agg_results = es_client.search(
            index=index_name,
            body=agg_query,
            size=0
        )

        print("复杂度分布:")
        for bucket in agg_results["aggregations"]["complexity_count"]["buckets"]:
            print(f"- {bucket['key']}: {bucket['doc_count']} 个文档")

        return es_vectorstore

    except ImportError:
        print("需要安装elasticsearch: pip install elasticsearch")
        return None
    except Exception as e:
        print(f"Elasticsearch示例失败: {e}")
        return None

def redis_vectorstore_example():
    """Redis向量存储示例"""
    print("\n" + "=" * 60)
    print("6. Redis向量存储示例")
    print("=" * 60)

    try:
        import redis

        # 6.1 Redis连接
        print("\n6.1 Redis连接")

        redis_client = redis.Redis(
            host="localhost",
            port=6379,
            db=0,
            decode_responses=True
        )

        # 检查连接
        redis_client.ping()
        print("✅ Redis连接成功")

        # 初始化嵌入模型
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2"
        )

        # 准备文档
        documents = [
            Document(
                page_content="Redis是一个高性能的键值存储数据库",
                metadata={"type": "database", "performance": "high", "category": "nosql"}
            ),
            Document(
                page_content="Redis支持多种数据结构，如字符串、列表、集合等",
                metadata={"type": "database", "feature": "data_structures", "category": "nosql"}
            ),
            Document(
                page_content="Redis可以用作缓存、消息队列和会话存储",
                metadata={"type": "database", "use_case": "cache", "category": "nosql"}
            ),
            Document(
                page_content="Redis集群提供了高可用性和水平扩展能力",
                metadata={"type": "database", "feature": "clustering", "category": "nosql"}
            )
        ]

        # 6.2 创建Redis向量存储
        print("\n6.2 创建Redis向量存储")

        index_name = "redis_langchain_demo"

        redis_vectorstore = Redis.from_documents(
            documents,
            embeddings,
            redis_url="redis://localhost:6379",
            index_name=index_name
        )

        print(f"✅ Redis向量存储创建成功，索引: {index_name}")

        # 6.3 搜索测试
        print("\n6.3 Redis搜索测试")

        query = "什么是高性能数据库？"
        results = redis_vectorstore.similarity_search(query, k=3)

        print(f"查询: '{query}'")
        for i, doc in enumerate(results):
            print(f"{i+1}. {doc.page_content}")
            print(f"   类型: {doc.metadata.get('type')}")
            print(f"   特性: {doc.metadata.get('feature', doc.metadata.get('performance', 'N/A'))}")
            print()

        # 6.4 过滤搜索
        print("\n6.4 Redis过滤搜索")

        # 搜索特定特性的文档
        feature_results = redis_vectorstore.similarity_search(
            query="Redis功能",
            k=5,
            filter={"feature": "data_structures"}
        )

        print("数据结构相关的文档:")
        for doc in feature_results:
            print(f"- {doc.page_content}")

        return redis_vectorstore

    except ImportError:
        print("需要安装redis: pip install redis")
        return None
    except Exception as e:
        print(f"Redis示例失败: {e}")
        return None

def vector_store_comparison():
    """向量存储性能对比"""
    print("\n" + "=" * 60)
    print("7. 向量存储性能对比")
    print("=" * 60)

    # 准备测试数据
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L6-v2"
    )

    # 生成测试文档
    test_documents = []
    for i in range(100):
        doc = Document(
            page_content=f"这是第{i}个测试文档，包含一些示例内容用于性能测试。文档编号：{i}",
            metadata={"doc_id": i, "category": f"cat_{i % 5}", "priority": i % 3}
        )
        test_documents.append(doc)

    test_query = "测试文档内容"

    # 测试不同向量存储的性能
    stores_to_test = []

    # FAISS测试
    try:
        print("\n7.1 FAISS性能测试")
        start_time = time.time()
        faiss_store = FAISS.from_documents(test_documents, embeddings)
        creation_time = time.time() - start_time

        start_time = time.time()
        faiss_results = faiss_store.similarity_search(test_query, k=5)
        search_time = time.time() - start_time

        stores_to_test.append({
            "name": "FAISS",
            "creation_time": creation_time,
            "search_time": search_time,
            "results_count": len(faiss_results)
        })

        print(f"FAISS - 创建时间: {creation_time:.4f}s, 搜索时间: {search_time:.4f}s")

    except Exception as e:
        print(f"FAISS测试失败: {e}")

    # Chroma测试
    try:
        print("\n7.2 Chroma性能测试")
        start_time = time.time()
        chroma_store = Chroma.from_documents(
            test_documents,
            embeddings,
            persist_directory="./test_chroma",
            collection_name="performance_test"
        )
        creation_time = time.time() - start_time

        start_time = time.time()
        chroma_results = chroma_store.similarity_search(test_query, k=5)
        search_time = time.time() - start_time

        stores_to_test.append({
            "name": "Chroma",
            "creation_time": creation_time,
            "search_time": search_time,
            "results_count": len(chroma_results)
        })

        print(f"Chroma - 创建时间: {creation_time:.4f}s, 搜索时间: {search_time:.4f}s")

    except Exception as e:
        print(f"Chroma测试失败: {e}")

    # 性能对比总结
    print("\n7.3 性能对比总结")
    print(f"{'存储类型':<15} {'创建时间(s)':<12} {'搜索时间(s)':<12} {'结果数量':<10}")
    print("-" * 55)

    for store in stores_to_test:
        print(f"{store['name']:<15} {store['creation_time']:<12.4f} "
              f"{store['search_time']:<12.4f} {store['results_count']:<10}")

    # 推荐建议
    print("\n7.4 选择建议")
    print("📋 向量存储选择指南:")
    print("1. 小规模本地应用: FAISS")
    print("2. 需要持久化: Chroma")
    print("3. 生产环境大规模: Pinecone/Qdrant")
    print("4. 已有Elasticsearch: ElasticsearchStore")
    print("5. 需要高性能缓存: Redis")
    print("6. 企业级应用: Weaviate/Milvus")

def advanced_vector_operations():
    """高级向量操作示例"""
    print("\n" + "=" * 60)
    print("8. 高级向量操作示例")
    print("=" * 60)

    try:
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2"
        )

        # 8.1 向量存储合并
        print("\n8.1 向量存储合并")

        # 创建两个不同的向量存储
        docs1 = [
            Document(page_content="第一个存储的文档1", metadata={"store": "store1"}),
            Document(page_content="第一个存储的文档2", metadata={"store": "store1"})
        ]

        docs2 = [
            Document(page_content="第二个存储的文档1", metadata={"store": "store2"}),
            Document(page_content="第二个存储的文档2", metadata={"store": "store2"})
        ]

        store1 = FAISS.from_documents(docs1, embeddings)
        store2 = FAISS.from_documents(docs2, embeddings)

        # 合并向量存储
        store1.merge_from(store2)
        print("✅ 向量存储合并完成")

        # 验证合并结果
        all_results = store1.similarity_search("文档", k=4)
        print(f"合并后总文档数: {len(all_results)}")
        for doc in all_results:
            print(f"- {doc.page_content} (来源: {doc.metadata['store']})")

        # 8.2 批量操作
        print("\n8.2 批量向量操作")

        # 批量添加文档
        batch_docs = [
            Document(page_content=f"批量文档{i}", metadata={"batch": True, "id": i})
            for i in range(10)
        ]

        start_time = time.time()
        store1.add_documents(batch_docs)
        batch_time = time.time() - start_time

        print(f"批量添加10个文档耗时: {batch_time:.4f}s")

        # 8.3 向量存储统计
        print("\n8.3 向量存储统计信息")

        # 获取所有文档进行统计
        all_docs = store1.similarity_search("", k=100)  # 获取更多文档

        # 统计不同来源的文档数量
        store_counts = {}
        batch_count = 0

        for doc in all_docs:
            if doc.metadata.get("batch"):
                batch_count += 1
            else:
                store = doc.metadata.get("store", "unknown")
                store_counts[store] = store_counts.get(store, 0) + 1

        print("文档统计:")
        for store, count in store_counts.items():
            print(f"- {store}: {count} 个文档")
        print(f"- 批量文档: {batch_count} 个文档")

        # 8.4 相似度阈值过滤
        print("\n8.4 相似度阈值过滤")

        query = "批量文档"
        threshold = 0.5

        # 获取所有结果并手动过滤
        all_results_with_scores = store1.similarity_search_with_score(query, k=20)

        filtered_results = [
            (doc, score) for doc, score in all_results_with_scores
            if score <= threshold  # FAISS使用距离，越小越相似
        ]

        print(f"阈值 {threshold} 以下的结果:")
        for doc, score in filtered_results[:5]:
            print(f"- 分数: {score:.4f} - {doc.page_content}")

        return store1

    except Exception as e:
        print(f"高级向量操作失败: {e}")
        return None

def main():
    """运行所有向量存储示例"""
    print("🚀 LangChain 0.3 Vector Stores 完整示例")
    print("=" * 80)

    # 运行所有示例
    faiss_store = faiss_vectorstore_example()
    chroma_store = chroma_vectorstore_example()
    qdrant_store = qdrant_vectorstore_example()
    pinecone_store = pinecone_vectorstore_example()
    es_store = elasticsearch_vectorstore_example()
    redis_store = redis_vectorstore_example()

    # 性能对比
    vector_store_comparison()

    # 高级操作
    advanced_vector_operations()

    print("\n🎉 所有向量存储示例运行完成！")

    # 清理临时文件
    import shutil
    temp_dirs = ["faiss_index", "chroma_db", "test_chroma"]
    for temp_dir in temp_dirs:
        if os.path.exists(temp_dir):
            try:
                shutil.rmtree(temp_dir)
                print(f"🧹 已清理临时目录: {temp_dir}")
            except Exception as e:
                print(f"清理 {temp_dir} 失败: {e}")

if __name__ == "__main__":
    main()

In [43]:


# 4. Vector Stores 示例
def vector_stores_example(chunks: List[Document], embeddings):
    """向量存储示例"""
    print("\n" + "=" * 60)
    print("4. Vector Stores 向量存储示例")
    print("=" * 60)

    if embeddings is None:
        print("跳过向量存储示例（嵌入模型不可用）")
        return None, None

    # 4.1 FAISS向量存储
    print("\n4.1 FAISS向量存储")
    try:
        # 创建FAISS向量存储
        faiss_vectorstore = FAISS.from_documents(chunks, embeddings)

        # 保存到本地
        faiss_vectorstore.save_local("faiss_index")
        print("✅ FAISS索引已保存")

        # 相似性搜索
        query = "人工智能的发展"
        similar_docs = faiss_vectorstore.similarity_search(query, k=3)

        print(f"\n查询: '{query}'")
        print("相似文档:")
        for i, doc in enumerate(similar_docs):
            print(f"{i + 1}. {doc.page_content[:100]}...")

        # 带分数的相似性搜索
        similar_docs_with_scores = faiss_vectorstore.similarity_search_with_score(query, k=3)
        print("\n带分数的搜索结果:")
        for i, (doc, score) in enumerate(similar_docs_with_scores):
            print(f"{i + 1}. 分数: {score:.4f} - {doc.page_content[:80]}...")

    except Exception as e:
        print(f"FAISS创建失败: {e}")
        faiss_vectorstore = None

    # 4.2 Chroma向量存储
    print("\n4.2 Chroma向量存储")
    try:
        chroma_vectorstore = Chroma.from_documents(
            chunks,
            embeddings,
            persist_directory="./chroma_db"
        )

        # 持久化
        chroma_vectorstore.persist()
        print("✅ Chroma数据库已持久化")

        # 搜索测试
        chroma_results = chroma_vectorstore.similarity_search("机器学习", k=2)
        print(f"Chroma搜索结果数量: {len(chroma_results)}")

    except Exception as e:
        print(f"Chroma创建失败: {e}")
        chroma_vectorstore = None

    return faiss_vectorstore, chroma_vectorstore

# 4. 向量存储
faiss_store, chroma_store = vector_stores_example(chunks, embeddings)


4. Vector Stores 向量存储示例

4.1 FAISS向量存储
✅ FAISS索引已保存

查询: '人工智能的发展'
相似文档:
1. 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

    在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学...
2. 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

    21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

    今天，AI已经在图像识别、自...

带分数的搜索结果:
1. 分数: 0.4337 - 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

    在1956年的达特茅斯会议上，人工智能这个术语首...
2. 分数: 0.7495 - 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

    21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。...

4.2 Chroma向量存储
✅ Chroma数据库已持久化
Chroma搜索结果数量: 2


  chroma_vectorstore.persist()


## 5. Retrievers 示例

In [6]:


# 5. Retrievers 示例
def retrievers_example(vectorstore, chunks: List[Document]):
    """检索器示例"""
    print("\n" + "=" * 60)
    print("5. Retrievers 检索器示例")
    print("=" * 60)

    # 5.1 向量存储检索器
    print("\n5.1 向量存储检索器")
    if vectorstore:
        vector_retriever = vectorstore.as_retriever(
            search_type="similarity",
            search_kwargs={"k": 3}
        )

        results = vector_retriever.invoke("人工智能的应用")
        print(f"向量检索结果数量: {len(results)}")
        for i, doc in enumerate(results):
            print(f"{i + 1}. {doc.page_content[:100]}...")

    # 5.2 BM25检索器
    print("\n5.2 BM25检索器")
    try:
        bm25_retriever = BM25Retriever.from_documents(chunks)
        bm25_retriever.k = 3

        bm25_results = bm25_retriever.invoke("人工智能发展")
        print(f"BM25检索结果数量: {len(bm25_results)}")
        for i, doc in enumerate(bm25_results):
            print(f"{i + 1}. {doc.page_content[:100]}...")

    except Exception as e:
        print(f"BM25检索器创建失败: {e}")
        bm25_retriever = None

    # 5.3 集成检索器
    print("\n5.3 集成检索器")
    if vectorstore and bm25_retriever:
        try:
            ensemble_retriever = EnsembleRetriever(
                retrievers=[vector_retriever, bm25_retriever],
                weights=[0.7, 0.3]  # 向量搜索权重0.7，BM25权重0.3
            )

            ensemble_results = ensemble_retriever.invoke("机器学习技术")
            print(f"集成检索结果数量: {len(ensemble_results)}")

        except Exception as e:
            print(f"集成检索器创建失败: {e}")

    # 5.4 多查询检索器
    print("\n5.4 多查询检索器")
    if vectorstore:
        try:
            llm = ChatOllama(
                base_url="http://localhost:11434",
                model="gemma3:4b"
            )

            multi_query_retriever = MultiQueryRetriever.from_llm(
                retriever=vector_retriever,
                llm=llm
            )

            multi_results = multi_query_retriever.invoke("AI的未来发展趋势")
            print(f"多查询检索结果数量: {len(multi_results)}")

        except Exception as e:
            print(f"多查询检索器创建失败: {e}")
# 5. 检索器
retrievers_example(faiss_store, chunks)


5. Retrievers 检索器示例

5.1 向量存储检索器

5.2 BM25检索器
BM25检索结果数量: 2
1. 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

    21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

    今天，AI已经在图像识别、自...
2. 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

    在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学...

5.3 集成检索器

5.4 多查询检索器


## 6. 完整RAG流程示例

In [3]:

# 6. 完整RAG流程示例
def complete_rag_example():
    """完整的RAG流程示例"""
    print("\n" + "=" * 60)
    print("6. 完整RAG流程示例")
    print("=" * 60)

    try:
        # 6.1 准备数据
        documents = [
            Document(page_content="LangChain是一个用于构建LLM应用的框架", metadata={"source": "doc1"}),
            Document(page_content="向量数据库可以存储和检索高维向量", metadata={"source": "doc2"}),
            Document(page_content="RAG结合了检索和生成，提高了AI回答的准确性", metadata={"source": "doc3"}),
            Document(page_content="嵌入模型将文本转换为数值向量表示", metadata={"source": "doc4"})
        ]

        # 6.2 文本分割
        splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=20)
        chunks = splitter.split_documents(documents)

        # 6.3 创建嵌入和向量存储
        embeddings = OllamaEmbeddings(
            base_url="http://localhost:11434",
            model="nomic-embed-text"
        )

        vectorstore = FAISS.from_documents(chunks, embeddings)
        retriever = vectorstore.as_retriever(k=2)

        # 6.4 创建RAG链
        from langchain_core.prompts import ChatPromptTemplate
        from langchain_core.output_parsers import StrOutputParser
        from langchain_core.runnables import RunnablePassthrough

        llm = ChatOllama(
            base_url="http://localhost:11434",
            model="gemma3:4b"
        )

        prompt = ChatPromptTemplate.from_template("""
        基于以下上下文回答问题：

        上下文：{context}

        问题：{question}

        请提供准确、简洁的回答：
        """)

        def format_docs(docs):
            return "\n\n".join(doc.page_content for doc in docs)

        rag_chain = (
                {"context": retriever | format_docs, "question": RunnablePassthrough()}
                | prompt
                | llm
                | StrOutputParser()
        )

        # 6.5 测试RAG系统
        questions = [
            "什么是LangChain？",
            "向量数据库的作用是什么？",
            "RAG技术有什么优势？"
        ]

        for question in questions:
            print(f"\n问题: {question}")
            answer = rag_chain.invoke(question)
            print(f"回答: {answer}")

    except Exception as e:
        print(f"RAG流程执行失败: {e}")
complete_rag_example()


6. 完整RAG流程示例

问题: 什么是LangChain？
回答: LangChain 是一个用于构建LLM应用的框架。


问题: 向量数据库的作用是什么？
回答: 向量数据库的作用是存储和检索高维向量。


问题: RAG技术有什么优势？
回答: RAG技术提高了AI回答的准确性。



## 7. 高级功能示例

In [8]:

# 7. 高级功能示例
def advanced_features_example():
    """高级功能示例"""
    print("\n" + "=" * 60)
    print("7. 高级功能示例")
    print("=" * 60)

    # 7.1 自定义文档加载器
    print("\n7.1 自定义文档加载器")

    class CustomLoader:
        def __init__(self, data_source):
            self.data_source = data_source

        def load(self):
            # 模拟从API或数据库加载数据
            documents = []
            for i, item in enumerate(self.data_source):
                doc = Document(
                    page_content=item["content"],
                    metadata={"id": i, "type": item["type"]}
                )
                documents.append(doc)
            return documents

    # 使用自定义加载器
    custom_data = [
        {"content": "Python是一种编程语言", "type": "技术"},
        {"content": "数据科学需要统计知识", "type": "科学"},
        {"content": "机器学习算法很重要", "type": "AI"}
    ]

    custom_loader = CustomLoader(custom_data)
    custom_docs = custom_loader.load()
    print(f"自定义加载器文档数量: {len(custom_docs)}")

    # 7.2 文档过滤和预处理
    print("\n7.2 文档过滤和预处理")

    def preprocess_documents(documents):
        """文档预处理函数"""
        processed_docs = []
        for doc in documents:
            # 清理文本
            content = doc.page_content.strip()
            content = content.replace("\n", " ").replace("\t", " ")

            # 过滤短文档
            if len(content) > 10:
                doc.page_content = content
                processed_docs.append(doc)

        return processed_docs

    processed_docs = preprocess_documents(custom_docs)
    print(f"预处理后文档数量: {len(processed_docs)}")
advanced_features_example()


7. 高级功能示例

7.1 自定义文档加载器
自定义加载器文档数量: 3

7.2 文档过滤和预处理
预处理后文档数量: 1


## 8. 性能优化示例

In [9]:
# 8. 性能优化示例
async def performance_optimization_example():
    """性能优化示例"""
    print("\n" + "=" * 60)
    print("8. 性能优化示例")
    print("=" * 60)

    # 8.1 批量处理
    print("\n8.1 批量嵌入处理")

    try:
        embeddings = OllamaEmbeddings(
            base_url="http://localhost:11434",
            model="nomic-embed-text"
        )

        # 大量文本
        texts = [f"这是第{i}个文档的内容" for i in range(10)]

        # 批量生成嵌入
        batch_embeddings = embeddings.embed_documents(texts)
        print(f"批量处理文档数量: {len(batch_embeddings)}")

        # 8.2 异步处理
        print("\n8.2 异步处理示例")

        async def async_embed_text(text):
            # 模拟异步嵌入
            await asyncio.sleep(0.1)
            return embeddings.embed_query(text)

        # 并发处理
        tasks = [async_embed_text(f"异步文本{i}") for i in range(5)]
        results = await asyncio.gather(*tasks)
        print(f"异步处理结果数量: {len(results)}")

    except Exception as e:
        print(f"性能优化示例失败: {e}")
performance_optimization_example()


<coroutine object performance_optimization_example at 0x000002B59BA34260>

## 主函数

In [10]:

# 主函数
def main():
    """运行所有示例"""
    print("🚀 LangChain 0.3 Data Connection 完整示例")
    print("=" * 80)

    # 1. 文档加载
    documents = document_loaders_example()

    # 2. 文本分割
    chunks = text_splitters_example(documents)

    # 3. 嵌入模型
    embeddings = embedding_models_example()

    # 4. 向量存储
    faiss_store, chroma_store = vector_stores_example(chunks, embeddings)

    # 5. 检索器
    retrievers_example(faiss_store, chunks)

    # 6. 完整RAG流程
    complete_rag_example()

    # 7. 高级功能
    advanced_features_example()

    print("\n🎉 所有示例运行完成！")

    # 清理临时文件
    cleanup_files()


def cleanup_files():
    """清理临时文件"""
    import shutil

    files_to_remove = ["sample.txt", "sample.csv", "sample.json"]
    dirs_to_remove = ["docs", "faiss_index", "chroma_db"]

    for file in files_to_remove:
        if os.path.exists(file):
            os.remove(file)

    for dir in dirs_to_remove:
        if os.path.exists(dir):
            shutil.rmtree(dir)

    print("🧹 临时文件已清理")


In [11]:

if __name__ == "__main__":
    # 运行同步示例
    main()

    # 运行异步示例
    # asyncio.run(performance_optimization_example())

🚀 LangChain 0.3 Data Connection 完整示例

1. Document Loaders 文档加载器示例

1.1 文本文件加载
加载的文档数量: 1
文档内容预览: 
        人工智能（AI）是计算机科学的一个分支，致力于创建能够执行通常需要人类智能的任务的系统。
        机器学习是AI的一个子集，它使计算机能够从数据中学习而无需明确编程。
   ...

1.2 CSV文件加载
CSV文档数量: 3
CSV文档示例: name: 张三
age: 25
city: 北京
description: 软件工程师

1.3 JSON文件加载
JSON文档数量: 2
JSON文档示例: Python是一种高级编程语言

1.4 目录批量加载
目录文档数量: 3

2. Text Splitters 文本分割器示例

2.1 RecursiveCharacterTextSplitter
递归分割块数: 2
块 1: 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

    在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学...
块 2: 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

    21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

    今天，AI已经在图像识别、自...

2.2 CharacterTextSplitter
字符分割块数: 1

2.3 TokenTextSplitter
Token分割块数: 7

2.4 MarkdownHeaderTextSplitter
Markdown分割块数: 4

3. Embedding Models 嵌入模型示例

3.1 Ollama嵌入模型
Ollama嵌入模型初始化失败: Failed to connect to Ollama. Please check that Ollama is downloaded, running and accessible. https://ollama.com/download
请确保Ollama服务正在运行并安装了嵌入模型

4. Vector Stores 向量存储示例
跳过向量