## [LangChain](https://docs.langchain.com/)：LLM 应用开发的开源框架

LangChain 是一个开源框架，旨在简化大型语言模型（LLMs）驱动应用的开发、部署和监控流程。它能够通过 API 调用（如 ChatGPT、Llama 等）连接大型语言模型，并实现数据感知，将语言模型与外部数据源连接起来，甚至与环境进行交互，从而使模型能够对其环境有更深入的理解。

LangChain 提供了一系列工具、套件和接口，以简化创建由 LLMs 和聊天模型支持的应用程序的过程。

### LangChain 的六大核心组件：

*   **模型（Models）**：包含各大语言模型的 LangChain 接口和调用细节，以及输出解析机制。
*   **提示模板（Prompts）**：使提示工程流线化，进一步激发大语言模型的潜力。
*   **数据检索（Indexes）**：构建并操作文档的方法，接受用户的查询并返回最相关的文档，轻松搭建本地知识库。
*   **记忆（Memory）**：通过短时记忆和长时记忆，在对话过程中存储和检索数据，让 ChatBot 记住你是谁。
*   **链（Chains）**：是 LangChain 中的核心机制，以特定方式封装各种功能，并通过一系列的组合，自动而灵活地完成常见用例。
*   **代理（Agents）**：通过“代理”让大模型自主调用外部工具和内部工具，使强大的“智能化”自主 Agent 成为可能！

In [3]:
from langchain_community.document_loaders import TextLoader
loader = TextLoader("./藜麦.txt")
documents = loader.load()
documents

[Document(metadata={'source': './藜麦.txt'}, page_content='藜（读音lí）麦（Chenopodium quinoa Willd.）是苋科 [21]藜属植物。植株形状类似藜（灰灰菜），成熟后上部花穗部分稍类似高粱穗，可呈红色、紫色或黄色。植株大小受环境及遗传因素影响较大，从0.3～3m不等，茎部质地较硬，可分枝可不分。单叶互生，叶片呈鸭掌状，叶缘分为全缘型与锯齿缘型。藜麦花两型，花序呈伞状、穗状、圆锥状，藜麦种子较小，呈小圆药片状，直径1.5～2mm，千粒重1.4～3g。 [1]\n藜麦原产于南美洲安第斯山脉的哥伦比亚、厄瓜多尔、秘鲁等中高海拔山区，生长范围约为海平面到海拔4500m左右的高原上，最适的高度为海拔3000～4000m的高原或山地地区。 [1]藜麦适应性强，具有一定的耐旱、耐寒、耐盐性。\n与其他谷物相比，藜麦中脂肪含量较高； [7]藜麦富含的维生素、多酚、类黄酮类、皂苷和植物甾醇类物质具有多种健康功效。 [1]藜麦具有高蛋白，其所含脂肪中不饱和脂肪酸占83%，藜麦也是一种低葡萄糖的食品，在糖脂代谢过程中发挥有利功效。 [8]\n2025年11月，太空藜麦迎来了丰收.\n藜麦成熟后上部花穗部分稍类似高粱穗，可呈红色、紫色或黄色。植株大小受环境及遗传因素影响较大，从0.3～3m不等，茎部质地较硬，可分枝可不分。单叶互生，叶片呈鸭掌状，叶缘分为全缘型与锯齿缘型。根系庞大但分布较浅，根上的须根多，吸水能力强。藜麦花两性，花序呈伞状、穗状、圆锥状，藜麦种子较小，呈小圆药片状，直径1.5～2mm，千粒重1.4～3g。\n苗期管理\n查苗补苗：藜麦种子通常于播种后1d出芽，3～5d出苗。播后7～10d需要逐行检查出苗情况，发现漏种和缺苗时，应在土壤墒情较好时采取补种或移栽等措施以保证全苗。 [11]\n间苗定苗：种植人员在植株生长出5～6枚叶片、高度达到10cm左右时就要开始间苗，留强去弱，留大去小， [10]因各种植区的气候条件不同，间苗工作存在些许差异。我国中部地区（例如河南）气温较高，幼苗和杂草生长迅速，因此，在幼苗3～4叶时即可间苗； [15]而在高海拔地区气温较低，可晚间苗，如青海地区在幼苗5～6叶、西藏地区在幼苗6～8叶时开展间苗工作， [13] [16]当幼苗长至8～10叶（幼苗长到20～30cm）

在分割的时候应该考虑的要点有以下几点：文本如何分割、块大小、块之间重合长度等。
LangChain 中提供了以下文本分割器：

| 名称                                                                                                                                                                                                                                                           | 说明                                                                                                                                                                                                                                                                                                                                                                |
| :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| **字符分割器 (CharacterTextSplitter)**                                                                                                                                                                                                                         | 基于单个字符进行分割。默认分隔符为 `"\n\n"`。分块大小是根据字符数：                                                                                                                                                                                                                                                                              |
| **递归字符分割器 (RecursiveCharacterTextSplitter)**                                                                                                                                                                                                           | 用一个分隔符列表进行分割，按照顺序逐个尝试列表中的分割符直到块足够小。该分隔符列表是 `["\n\n", "\n", " ", ""]`。                                                                                                                                                                                                                                                 |
| **Markdown 标题分割器 (MarkdownHeaderTextSplitter)**                                                                                                                                                                                                           | 根据指定的标题标记记录分割 Markdown 文件。例如，可以根据 `#` 或 `##`。                                                                                                                                                                                                                                                                                             |
| **令牌分割器 (Token Splitter)** <br/>`TokenTextSplitter` <br/>`SpacyTextSplitterSentence` <br/>`TransformersTokenTextSplitter` <br/>`NLTKTextSplitter` | 语言模型有令牌限制，因此也有一系列分割器在分割文本时考虑令牌数量。 <br/>`TokenTextSplitter` 会直接使用 TikToken 来估计分割后的令牌数量。                                                                                                                                                                                                                         |

In [4]:
# 文档分割
# 文本分割在新版本中需要安装特定包：pip install -U langchain-text-splitters
# 对于大多数使用场景，建议首先使用默认策略RecursiveCharacterTextSplitter。
# 它在保持上下文完整性和管理数据块大小之间取得了良好的平衡。
# 这种默认策略开箱即用，效果显著，只有当需要针对特定​​应用程序进行性能微调时才应考虑调整。
from langchain_text_splitters import RecursiveCharacterTextSplitter
# 创建拆分器
text_splitter = RecursiveCharacterTextSplitter(
                chunk_size=128, #字符数
                chunk_overlap=5# 重叠字符数
    )
# 拆分文档
documents = text_splitter.split_documents(documents)
documents

[Document(metadata={'source': './藜麦.txt'}, page_content='藜（读音lí）麦（Chenopodium quinoa Willd.）是苋科'),
 Document(metadata={'source': './藜麦.txt'}, page_content='[21]藜属植物。植株形状类似藜（灰灰菜），成熟后上部花穗部分稍类似高粱穗，可呈红色、紫色或黄色。植株大小受环境及遗传因素影响较大，从0.3～3m不等，茎部质地较硬，可分枝可不分。单叶互生，叶片呈鸭掌状，叶缘分为全缘型与锯齿缘型。藜麦花两型，花序呈伞状、'),
 Document(metadata={'source': './藜麦.txt'}, page_content='序呈伞状、穗状、圆锥状，藜麦种子较小，呈小圆药片状，直径1.5～2mm，千粒重1.4～3g。'),
 Document(metadata={'source': './藜麦.txt'}, page_content='[1]'),
 Document(metadata={'source': './藜麦.txt'}, page_content='藜麦原产于南美洲安第斯山脉的哥伦比亚、厄瓜多尔、秘鲁等中高海拔山区，生长范围约为海平面到海拔4500m左右的高原上，最适的高度为海拔3000～4000m的高原或山地地区。 [1]藜麦适应性强，具有一定的耐旱、耐寒、耐盐性。'),
 Document(metadata={'source': './藜麦.txt'}, page_content='与其他谷物相比，藜麦中脂肪含量较高； [7]藜麦富含的维生素、多酚、类黄酮类、皂苷和植物甾醇类物质具有多种健康功效。 [1]藜麦具有高蛋白，其所含脂肪中不饱和脂肪酸占83%，藜麦也是一种低葡萄糖的食品，在糖脂代谢过程中发挥有利功效。 [8]'),
 Document(metadata={'source': './藜麦.txt'}, page_content='2025年11月，太空藜麦迎来了丰收.'),
 Document(metadata={'source': './藜麦.txt'}, page_content='藜麦成熟后上部花穗部分稍类似高粱穗，可呈红色、紫色或黄色。植株大小受环境及遗传因素影响较大，从0.3～3

In [5]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=128,  # 根据嵌入模型调整（如text-embedding-ada-002支持8191）
    chunk_overlap=10,
    separators=["\n\n", "\n", "。",  "！", "？","//"]  # 优化分隔符
)

texts = text_splitter.create_documents([documents[0].page_content], metadatas=[documents[0].metadata]) # 构建document对象
# 关键步骤：提取所有文本内容
texts

[Document(metadata={'source': './藜麦.txt'}, page_content='藜（读音lí）麦（Chenopodium quinoa Willd.）是苋科')]

In [10]:
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma

# 1. 路径配置
# 依然使用 ID，而不是物理路径。
# 只要 cache_folder 对了，它就会去本地读，不需要联网。
model_id = "moka-ai/m3e-base"
cache_path = r"./my_models_cache"

# 2. 参数配置
model_kwargs = {'device': 'cuda'} # 确保你有显卡，否则改为 'cpu'
encode_kwargs = {'normalize_embeddings': True}

print("正在加载模型（优先读取本地缓存）...")

# 3. 创建 Embedding 实例
# 这里结合了你的两个写法的优点：
# - 用 model_id 保证库能通过 ID 索引到缓存
# - 用 local_files_only=True 强制不联网（可选，如果你想确保它是纯离线运行）
# 推荐写法：自动判断（本地有就用，没有就下）
embedding = HuggingFaceEmbeddings(
    model_name="moka-ai/m3e-base",      # 使用 ID
    cache_folder=r"./my_models_cache",  # 指定缓存目录
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)


print("正在构建向量库...")

# 5. 加载数据到 Chroma
db = Chroma.from_documents(documents, embedding)

# 6. 测试检索
print("正在检索...")
docs = db.similarity_search("藜麦生育期")
print(f"检索结果: {docs[0].page_content}")
docs

正在加载模型（优先读取本地缓存）...
正在构建向量库...
正在检索...
检索结果: [11]藜麦对氮肥敏感，因此，生育前期不宜追肥，否则植株过于高大，后期易倒伏。应依据藜麦长势和土壤肥力状况适当追肥，可在孕穗期（抽穗前15～20d）追肥，有利于藜麦增产。 [15]


[Document(metadata={'source': './藜麦.txt'}, page_content='[11]藜麦对氮肥敏感，因此，生育前期不宜追肥，否则植株过于高大，后期易倒伏。应依据藜麦长势和土壤肥力状况适当追肥，可在孕穗期（抽穗前15～20d）追肥，有利于藜麦增产。 [15]'),
 Document(metadata={'source': './藜麦.txt'}, page_content='[11]藜麦对氮肥敏感，因此，生育前期不宜追肥，否则植株过于高大，后期易倒伏。应依据藜麦长势和土壤肥力状况适当追肥，可在孕穗期（抽穗前15～20d）追肥，有利于藜麦增产。 [15]'),
 Document(metadata={'source': './藜麦.txt'}, page_content='[11]藜麦对氮肥敏感，因此，生育前期不宜追肥，否则植株过于高大，后期易倒伏。应依据藜麦长势和土壤肥力状况适当追肥，可在孕穗期（抽穗前15～20d）追肥，有利于藜麦增产。 [15]'),
 Document(metadata={'source': './藜麦.txt'}, page_content='[11]藜麦对氮肥敏感，因此，生育前期不宜追肥，否则植株过于高大，后期易倒伏。应依据藜麦长势和土壤肥力状况适当追肥，可在孕穗期（抽穗前15～20d）追肥，有利于藜麦增产。 [15]')]

LangChain 支持两种主要的数据存储方式：

### 1. `CacheBackedEmbeddings` (缓存支持的嵌入式包装器)

`CacheBackedEmbeddings` 是一个支持缓存的嵌入式包装器，可以将嵌入（embeddings）缓存在键值存储中。其具体操作是：

*   对输入文本进行哈希处理。
*   将此哈希值用作缓存的键（key）。
*   支持多种存储位置，包括：
    *   内存
    *   本地文件系统
    *   Redis 数据库

### 2. 向量数据库

更常见且功能强大的存储方式是使用向量数据库来存储嵌入。这些数据库专门设计用于高效存储和检索向量，例如：

*   Chroma
*   Qdrant

In [None]:
from langchain_core.prompts import PromptTemplate
from langchain_classic.memory import ConversationBufferMemory
from langchain_classic.chains import ConversationalRetrievalChain
from langchain_core.prompts.chat import ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate
from langchain_openai import ChatOpenAI

llmService = ChatOpenAI(
    model="qwen-plus",
    temperature=0,
    max_tokens=None,
    timeout=None,
    max_retries=2,
    api_key="sk-0e0efe286b5f4529bb97b6ae8adb593d",  # 你的api-key，
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1", # 千帆modelbuilder 的base_url
    # organization="...",
    # other params...
)
retriever = db.as_retriever() #选择向量数据库
# 记忆模块，
memory = ConversationBufferMemory(
    memory_key="chat_history",  # 在 Prompt 模板中，历史记录将放在这个变量名下
    return_messages=True        # 返回消息对象列表（如 [HumanMessage, AIMessage]），而不是纯字符串
)
qa = ConversationalRetrievalChain.from_llm(
    llmService,               # 大脑：负责组织语言和逻辑
    retriever,         # 眼睛/图书馆：负责查阅资料
    memory=memory      # 记忆：负责记住之前说过的话
)

# 工作流程：

# 收到用户问题。

# 查看 Memory，结合历史记录优化问题（例如把“它”补全为“藜麦”）。

# 调用 Retriever 去数据库查相关文档。

# 把查到的文档 + 用户的问题 + 历史记录，一起打包发给 LLM。

# LLM 生成最终答案。

qa({"question": "藜麦生育期注意事项？"})
qa({"question": "成熟藜麦的颜色"})
memory

ConversationBufferMemory(chat_memory=InMemoryChatMessageHistory(messages=[HumanMessage(content='藜麦生育期注意事项？', additional_kwargs={}, response_metadata={}), AIMessage(content='藜麦生育期的注意事项包括：\n\n1. **避免前期追肥**：藜麦对氮肥敏感，生育前期不宜追施氮肥，否则会导致植株生长过旺、过于高大，增加后期倒伏的风险。\n\n2. **适时追肥**：可在孕穗期（抽穗前15～20天）根据藜麦的长势和土壤肥力状况进行适当追肥，有助于提高产量。\n\n3. **合理施肥管理**：应结合土壤肥力和植株实际生长情况，科学掌握施肥量和时间，避免过量施肥造成不良影响。\n\n总之，在生育期应注重肥水管理，特别是氮肥的施用时机，以确保藜麦健康生长并实现增产。', additional_kwargs={}, response_metadata={}), HumanMessage(content='成熟藜麦的颜色', additional_kwargs={}, response_metadata={}), AIMessage(content='成熟藜麦的上部花穗部分可呈红色、紫色或黄色。', additional_kwargs={}, response_metadata={})]), return_messages=True, memory_key='chat_history')