# 1、 获取大模型

In [2]:
import bs4
# 导入 dotenv 库 load_dotenv 函数，用于加载环境变量文件（.env）中的配置
import dotenv
from langchain_core.output_parsers import JsonOutputParser
from langchain_openai import ChatOpenAI
import os

dotenv.load_dotenv()    # 加载当前目录下的 .env 文件
os.environ.setdefault("OPENAI_API_KEY", os.getenv("OPENAI_API_KEY"))
os.environ.setdefault("OPENAI_BASE_URL", os.getenv("OPENAI_BASE_URL"))

# 创建大模型实例
#llm = ChatOpenAI(model="gpt-4o-mini")    # 默认使用gtp-3.5-turbo

# 1. 设置模型
# 1.1 大语言模型
llm = ChatOpenAI(model="deepseek-chat")  # 调用大模型   默认使用gpt-3.5-turbo

# 直接提供问题，并调用llm
response = llm.invoke("什么是大模型")
print(response)

content='你好！这是一个非常重要且核心的问题。简单来说，**大模型（Large Language Model，简称LLM）** 是一种基于海量数据训练的、参数规模巨大（通常达到数十亿甚至数万亿级别）的深度学习模型，它能够理解、生成和推理人类语言（以及代码、图像等多模态信息）。\n\n我们可以从几个关键维度来理解它：\n\n### 1. 核心特征：“大”在哪里？\n*   **参数规模巨大**：参数是模型从数据中学到的“知识”和“规则”。大模型的参数量动辄百亿、千亿，比如GPT-3有1750亿参数，GPT-4等更大模型的参数规模未公开但推测更大。更多的参数意味着更强的记忆和表达能力。\n*   **训练数据海量**：它们通常在几乎整个互联网的文本（书籍、文章、网页、代码等）上进行训练，数据量可达TB甚至PB级别。这赋予了它们广泛的“世界知识”。\n*   **计算资源消耗巨大**：训练一个大模型需要成千上万个高性能GPU/TPU工作数周甚至数月，耗资巨大（数百万到数千万美元），只有少数大型研究机构或公司有能力进行。\n\n### 2. 核心能力：能做什么？\n大模型的核心是 **“预测下一个词”** 。基于这个基础，它们涌现出了惊人的能力：\n*   **自然语言理解与生成**：流畅地进行对话、撰写文章、总结摘要、翻译语言。\n*   **复杂推理**：解决逻辑问题、进行数学计算、分析因果关系。\n*   **代码生成与理解**：编写、解释、调试多种编程语言的代码。\n*   **多模态能力**：最新的模型（如GPT-4V、Gemini）不仅能处理文本，还能理解和生成图像、音频、视频等内容。\n*   **工具使用**：可以通过API调用外部工具，如搜索引擎、计算器、专业软件，来扩展自身能力。\n\n### 3. 技术基础：Transformer架构\n几乎所有现代大模型都基于 **Transformer** 架构（由谷歌在2017年提出）。其核心是 **“自注意力机制”** ，允许模型在处理一个词时，同时关注输入序列中的所有其他词，从而更好地理解上下文和长距离依赖关系。这是大模型性能突破的关键。\n\n### 4. 代表性模型\n*   **GPT系列**：OpenAI开发，如ChatGPT（基于GPT-3.5/GPT-4），是推动大模型普及的里程碑。\n*

# 2、 使用提示词模板

In [4]:
from langchain_core.prompts import ChatPromptTemplate

# 需要注意的一点是，这里需要指明具体的role，在这里是system和用户
prompt = ChatPromptTemplate.from_messages([
        ("system","你是世界级的技术文档编写者"),
        ("user","{input}")
    ]
)

# 然后使用实例调用 format_messages
messages = prompt.format_messages(input="大模型中的LangChain是什么")

# 我们可以把prompt和具体的llm的调用放在一起
chain = prompt | llm
message = chain.invoke({"input":"大模型中的LangChain是什么？"})
print(message)

content='**LangChain** 是一个用于构建**基于大语言模型（LLM）的应用程序**的开源框架。它不是一个独立的模型，而是一个强大的“工具箱”和“连接器”，旨在帮助开发者更高效地将大模型（如 GPT-4、Llama 等）与外部数据源、计算工具和应用环境结合起来，从而创建出功能强大、实用的 AI 应用。\n\n简单来说，LangChain 的核心目标是**解决大模型在现实应用中的两大核心局限**：\n1.  **缺乏“记忆”和“上下文”**：普通的大模型调用是独立的，无法记住之前的对话或信息。\n2.  **知识截止与无法执行动作**：大模型的知识有截止日期，且自身无法直接读取外部数据、进行计算或操作外部系统。\n\n---\n\n### LangChain 的核心概念与组件\n\nLangChain 通过以下几个关键模块来实现其功能：\n\n#### 1. **模型（Models）**\n   - **LLM**： 对接各种大语言模型（如 OpenAI、Anthropic、Hugging Face 等）。\n   - **聊天模型**： 专门为对话优化的模型。\n   - **嵌入模型**： 将文本转换为向量，用于检索和比较。\n\n#### 2. **提示（Prompts）**\n   - 提供模板化、动态构建提示词的功能，使与模型的交互更可控、更高效。\n   - 例如，可以创建一个包含用户输入、上下文和历史对话的标准化提示模板。\n\n#### 3. **链（Chains）**\n   - **这是 LangChain 的灵魂**。它将多个组件（模型、提示、工具等）按顺序或逻辑组合成一个完整的处理流程。\n   - 例如，一个链可以是：`用户输入 -> 检索相关文档 -> 组合成提示 -> 发送给 LLM -> 解析输出`。\n   - 常见的链有 `LLMChain`、`SequentialChain` 以及更复杂的 `RetrievalQA` 链。\n\n#### 4. **索引与检索（Indexes & Retrieval）**\n   - 这是让大模型能够访问**私有或特定领域数据**的关键。\n   - 过程通常是：将外部文档（如 PDF、数据库、网页）进行分割、嵌入成向量，存入向量数据库（如 Pinecone、Chroma、Wea

# 3、 使用输出解析器

In [5]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser

# 初始化模型
llm = ChatOpenAI(model="deepseek-chat")

# 创建提示词模板
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者"),
    ("user", "{input}")
])

# 使用输出解析器
output = JsonOutputParser()

# 将其添加到上一个链中
chain = prompt | llm | output

# 调用它并提出同样的问题，答案是一个字符串，而不是ChatMessage
chain.invoke({"input":"LangChain是什么？用JSON格式回复，问题调用question，回答用answer"})

{'question': 'LangChain是什么？',
 'answer': 'LangChain是一个用于开发由大型语言模型（LLM）驱动的应用程序的框架。它提供了一套工具、组件和接口，简化了构建基于LLM的应用的过程，如聊天机器人、智能代理、文档问答系统等。LangChain的核心思想是通过“链”（Chains）将多个组件组合起来，以便处理复杂的任务，例如：连接外部数据源、管理对话历史、调用工具或API等。它支持多种LLM提供商（如OpenAI、Hugging Face等），并包含丰富的模块来处理提示模板、内存管理、索引检索等常见需求。'}

# 4、 使用向量存储

In [None]:
# 安装本地向量数据库
# pip/conda install faiss-cpu
# pip/conda install langchain_community=0.3.7

In [5]:
#导包和使用 WebBaseLoader
from langchain_community.document_loaders import WebBaseLoader
import bs4

loader = WebBaseLoader(
    web_path="https://blog.csdn.net/nkd50000/article/details/103199210",
    bs_kwargs=dict(parse_only=bs4.SoupStrainer(id="UCAP-CONTENT"))
)
docs = loader.load()

# 对于嵌入模型，这里通过API调用
from langchain_openai import OpenAIEmbeddings

embeddings = HuggingFaceEmbeddings(model=r"E:\shangdj\python\rag\model_dir\BAAI\bge-large-zh-v1___5")

# embeddings = OpenAIEmbeddings(model="text-embeddings-ada-002")

from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 使用分割器分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500,chunk_overlap=50)
documents = text_splitter.split_documents(docs)
print(len(documents))
# 向量存储 embeddings 会将 documents 中的每个文本片段转换为向量，并将这些向量存储在 FAISS 向量数据库中
vector = FAISS.from_documents(documents,embeddings)


  from .autonotebook import tqdm as notebook_tqdm
Loading weights: 100%|██████████| 391/391 [00:00<00:00, 825.09it/s, Materializing param=pooler.dense.weight]                               
BertModel LOAD REPORT from: E:\shangdj\python\rag\model_dir\BAAI\bge-large-zh-v1___5
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


0


IndexError: list index out of range

In [1]:
# 导包和使用 WebBaseLoader
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
import bs4

# 1. 加载文档
loader = WebBaseLoader(
    web_path="https://blog.csdn.net/nkd50000/article/details/103199210",
    bs_kwargs=dict(parse_only=bs4.SoupStrainer(id="UCAP-CONTENT"))
)
docs = loader.load()

# 2. 分割文档
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # 每个块的大小
    chunk_overlap=50  # 块之间的重叠
)
split_docs = text_splitter.split_documents(docs)

# 3. 创建嵌入模型（使用本地模型）
embeddings = HuggingFaceEmbeddings(
    model_name=r"E:\shangdj\python\rag\model_dir\BAAI\bge-large-zh-v1___5",
    model_kwargs={'device': 'cpu'},
    encode_kwargs={'normalize_embeddings': True}
)

# 4. 创建向量存储
vectorstore = FAISS.from_documents(split_docs, embeddings)

print(f"加载了 {len(docs)} 个文档")
print(f"分割为 {len(split_docs)} 个块")
print("向量存储已创建")

  from .autonotebook import tqdm as notebook_tqdm
USER_AGENT environment variable not set, consider setting it to identify your requests.
  embeddings = HuggingFaceEmbeddings(
Loading weights: 100%|██████████| 391/391 [00:00<00:00, 782.76it/s, Materializing param=pooler.dense.weight]                               
BertModel LOAD REPORT from: E:\shangdj\python\rag\model_dir\BAAI\bge-large-zh-v1___5
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.


IndexError: list index out of range

# 5、 RAG（检索增强生成）

In [1]:
from langchain_core.prompts import PromptTemplate

retriever = vector.as_retriever()
retriever.search_kwargs = {"k":3}
docs = retriever.invoke("建设用地使用权是什么")

# 6. 定义提示词模板
prompt_template = """
            请严格扮演一个信息提取助手的角色。你的任务是根据提供的【参考文档】来回答问题。

            【参考文档开始】
            {info}
            【参考文档结束】

            规则：
            1.  你的回答必须完全基于上述参考文档。如果答案未在文档中明确提及，你必须说“文档中未提及相关信息”。
            2.  不要引入文档以外的知识或假设。
            3.  如果文档中的信息相互矛盾，请指出这一点。
            4.  在回答的最后，用括号注明答案所依据的文档句子编号（例如：基于[1][3]）。

            问题：{question}
"""


# 7. 得到提示词模板对象
template = PromptTemplate.from_messages(prompt_template)

# 8. 得到提示词对象
prompt = template.format(info=docs,question='建设用地使用权是什么？')

# 9. 调用LLM
response = llm.invoke(prompt)
print(response)

  from .autonotebook import tqdm as notebook_tqdm


NameError: name 'vector' is not defined

# 6、 使用Agent

In [1]:
# from langchain.tools.retriever import create_retriever_tool
#
#
# retriever_tool = create_retriever_tool(
#     retriever,
#     "CivilCodeRetriever",
#     "搜索有关中华人民共和国民法典的信息，关于中华人民共和国民法典的任何问题，您必须使用此工具！",
# )
#
# tools = [retriever_tool]
#
#
# from langchain import hub
# from langchain.agents import create_openai_functions_agent
# from langchain.agents import AgentExecutor

  from .autonotebook import tqdm as notebook_tqdm


ModuleNotFoundError: No module named 'langchain.tools.retriever'