## 5.1 构建大模型

In [3]:
#导入 dotenv 库的 load_dotenv 函数，用于加载环境变量文件（.env）中的配置
import dotenv
from langchain_openai import ChatOpenAI
import os

dotenv.load_dotenv()  #加载当前目录下的 .env 文件

os.environ['OPENAI_API_KEY'] = os.getenv("OPENAI_API_KEY")
os.environ['OPENAI_BASE_URL'] = os.getenv("OPENAI_BASE_URL")

# 创建大模型实例
llm = ChatOpenAI(model="gpt-4o-mini")  # 默认使用 gpt-3.5-turbo

# 直接提供问题，并调用llm
response = llm.invoke("什么是大模型？")
print(response)
## 1. 获取大模型

content='大模型（Large Model）通常指的是具有大量参数和复杂结构的机器学习模型，特别是在自然语言处理（NLP）、计算机视觉、语音识别等领域。大模型的特点包括：\n\n1. **参数数量**：大模型通常包含数亿到数万亿个参数，通过庞大的参数空间来表示和学习复杂的模式和特征。\n\n2. **计算需求**：训练和推理大模型需要大量的计算资源，通常需要使用高性能计算集群，其中包括GPU或TPU等专用硬件。\n\n3. **预训练和微调**：许多大模型采用预训练-微调的策略。首先在大规模的无标注数据集上进行预训练，然后在具体的下游任务上进行微调，以提高模型的特定任务表现。\n\n4. **应用广泛**：大模型可以应用于多种任务，例如文本生成、翻译、图像分类、语音识别等，并且效果往往优于传统的小模型。\n\n5. **模型架构**：大模型常常使用先进的深度学习架构，如Transformer架构，它们能够更好地捕捉长距离依赖关系。\n\n一个典型的大模型例子是GPT（生成式预训练变换器），它在文本生成方面表现优异，并可以为各种应用提供支持。随着技术的发展，研究者们也在关注如何使大模型在计算效率、数据利用和环境影响等方面更具可持续性。' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 326, 'prompt_tokens': 12, 'total_tokens': 338, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_provider': 'openai', 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_efad92c60b', 'id': 'chatcmpl-CUQ

## 5.2 使用提示词模版

In [4]:
from langchain_core.prompts import ChatPromptTemplate

# 需要注意的一点是，这里需要指明具体的role，在这里是system和用户
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者"),
    ("user", "{input}")  # {input}为变量
])

# 我们可以把prompt和具体llm的调用和在一起。
chain = prompt | llm
message = chain.invoke({"input": "大模型中的LangChain是什么?"})
print(message)

# print(type(message))

content='LangChain 是一个为构建基于大语言模型 (LLM) 的应用程序而设计的框架。它提供了一系列工具和结构，可以帮助开发者高效地使用语言模型，简化了应用程序的构建过程。LangChain 的目标是使开发者能够更容易地创建、管理和扩展与语言模型相关的工作流。\n\n### LangChain 的主要特性包括：\n\n1. **文档及数据处理**：LangChain 提供了一些工具用于处理文本数据，包括数据预处理、信息提取和自动化问答等。\n\n2. **链式工作流**：它允许开发者构建复杂的工作流，将多个操作串联起来（例如，将语义搜索与文本生成结合）。\n\n3. **可插拔的组件**：LangChain 具有高度的模块化，可以轻松地替换和扩展不同的组件，以满足特定需求。\n\n4. **与其他工具集成**：LangChain 可以与各类数据库、搜索引擎和其他API进行集成，使得应用程序功能更加丰富。\n\n5. **环境兼容性**：支持在多种环境中使用，包括本地开发和云平台，方便部署和扩展。\n\n### 应用场景：\n- **自动化问答系统**：使用 LangChain 构建能够回答用户提问的智能助手。\n- **聊天机器人**：开发基于语言模型的对话系统。\n- **文本分析和处理**：进行文档生成、摘要和翻译等任务。\n- **信息检索**：构建搜索引擎，将搜索结果与生成的内容结合。\n\n总之，LangChain 是一个功能强大的框架，旨在使大模型的开发和应用更加高效和灵活，特别适合希望在其项目中利用自然语言处理能力的开发者。' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 397, 'prompt_tokens': 29, 'total_tokens': 426, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio

## 5.3 使用输出解析器

In [5]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser,JsonOutputParser

# 初始化模型
llm = ChatOpenAI(model="gpt-4o-mini")

# 创建提示模板
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者。"),
    ("user", "{input}")
])

# 使用输出解析器
# output_parser = StrOutputParser()
output_parser = JsonOutputParser()

# 将其添加到上一个链中
# chain = prompt | llm
chain = prompt | llm | output_parser

# 调用它并提出同样的问题。答案是一个字符串，而不是ChatMessage
# chain.invoke({"input": "LangChain是什么?"})
chain.invoke({"input": "LangChain是什么? 用JSON格式回复，问题用question，回答用answer"})

{'question': 'LangChain是什么?',
 'answer': 'LangChain是一个用于构建语言模型应用的框架，旨在帮助开发者更高效地创建、管理和部署与自然语言处理相关的应用程序。该框架支持多种功能模块，包括链式任务处理、问答系统、对话管理和数据处理等，能够与不同的语言模型集成，如OpenAI的GPT系列、Hugging Face的Transformers等。LangChain通过构建高层次的抽象，使开发者能够灵活组合和重用组件，以满足不同的应用需求。'}

## 5.4 使用向量存储

In [None]:
# 导入和使用 WebBaseLoader
from langchain_community.document_loaders import WebBaseLoader
import bs4

loader = WebBaseLoader(
        web_path="http://legal.people.com.cn/n1/2020/0602/c42510-31731656.html",
        bs_kwargs=dict(parse_only=bs4.SoupStrainer("div"))
    )
docs = loader.load()

print(docs)

# 对于嵌入模型，这里通过 API调用
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")


from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 使用分割器分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
documents = text_splitter.split_documents(docs)
print(len(documents))
# 向量存储  embeddings 会将 documents 中的每个文本片段转换为向量，并将这些向量存储在 FAISS 向量数据库中
vector = FAISS.from_documents(documents, embeddings)

23456
[Document(metadata={'source': 'http://legal.people.com.cn/n1/2020/0602/c42510-31731656.html'}, page_content='\n\n\n\n\n\n\n\n\n\n\n\n首页\n\n党政\n\n\n党网 ・ 时政\n人事\n反腐\n理论\n党史\n党建\n\n\n\n要闻\n\n\n经济 ・ 科技\n社会 ・ 法治\n文旅 ・ 体育\n健康 ・ 生活\n国际\n军事\n港澳\n台湾\n教育\n房产\n科普\n\n\n\n观点\n\n\n人民网评\n三评\n人民财评\n人民来论\n人民访谈\n\n\n\n互动\n\n\n领导留言板\n党建云\n强国论坛\n维权\n\n\n\n可视化\n\n\n视频\n图片\n图解\n\n\n\n地方\n\n\n京\n津\n冀\n晋\n蒙\n辽\n吉\n黑\n沪\n苏\n浙\n皖\n闽\n赣\n鲁\n豫\n鄂\n湘\n粤\n桂\n琼\n渝\n川\n黔\n滇\n藏\n陕\n甘\n青\n宁\n新\n鹏\n雄安\n\n\n举报专区多语言\n\n\n\n\n\n\n\n\n\n\n|\n\n\n\n\n\n\n\n\n\n\n\n合作网站\n\n\n毛主席纪念堂\n周恩来纪念网\n邓小平纪念网\n人大新闻网\n工会新闻网\n中国侨联\n学习强国\n中共中央党史和文献研究院\n中组部12380举报网\n全国哲学社科工作办\n中国统一战线新闻网\n旗帜网\n国家保密局\n人事考试网\n科普中国\n知识产权\n中国城市网\n中国国家人文地理\n\n\n登录\n\n\n\n\n\n\n\n退出\n\n\n\n\n\n\n\n\n\n\n人民网+\n中国共产党新闻网\n领导留言板\n强国论坛\n人民视频\n人民智云\n人民日报报系\n\n人民日报\n人民日报海外版\n中国汽车报\n中国能源报\n健康时报\n证券时报\n国际金融报网\n讽刺与幽默\n中国城市报\n新闻战线\n人民论坛\n环球人物\n中国经济周刊\n民生周刊\n国家人文历史\n人民周刊\n旗下网站\n\n国家重点实验室\n环球网\n海外网\n人民图片\n人民视觉\n人民网研究院\n\n\n\n\n\n\n\n人民网\n\n\n\n\n\n中华人民共和国民法典\n（2020年5月28日第

## 5.5 RAG(检索增强生成)

In [59]:
from langchain_core.prompts import PromptTemplate

retriever = vector.as_retriever()
retriever.search_kwargs = {"k": 3}
docs = retriever.invoke("建设用地使用权是什么？")

# for i,doc in enumerate(docs):
#     print(f"⭐第{i+1}条规定：")
#     print(doc)

# 6.定义提示词模版
prompt_template = """
你是一个问答机器人。
你的任务是根据下述给定的已知信息回答用户问题。
确保你的回复完全依据下述已知信息。不要编造答案。
如果下述已知信息不足以回答用户的问题，请直接回复"我无法回答您的问题"。

已知信息:
{info}

用户问：
{question}

请用中文回答用户问题。
"""
# 7.得到提示词模版对象
template = PromptTemplate.from_template(prompt_template)

# 8.得到提示词对象
prompt = template.format(info=docs, question='建设用地使用权是什么？')

## 9. 调用LLM
response = llm.invoke(prompt)
print(response.content)

建设用地使用权是指依法设立的，允许权利人在一定期限内对特定土地进行使用和开发的权利。该权利可以通过出让或划拨等方式设立，使用者有义务合理利用土地，并遵循法律和合同规定。在建设用地使用权登记后，权利人将获得权属证书，充分表现其对该土地的使用权。


## 5.6 使用Agent

> 在你的 langchainhub-0.1.18 版本中，不能直接导出 pull 方法。为什么不能直接导出：
#### 这样不行 ❌
from langchainhub import pull  # ImportError
#### 只能这样 ✅
import langchainhub as hub
prompt = hub.pull("...")
#### 原因：
1. 在你的版本中，pull 函数没有在模块的 __init__.py 中被导出到顶级命名空间
2. 它可能在内部子模块中，只能通过 hub.pull() 访问

In [84]:

import langchain
from langchain_core.tools.retriever import create_retriever_tool

# 检索器工具
retriever_tool = create_retriever_tool(
    retriever,
    "CivilCodeRetriever",
    "搜索有关中华人民共和国民法典的信息。关于中华人民共和国民法典的任何问题，您必须使用此工具!",
)

tools = [retriever_tool]


import langchainhub

from langchain.agents import create_agent
# from langchain.agents import AgentExecutor

# https://smith.langchain.com/hub
prompt = langchainhub.pull("hwchase17/openai-functions-agent")

agent = create_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)


# 运行代理
agent_executor.invoke({"input": "建设用地使用权是什么"})

# from langgraph.prebuilt import create_react_agent  # 官方推荐的替代执行循环

# # 保持 llm 与 tools 不变
# graph = create_react_agent(llm, tools)
# # 与原来 invoke 思路一致，只是输入为对话消息
# result = graph.invoke({"messages": [("user", "建设用地使用权是什么")]})


AttributeError: module 'langchainhub' has no attribute 'pull'

In [None]:

import langchain
from langchain_core.tools.retriever import create_retriever_tool

# 检索器工具
retriever_tool = create_retriever_tool(
    retriever,
    "CivilCodeRetriever",
    "搜索有关中华人民共和国民法典的信息。关于中华人民共和国民法典的任何问题，您必须使用此工具!",
)

tools = [retriever_tool]


import langchainhub as hub

from langchain.agents import create_agent
# from langchain.agents import AgentExecutor

# https://smith.langchain.com/hub
prompt = hub.pull("hwchase17/openai-functions-agent")

agent = create_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)


# 运行代理
agent_executor.invoke({"input": "建设用地使用权是什么"})

# from langgraph.prebuilt import create_react_agent  # 官方推荐的替代执行循环

# # 保持 llm 与 tools 不变
# graph = create_react_agent(llm, tools)
# # 与原来 invoke 思路一致，只是输入为对话消息
# result = graph.invoke({"messages": [("user", "建设用地使用权是什么")]})


AttributeError: module 'langchainhub' has no attribute 'pull'