# 1. 加载库

In [1]:
import langchain
import openai
# 初次打印加载
print(langchain.__version__)
print(openai.__version__)

0.3.25
1.109.1


# 2. 调用langchain接口

In [2]:
#导入 dotenv 库的 load_dotenv 函数，用于加载环境变量文件（.env）中的配置
import dotenv
from langchain_openai import ChatOpenAI
import os

dotenv.load_dotenv()  #加载当前目录下的 .env 文件

os.environ['OPENAI_API_KEY'] = os.getenv("OPENAI_API_KEY")

# 创建大模型实例
llm = ChatOpenAI(model="gpt-4o-mini")  # 默认使用 gpt-3.5-turbo

# 直接提供问题，并调用llm
response = llm.invoke("文海旭是大帅哥？")
print(response)

content='文海旭是一位备受关注的人物，但关于他的具体评价和外貌感受因人而异。每个人对帅哥的定义和看法都不同。如果你对他的某些特质或成就感兴趣，可以分享更多信息！' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 55, 'prompt_tokens': 15, 'total_tokens': 70, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_560af6e559', 'finish_reason': 'stop', 'logprobs': None} id='run--0bd6e0db-b1e2-4f14-a117-e73771f5c4f6-0' usage_metadata={'input_tokens': 15, 'output_tokens': 55, 'total_tokens': 70, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}}


# 3. 使用提示词模板

In [3]:
from langchain_core.prompts import ChatPromptTemplate

# 需要注意的一点是，这里需要指明具体的role，在这里是system和用户
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者"),
    ("user", "{input}")  # {input}为变量
])

# 我们可以把prompt和具体llm的调用和在一起。
chain = prompt | llm
message = chain.invoke({"input": "大模型中的LangChain是什么?"})
print(message)

# print(type(message))

content='LangChain 是一个用于构建与语言模型（如 GPT-3、GPT-4 等）交互的应用程序的框架。它提供了一系列工具和组件，使开发者能够更容易地创建复杂的应用程序，这些应用程序能够利用大语言模型的能力来处理自然语言任务。\n\n### LangChain 的主要特点\n\n1. **模块化设计**：LangChain 将不同的功能模块化，开发者可以根据需要选择和组合这些模块。例如，用户可以选择特定的文本生成、文本分析或对话管理模块。\n\n2. **链式调用**：LangChain 允许将多个操作链式组合，这样可以在一个流程中依次处理不同的任务。这种方式使得处理复杂逻辑变得更加简单和直观。\n\n3. **灵活的集成**：LangChain 可以与多种语言模型和外部 API 集成，使得开发者能够利用现有的服务和数据源，扩展应用的功能。\n\n4. **状态管理**：在对话或交互式应用中，LangChain 提供了状态管理功能，帮助开发者跟踪用户的上下文和交互历史。\n\n5. **支持多种输出格式**：LangChain 可以生成不同格式的输出，包括文本、表格、图像等，方便开发者根据需求定制输出结果。\n\n### 应用场景\n\n- **对话系统**：构建智能聊天机器人，能够处理用户的自然语言输入并提供实时响应。\n- **内容生成**：自动生成文章、报告或其他文本内容，提升内容创作的效率。\n- **数据分析与处理**：利用语言模型对数据进行自然语言查询和分析，生成报告或摘要。\n\n### 总结\n\nLangChain 是一个强大的框架，旨在简化与大语言模型的交互过程，使开发者能够更高效地构建各种基于自然语言处理的应用程序。通过其模块化和链式设计，LangChain 为开发者提供了灵活性和可扩展性，适应不同的业务需求和应用场景。' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 449, 'prompt_tokens': 29, 'total_tokens': 478, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audi

# 4. 使用输出解析器

In [4]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser,JsonOutputParser

# 初始化模型
llm = ChatOpenAI(model="gpt-4o-mini")

# 创建提示模板
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者。"),
    ("user", "{input}")
])

# 使用输出解析器
# output_parser = StrOutputParser()
output_parser = JsonOutputParser()

# 将其添加到上一个链中
# chain = prompt | llm
chain = prompt | llm | output_parser

# 调用它并提出同样的问题。答案是一个字符串，而不是ChatMessage
# chain.invoke({"input": "LangChain是什么?"})
chain.invoke({"input": "LangChain是什么? 用JSON格式回复，问题用question，回答用answer"})

{'question': 'LangChain是什么?',
 'answer': 'LangChain是一个用于构建基于语言模型的应用程序的框架，旨在简化与大语言模型（LLM）交互的过程。它提供了一系列模块和工具，帮助开发者更轻松地处理文本生成、对话管理、数据管道和与其他系统的集成。LangChain支持多种语言模型，可以与不同的数据源和API进行交互，从而构建出功能丰富的应用程序。'}

# 5. 使用向量存储

In [15]:
# 导入和使用 WebBaseLoader
from langchain_community.document_loaders import WebBaseLoader
import bs4

# 注意这里的抓去逻辑肯定是有问题的，因为捕捉到的chunk数量太少
URL = "https://zrzy.ankang.gov.cn/Content-102988.html"

# 更强的请求头，尽量避免拿到“壳模板页”
headers = {
    "User-Agent": (
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
        "AppleWebKit/537.36 (KHTML, like Gecko) "
        "Chrome/123.0.0.0 Safari/537.36"
    ),
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
    "Cache-Control": "no-cache",
    "Pragma": "no-cache",
    "Referer": "https://www.gov.cn/",
    "Connection": "keep-alive",
}

# 1) 抓整页（此处不加 SoupStrainer，先拿到完整 HTML）
loader = WebBaseLoader(
    web_path=URL,
    bs_kwargs={},  # 不在下载阶段筛DOM，避免把正文直接过滤没了
    requests_kwargs={"headers": headers, "timeout": 30},
)
docs = loader.load()
print(docs)

[Document(metadata={'source': 'https://zrzy.ankang.gov.cn/Content-102988.html', 'title': '什么是建设用地使用权？-安康市自然资源局', 'language': 'No language found.'}, page_content='\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n什么是建设用地使用权？-安康市自然资源局\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n中华人民共和国自然资源部 \u3000|\u3000 陕西省自然资源厅 \u3000|\u3000 安康市人民政府\n\n\n\n\n简体\n|\n繁体\n\xa0\n无障碍浏览\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n本站支持IPV6\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n网站首页\n\n组织机构\n\n\n\n\n\n办公室\n人事教育科\n政策法规和督察科\n国土空间规划科\n自然资源确权登记科\n自然资源调查监测科\n自然资源利用科\n\n\n\n\n\n主要职能\n领导简介\n行政机构\n直属机构\n领导活动\n\n\n\n\n\n新闻中心\n\n\n\n\n\n宁陕县局：加强党建引领，完善长效…关于《新建西安至安康高速铁路xkZQ-…市自然资源局专题调度安排地灾防治…\n\n\n\n\n\n本地新闻\n县区新闻\n中省要闻\n通知公告\n\n\n\n\n\n政策法规\n\n\n\n\n\n纪法百科·一图读懂应知应会党纪法…《陕西省工程建设项目“多测合一”…新矿产资源法的十大亮点\n\n\n\n\n\n党纪法规\n\n组织人事政策法规\n自然资源政策法规\n政策解读\n\n\n\n\n\n主要业务\n\n\n\n\n\n张进--不动产权证书遗失公告关于岚皋县恒天瑞矿业有限责任公司…关于平利县三里垭石灰石矿平利县三…\n\n\n\n\n\n土地管理\n矿产管理\n不动产登记\n地质环境\n移民(脱贫)搬迁\n测绘地理信息\n\n\n\n\n\n政府信息公开\n\n\n\n\n\n安康市自然资源局机关和局属单位202…安康市自然资源局

In [16]:
# 对于嵌入模型，这里通过 API调用
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")


from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 使用分割器分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
documents = text_splitter.split_documents(docs)
print(len(documents))
# 向量存储  embeddings 会将 documents 中的每个文本片段转换为向量，并将这些向量存储在 FAISS 向量数据库中
vector = FAISS.from_documents(documents, embeddings)

6


In [20]:
# 这里说明了很重要的一点，loader也需要好好配置cookie参数，不然无法抓获任何有效内容!!!


# 导入和使用 WebBaseLoader
from langchain_community.document_loaders import WebBaseLoader
import bs4

loader = WebBaseLoader(
        web_path="https://zrzy.ankang.gov.cn/Content-102988.html",
        bs_kwargs=dict(parse_only=bs4.SoupStrainer(id="UCAP-CONTENT"))
    )
docs = loader.load()
print(docs)

# 对于嵌入模型，这里通过 API调用
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")


from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 使用分割器分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
documents = text_splitter.split_documents(docs)
print(len(documents))
# 向量存储  embeddings 会将 documents 中的每个文本片段转换为向量，并将这些向量存储在 FAISS 向量数据库中
vector = FAISS.from_documents(documents, embeddings)

[Document(metadata={'source': 'https://zrzy.ankang.gov.cn/Content-102988.html'}, page_content='')]
0


IndexError: list index out of range

# 6. RAG检索

In [17]:
from langchain_core.prompts import PromptTemplate

retriever = vector.as_retriever()
retriever.search_kwargs = {"k": 3}
docs = retriever.invoke("建设用地使用权是什么？")

# for i,doc in enumerate(docs):
#     print(f"⭐第{i+1}条规定：")
#     print(doc)

# 6.定义提示词模版
prompt_template = """
你是一个问答机器人。
你的任务是根据下述给定的已知信息回答用户问题。
确保你的回复完全依据下述已知信息。不要编造答案。
如果下述已知信息不足以回答用户的问题，请直接回复"我无法回答您的问题"。

已知信息:
{info}

用户问：
{question}

请用中文回答用户问题。
"""
# 7.得到提示词模版对象
template = PromptTemplate.from_template(prompt_template)

# 8.得到提示词对象
prompt = template.format(info=docs, question='建设用地使用权是什么？')

## 9. 调用LLM
response = llm.invoke(prompt)
print(response.content)

建设用地使用权是指利用土地营造建筑物、构筑物和其他设施建设的权利。建设用地使用权分为国有土地建设用地使用权和集体土地建设用地使用权。国有土地建设用地使用权是指公民、法人和其他经济组织进行非农业建设依法使用国有土地的权利；而集体土地建设用地使用权是指农民集体和个人进行非农业生产建设依法使用集体所有的土地的权利。法律对集体土地建设用地使用权的主体有较为严格的限制，一般只能由本集体及其所属成员拥有使用权。


# 7. Agent

In [21]:
from langchain.tools.retriever import create_retriever_tool

# 检索器工具
retriever_tool = create_retriever_tool(
    retriever,
    "CivilCodeRetriever",
    "搜索有关中华人民共和国民法典的信息。关于中华人民共和国民法典的任何问题，您必须使用此工具!",
)

tools = [retriever_tool]

from langchain import hub
from langchain.agents import create_openai_functions_agent
from langchain.agents import AgentExecutor

# https://smith.langchain.com/hub
prompt = hub.pull("hwchase17/openai-functions-agent")

agent = create_openai_functions_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 运行代理
agent_executor.invoke({"input": "建设用地使用权是什么"})





[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `CivilCodeRetriever` with `{'query': '建设用地使用权'}`


[0m[36;1m[1;3m办事流程指南
表格下载





互动交流





领导信箱：是党和政府密切联系群众的重要桥梁，是公众反映情况，提出意见、建议的重要渠道。





领导信箱
我要写信
百姓关注
投诉建议
舆情回应
调查征集
政策吹风会
政务咨询














您当前位置：安康市自然资源局 > 百姓关注 > 业务类









什么是建设用地使用权？

时间：2016-05-18 17:40 作者：安康市国土资源局 来源：本站原创 分享至：

建设用地使用权是指利用土地营造建筑物、构筑物和其他设施建设的权利。建设用地使用权分为国有土地建设用地使用权和集体土地建设用地使用权。国有土地建设用地使用权是指公民、法人和其他经济组织进行非农业建设依法使用国有土地的权利。集体土地建设用地使用权是指农民集体和个人进行非农业生产建设依法使用集体所有的土地的权利。法律对集体土地建设用地使用权的主体有较为严格的限制，一般只能由本集体及其所属成员拥有使用权。全民所有制单位、城市集体所有制单位和其他经济组织进行建设，需要使用集体土地，必须经过征用，使之转为国有土地后才能取得使用权，即国有土地使用权。一般不允许全民所有制单位或城市集体所有制单位以及其他经济组织拥有集体土地建设用地使用权。  



















网站首页


组织机构


主要职能


领导简介


行政机构


直属机构


领导活动




新闻中心


本地新闻


县区新闻


中省要闻


通知公告




政策法规


党纪法规


组织人事政策法规


自然资源政策法规



政策解读




主要业务


土地管理

什么是建设用地使用权？-安康市自然资源局






















中华人民共和国自然资源部 　|　 陕西省自然资源厅 　|　 安康市人民政府




简体
|
繁体
 
无障碍浏览




















本站支持IPV6





















{'input': '建设用地使用权是什么',
 'output': '建设用地使用权是指利用土地进行建筑物、构筑物和其他设施建设的权利。根据用途和土地性质，建设用地使用权可以分为国有土地建设用地使用权和集体土地建设用地使用权。\n\n1. **国有土地建设用地使用权**：这是指公民、法人和其他经济组织在法律允许的情况下，进行非农业建设而使用的国有土地的权利。\n\n2. **集体土地建设用地使用权**：这是指农民集体和个人在法律允许的情况下，进行非农业生产建设而使用集体所有的土地的权利。法律对集体土地建设用地使用权的主体有较为严格的限制，通常只能由本集体及其成员拥有。\n\n需要注意的是，如果全民所有制单位或城市集体所有制单位和其他经济组织想要使用集体土地，必须经过征用程序，使其转为国有土地后才能取得相应的使用权。'}