# LangChain-HelloWorld

## 1. 获取大模型

In [1]:
#导入 dotenv 库的 load_dotenv 函数，用于加载环境变量文件（.env）中的配置
import dotenv
from langchain_openai import ChatOpenAI
import os

# 加载环境变量文件
dotenv.load_dotenv()

# 获取open-ai的api密钥
os.environ['OPENAI_API_KEY'] = os.getenv('OPENAI_API_KEY')

# 创建 ChatOpenAI 对象
llm = ChatOpenAI(model="gpt-4o-mini")

# 直接提供问题，并调用llm
response = llm.invoke("什么是大模型？")

# 打印结果
print(response)

content='“大模型”通常指的是在机器学习和深度学习领域中，尤其是自然语言处理和计算机视觉等领域，参数数量非常庞大的模型。这类模型通常使用深度神经网络架构，能够处理复杂的任务和大量的数据。\n\n大模型的特点包括：\n\n1. **参数数量庞大**：大模型通常拥有数亿到数万亿的参数，这使得它们可以捕捉到数据中的丰富特征和复杂模式。\n\n2. **自监督学习**：许多大模型采用自监督学习的方法进行预训练，这使得它们能够在大规模无标签数据上进行学习，并在特定任务上进行微调。\n\n3. **迁移学习**：大模型通常可以通过迁移学习的方式在多个任务上表现良好，只需在特定任务上进行少量的微调。\n\n4. **计算资源需求高**：训练和运行大模型需要大量的计算资源，包括高性能的GPU或TPU，以及大容量的内存和存储。\n\n5. **应用广泛**：大模型在许多领域都有应用，包括自然语言处理（如GPT、BERT）、计算机视觉（如大型卷积神经网络）、语音识别等。\n\n由于其强大的能力和灵活性，大模型近年来在人工智能研究和应用中引发了广泛的关注和讨论。' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 299, 'prompt_tokens': 12, 'total_tokens': 311, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_provider': 'openai', 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_29330a9688', 'id': 'chatcmpl-Csko38kLrk3ZcL9rkFs6oShnMrDwE', 'service_tier': '

## 2. 使用提示词模板
创建prompt template, 并引入一些变量到prompt template中，这样在应用的时候更加灵活。


In [2]:
from langchain_core.prompts import ChatPromptTemplate

# 需要注意的一点是，这里需要指明具体的role，在这里是system和用户
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者"),
    ("user", "{input}") # {input}为变量
])

# 把prompt和具体llm的调用和在一起。
chain = prompt | llm
message = chain.invoke({"input": "大模型中的LangChain是什么?"})

print(message)

content='LangChain 是一个用于构建与大语言模型（如 OpenAI 的 GPT 系列、Google 的 BERT 等）交互的应用程序的框架。它提供了一系列工具和组件，使开发者能够更容易地创建、调试和部署基于语言模型的应用。LangChain 通过构建在语言模型之上的链和管道，帮助用户实现复杂的自然语言处理（NLP）任务。\n\n### LangChain 的主要特点：\n\n1. **链式调用**：LangChain 允许开发者将多个任务以链式的方式组合在一起，例如把文本生成、信息检索、数据处理等多个步骤连接成一个完整的工作流。\n\n2. **组件化架构**：LangChain 具有高度可配置的组件，如代理、工具、文档检索等，使得开发者能够根据需求灵活组合和扩展功能。\n\n3. **支持多种模型**：LangChain 支持多种类型的大语言模型，允许用户根据自己的需要选择合适的模型。\n\n4. **易于集成**：这个框架提供了一些与外部 API 和数据源的集成功能，使得开发者可以方便地将其他服务与语言模型结合使用。\n\n5. **用户友好的 API**：LangChain 提供了简洁的 API，使得开发者能够快速上手，减少学习成本。\n\n6. **社区和文档支持**：LangChain 拥有活跃的社区和丰富的文档资源，帮助开发者在使用过程中获取支持和灵感。\n\n### 应用场景：\n\nLangChain 可用于多种场景，包括但不限于：\n\n- 聊天机器人和虚拟助手\n- 文本摘要和处理\n- 问答系统\n- 代码生成与辅助\n- 内容创作与生成\n\n总之，LangChain 是一个强大而灵活的框架，旨在为开发者提供创建与大语言模型相关的应用的工具和支持。' additional_kwargs={'refusal': None} response_metadata={'token_usage': {'completion_tokens': 422, 'prompt_tokens': 29, 'total_tokens': 451, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0

In [3]:
print(type(message))

<class 'langchain_core.messages.ai.AIMessage'>


## 3. 使用输出解析器

In [4]:
from langchain_core.output_parsers import StrOutputParser, JsonOutputParser

# 使用输出解释器
output_parser = StrOutputParser()

# 将其添加到上一个链中
chain = chain | output_parser

# 调用并提出同样的问题
chain.invoke({"input": "LangChain是什么？"})

'LangChain 是一个用于构建与大型语言模型（LLMs）交互的应用程序的框架。它提供了一系列的工具和组件，帮助开发者设计、构建和管理基于语言模型的应用程序，特别是在处理文本生成、问答、对话系统等任务时。\n\nLangChain 的主要功能和特点包括：\n\n1. **模块化设计**：LangChain 采用/modules/组件化的设计，使得开发者可以根据需求选择不同功能的模块，比如文本生成、数据库连接、API 接口等。\n\n2. **链式调用**：可以将多个组件串联起来，形成一个处理管道（Chain），以实现更复杂的功能。例如，可以先将输入文本传递给一个预处理模块，然后再传递给语言模型，最后将结果格式化再输出。\n\n3. **支持多种后端**：LangChain 支持与多种大型语言模型的集成，如 OpenAI 的 GPT 系列、Hugging Face 和其他基于 Transformers 的模型，使得开发者可以根据项目需求选择合适的模型。\n\n4. **内置工具和模板**：LangChain 提供了一些内置的工具和模板，帮助开发者快速构建常见的应用场景，比如对话系统、文本摘要等。\n\n5. **插件系统**：支持与外部服务或数据库的集成，允许开发者创建功能丰富的应用程序。\n\n6. **易于扩展**：开发者可以根据自己的需求扩展框架的功能，创建符合特定场景的自定义组件。\n\nLangChain 适合于希望利用大型语言模型快速开发原型或生产应用程序的开发者，它能够显著缩短开发周期并提高应用程序的功能性和灵活性。'

In [5]:
# 使用输出解释器
output_parser = JsonOutputParser()

# 将其添加到上一个链中
chain = prompt | llm | output_parser

# 调用并提出同样的问题
chain.invoke({"input": "LangChain是什么？用JSON格式回复，问题用question，回答用answer"})

{'question': 'LangChain是什么？',
 'answer': 'LangChain是一个框架，旨在帮助开发者构建基于语言模型的应用程序。它提供了一系列工具和组件，使开发者能够更容易地集成和利用各种语言模型的能力，包括文本生成、问答、数据处理等。同时，LangChain支持与外部数据源和API的交互，从而扩展其功能，适合创建聊天机器人、文本分析工具和其他自然语言处理应用。'}

In [6]:
# 创建提示模板
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者。输出格式要求：{format_instructions}"),
    ("user", "{input}")
])

# 使用输出解释器
output_parser = JsonOutputParser()

# 将其添加到上一个链中
chain = prompt | llm | output_parser

# 调用并提出同样的问题
chain.invoke({"input": "LangChain是什么？", "format_instructions": output_parser.get_format_instructions()})

{'LangChain': {'description': 'LangChain是一个用于构建应用程序的框架，支持各种语言模型的集成与管理。它提供了一系列工具和组件，旨在简化和加速开发复杂的自然语言处理（NLP）应用的过程。',
  'features': ['支持多种语言模型API的集成，比如OpenAI、Hugging Face等。',
   '提供管道功能，可以将多个处理步骤结合在一起。',
   '支持链式调用，使得处理流程可以根据特定条件动态调整。',
   '内置了多种数据源的支持，包括文本文件、数据库和网页抓取等。',
   '提供了调试工具，帮助开发者跟踪和分析模型的输出和行为。'],
  'use_cases': ['聊天机器人', '信息提取', '内容生成', '文本分类', '问答系统'],
  'benefits': ['提高开发效率，减少重复工作。',
   '提供强大的灵活性，适应多种应用场景。',
   '促进团队协作，通过标准化组件降低学习曲线。'],
  'installation': {'requirements': 'Python 3.6+',
   'command': 'pip install langchain'},
  'documentation': '访问官方文档以获取更多信息和示例代码。'}}

## 4. 使用向量存储
使用一个简单的本地向量存储 FAISS

In [8]:
# 导入或使用WebBaseLoader，是从网页（URL）加载文本内容的文档加载器
from langchain_community.document_loaders import WebBaseLoader
import bs4 # Beautiful Soup 4 的简称，它是 Python 中一个非常流行且强大的 HTML/XML 解析库，主要用于 从网页中提取结构化数据（即“网页抓取”或“网络爬虫”）。

# 从指定 URL 加载网页内容并转换为文档格式
loader = WebBaseLoader(
    web_path = "https://www.gov.cn/yaowen/liebiao/202512/content_7053279.htm", # 网页路径
    # bs_kwargs=dict(parse_only=bs4.SoupStrainer(d="UCAP-CONTENT")) # bs解析器的参数配置
)

# 执行加载操作
docs = loader.load()
print(docs)

[Document(metadata={'source': 'https://www.gov.cn/yaowen/liebiao/202512/content_7053279.htm', 'title': '新年戏曲晚会举行 习近平李强赵乐际王沪宁蔡奇丁薛祥李希韩正出席观看__中国政府网', 'description': '2026年新年戏曲晚会30日晚在国家大剧院举行。党和国家领导人习近平、李强、赵乐际、王沪宁、蔡奇、丁薛祥、李希、韩正等，同首都各界群众一起观看演出，喜迎新年的到来。', 'language': 'No language found.'}, page_content='\n\n\n\n\n\n新年戏曲晚会举行 习近平李强赵乐际王沪宁蔡奇丁薛祥李希韩正出席观看__中国政府网\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n首页\n|\n简\n|\n繁\n|\nEN\n|\n登录\n\n\n\n个人中心\n退出\n\n\n|\n邮箱\n|\n无障碍\n\n\n\n\n\nEN\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nhttps://www.gov.cn/\n\n\n\n\n\n\n\n\n\n\n\n\n                新年戏曲晚会举行 习近平李强赵乐际王沪宁蔡奇丁薛祥李希韩正出席观看\n            \n\n                2025-12-30 23:30\n                来源： \n                    新华社\n                \n\n字号：默认\n大\n超大\n\n|\n打印\n|\n\n\n\n\xa0\n\xa0\n\xa0\n\n\n\n\n\n新年戏曲晚会在京举行习近平李强赵乐际王沪宁蔡奇丁薛祥李希韩正出席观看新华社北京12月30日电\u20022026年新年戏曲晚会30日晚在国家大剧院举行。党和国家领导人习近平、李强、赵乐际、王沪宁、蔡奇、丁薛祥、李希、韩正等，同首都各界群众一起观看演出，喜迎新年的到来。夜色中的国家大剧院流光溢彩，剧场内暖意融融。19时45分许，习近平等党和国家领导人来到晚会现场

In [9]:
# 通过API调用嵌入模型
from langchain_openai import OpenAIEmbeddings

# 创建OpenAIEmbeddings对象，将文本转换为数值向量，用于语义相似性计算，本质是一个Transformer模型
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

In [10]:
# FAISS（Facebook AI Similarity Search）向量数据库, 用于高效存储和检索向量嵌入
from langchain_community.vectorstores import FAISS
# 创建一个文本分块器，将长文本拆分为更小的片段
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 使用分割器分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) # 每个文本块的最大字符数为500 相邻文本块之间重叠50个字符

documents = text_splitter.split_documents(docs)
print(documents)

[Document(metadata={'source': 'https://www.gov.cn/yaowen/liebiao/202512/content_7053279.htm', 'title': '新年戏曲晚会举行 习近平李强赵乐际王沪宁蔡奇丁薛祥李希韩正出席观看__中国政府网', 'description': '2026年新年戏曲晚会30日晚在国家大剧院举行。党和国家领导人习近平、李强、赵乐际、王沪宁、蔡奇、丁薛祥、李希、韩正等，同首都各界群众一起观看演出，喜迎新年的到来。', 'language': 'No language found.'}, page_content='新年戏曲晚会举行 习近平李强赵乐际王沪宁蔡奇丁薛祥李希韩正出席观看__中国政府网\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n首页\n|\n简\n|\n繁\n|\nEN\n|\n登录\n\n\n\n个人中心\n退出\n\n\n|\n邮箱\n|\n无障碍\n\n\n\n\n\nEN\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nhttps://www.gov.cn/\n\n\n\n\n\n\n\n\n\n\n\n\n                新年戏曲晚会举行 习近平李强赵乐际王沪宁蔡奇丁薛祥李希韩正出席观看\n            \n\n                2025-12-30 23:30\n                来源： \n                    新华社\n                \n\n字号：默认\n大\n超大\n\n|\n打印\n|'), Document(metadata={'source': 'https://www.gov.cn/yaowen/liebiao/202512/content_7053279.htm', 'title': '新年戏曲晚会举行 习近平李强赵乐际王沪宁蔡奇丁薛祥李希韩正出席观看__中国政府网', 'description': '2026年新年戏曲晚会30日晚在国家大剧院举行。党和国家领导人习近平、李强、赵乐际、王沪宁、蔡奇、丁薛祥、李希、韩正等，同首都

In [14]:
# 向量存储 embeddings 会将 documents 中的每个文本片段转换为向量，并将这些向量存储在 FAISS 向量数据库中
# 考虑使用本地模型避免API限制
from langchain_huggingface import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
vector = FAISS.from_documents(documents, embeddings)
print(vector)

<langchain_community.vectorstores.faiss.FAISS object at 0x16c109660>


## 5.RAG(检索增强生成）
基于外部知识，增强大模型回复

In [15]:
from langchain_core.prompts import PromptTemplate

# 从 FAISS 向量库创建检索器对象
retriever = vector.as_retriever()
# 设置检索返回的文档数量为 3 个
retriever.search_kwargs = {"k": 3}
# 执行查询：搜索与问题最相关的文档
docs = retriever.invoke("新年戏曲晚会有谁出行?")

# 定义提示词模版
prompt_template = """
你是一个问答机器人。
你的任务是根据下述给定的已知信息回答用户问题。
确保你的回复完全依据下述已知信息。不要编造答案。
如果下述已知信息不足以回答用户的问题，请直接回复"我无法回答您的问题"。
已知信息:
{info}
用户问：
{question}
请用中文回答用户问题。
"""
# 得到提示词模版对象
template = PromptTemplate.from_template(prompt_template)
# 得到提示词对象
prompt = template.format(info=docs, question='新年戏曲晚会有谁出行?')
## 调用LLM
response = llm.invoke(prompt)
print(response.content)

新年戏曲晚会出席的领导人有习近平、李强、赵乐际、王沪宁、蔡奇、丁薛祥、李希和韩正等。


## 6.使用Agent

In [None]:
# 版本变动，许多函数已不可用，后面再看
from langchain_core.tools.retriever import create_retriever_tool

# 检索器工具
retriever_tool = create_retriever_tool(
retriever,
"CivilCodeRetriever",
"搜索有关新年戏曲晚的任何问题，您必须使用此工具!",
)
tools = [retriever_tool]
from langchain_core.tools import hub
from langchain.agents import create_agent
from langchain_core.agents import AgentExecutor
# https://smith.langchain.com/hub
prompt = hub.pull("hwchase17/openai-functions-agent")
agent = create_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
# 运行代理
agent_executor.invoke({"input": "新年戏曲晚会有谁出行?"})


In [5]:
import langchain
print(langchain.__version__)

0.3.25
