In [None]:
# 字符串提示词模版: PromptTemplate
from langchain_core.prompts import PromptTemplate

prompt_template = PromptTemplate.from_template("Tell me a joke about {topic}")

prompt_template.invoke({"topic": "cats"})

  from .autonotebook import tqdm as notebook_tqdm


StringPromptValue(text='Tell me a joke about cats')

In [2]:
# 聊天提示词模版：ChatPromptTemplate
from langchain_core.prompts import ChatPromptTemplate

prompt_template = ChatPromptTemplate.from_messages([
    ("system", "You are a helpful assistant"),
    ("user", "Tell me a joke about {topic}")
])

prompt_template.invoke({"topic": "cats"})

ChatPromptValue(messages=[SystemMessage(content='You are a helpful assistant', additional_kwargs={}, response_metadata={}), HumanMessage(content='Tell me a joke about cats', additional_kwargs={}, response_metadata={})])

In [4]:
# 消息占位符
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.messages import HumanMessage

prompt_template = ChatPromptTemplate.from_messages([
    ("system", "You are a helpful assistant"),
    MessagesPlaceholder("msgs")
])

prompt_template.invoke({"msgs": [HumanMessage(content="hi!")]})

ChatPromptValue(messages=[SystemMessage(content='You are a helpful assistant', additional_kwargs={}, response_metadata={}), HumanMessage(content='hi!', additional_kwargs={}, response_metadata={})])

In [5]:
# 一种不显式使用 MessagesPlaceholder 类来实现相同功能的替代方法是：，对上面那个Cell 版本的简化写法
prompt_template = ChatPromptTemplate.from_messages([
    ("system", "You are a helpful assistant"),
    ("placeholder", "{msgs}") # <-- This is the changed part
])



少量示例提示：few-shot-prompting

第二部分：输出解析器

In [None]:
# LangChain 有许多不同类型的输出解析器。
# 最常用的输出解析器是 StrOutputParser，它将模型的输出解析为字符串。
# 其他输出解析器包括 JSONOutputParser、CSVOutputParser 等。
# 这些输出解析器可以帮助您将模型的输出解析为更结构化的数据类型，例如 JSON 或 CSV。  
# 更详细的输出解析器，见官方文档： https://www.langchain.com.cn/docs/concepts/#%E8%BE%93%E5%87%BA%E8%A7%A3%E6%9E%90%E5%99%A8

In [None]:
# 聊天历史：ChatHistory， 很重要的点

# 大多数LLM应用程序具有对话界面。 
# 对话的一个基本组成部分是能够引用对话中早先引入的信息。
# 至少，一个对话系统应该能够直接访问一些过去消息的窗口。

In [None]:
# 文档加载器：DocumentLoader
# 很重要的点
# 文档手册详见：https://www.langchain.com.cn/docs/how_to/#%E6%96%87%E6%A1%A3%E5%8A%A0%E8%BD%BD%E5%99%A8

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # <-- Integration specific parameters here
)
data = loader.load()
print(data)

In [None]:
# 文本分割器：TextSplitter
# 很重要的点
# https://www.langchain.com.cn/docs/how_to/#%E6%96%87%E6%9C%AC%E5%88%86%E5%89%B2%E5%99%A8



一旦加载了文档，您通常会希望对其进行转换，以更好地适应您的应用程序。
# 例如，您可能希望将文档分割成较小的块，或者将文档转换为向量表示。
# 文本分割器：TextSplitter
# 很重要的点

### 文本分割器的原理
1. 将文本拆分成小的、语义上有意义的块（通常是句子）。
2. 开始将这些小块组合成一个更大的块，直到达到某个大小（通过某个函数来衡量）。
3. 一旦达到该大小，将该块作为独立的文本片段，然后开始创建一个新的文本块，并保持一些重叠（以保持块之间的上下文）。overloap

In [None]:
# 嵌入模型
# 嵌入模型创建文本片段的向量表示。
# 您可以将向量视为一个数字数组，它捕捉了文本的语义含义。 
# 通过这种方式表示文本，您可以执行数学运算，从而进行诸如搜索其他在意义上最相似的文本等操作。
# 嵌入模型的原理
# 1. 输入：嵌入模型的输入是一个文本片段（例如，一个句子或一个段落）。
# 2. 处理：模型将文本转换为一个向量表示。这通常涉及到将文本转换为一个数字数组，其中每个数字代表文本中的一个单词或子词。
# 3. 输出：嵌入模型的输出是一个向量，它捕捉了输入文本的语义含义。
# 4. 数学运算：一旦文本被转换为向量，您就可以执行数学运算，例如计算向量之间的相似度。
# 5. 应用：嵌入模型的输出可以用于各种应用，例如搜索、推荐系统和问答系统。

# Embeddings类是一个用于与文本嵌入模型接口的类。
# 存在许多不同的嵌入大模型供应商（OpenAI、Cohere、Hugging Face等）和本地模型，此类旨在为它们提供标准接口。

In [None]:
# 向量存储
# 存储和搜索非结构化数据的最常见方法之一是将其嵌入并存储生成的嵌入向量，
vectorstore = MyVectorStore()
retriever = vectorstore.as_retriever()

In [None]:
# 检索器
# 检索器是一个组件，用于从向量存储中检索与输入查询相关的文档。
# 它通常与嵌入模型和向量存储结合使用，以实现基于语义的文档检索。

In [None]:
# 键值存储

In [None]:
# 工具
tools = [...] # Define a list of tools
llm_with_tools = llm.bind_tools(tools)
ai_msg = llm_with_tools.invoke("do xyz...")
# -> AIMessage(tool_calls=[ToolCall(...), ...], ...)

In [None]:
# 仅使用参数调用
# You will want to previously check that the LLM returned tool calls
tool_call = ai_msg.tool_calls[0]
# ToolCall(args={...}, id=..., ...)
tool_output = tool.invoke(tool_call["args"])
tool_message = ToolMessage(
    content=tool_output,
    tool_call_id=tool_call["id"],
    name=tool_call["name"]
)

In [None]:
# 代理

In [None]:
# 回调

In [None]:
# 流式处理
# 这是一个小示例，仅打印包含流式聊天模型输出的事件：
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_anthropic import ChatAnthropic

model = ChatAnthropic(model="claude-3-sonnet-20240229")

prompt = ChatPromptTemplate.from_template("tell me a joke about {topic}")
parser = StrOutputParser()
chain = prompt | model | parser

async for event in chain.astream_events({"topic": "parrot"}, version="v2"):
    kind = event["event"]
    if kind == "on_chat_model_stream":
        print(event, end="|", flush=True)

In [None]:
# 结构化输出
from typing import Optional

from pydantic import BaseModel, Field


class Joke(BaseModel):
    """Joke to tell user."""

    setup: str = Field(description="The setup of the joke")
    punchline: str = Field(description="The punchline to the joke")
    rating: Optional[int] = Field(description="How funny the joke is, from 1 to 10")

structured_llm = llm.with_structured_output(Joke)

structured_llm.invoke("Tell me a joke about cats")

In [None]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain.output_parsers.json import SimpleJsonOutputParser

model = ChatOpenAI(
    model="gpt-4o",
    model_kwargs={ "response_format": { "type": "json_object" } },
)

prompt = ChatPromptTemplate.from_template(
    "Answer the user's question to the best of your ability."
    'You must always output a JSON object with an "answer" key and a "followup_question" key.'
    "{question}"
)

chain = prompt | model | SimpleJsonOutputParser()

chain.invoke({ "question": "What is the powerhouse of the cell?" })

In [None]:
# 文本分割
from langchain.text_splitter import RecursiveCharacterTextSplitter
# RecursiveCharacterTextSplitter, RecursiveJsonSplitter