### LLM模型包装器

In [1]:
# 创建一个OpenAI LLM包装器
from langchain.llms import OpenAI
import os


llm = OpenAI(model_name="gpt-3.5-turbo",temperature=0.3)



In [2]:
# 让LLM包装器生成一个笑话
llm("Tell me a joke")

  warn_deprecated(


'Why did the scarecrow win an award? Because he was outstanding in his field!'

### 聊天模型包装器

In [3]:
from langchain.schema import (
    AIMessage,
    HumanMessage,
    SystemMessage
)
from langchain.chat_models import ChatOpenAI

In [4]:
# 加载本地模型
chat = ChatOpenAI(
    model_name="gpt-3.5-turbo",
    temperature=0.3
)

# 创建系统和用户消息类
messages = [
    # 使用SystemMessage来定义LLM的背景与身份
    SystemMessage(content="你是个取名大师，你擅长为创业公司取名"),
    HumanMessage(content="帮我给我的公司取个名字吧，要包含AI"),
]

# 生成响应
response = chat(messages)

# 打印响应
print(response.content,end="\n")

  warn_deprecated(
  warn_deprecated(


当然，以下是一些建议的公司名称，希望能够帮助你找到合适的：

1. AIgenius
2. BrainwaveAI
3. IntelliTech
4. SmartMindAI
5. ThinkBot
6. AI Innovate
7. NeuralNet Solutions
8. MindMergeAI
9. TechBrainAI
10. AI Fusion

希望这些建议对你有所帮助，如果需要更多的灵感或者有其他要求，请随时告诉我。


### 提示词模板

In [5]:
# 导入提示词模板
from langchain.chains.api.prompt import API_RESPONSE_PROMPT
# 定义提示词模板
prompt = API_RESPONSE_PROMPT.format(
    api_docs = "",
    question = "",
    api_url = "",
    api_response = ""
)
prompt

'You are given the below API Documentation:\n\nUsing this documentation, generate the full API url to call for answering the user question.\nYou should build the API url in order to get a response that is as short as possible, while still getting the necessary information to answer the question. Pay attention to deliberately exclude any unnecessary pieces of data in the API call.\n\nQuestion:\nAPI url: \n\nHere is the response from the API:\n\n\n\nSummarize this response to answer the original question.\n\nSummary:'

### PromptTemplate包装器

In [6]:
from langchain import PromptTemplate

# 创建模板字符串
template = """
You are expect data scientist with an expertise in building deep learning models.Explain the concept of {concept} in a couple of lines
"""

# 实例化模板的第一种方式
prompt = PromptTemplate(template=template,input_variables=['concept'])
# 实例化的第二种方式
prompt = PromptTemplate.from_template(template)
# 将用户输出通过format函数传递进去
final_prompt = prompt.format(concept="NLP")

# 打印最终的提示词
print(final_prompt) # PromptTemplate返回的是字符串


You are expect data scientist with an expertise in building deep learning models.Explain the concept of NLP in a couple of lines



### ChatPromptTemplate包装器

In [7]:
from langchain.prompts import (
    ChatPromptTemplate,
    PromptTemplate,
    SystemMessagePromptTemplate,
    AIMessagePromptTemplate,
    HumanMessagePromptTemplate
)

In [8]:
# 创建新的模板
template = """
You are an expert data scientist with an expertise in building depp learning models.
"""
# 创建新的系统消息模板
system_message_prompt = SystemMessagePromptTemplate.from_template(template)

# 创建人类语言模板
human_template = "Explain the concept of {concept} in a couple of lines"
human_message_prompt = \
HumanMessagePromptTemplate.from_template(human_template)

In [9]:
# MessageTemplate作为列表传入到ChatPromptTemplate中
chat_prompt = ChatPromptTemplate.from_messages(
    [system_message_prompt, human_message_prompt]
)
chat_prompt

ChatPromptTemplate(input_variables=['concept'], messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], template='\nYou are an expert data scientist with an expertise in building depp learning models.\n')), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['concept'], template='Explain the concept of {concept} in a couple of lines'))])

In [10]:
# 将用户输出通过format函数传递进去
chat_prompt.format_prompt(concept="NLP")

ChatPromptValue(messages=[SystemMessage(content='\nYou are an expert data scientist with an expertise in building depp learning models.\n'), HumanMessage(content='Explain the concept of NLP in a couple of lines')])

In [11]:
# 使用to_message()方法将模板转换为消息列表
chat_prompt.format_prompt(concept="NLP").to_messages()

[SystemMessage(content='\nYou are an expert data scientist with an expertise in building depp learning models.\n'),
 HumanMessage(content='Explain the concept of NLP in a couple of lines')]

In [12]:
# 使用to_string()将模板消息列表内的消息转换为字符串
chat_prompt.format_prompt(concept="NLP").to_string() # 可读性更低

'System: \nYou are an expert data scientist with an expertise in building depp learning models.\n\nHuman: Explain the concept of NLP in a couple of lines'

### 少样本提示词模板

In [13]:
# 导入FewShotPromptTemplate类
from langchain import FewShotPromptTemplate

In [14]:
# 创建一个样式列表
examples = [
    # 以字典形式来匹配槽内的变量
    {"input":"高","output":"矮"},
    {"input":"胖","output":"瘦"},
    {"input":"精力充沛","output":"萎靡不振"},
    {"input":"快乐","output":"伤心"},
    {"input":"黑","output":"白"},
]

In [15]:
# 创建一个提示词模板
example_prompt = PromptTemplate(
    input_variables=["input","output"],
    template = """
词语：{input}\n
反义词：{output}\n
"""
)

In [16]:
example_prompt.format(**examples[0]) # 使用format函数传递进去，使用**以kwargs自动解析

'\n词语：高\n\n反义词：矮\n\n'

In [17]:
# 实例化FewShotPromptTemplate类
few_shot_template = FewShotPromptTemplate(
    examples=examples, # 创建一个由模板变量组成的列表以供给FewShotPromptTemplate()类下的example_selector()进行枚举或随机选择
    example_prompt=example_prompt, # 传入PromptTemplate类的实例
    example_separator="\n", # 选择器，可以是任意字符
    prefix="来玩个反义词接龙游戏，我说词语，你说它的反义词\n", # 
    suffix="现在轮到你了，词语：{input}\n反义词：",
    input_variables=["input"]
)
few_shot_template.format(input="好")

'来玩个反义词接龙游戏，我说词语，你说它的反义词\n\n\n词语：高\n\n反义词：矮\n\n\n\n词语：胖\n\n反义词：瘦\n\n\n\n词语：精力充沛\n\n反义词：萎靡不振\n\n\n\n词语：快乐\n\n反义词：伤心\n\n\n\n词语：黑\n\n反义词：白\n\n\n现在轮到你了，词语：好\n反义词：'

In [18]:
# 将微样本模板添加到LLM中
from langchain.chains import LLMChain
from langchain.llms import OpenAI
# 创建LLM链
chain = LLMChain(
    llm = OpenAI(api_key=os.environ['OPENAI_API_KEY']),
    prompt=few_shot_template
)
chain.run("冷")

  warn_deprecated(
  warn_deprecated(


'热'

为了解决在超大语料中的文本选择，LangChain在`FewShotPromptTemplate`类上的设计了示例选择器（`Example Selector`）参数。示例选择器的作用是在传递给模型的示例中进行选择，以确保示例的数量和内容长度不会超过模型的处理能力。  
示例选择器的选取策略有以下几种：
- 示例长度
- 输入
- 示例之间的`N-Gram`重叠度
来评估其相似度并打分，找到与输入具有最大余弦相似度的示例，或者通过多样性等因素来选择示例，从而保持提示成本的相对稳定。

### N-Gram

*以下内容引用自[该知乎](https://zhuanlan.zhihu.com/p/636431618?utm_id=0)*：
> `N-Gram`是一种基于动态滑窗的算法：将输入文本划分成N个窗口，每一个片段称之为一个`Gram`。对每个`Gram`进行词频统计，并且按照默认阈值进行过滤，形成一个`N-Gram`列表，也就是这个文本的`N-Gram`特征，列表中的每一个`Gram`就是一个特征向量维度。

> 该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。

- 概率计算公式

$$
P(w_1...w_n) = \prod p(w_i|w_{i-1}...w_{1}) \approx \prod p(w_i|w_{i-1}...w_{i-N+1})
$$

- BiGram，即w=2（一个词的出现依赖于它前面出现的一个词）

$$
P(S) = P(w_1w_2...w_n) = p(w_1)p(w_2|w_1) ... p(w_n|w_{n-1})
$$

- TriGram，即w=3（一个词的出现依赖于它前面出现的两个词）

$$
P(S) = P(w_1w_2...w_n) = p(w_1)p(w_2|w_1) ... p(w_n|w_{n-1}w_{n-2})
$$

用极大似然估计计算每一项的频数则为：
$$
OneGram: p(w_n|w_{n-1}) = \frac{C(w_{n-1}w_n)}{C(w_{n-1})}
$$
$$
BiGram: P(w_n|w_{n-1}w_{n-2}) = \frac{C(w_{n-2}w_{n-1}w_n)}{C(w_{n-2}w_{n-1})}
$$
$$
TriGram: P(w_n|w_{n-1}...w_2w_1) = \frac{C(w_1w_2...w_n)}{C(w_1w_2...w_{n-1})}
$$

*举个例子*：
```
我爱LLM
我爱NLP
我爱AI
```

那么，会得到：
$$
p(爱|我) = \frac{C(我爱)}{C(我)} = \frac{3}{3} = 1
$$

$$
p(我|LLM) = \frac{C(LLM我)}{C(LLM)} = \frac{3}{1} = 3
$$

In [19]:
# 创建一个长度样本选择器
from langchain.prompts.example_selector import LengthBasedExampleSelector

example_selector = LengthBasedExampleSelector(
    examples=examples,
    example_prompt=example_prompt,
    max_length=25
)

In [20]:
# 接着重新初始化FewShotPromptTemplate类
example_selector_prompt = FewShotPromptTemplate(
    example_prompt=example_prompt,
    example_selector=example_selector,
    example_separator="\n",
    prefix="来玩个反义词接龙游戏，我说词语，你说它的反义词\n",
    suffix="现在轮到你了，词语：{input}\n反义词：",
    input_variables=["input"]
)

In [21]:
# 使用format获得结果
example_selector_prompt.format(input="好")

'来玩个反义词接龙游戏，我说词语，你说它的反义词\n\n\n词语：高\n\n反义词：矮\n\n\n\n词语：胖\n\n反义词：瘦\n\n\n\n词语：精力充沛\n\n反义词：萎靡不振\n\n\n\n词语：快乐\n\n反义词：伤心\n\n\n现在轮到你了，词语：好\n反义词：'

In [22]:
# 可以看到坏还没出来就被过滤掉了，因此我们需要修改max_length参数
example_selector = LengthBasedExampleSelector(
    examples=examples,
    example_prompt=example_prompt,
    max_length=100 
)
# 重新构建FewShotPromptTemplate类
example_selector_prompt = FewShotPromptTemplate(
    example_prompt=example_prompt,
    example_selector=example_selector,
    example_separator="\n",
    prefix="来玩个反义词接龙游戏，我说词语，你说它的反义词\n",
    suffix="现在轮到你了，词语：{input}\n反义词：",
    input_variables=["input"]
)
# 使用format获得结果
example_selector_prompt.format(input="好")

'来玩个反义词接龙游戏，我说词语，你说它的反义词\n\n\n词语：高\n\n反义词：矮\n\n\n\n词语：胖\n\n反义词：瘦\n\n\n\n词语：精力充沛\n\n反义词：萎靡不振\n\n\n\n词语：快乐\n\n反义词：伤心\n\n\n\n词语：黑\n\n反义词：白\n\n\n现在轮到你了，词语：好\n反义词：'

### 多功能提示词模板

对于不仅仅使用需要进行词填充，而更多的是追求规范化与组合化的开发时，LangChain提供了以下功能：
- Partial提示词模板：Partial提示词模板会先传递当前的时间戳，最后剩余的部分才是用户的输入填充。在实例化的时候我们可以以指定属性值的方式来传递模板内的变量。例如：
```python
(partial_variables = {'foo':"foo"})
```
或者得到一个实例化对象后调用`partial()`方法：
```python
prompy = PromptTemplate(
    template = "{foo} {bar}",
    input_variables = ["foo","bar"]
)
partial_prompt = prompt.partial(foo="foo") # 调用实力化对象的partial方法
print(partial_prompt.format(bar="baz"))
```
此时`partial_prompt`的最终打印结果应该是：`foobaz`
- PipelinePromptTemplate：将所有预制的模板和变量组合在一起，以便在实例化时传递给模型。例如：
```python
full_template = """
{introduction}
{example}
{start}
"""
full_prompt = PromptTemplate.from_template(full_template)
input_prompt = [
    {"introduction", introduction_prompt},
    {"example", example_prompt},
    {"start", start_prompt}
]
pipeline_prompt = PipelinePromptTemplate(final_prompt = full_prompt, pipeline_prompts = input_prompt)
```
- 序列化JSON和Yaml：LangChain支持将编写好的JSON或yaml格式的提示词模板进行序列化，例如：
```json
{
    "_type": "few_shot",
    "input_variables": ["adjective"],
    "prefix": "Write antonyms for the following words.",
    "example_prompt": {
        "_type": "chat",
        "input_variables": ["input","output"],
        "template": "Input: {input}\nOutput: {output}"
    },
    "examples": "examples.json",
    "suffix":"Input: {adjective}\nOutput:"
}
```
当我们使用`load_prompt()`函数加载该Json文件时，打印的模板信息显示如下：
```python
prompt = load_prompt("prompt.json")
prompt.format(adjective="happy")
```

```text
Write antonyms for the following words.

    Input: happy
    Output: sad

    Input: tall
    Output: short

    Input: big
Output:
```

### 输出解析器(OutputParser)
LangChain支持以下几种输出解析器：
- BooleanOutputParser：用于解析二元输出，例如：`True`或`False`。
- CommaSepratedOutputParser：用于解析以逗号分隔列表类型的输出
- DatetimeOutputParser：用于解析枚举类型的输出
- EnumOutputParser：用于解析枚举类型的输出
- ListOutputParset：用于解析列表类型的输出
- PydanticOutputParser：用于解析符合Pydantic设计规范的输出，例如：可以使用BaseModel进行解构的数据结构
- StructuredOutputParser：用于解析具有特定结构的输出

In [23]:
# 示例：使用CommaSeparatedOutputParser类实现输出解析
from langchain.output_parsers import CommaSeparatedListOutputParser
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI
output_parser = CommaSeparatedListOutputParser()

In [24]:
format_instructions = output_parser.get_format_instructions() # 从输出解析器中获取格式化的指令
prompt = PromptTemplate( # 创建提示词模板
    template="List five {subject}.\n{formate_instrctions}",
    input_variables=['subject'],
    partial_variables={'formate_instrctions':format_instructions} # 将通过partial()函数进行注入的部分
)

In [25]:
# 创建LLMChain
from langchain.chains import LLMChain

chain = LLMChain(
    llm = OpenAI(
        api_key=os.environ['OPENAI_API_KEY']
    ),
    prompt=prompt,
)

In [26]:
output = chain("ice cream flavors")
output_parser.parse(output['text']) # 使用输出解析器解析输出

  warn_deprecated(


['1. Chocolate\n2. Vanilla\n3. Strawberry\n4. Mint chocolate chip\n5. Cookies and cream']

### 基于Pydantic的JSON输出解析器

In [29]:
# 导入提示词模板和LLMs
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI
# 导入Pydantic和Pydantic解析器
from langchain.output_parsers import PydanticOutputParser
from pydantic import BaseModel,Field,field_validator
from typing import List

In [30]:
# 创建模型
model = OpenAI(openai_api_key = os.environ['OPENAI_API_KEY'])

In [31]:
# 定义数据结构
class Joke(BaseModel):
    setup: str = Field(description="question to set up a joke")
    punchline: str = Field(description="answer to resolve the joke")

    # 使用validator装饰器来验证数据
    @field_validator('setup')
    def question_ends_with_question_mark(cls,field):
        if field[-1] != "?":
            raise ValueError("Badly formed question!")
        return field

In [36]:
# 创建一个用于提示LLM生成数据结构的查询
joke_query = "Tell me a joke."
# 设置一个输出解析器，并将指令注入提示词模板
parser = PydanticOutputParser(pydantic_object=Joke)

prompt = PromptTemplate(
    template="Answer the user query\n{format_instructions}\n{query}\n",
    input_variables=['query'],
    partial_variables={'format_instructions':parser.get_format_instructions()}
)

_input = prompt.format_prompt(query=joke_query)
output = model(_input.to_string())

output

'\n{"setup": "Why did the chicken cross the road?", "punchline": "To get to the other side."}'

In [38]:
# 将用户输入"ice cream flavors"绑定到提示词模板的query变量上
_input = prompt.format(subject = "ice cream flavors",query=joke_query)

output = model(_input)

output_parser.parse(output)

['{"setup": "Why was the math book sad?"',
 '"punchline": "Because it had too many problems."}']

### 结构化输出解析器(StructuredOutputParser)

In [39]:
# 导入结构化输出解析器和响应提要
from langchain.output_parsers import StructuredOutputParser,ResponseSchema
# 导入提示词模板
from langchain.prompts import (
    PromptTemplate,
    ChatPromptTemplate,
    HumanMessagePromptTemplate
)
# 导入LLM
from langchain.llms import OpenAI
# 导入Chat模型
from langchain.chat_models import ChatOpenAI


In [48]:
# 定义响应模式
response_schema = [
    ResponseSchema(
        name = "answer",
        description = "answer to the user's question",
    ),
    ResponseSchema(
        name = "source",
        description = (
            "source used to answer the user's question,"
            "should be a website."
        )
    )
]

output_parser  =  StructuredOutputParser.from_response_schemas(response_schema)


In [49]:
# 创建格式化的指令
format_instructions = output_parser.get_format_instructions()

# 创建提示词模板
prompt = PromptTemplate(
    template = (
        "answer the users question as best as possible.\n"
        "{format_instructions}\n{question}"
    ),
    input_variables = ['question'],
    partial_variables= {
        "format_instructions": format_instructions
    }
)

# 创建LLM
model = OpenAI(
    openai_api_key = os.environ['OPENAI_API_KEY']
)

_input = prompt.format_prompt(question="What is the capital of France?")
output = model(_input.to_string())

output_parser.parse(output)

{'answer': 'Paris', 'source': 'https://www.britannica.com/place/Paris'}

In [50]:
# 创建一个聊天模型包装器中使用这个方法的实例
chat_model = ChatOpenAI(
    openai_api_key = os.environ['OPENAI_API_KEY'],
)


# 创建聊天提示词模板类
prompt = ChatPromptTemplate(
    messages = [
        HumanMessagePromptTemplate.from_template(
            "answer the users question as best as possible.\n"
            "{format_instructions}\n{question}"
        )
    ],
    input_variables = ['question'],
    partial_variables = {
        "format_instructions": format_instructions
    }
)

_input = prompt.format_prompt(question="What is the capital of France?")
output = chat_model(_input.to_messages()) # 将输出转换为Messag类（因为我们的提示词模板是MessageTemplate类的实例）

output_parser.parse(output.content)

{'answer': 'Paris', 'source': 'https://en.wikipedia.org/wiki/Paris'}