# Models Api

使用 Models API 查看和访问 OpenAI 提供的预训练大语言模型。

## 环境准备

### 安装所需依赖组件

> %pip will install the package in the virtual environment where the current notebook kernel is running. 
> While !pip will install the package in the base environment. 
> If you are using Python virtual environment (as you should!), you should use %pip.

前置通过 shell 命令，安装所依赖的 python 包。

此步骤也仅需一次执行。

In [None]:
%pip install tiktoken openai

### 配置环境信息

该项目中，密钥配置在了根目录的 config.json 文件中，可替换为自己的密钥信息。

如使用 git 进行管理，请手动忽略该文件相关变更，避免信息泄露。

In [36]:
import openai
import json
import os
import subprocess
from pprint import pprint

# 通过 subprocess 执行 shell 命令，获取 git 仓库的根目录
command = ['git', 'rev-parse', '--show-toplevel']
process = subprocess.Popen(command, stdout=subprocess.PIPE)
output, error = process.communicate()
git_root = output.decode().strip()

config_path = os.path.join(git_root, "config.json")
config = {}
with open(config_path,"r") as f:
    config = json.load(f)
openai.api_key = config["sk"]

## Model List

列出当前可用的模型，并提供每个模型的基本信息，如所有者和可用性。

In [3]:
models = openai.Model.list()
print(models)

{
  "data": [
    {
      "created": 1651172509,
      "id": "curie-search-query",
      "object": "model",
      "owned_by": "openai-dev",
      "parent": null,
      "permission": [
        {
          "allow_create_engine": false,
          "allow_fine_tuning": false,
          "allow_logprobs": true,
          "allow_sampling": true,
          "allow_search_indices": true,
          "allow_view": true,
          "created": 1695149182,
          "group": null,
          "id": "modelperm-8aqdyZaKtD3MD831mGbqh1MD",
          "is_blocking": false,
          "object": "model_permission",
          "organization": "*"
        }
      ],
      "root": "curie-search-query"
    },
    {
      "created": 1651172510,
      "id": "babbage-search-document",
      "object": "model",
      "owned_by": "openai-dev",
      "parent": null,
      "permission": [
        {
          "allow_create_engine": false,
          "allow_fine_tuning": false,
          "allow_logprobs": true,
          "allow_s

#### Prompt：获取所有模型名称 

```
下面的 json 数据存在 models 变量中，我希望遍历获取 models 中每一个 "id"，并将结果存在 model_list 中，生成python代码：

"data": [
    {
      "created": 1649358449,
      "id": "babbage",
      "object": "model",
      "owned_by": "openai",
      "parent": null,
      "permission": [
        {
          "allow_create_engine": false,
          "allow_fine_tuning": false,
          "allow_logprobs": true,
          "allow_sampling": true,
          "allow_search_indices": false,
          "allow_view": true,
          "created": 1669085501,
          "group": null,
          "id": "modelperm-49FUp5v084tBB49tC4z8LPH5",
          "is_blocking": false,
          "object": "model_permission",
          "organization": "*"
        }
      ],
      "root": "babbage"
    },
    {
      "created": 1669599635,
      "id": "text-davinci-003",
      "object": "model",
      "owned_by": "openai-internal",
      "parent": null,
      "permission": [
        {
          "allow_create_engine": false,
          "allow_fine_tuning": false,
          "allow_logprobs": true,
          "allow_sampling": true,
          "allow_search_indices": false,
          "allow_view": true,
          "created": 1688551385,
          "group": null,
          "id": "modelperm-jepinXYt59ncUQrjQEIUEDyC",
          "is_blocking": false,
          "object": "model_permission",
          "organization": "*"
        }
      ],
      "root": "text-davinci-003"
    },
```


In [None]:
model_list = [model['id'] for model in models['data']]
print(model_list)

## Retrieve Model

获取模型实例，提供有关模型的基本信息，例如所有者和权限设置。

以`text-davinci-003`模型为例，解释说明各项参数：

1. `created`: 这是模型创建的时间戳，单位为 Unix 时间戳（自1970年1月1日（00:00:00 GMT）以后的秒数）。
2. `id`: 这是模型的唯一标识符。在这个例子中，模型的 ID 是 "text-davinci-003"。
3. `object`: 这个字段表示的是当前对象的类型，在这个例子中，对象是 "model"，说明这个 JSON 对象是一个模型。
4. `owned_by`: 这个字段表示的是模型的所有者，在这个例子中，模型的所有者是 "openai-internal"。
5. `parent`: 这个字段表示的是模型的父模型。如果此字段为 null，那么说明这个模型没有父模型。
6. `permission`: 这个字段是一个包含多个键-值对的对象，描述了该模型的访问和使用权限。例如：
   - `allow_create_engine` 为 false，说明不允许创建引擎；
   - `allow_fine_tuning` 为 false，说明不允许对模型进行微调；
   - `allow_logprobs` 为 true，说明允许获取模型的 logprobs 输出；
   - `allow_sampling` 为 true，说明允许进行采样；
   - `allow_search_indices` 为 false，说明不允许搜索索引；
   - `allow_view` 为 true，说明允许查看模型；
   - `is_blocking` 为 false，说明此权限不是阻止操作的。
8. `root`: 这个字段表示的是模型的根模型。在这个例子中，模型的根模型是 "text-davinci-003"。

In [6]:
openai.Model.retrieve("text-davinci-003")

<Model model id=text-davinci-003 at 0x22b06bbbae0> JSON: {
  "created": 1669599635,
  "id": "text-davinci-003",
  "object": "model",
  "owned_by": "openai-internal",
  "parent": null,
  "permission": [
    {
      "allow_create_engine": false,
      "allow_fine_tuning": false,
      "allow_logprobs": true,
      "allow_sampling": true,
      "allow_search_indices": false,
      "allow_view": true,
      "created": 1695054195,
      "group": null,
      "id": "modelperm-RgOpvCEIoYxuWP9GsHH0TMo1",
      "is_blocking": false,
      "object": "model_permission",
      "organization": "*"
    }
  ],
  "root": "text-davinci-003"
}

In [7]:
openai.Model.retrieve("gpt-3.5-turbo")

<Model model id=gpt-3.5-turbo at 0x22b662890e0> JSON: {
  "created": 1677610602,
  "id": "gpt-3.5-turbo",
  "object": "model",
  "owned_by": "openai",
  "parent": null,
  "permission": [
    {
      "allow_create_engine": false,
      "allow_fine_tuning": false,
      "allow_logprobs": true,
      "allow_sampling": true,
      "allow_search_indices": false,
      "allow_view": true,
      "created": 1695265691,
      "group": null,
      "id": "modelperm-ZaQNOH1GzC0MJhItvLsu7zLy",
      "is_blocking": false,
      "object": "model_permission",
      "organization": "*"
    }
  ],
  "root": "gpt-3.5-turbo"
}

## Completions API

使用 Completions API 实现各类文本生成任务

主要请求参数说明：

- **`model`** （string，必填）

  要使用的模型的 ID。可以参考 **模型端点兼容性表**。

- **`prompt`** （string or array，必填，Defaults to ）

  生成补全的提示，编码为字符串、字符串数组、token数组或token数组数组。

  注意，这是模型在训练过程中看到的文档分隔符，所以如果没有指定提示符，模型将像从新文档的开头一样生成。

- **`stream`** （boolean，选填，默认 false）

  当它设置为 true 时，API 会以 SSE（ Server Side Event ）方式返回内容，即会不断地输出内容直到完成响应，流通过 `data: [DONE]` 消息终止。

- **`max_tokens`** （integer，选填，默认是 16）

  补全时要生成的最大 token 数。

  提示 `max_tokens` 的 token 计数不能超过模型的上下文长度。大多数模型的上下文长度为 2048 个token（最新模型除外，它支持 4096）

- **`temperature`** （number，选填，默认是1）

  使用哪个采样温度，在 **0和2之间**。

  较高的值，如0.8会使输出更随机，而较低的值，如0.2会使其更加集中和确定性。

  通常建议修改这个（`temperature` ）或 `top_p` 但两者不能同时存在，二选一。

- **`n`** （integer，选填，默认为 1）

  每个 `prompt` 生成的补全次数。

  注意：由于此参数会生成许多补全，因此它会快速消耗token配额。小心使用，并确保对 `max_tokens` 和 `stop` 进行合理的设置。


### 生成英文文本

In [8]:
data = openai.Completion.create(
    model="text-davinci-003",
    prompt="Say this is a test",
    max_tokens=7,
    temperature=0
)
print(data)

{
  "choices": [
    {
      "finish_reason": "length",
      "index": 0,
      "logprobs": null,
      "text": "\n\nThis is indeed a test"
    }
  ],
  "created": 1695526805,
  "id": "cmpl-82AGT55WrsJIILDXz1nQe20UKZTT7",
  "model": "text-davinci-003",
  "object": "text_completion",
  "usage": {
    "completion_tokens": 7,
    "prompt_tokens": 5,
    "total_tokens": 12
  },
}


#### Prompt：解析返回结果，获取生成文本

```
下面是 openai completion api 的返回结果，将生成的内容存放在变量 text 中:

{
  "id": "cmpl-uqkvlQyYK7bGYrRHQ0eXlWi7",
  "object": "text_completion",
  "created": 1589478378,
  "model": "text-davinci-003",
  "choices": [
    {
      "text": "\n\nThis is indeed a test",
      "index": 0,
      "logprobs": null,
      "finish_reason": "length"
    }
  ],
  "usage": {
    "prompt_tokens": 5,
    "completion_tokens": 7,
    "total_tokens": 12
  }
}
```

In [9]:
text = data['choices'][0]['text']
print(text)



This is indeed a test


### 生成中文文本

调整`prompt`, `max_tokens`, `temperatura` 等参数。

In [11]:
data = openai.Completion.create(
    model = "text-davinci-003",
    prompt = "使用中文，讲10个给程序员听得笑话",
    max_tokens = 1000,
    temperature = 0.5
)

text = data['choices'][0]['text']
print(text)



1. 两个程序员到餐厅吃饭，服务员问：“你们要点什么？”程序员A说：“我们要点一份bug！”

2. 一个程序员去电影院看电影，看完后他发现自己把钱忘在家里了，于是他就把自己写的代码拿出来给影院老板。老板看了一眼，把他送出去了，说：“这不是钱，这是一堆乱码！”

3. 一个程序员在写代码，他把一行代码写错了，他就把它拆开写成了两行，然后说：“现在它更好看了！”

4. 一个程序员在编程时，他在屏幕上看到一个错误，他就说：“看，这里有一个bug！”

5. 一个程序员在看电影时，他忽然发现电影里的角色在做一件事，他就说：“哇，这不就是一个while循环吗？”

6. 一个程序员在做实验时，他想到一个新的想法，他就说：“哇，我可以用if else语句来实现！”

7. 一个程序员在写程序时，他发现代码有问题，他就说：“哎，这里有一个syntax error！”

8. 一个程序员在看书时，他发现一个概念很难理解，他就说：“哎，这里有一个logic error！”

9. 一个程序员在用电脑时，他发现电脑出现了问题，他就说：“哎，这里有一个runtime error！”

10. 一个程序员在写代码时，他发现代码有问题，他就说：“哎，这里有一个compile error！


### 生成 Python 代码，并执行和验证

以面试中考察的典型的试题 `快速排序` 为例。

In [12]:
data = openai.Completion.create(
    model="text-davinci-003",
    prompt="生成可执行的快速排序 Python 代码",
    max_tokens=1000,
    temperature=0
)
text = data['choices'][0]['text']
print(text)



def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)


[1, 1, 2, 3, 6, 8, 10, 12]


#### Prompt：Jupyter Notebook 中执行生成的代码

Prompt：

```
我现在用 Completion API 生成了  Python 代码，并以字符串形式存放在 text 中，如下所示：

text = data['choices'][0]['text']
print(text)

def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)

如何在 Jupyter notebook 中执行text中存放的这段代码
```

In [15]:
# `exec` 函数会执行传入的字符串作为 Python 代码。
# 在这个例子中，我们使用 `exec` 来定义了一个 `quick_sort` 函数，然后你就可以调用这个函数了。
# 请注意，`exec` 可以执行任何 Python 代码，因此在使用它的时候一定要小心，特别是当你执行的代码来自不可信的来源时。
exec(text)

print(quick_sort([12,3,6,8,10,1,2,1]))

[1, 1, 2, 3, 6, 8, 10, 12]


## Chat Completions API

使用 Chat Completions API 实现对话任务

聊天补全(Chat Completions API)以消息列表作为输入，并返回模型生成的消息作为输出。尽管聊天格式旨在使多轮对话变得简单，但它同样适用于没有任何对话的单轮任务。

主要请求参数说明：

- **`model` （string，必填）**

  要使用的模型ID。有关哪些模型适用于Chat API的详细信息

- **`messages` （array，必填）**

  迄今为止描述对话的消息列表
    - **`role` （string，必填）**

  发送此消息的角色。`system` 、`user` 或 `assistant` 之一（一般用 user 发送用户问题，system 发送给模型提示信息）

    - **`content` （string，必填）**
    
      消息的内容
    
    - **`name` （string，选填）**
    
      此消息的发送者姓名。可以包含 a-z、A-Z、0-9 和下划线，最大长度为 64 个字符

- **`stream` （boolean，选填，是否按流的方式发送内容）**

  当它设置为 true 时，API 会以 SSE（ Server Side Event ）方式返回内容。SSE 本质上是一个长链接，会持续不断地输出内容直到完成响应。如果不是做实时聊天，默认false即可。

- **`max_tokens` （integer，选填）**

  在聊天补全中生成的最大 **tokens** 数。

  输入 token 和生成的 token 的总长度受模型上下文长度的限制。

- **`temperature` （number，选填，默认是 1）**

  采样温度，在 0 和 2 之间。

  较高的值，如 0.8 会使输出更随机，而较低的值，如 0.2 会使其更加集中和确定性。

  通常建议修改这个（`temperature` ）或者 `top_p` ，但两者不能同时存在，二选一。

### 对话请求

In [47]:
messages=[
    {
        "role": "user", 
        "content": "Hello!"
    }
]

response = openai.ChatCompletion.create(
    model = "gpt-3.5-turbo",
    messages = messages
)

print(response)

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "Hi there! How can I assist you today?",
        "role": "assistant"
      }
    }
  ],
  "created": 1695538985,
  "id": "chatcmpl-82DQvDysTdPM58jfM7Y3NczfNNVSv",
  "model": "gpt-3.5-turbo-0613",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 10,
    "prompt_tokens": 9,
    "total_tokens": 19
  }
}


#### Prompt：解析返回结果，获取生成文本，并维护聊天记录

```
我希望维护一个保存聊天记录的 messages 变量，如下所示：

messages=[
    {
        "role": "user", 
        "content": "Hello!"
    },
    {
        "content": "Hi! How can I assist you today?",
        "role": "assistant"
    },
]

下面是 openai chat completion api 的返回结果 ，将生成的 message 追加到 messages 结尾:

{
  choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "Hi! How can I assist you today?",
        "role": "assistant"
      }
    }
  ],
  "created": 1690106747,
  "id": "chatcmpl-7fQGBBKSXTye4HsKcKMWKFVW63qTT",
  "model": "gpt-3.5-turbo-0613",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 9,
    "prompt_tokens": 9,
    "total_tokens": 18
  }
}
```

In [48]:
new_message = response["choices"][0]["message"]
print(type(new_message))
print(new_message)

<class 'openai.openai_object.OpenAIObject'>
{
  "content": "Hi there! How can I assist you today?",
  "role": "assistant"
}


#### Prompt: OpenAIObject -> Dict

```
打印 messages 列表后发现数据类型不对，messages 输出如下：

print(messages)

[{'role': 'user', 'content': 'Hello!'}, <OpenAIObject at 0x7f27582c13f0> JSON: {
  "content": "Hello! How can I assist you today?",
  "role": "assistant"
}]

将OpenAIObject 转换为一个如下数据类型格式：

    {
        "role": "user", 
        "content": "Hello!"
    }
```

In [49]:
new_message_dict = json.loads(str(new_message))

# 将新的消息字典添加到 messages 列表
messages.append(new_message_dict)

pprint(messages)

[{'content': 'Hello!', 'role': 'user'},
 {'content': 'Hi there! How can I assist you today?', 'role': 'assistant'}]


### 新一轮对话

In [50]:
new_chat = {
    "role": "user",
    "content": "1.讲一个程序员才听得懂的冷笑话；2.今天是几号？3.明天星期几？"
}

messages.append(new_chat)
pprint(messages)

[{'content': 'Hello!', 'role': 'user'},
 {'content': 'Hi there! How can I assist you today?', 'role': 'assistant'},
 {'content': '1.讲一个程序员才听得懂的冷笑话；2.今天是几号？3.明天星期几？', 'role': 'user'}]


In [51]:
response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=messages
)

new_message = response['choices'][0]['message']
# 打印 new_messages 
print(new_message)

{
  "content": "1. \u51b7\u7b11\u8bdd\uff1a\u4e3a\u4ec0\u4e48\u7a0b\u5e8f\u5458\u559c\u6b22\u5728\u5ba4\u5916\u6563\u6b65\uff1f\u56e0\u4e3a\u201c\u5916\u9762\u201d\u662f\u4e00\u4e2a\u4e0d\u4f1a\u6709bug\u7684\u5730\u65b9\uff01\n\n2. \u4eca\u5929\u7684\u65e5\u671f\u662f\u6839\u636e\u60a8\u6240\u5728\u7684\u65f6\u533a\u800c\u5b9a\uff0c\u53ef\u4ee5\u901a\u8fc7\u67e5\u770b\u7535\u8111\u7684\u4efb\u52a1\u680f\u6216\u624b\u673a\u7684\u65e5\u671f\u65f6\u95f4\u8bbe\u7f6e\u6765\u786e\u8ba4\u3002\n\n3. \u660e\u5929\u7684\u661f\u671f\u51e0\u4e5f\u662f\u6839\u636e\u60a8\u6240\u5728\u7684\u65f6\u533a\u800c\u5b9a\uff0c\u60a8\u53ef\u4ee5\u4f7f\u7528\u65e5\u5386\u5e94\u7528\u6216\u901a\u8fc7\u641c\u7d22\u5f15\u64ce\u8f93\u5165\"\u660e\u5929\u662f\u661f\u671f\u51e0\"\u6765\u83b7\u5f97\u51c6\u786e\u7684\u7b54\u6848\u3002",
  "role": "assistant"
}


#### Prompt: 解析中文结果

```
新一轮对话的返回结果没有解析成中文，内容如下：

# 打印 new_message
print(new_message)

{
  "content": "1. \u51b7\u7b11\u8bdd\uff1a\u4e3a\u4ec0\u4e48\u7a0b\u5e8f\u5458\u559c\u6b22\u5728\u5ba4\u5916\u6563\u6b65\uff1f\u56e0\u4e3a\u201c\u5916\u9762\u201d\u662f\u4e00\u4e2a\u4e0d\u4f1a\u6709bug\u7684\u5730\u65b9\uff01\n\n2. \u4eca\u5929\u7684\u65e5\u671f\u662f\u6839\u636e\u60a8\u6240\u5728\u7684\u65f6\u533a\u800c\u5b9a\uff0c\u53ef\u4ee5\u901a\u8fc7\u67e5\u770b\u7535\u8111\u7684\u4efb\u52a1\u680f\u6216\u624b\u673a\u7684\u65e5\u671f\u65f6\u95f4\u8bbe\u7f6e\u6765\u786e\u8ba4\u3002\n\n3. \u660e\u5929\u7684\u661f\u671f\u51e0\u4e5f\u662f\u6839\u636e\u60a8\u6240\u5728\u7684\u65f6\u533a\u800c\u5b9a\uff0c\u60a8\u53ef\u4ee5\u4f7f\u7528\u65e5\u5386\u5e94\u7528\u6216\u901a\u8fc7\u641c\u7d22\u5f15\u64ce\u8f93\u5165\"\u660e\u5929\u662f\u661f\u671f\u51e0\"\u6765\u83b7\u5f97\u51c6\u786e\u7684\u7b54\u6848\u3002",
  "role": "assistant"
}
```

In [52]:
# GPT-4: 从你提供的信息中看，这段文本是经过Unicode编码的中文。
# 你可以使用Python的print()函数将其打印出来，以获取原始的中文字符串：
print(new_message.content)

1. 冷笑话：为什么程序员喜欢在室外散步？因为“外面”是一个不会有bug的地方！

2. 今天的日期是根据您所在的时区而定，可以通过查看电脑的任务栏或手机的日期时间设置来确认。

3. 明天的星期几也是根据您所在的时区而定，您可以使用日历应用或通过搜索引擎输入"明天是星期几"来获得准确的答案。


### System 对象

提供预设的系统级别的 prompt，有助于更准确的信息生成。

In [55]:
# 构造聊天记录
messages = [
    {"role": "system", "content": "你是一个乐于助人的体育界专家。"},
    {"role": "user", "content": "2008年奥运会是在哪里举行的？"},
]

data = openai.ChatCompletion.create(
    model = "gpt-3.5-turbo",
    messages = messages
)

message = data["choices"][0]["message"]["content"]
messages.append({"role": "assistant", "content": message})
print(message)

2008年奥运会在北京举行。


#### 新一轮对话(有上下文)

In [56]:
messages.append({"role": "user", "content": "1.金牌最多的是哪个国家？2.奖牌最多的是哪个国家？"})

data = openai.ChatCompletion.create(
    model = "gpt-3.5-turbo",
    messages = messages
)

message = data["choices"][0]["message"]["content"]
messages.append({"role": "assistant", "content": message})
print(message)

1. 2008年奥运会中，金牌最多的国家是中国。
2. 奖牌最多的国家也是中国。


#### 全新对话(无上下文)

In [57]:
data = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[{'role': 'user', 'content': '1.金牌最多的是哪个国家？2.奖牌最多的是哪个国家？'}]
)

message = data["choices"][0]["message"]["content"]
print(message)

1.至今为止，美国是金牌最多的国家。截至2021年，美国在夏季奥运会上获得了总共1022枚金牌。

2.同样是美国，奖牌总数最多的国家。截至2021年，美国在夏季奥运会上获得了总共2820枚奖牌（包括金牌、银牌和铜牌）。
