tiktoken 是由 OpenAI 开发的一个快速开源的分词器。

给定一个文本字符串（例如，`tiktoken is great!`）和一个编码方式（例如，`cl100k_base`），分词器可以将该文本字符串拆分为一系列的词元（例如，`["t", "ik", "token", " is", " great", "!"]`）。

将文本字符串拆分为标记（tokens）非常有用，因为 GPT 模型以标记的形式处理文本。

了解一个文本字符串中有多少个标记可以告诉你：
- 该字符串是否过长以至于模型无法处理
- 一次 OpenAI API 调用的成本（因为使用量是按标记计费的）。

# Encodings编码
编码规定了文本如何转换为标记。不同的模型采用不同的编码方式。
tiktoken 支持 OpenAI 模型使用的三种编码：

| Encoding name 编码名称 | OpenAI models OpenAI 模型 |
| ---- | ---- |
| cl100k_base | gpt-4, gpt-3.5-turbo, text-embedding-ada-002, text-embedding-3-small, text-embedding-3-large |
| p50k_base | Codex models, text-davinci-002, text-davinci-003 |
| r50k_base (or gpt2) r50k_base（或 gpt2） | GPT-3 models like davinci 像 davinci 这样的 GPT-3 模型 |


<br />

> 尽管tiktoken仅被设计来预估OpenAI API调用的开销，但它也适用于其他GPT模型。  
> 并非所有大模型API都提供了类似tiktoken的分词器，在此情况下使用tiktoken同样可以获得近似的效果。

In [None]:
%pip install --upgrade tiktoken
%pip install --upgrade openai

In [9]:
import tiktoken

# 按编码名称来加载
encoding = tiktoken.get_encoding("cl100k_base")
# 按照模型名称自动获取编码
# encoding = tiktoken.encoding_for_model("gpt-4o-mini")

# 字符串转为整数列表
siz = encoding.encode("tiktoken is great!")
print(siz)

# 计算token长度
num_tokens = len(siz)
print(num_tokens)

# 还可以将整数列表转回字符串 - 该方法用来转换单个标记，可能会失真
print(encoding.decode([83, 1609, 5963, 374, 2294, 0]))

# 一种更稳定的将单个标记整数转换为字符串的方法
print([encoding.decode_single_token_bytes(token) for token in [83, 1609, 5963, 374, 2294, 0]])

#（字符串前的 b 表示这些字符串是字节字符串。）

[83, 1609, 5963, 374, 2294, 0]
6
tiktoken is great!
[b't', b'ik', b'token', b' is', b' great', b'!']
