# 틱토큰으로 토큰을 계산하는 방법

[`tiktoken`](https://github.com/openai/tiktoken/blob/main/README.md)은 OpenAI의 빠른 오픈소스 토큰 생성기입니다.

토큰화기는 텍스트 문자열(예: `"tiktoken is great!"`)과 인코딩(예: `"cl100k_base"`)이 주어지면 텍스트 문자열을 토큰 목록(예: `["t", "ik", "token", " is", " great", "!"]`)으로 분할할 수 있습니다.

텍스트 문자열을 토큰으로 분할하는 것은 GPT 모델이 텍스트를 토큰 형태로 보기 때문에 유용합니다. 텍스트 문자열에 몇 개의 토큰이 있는지 알면 (1) 텍스트 모델이 처리하기에 문자열이 너무 긴지 여부와 (2) OpenAI API 호출 비용이 얼마인지 알 수 있습니다(사용량은 토큰별로 가격이 책정되므로). 모델마다 다른 인코딩을 사용합니다.

---

[`tiktoken`](https://github.com/openai/tiktoken/blob/main/README.md) is a fast open-source tokenizer by OpenAI.

Given a text string (e.g., `"tiktoken is great!"`) and an encoding (e.g., `"cl100k_base"`), a tokenizer can split the text string into a list of tokens (e.g., `["t", "ik", "token", " is", " great", "!"]`).

Splitting text strings into tokens is useful because GPT models see text in the form of tokens. Knowing how many tokens are in a text string can tell you (a) whether the string is too long for a text model to process and (b) how much an OpenAI API call costs (as usage is priced by token).


## 인코딩

인코딩은 텍스트가 토큰으로 변환되는 방식을 지정합니다. 모델마다 다른 인코딩을 사용합니다.

`tiktoken`은 OpenAI 모델에서 사용하는 세 가지 인코딩을 지원합니다:

| 인코딩 이름 | OpenAI 모델 |
|-------------------------|-----------------------------------------------------|
| `cl100k_base`           | ChatGPT models, `text-embedding-ada-002`            |
| `p50k_base`             | Code models, `text-davinci-002`, `text-davinci-003` |
| `r50k_base` (or `gpt2`) | GPT-3 models like `davinci`                         |

틱토큰의 모델 인코딩은 다음과 같이 `tiktoken.encoding_for_model()`을 사용하여 검색할 수 있습니다:
```python
encoding = tiktoken.encoding_for_model('gpt-3.5-turbo')
```

`p50k_base`는 `r50k_base`와 상당 부분 겹치며, 코드가 아닌 애플리케이션의 경우 일반적으로 동일한 토큰을 제공합니다.

---

Encodings specify how text is converted into tokens. Different models use different encodings.

`tiktoken` supports three encodings used by OpenAI models:

| Encoding name           | OpenAI models                                       |
|-------------------------|-----------------------------------------------------|
| `cl100k_base`           | `gpt-4`, `gpt-3.5-turbo`, `text-embedding-ada-002`  |
| `p50k_base`             | Codex models, `text-davinci-002`, `text-davinci-003`|
| `r50k_base` (or `gpt2`) | GPT-3 models like `davinci`                         |

You can retrieve the encoding for a model using `tiktoken.encoding_for_model()` as follows:
```python
encoding = tiktoken.encoding_for_model('gpt-3.5-turbo')
```

Note that `p50k_base` overlaps substantially with `r50k_base`, and for non-code applications, they will usually give the same tokens.

## 언어별 토큰화 라이브러리

`cl100k_base` 및 `p50k_base` 인코딩의 경우, 2023년 3월 현재 사용 가능한 토큰라이저는 `tiktoken`뿐입니다.
- Python: [tiktoken](https://github.com/openai/tiktoken/blob/main/README.md)

`r50k_base`(`gpt2`) 인코딩의 경우, 토큰화 도구는 여러 언어로 제공됩니다.
- Python: [tiktoken](https://github.com/openai/tiktoken/blob/main/README.md) (또는 [GPT2TokenizerFast](https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2TokenizerFast))
- 자바스크립트: [gpt-3-encoder](https://www.npmjs.com/package/gpt-3-encoder)
- .NET/C#: [GPT Tokenizer](https://github.com/dluc/openai-tools)
- Java: [gpt2-tokenizer-java](https://github.com/hyunwoongko/gpt2-tokenizer-java)
- PHP: [GPT-3-Encoder-PHP](https://github.com/CodeRevolutionPlugins/GPT-3-Encoder-PHP)

(OpenAI는 타사 라이브러리를 보증하거나 보증하지 않습니다.)

---

For `cl100k_base` and `p50k_base` encodings:
- Python: [tiktoken](https://github.com/openai/tiktoken/blob/main/README.md)
- .NET / C#: [SharpToken](https://github.com/dmitry-brazhenko/SharpToken)

For `r50k_base` (`gpt2`) encodings, tokenizers are available in many languages.
- Python: [tiktoken](https://github.com/openai/tiktoken/blob/main/README.md) (or alternatively [GPT2TokenizerFast](https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2TokenizerFast))
- JavaScript: [gpt-3-encoder](https://www.npmjs.com/package/gpt-3-encoder)
- .NET / C#: [GPT Tokenizer](https://github.com/dluc/openai-tools)
- Java: [gpt2-tokenizer-java](https://github.com/hyunwoongko/gpt2-tokenizer-java)
- PHP: [GPT-3-Encoder-PHP](https://github.com/CodeRevolutionPlugins/GPT-3-Encoder-PHP)

(OpenAI makes no endorsements or guarantees of third-party libraries.)


## 문자열이 일반적으로 토큰화되는 방식

영어에서 토큰의 길이는 일반적으로 한 문자에서 한 단어(예: `"t"` 또는 `"great"`)까지이지만, 일부 언어에서는 토큰이 한 문자보다 짧거나 한 단어보다 길 수 있습니다. 공백은 일반적으로 단어의 시작 부분으로 그룹화됩니다(예: `"is "` 또는 `" "`+`"is"` 대신 `" is"`). 문자열이 토큰화되는 방식은 [OpenAI Tokenizer](https://beta.openai.com/tokenizer)에서 빠르게 확인할 수 있습니다.

---

In English, tokens commonly range in length from one character to one word (e.g., `"t"` or `" great"`), though in some languages tokens can be shorter than one character or longer than one word. Spaces are usually grouped with the starts of words (e.g., `" is"` instead of `"is "` or `" "`+`"is"`). You can quickly check how a string is tokenized at the [OpenAI Tokenizer](https://beta.openai.com/tokenizer).

## 0. Install `tiktoken`

If needed, install `tiktoken` with `pip`:

In [1]:
%pip install --upgrade tiktoken

Collecting tiktoken
  Downloading tiktoken-0.3.0-cp310-cp310-macosx_10_9_x86_64.whl (735 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m735.2/735.2 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
Installing collected packages: tiktoken
  Attempting uninstall: tiktoken
    Found existing installation: tiktoken 0.2.0
    Uninstalling tiktoken-0.2.0:
      Successfully uninstalled tiktoken-0.2.0
Successfully installed tiktoken-0.3.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0[0m[39;49m -> [0m[32;49m23.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3.10 -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


## 1. Import `tiktoken`

In [2]:
import tiktoken


## 2. 인코딩 로드하기

`tiktoken.get_encoding()`을 사용하여 이름별로 인코딩을 로드합니다.

처음 실행할 때 다운로드하려면 인터넷 연결이 필요합니다. 나중에 실행할 때는 인터넷 연결이 필요하지 않습니다.

---

Use `tiktoken.get_encoding()` to load an encoding by name.

The first time this runs, it will require an internet connection to download. Later runs won't need an internet connection.

In [3]:
encoding = tiktoken.get_encoding("cl100k_base")

주어진 모델 이름에 맞는 올바른 인코딩을 자동으로 로드하려면 `tiktoken.encoding_for_model()`을 사용하세요.

---

Use `tiktoken.encoding_for_model()` to automatically load the correct encoding for a given model name.

In [10]:
# encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")
# encoding = tiktoken.encoding_for_model("text-davinci-003")
encoding = tiktoken.encoding_for_model("text-embedding-ada-002")

In [11]:
encoding

<Encoding 'cl100k_base'>

## 3. `encoding.encode()`로 텍스트를 토큰으로 변환하기

`.encode()` 메서드는 텍스트 문자열을 토큰 정수의 목록으로 변환합니다.

---

The `.encode()` method converts a text string into a list of token integers.

In [20]:
# encoding.encode("tiktoken is great!")
encoding.encode("틱토큰은 훌륭합니다!")

[169,
 233,
 109,
 169,
 228,
 58260,
 223,
 108,
 34804,
 10997,
 249,
 234,
 16306,
 255,
 61938,
 0]

`.encode()`가 반환한 목록의 길이를 계산하여 토큰 수를 계산합니다.

---

Count tokens by counting the length of the list returned by `.encode()`.

In [21]:
def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens


In [22]:
# num_tokens_from_string("tiktoken is great!", "cl100k_base")
num_tokens_from_string("틱토큰은 훌륭합니다!", "cl100k_base")

16

## 4. `encoding.decode()`로 토큰을 텍스트로 변환하기

`.decode()`는 토큰 정수 목록을 문자열로 변환합니다.

---

`.decode()` converts a list of token integers to a string.

In [24]:
# encoding.decode([83, 1609, 5963, 374, 2294, 0])
encoding.decode([169, 233, 109, 169, 228, 58260, 223, 108, 34804, 10997, 249, 234, 16306, 255, 61938, 0])

'틱토큰은 훌륭합니다!'

경고: `.decode()`는 단일 토큰에 적용될 수 있지만, utf-8 경계에 있지 않은 토큰의 경우 손실이 발생할 수 있으니 주의하세요.

단일 토큰의 경우 `.decode_single_token_bytes()`는 단일 정수 토큰을 해당 토큰이 나타내는 바이트 수로 안전하게 변환합니다.

---

Warning: although `.decode()` can be applied to single tokens, beware that it can be lossy for tokens that aren't on utf-8 boundaries.

For single tokens, `.decode_single_token_bytes()` safely converts a single integer token to the bytes it represents.

In [33]:
# [encoding.decode_single_token_bytes(token) for token in [83, 1609, 5963, 374, 2294, 0]]
[encoding.decode_single_token_bytes(token) for token in [169, 233, 109, 169, 228, 58260, 223, 108, 34804, 10997, 249, 234, 16306, 255, 61938, 0]]
# [encoding.decode([token]) for token in [169, 233, 109, 169, 228, 58260, 223, 108, 34804, 10997, 249, 234, 16306, 255, 61938, 0]]

[b'\xed',
 b'\x8b',
 b'\xb1',
 b'\xed',
 b'\x86',
 b'\xa0\xed',
 b'\x81',
 b'\xb0',
 b'\xec\x9d\x80',
 b' \xed',
 b'\x9b',
 b'\x8c',
 b'\xeb\xa5',
 b'\xad',
 b'\xed\x95\xa9\xeb\x8b\x88\xeb\x8b\xa4',
 b'!']

(문자열 앞의 `b`는 문자열이 바이트 문자열임을 나타냅니다.)

(The `b` in front of the strings indicates that the strings are byte strings.)

## 5. 인코딩 비교하기

인코딩에 따라 단어를 분할하고, 공백을 그룹화하고, 영어가 아닌 문자를 처리하는 방식이 다를 수 있습니다. 위의 방법을 사용하여 몇 가지 예제 문자열에서 서로 다른 인코딩을 비교할 수 있습니다.

Different encodings vary in how they split words, group spaces, and handle non-English characters. Using the methods above, we can compare different encodings on a few example strings.

In [34]:
def compare_encodings(example_string: str) -> None:
    """Prints a comparison of three string encodings."""
    # print the example string
    print(f'\nExample string: "{example_string}"')
    # for each encoding, print the # of tokens, the token integers, and the token bytes
    for encoding_name in ["gpt2", "p50k_base", "cl100k_base"]:
        encoding = tiktoken.get_encoding(encoding_name)
        token_integers = encoding.encode(example_string)
        num_tokens = len(token_integers)
        token_bytes = [encoding.decode_single_token_bytes(token) for token in token_integers]
        print()
        print(f"{encoding_name}: {num_tokens} tokens")
        print(f"token integers: {token_integers}")
        print(f"token bytes: {token_bytes}")
        

In [36]:
# compare_encodings("antidisestablishmentarianism")
compare_encodings("틱토큰은 훌륭합니다!")



Example string: "틱토큰은 훌륭합니다!"

gpt2: 25 tokens
token integers: [169, 233, 109, 169, 228, 254, 169, 223, 108, 35975, 222, 220, 169, 249, 234, 167, 98, 255, 47991, 102, 46695, 230, 46695, 97, 0]
token bytes: [b'\xed', b'\x8b', b'\xb1', b'\xed', b'\x86', b'\xa0', b'\xed', b'\x81', b'\xb0', b'\xec\x9d', b'\x80', b' ', b'\xed', b'\x9b', b'\x8c', b'\xeb', b'\xa5', b'\xad', b'\xed\x95', b'\xa9', b'\xeb\x8b', b'\x88', b'\xeb\x8b', b'\xa4', b'!']

p50k_base: 25 tokens
token integers: [169, 233, 109, 169, 228, 254, 169, 223, 108, 35975, 222, 220, 169, 249, 234, 167, 98, 255, 47991, 102, 46695, 230, 46695, 97, 0]
token bytes: [b'\xed', b'\x8b', b'\xb1', b'\xed', b'\x86', b'\xa0', b'\xed', b'\x81', b'\xb0', b'\xec\x9d', b'\x80', b' ', b'\xed', b'\x9b', b'\x8c', b'\xeb', b'\xa5', b'\xad', b'\xed\x95', b'\xa9', b'\xeb\x8b', b'\x88', b'\xeb\x8b', b'\xa4', b'!']

cl100k_base: 16 tokens
token integers: [169, 233, 109, 169, 228, 58260, 223, 108, 34804, 10997, 249, 234, 16306, 255, 61938, 0]
token bytes

In [37]:
compare_encodings("2 + 2 = 4")



Example string: "2 + 2 = 4"

gpt2: 5 tokens
token integers: [17, 1343, 362, 796, 604]
token bytes: [b'2', b' +', b' 2', b' =', b' 4']

p50k_base: 5 tokens
token integers: [17, 1343, 362, 796, 604]
token bytes: [b'2', b' +', b' 2', b' =', b' 4']

cl100k_base: 7 tokens
token integers: [17, 489, 220, 17, 284, 220, 19]
token bytes: [b'2', b' +', b' ', b'2', b' =', b' ', b'4']


In [38]:
compare_encodings("お誕生日おめでとう")



Example string: "お誕生日おめでとう"

gpt2: 14 tokens
token integers: [2515, 232, 45739, 243, 37955, 33768, 98, 2515, 232, 1792, 223, 30640, 30201, 29557]
token bytes: [b'\xe3\x81', b'\x8a', b'\xe8\xaa', b'\x95', b'\xe7\x94\x9f', b'\xe6\x97', b'\xa5', b'\xe3\x81', b'\x8a', b'\xe3\x82', b'\x81', b'\xe3\x81\xa7', b'\xe3\x81\xa8', b'\xe3\x81\x86']

p50k_base: 14 tokens
token integers: [2515, 232, 45739, 243, 37955, 33768, 98, 2515, 232, 1792, 223, 30640, 30201, 29557]
token bytes: [b'\xe3\x81', b'\x8a', b'\xe8\xaa', b'\x95', b'\xe7\x94\x9f', b'\xe6\x97', b'\xa5', b'\xe3\x81', b'\x8a', b'\xe3\x82', b'\x81', b'\xe3\x81\xa7', b'\xe3\x81\xa8', b'\xe3\x81\x86']

cl100k_base: 9 tokens
token integers: [33334, 45918, 243, 21990, 9080, 33334, 62004, 16556, 78699]
token bytes: [b'\xe3\x81\x8a', b'\xe8\xaa', b'\x95', b'\xe7\x94\x9f', b'\xe6\x97\xa5', b'\xe3\x81\x8a', b'\xe3\x82\x81', b'\xe3\x81\xa7', b'\xe3\x81\xa8\xe3\x81\x86']


## 6. 채팅 API 호출에 대한 토큰 카운팅

`gpt-3.5-turbo`와 같은 ChatGPT 모델은 다른 모델과 같은 방식으로 토큰을 사용하지만, 메시지 기반 형식이기 때문에 대화에 사용되는 토큰의 수를 계산하기가 더 어렵습니다.

아래는 `gpt-3.5-turbo-0301`에 전달된 메시지의 토큰을 계산하는 예제 함수입니다.

메시지가 토큰으로 변환되는 정확한 방식은 모델마다 다를 수 있습니다. 따라서 향후 모델 버전이 출시되면 이 함수가 반환하는 답변은 근사치에 불과할 수 있습니다. [ChatML 문서](https://github.com/openai/openai-python/blob/main/chatml.md)에서 OpenAI API가 메시지를 토큰으로 변환하는 방법을 설명하고 있으며, 자체 함수를 작성하는 데 유용할 수 있습니다.

---

ChatGPT models like `gpt-3.5-turbo` and `gpt-4` use tokens in the same way as older completions models, but because of their message-based formatting, it's more difficult to count how many tokens will be used by a conversation.

Below is an example function for counting tokens for messages passed to `gpt-3.5-turbo-0301` or `gpt-4-0314`.

Note that the exact way that tokens are counted from messages may change from model to model. Consider the counts from the function below an estimate, not a timeless guarantee.

In [39]:
def num_tokens_from_messages(messages, model="gpt-3.5-turbo-0301"):
    """Returns the number of tokens used by a list of messages."""
    try:
        encoding = tiktoken.encoding_for_model(model)
    except KeyError:
        print("Warning: model not found. Using cl100k_base encoding.")
        encoding = tiktoken.get_encoding("cl100k_base")
    if model == "gpt-3.5-turbo":
        print("Warning: gpt-3.5-turbo may change over time. Returning num tokens assuming gpt-3.5-turbo-0301.")
        return num_tokens_from_messages(messages, model="gpt-3.5-turbo-0301")
    elif model == "gpt-4":
        print("Warning: gpt-4 may change over time. Returning num tokens assuming gpt-4-0314.")
        return num_tokens_from_messages(messages, model="gpt-4-0314")
    elif model == "gpt-3.5-turbo-0301":
        tokens_per_message = 4  # every message follows <|start|>{role/name}\n{content}<|end|>\n
        tokens_per_name = -1  # if there's a name, the role is omitted
    elif model == "gpt-4-0314":
        tokens_per_message = 3
        tokens_per_name = 1
    else:
        raise NotImplementedError(f"""num_tokens_from_messages() is not implemented for model {model}. See https://github.com/openai/openai-python/blob/main/chatml.md for information on how messages are converted to tokens.""")
    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.items():
            num_tokens += len(encoding.encode(value))
            if key == "name":
                num_tokens += tokens_per_name
    num_tokens += 3  # every reply is primed with <|start|>assistant<|message|>
    return num_tokens


In [40]:
messages = [
    {"role": "system", "content": "You are a helpful, pattern-following assistant that translates corporate jargon into plain English."},
    {"role": "system", "name":"example_user", "content": "New synergies will help drive top-line growth."},
    {"role": "system", "name": "example_assistant", "content": "Things working well together will increase revenue."},
    {"role": "system", "name":"example_user", "content": "Let's circle back when we have more bandwidth to touch base on opportunities for increased leverage."},
    {"role": "system", "name": "example_assistant", "content": "Let's talk later when we're less busy about how to do better."},
    {"role": "user", "content": "This late pivot means we don't have time to boil the ocean for the client deliverable."},
]


In [41]:
# let's verify the function above matches the OpenAI API response

print(f"{num_tokens_from_messages(messages, model)} prompt tokens counted.")


gpt-3.5-turbo-0301
127 prompt tokens counted by num_tokens_from_messages().
127 prompt tokens counted by the OpenAI API.

gpt-4-0314
129 prompt tokens counted by num_tokens_from_messages().
129 prompt tokens counted by the OpenAI API.



In [42]:
# example token count from the OpenAI API
import openai

example_messages = [
    {
        "role": "system",
        "content": "You are a helpful, pattern-following assistant that translates corporate jargon into plain English.",
    },
    {
        "role": "system",
        "name": "example_user",
        "content": "New synergies will help drive top-line growth.",
    },
    {
        "role": "system",
        "name": "example_assistant",
        "content": "Things working well together will increase revenue.",
    },
    {
        "role": "system",
        "name": "example_user",
        "content": "Let's circle back when we have more bandwidth to touch base on opportunities for increased leverage.",
    },
    {
        "role": "system",
        "name": "example_assistant",
        "content": "Let's talk later when we're less busy about how to do better.",
    },
    {
        "role": "user",
        "content": "This late pivot means we don't have time to boil the ocean for the client deliverable.",
    },
]

for model in ["gpt-3.5-turbo-0301", "gpt-4-0314"]:
    print(model)
    # example token count from the function defined above
    print(f"{num_tokens_from_messages(example_messages, model)} prompt tokens counted by num_tokens_from_messages().")
    # example token count from the OpenAI API
    response = openai.ChatCompletion.create(
        model=model,
        messages=example_messages,
        temperature=0,
        max_tokens=1  # we're only counting input tokens here, so let's not waste tokens on the output
    )
    print(f'{response["usage"]["prompt_tokens"]} prompt tokens counted by the OpenAI API.')
    print()


126 prompt tokens used.
