# 틱토큰으로 토큰을 계산하는 방법

[틱토큰`](https://github.com/openai/tiktoken/blob/main/README.md)은 OpenAI의 빠른 오픈소스 토큰 생성기입니다.

텍스트 문자열(예: ``틱토큰은 훌륭하다!`)과 인코딩(예: ``cl100k_base``)이 주어지면 토큰화기는 텍스트 문자열을 토큰 목록(예: `["t", "ik", "token", " is", " great", "!"]`)으로 분할할 수 있습니다.

텍스트 문자열을 토큰으로 분할하는 것은 GPT 모델이 텍스트를 토큰 형태로 보기 때문에 유용합니다. 텍스트 문자열에 몇 개의 토큰이 있는지 알면 (1) 텍스트 모델이 처리하기에는 문자열이 너무 긴지, (2) OpenAI API 호출 비용이 얼마인지(토큰별로 사용량이 책정되므로) 알 수 있습니다.


## 인코딩

인코딩은 텍스트가 토큰으로 변환되는 방식을 지정합니다. 모델마다 다른 인코딩을 사용합니다.

틱토큰`은 OpenAI 모델에서 사용하는 세 가지 인코딩을 지원합니다:

| 인코딩 이름 | OpenAI 모델 |
|-------------------------|-----------------------------------------------------|
| `cl100k_base` | `gpt-4`, `gpt-3.5-turbo`, `text-embedding-ada-002` |
| `p50k_base` | 코덱스 모델, `텍스트-다빈치-002`, `텍스트-다빈치-003`|
| `r50k_base` (또는 `gpt2`) | `davinci`와 같은 GPT-3 모델 |

틱토큰의 모델 인코딩은 다음과 같이 `tiktoken.encoding_for_model()`을 사용하여 검색할 수 있습니다:
```python
encoding = tiktoken.encoding_for_model('gpt-3.5-turbo')
```

p50k_base`는 `r50k_base`와 상당 부분 겹치며, 코드가 아닌 애플리케이션의 경우 일반적으로 동일한 토큰을 제공한다는 점에 유의하세요.

언어별 토큰화 라이브러리 ##

cl100k_base` 및 `p50k_base` 인코딩의 경우:
- Python: [틱토큰](https://github.com/openai/tiktoken/blob/main/README.md)
- .NET/C#: [샤프토큰](https://github.com/dmitry-brazhenko/SharpToken), [틱토큰샤프](https://github.com/aiqinxuancai/TiktokenSharp)
- Java: [jtokkit](https://github.com/knuddelsgmbh/jtokkit)
- 골랑: [틱토큰-고](https://github.com/pkoukk/tiktoken-go)
- Rust: [틱토큰-rs](https://github.com/zurawiki/tiktoken-rs)

r50k_base`(`gpt2`) 인코딩의 경우, 토큰화기는 여러 언어로 제공됩니다.
- Python: [틱토큰](https://github.com/openai/tiktoken/blob/main/README.md) (또는 [GPT2TokenizerFast](https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2TokenizerFast))
- 자바스크립트: [gpt-3-encoder](https://www.npmjs.com/package/gpt-3-encoder)
- .NET/C#: [GPT 토큰화](https://github.com/dluc/openai-tools)
- Java: [gpt2-tokenizer-java](https://github.com/hyunwoongko/gpt2-tokenizer-java)
- PHP: [GPT-3-인코더-PHP](https://github.com/CodeRevolutionPlugins/GPT-3-Encoder-PHP)
- 골랑: [틱토큰-고](https://github.com/pkoukk/tiktoken-go)
- Rust: [틱토큰-rs](https://github.com/zurawiki/tiktoken-rs)

(OpenAI는 타사 라이브러리를 보증하거나 보증하지 않습니다.)


## 문자열이 일반적으로 토큰화되는 방식

영어에서 토큰의 길이는 일반적으로 한 문자에서 한 단어(예: ``t`` 또는 ``great``)까지이지만, 일부 언어에서는 토큰이 한 문자보다 짧거나 한 단어보다 길 수 있습니다. 공백은 일반적으로 단어의 시작 부분으로 그룹화됩니다(예: `"is"` 대신 `"is"` 또는 `" "`+`"is"`). 문자열이 토큰화되는 방식은 [OpenAI Tokenizer](https://beta.openai.com/tokenizer) 또는 타사 [Tiktokenizer](https://tiktokenizer.vercel.app/) 웹앱에서 빠르게 확인할 수 있습니다.

## 0. '틱토큰'을 설치합니다.

필요한 경우 `pip`과 함께 `tiktoken`을 설치합니다:

In [None]:
%pip install --upgrade tiktoken
%pip install --upgrade openai

## 1. 틱토큰` 가져오기

In [2]:
import tiktoken

## 2. 인코딩 로드

틱토큰.get_encoding()`을 사용하여 이름별로 인코딩을 로드합니다.

처음 실행할 때 다운로드하려면 인터넷 연결이 필요합니다. 나중에 실행할 때는 인터넷 연결이 필요하지 않습니다.

In [3]:
encoding = tiktoken.get_encoding("cl100k_base")


주어진 모델 이름에 맞는 올바른 인코딩을 자동으로 로드하려면 `tiktoken.encoding_for_model()`을 사용하세요.

In [4]:
encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")

## 3. encoding.encode()`를 사용하여 텍스트를 토큰으로 변환합니다.



.encode()` 메서드는 텍스트 문자열을 토큰 정수의 목록으로 변환합니다.

In [5]:
encoding.encode("tiktoken is great!")


[83, 1609, 5963, 374, 2294, 0]

.encode()`가 반환한 목록의 길이를 계산하여 토큰 수를 계산합니다.

In [6]:
def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens


In [7]:
num_tokens_from_string("tiktoken is great!", "cl100k_base")


6

## 4. encoding.decode()`를 사용하여 토큰을 텍스트로 변환합니다.

.decode()`는 토큰 정수의 목록을 문자열로 변환합니다.

In [8]:
encoding.decode([83, 1609, 5963, 374, 2294, 0])


'tiktoken is great!'

경고: `.decode()`는 단일 토큰에 적용할 수 있지만, utf-8 경계에 있지 않은 토큰의 경우 손실이 발생할 수 있으니 주의하세요.

단일 토큰의 경우 `.decode_single_token_bytes()`는 단일 정수 토큰을 해당 토큰이 나타내는 바이트로 안전하게 변환합니다.

In [9]:
[encoding.decode_single_token_bytes(token) for token in [83, 1609, 5963, 374, 2294, 0]]


[b't', b'ik', b'token', b' is', b' great', b'!']

(문자열 앞의 `b`는 문자열이 바이트 문자열임을 나타냅니다.)

## 5. 인코딩 비교

인코딩에 따라 단어를 분할하고, 공백을 그룹화하고, 영어가 아닌 문자를 처리하는 방식이 다릅니다. 위의 방법을 사용하여 몇 가지 예제 문자열에서 서로 다른 인코딩을 비교할 수 있습니다.

In [10]:
def compare_encodings(example_string: str) -> None:
    """Prints a comparison of three string encodings."""
    # print the example string
    print(f'\nExample string: "{example_string}"')
    # for each encoding, print the # of tokens, the token integers, and the token bytes
    for encoding_name in ["r50k_base", "p50k_base", "cl100k_base"]:
        encoding = tiktoken.get_encoding(encoding_name)
        token_integers = encoding.encode(example_string)
        num_tokens = len(token_integers)
        token_bytes = [encoding.decode_single_token_bytes(token) for token in token_integers]
        print()
        print(f"{encoding_name}: {num_tokens} tokens")
        print(f"token integers: {token_integers}")
        print(f"token bytes: {token_bytes}")
        

In [11]:
compare_encodings("antidisestablishmentarianism")



Example string: "antidisestablishmentarianism"

r50k_base: 5 tokens
token integers: [415, 29207, 44390, 3699, 1042]
token bytes: [b'ant', b'idis', b'establishment', b'arian', b'ism']

p50k_base: 5 tokens
token integers: [415, 29207, 44390, 3699, 1042]
token bytes: [b'ant', b'idis', b'establishment', b'arian', b'ism']

cl100k_base: 6 tokens
token integers: [519, 85342, 34500, 479, 8997, 2191]
token bytes: [b'ant', b'idis', b'establish', b'ment', b'arian', b'ism']


In [12]:
compare_encodings("2 + 2 = 4")



Example string: "2 + 2 = 4"

r50k_base: 5 tokens
token integers: [17, 1343, 362, 796, 604]
token bytes: [b'2', b' +', b' 2', b' =', b' 4']

p50k_base: 5 tokens
token integers: [17, 1343, 362, 796, 604]
token bytes: [b'2', b' +', b' 2', b' =', b' 4']

cl100k_base: 7 tokens
token integers: [17, 489, 220, 17, 284, 220, 19]
token bytes: [b'2', b' +', b' ', b'2', b' =', b' ', b'4']


In [13]:
compare_encodings("お誕生日おめでとう")



Example string: "お誕生日おめでとう"

r50k_base: 14 tokens
token integers: [2515, 232, 45739, 243, 37955, 33768, 98, 2515, 232, 1792, 223, 30640, 30201, 29557]
token bytes: [b'\xe3\x81', b'\x8a', b'\xe8\xaa', b'\x95', b'\xe7\x94\x9f', b'\xe6\x97', b'\xa5', b'\xe3\x81', b'\x8a', b'\xe3\x82', b'\x81', b'\xe3\x81\xa7', b'\xe3\x81\xa8', b'\xe3\x81\x86']

p50k_base: 14 tokens
token integers: [2515, 232, 45739, 243, 37955, 33768, 98, 2515, 232, 1792, 223, 30640, 30201, 29557]
token bytes: [b'\xe3\x81', b'\x8a', b'\xe8\xaa', b'\x95', b'\xe7\x94\x9f', b'\xe6\x97', b'\xa5', b'\xe3\x81', b'\x8a', b'\xe3\x82', b'\x81', b'\xe3\x81\xa7', b'\xe3\x81\xa8', b'\xe3\x81\x86']

cl100k_base: 9 tokens
token integers: [33334, 45918, 243, 21990, 9080, 33334, 62004, 16556, 78699]
token bytes: [b'\xe3\x81\x8a', b'\xe8\xaa', b'\x95', b'\xe7\x94\x9f', b'\xe6\x97\xa5', b'\xe3\x81\x8a', b'\xe3\x82\x81', b'\xe3\x81\xa7', b'\xe3\x81\xa8\xe3\x81\x86']


## 6. 채팅 완료 API 호출에 대한 토큰 카운팅

'gpt-3.5-turbo' 및 'gpt-4'와 같은 ChatGPT 모델은 이전 완료 모델과 동일한 방식으로 토큰을 사용하지만, 메시지 기반 형식 때문에 대화에서 얼마나 많은 토큰이 사용될지 계산하기가 더 어렵습니다.

아래는 `gpt-3.5-turbo` 또는 `gpt-4`로 전달된 메시지의 토큰을 계산하는 예제 함수입니다.

메시지에서 토큰을 계산하는 정확한 방식은 모델마다 다를 수 있다는 점에 유의하세요. 아래 함수의 카운트는 영원한 보장이 아닌 추정치라고 생각하세요.

특히 입력한 선택적 함수를 사용하는 요청은 아래에서 계산된 추정치 외에 추가 토큰을 소비합니다.

In [14]:
def num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613"):
    """Return the number of tokens used by a list of messages."""
    try:
        encoding = tiktoken.encoding_for_model(model)
    except KeyError:
        print("Warning: model not found. Using cl100k_base encoding.")
        encoding = tiktoken.get_encoding("cl100k_base")
    if model in {
        "gpt-3.5-turbo-0613",
        "gpt-3.5-turbo-16k-0613",
        "gpt-4-0314",
        "gpt-4-32k-0314",
        "gpt-4-0613",
        "gpt-4-32k-0613",
        }:
        tokens_per_message = 3
        tokens_per_name = 1
    elif model == "gpt-3.5-turbo-0301":
        tokens_per_message = 4  # every message follows <|start|>{role/name}\n{content}<|end|>\n
        tokens_per_name = -1  # if there's a name, the role is omitted
    elif "gpt-3.5-turbo" in model:
        print("Warning: gpt-3.5-turbo may update over time. Returning num tokens assuming gpt-3.5-turbo-0613.")
        return num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613")
    elif "gpt-4" in model:
        print("Warning: gpt-4 may update over time. Returning num tokens assuming gpt-4-0613.")
        return num_tokens_from_messages(messages, model="gpt-4-0613")
    else:
        raise NotImplementedError(
            f"""num_tokens_from_messages() is not implemented for model {model}. See https://github.com/openai/openai-python/blob/main/chatml.md for information on how messages are converted to tokens."""
        )
    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.items():
            num_tokens += len(encoding.encode(value))
            if key == "name":
                num_tokens += tokens_per_name
    num_tokens += 3  # every reply is primed with <|start|>assistant<|message|>
    return num_tokens


In [15]:
# let's verify the function above matches the OpenAI API response

import openai

example_messages = [
    {
        "role": "system",
        "content": "You are a helpful, pattern-following assistant that translates corporate jargon into plain English.",
    },
    {
        "role": "system",
        "name": "example_user",
        "content": "New synergies will help drive top-line growth.",
    },
    {
        "role": "system",
        "name": "example_assistant",
        "content": "Things working well together will increase revenue.",
    },
    {
        "role": "system",
        "name": "example_user",
        "content": "Let's circle back when we have more bandwidth to touch base on opportunities for increased leverage.",
    },
    {
        "role": "system",
        "name": "example_assistant",
        "content": "Let's talk later when we're less busy about how to do better.",
    },
    {
        "role": "user",
        "content": "This late pivot means we don't have time to boil the ocean for the client deliverable.",
    },
]

for model in [
    "gpt-3.5-turbo-0301",
    "gpt-3.5-turbo-0613",
    "gpt-3.5-turbo",
    "gpt-4-0314",
    "gpt-4-0613",
    "gpt-4",
    ]:
    print(model)
    # example token count from the function defined above
    print(f"{num_tokens_from_messages(example_messages, model)} prompt tokens counted by num_tokens_from_messages().")
    # example token count from the OpenAI API
    response = openai.ChatCompletion.create(
        model=model,
        messages=example_messages,
        temperature=0,
        max_tokens=1,  # we're only counting input tokens here, so let's not waste tokens on the output
    )
    print(f'{response["usage"]["prompt_tokens"]} prompt tokens counted by the OpenAI API.')
    print()


gpt-3.5-turbo-0301
127 prompt tokens counted by num_tokens_from_messages().
127 prompt tokens counted by the OpenAI API.

gpt-3.5-turbo-0613
129 prompt tokens counted by num_tokens_from_messages().
129 prompt tokens counted by the OpenAI API.

gpt-3.5-turbo
129 prompt tokens counted by num_tokens_from_messages().
129 prompt tokens counted by the OpenAI API.

gpt-4-0314
129 prompt tokens counted by num_tokens_from_messages().
129 prompt tokens counted by the OpenAI API.

gpt-4-0613
129 prompt tokens counted by num_tokens_from_messages().
129 prompt tokens counted by the OpenAI API.

gpt-4
129 prompt tokens counted by num_tokens_from_messages().
129 prompt tokens counted by the OpenAI API.

