In [1]:
from dotenv import load_dotenv
load_dotenv(override=True)
from typing import List, Dict, Optional
from tiktoken import get_encoding

In [2]:
Message = Dict[str, Optional[str]]

# Funkcja count_tokens oblicza liczbę tokenów w zestawie wiadomości. 
def count_tokens(messages: List[Message], model="gpt-3.5-turbo-0613") -> int:
    encoding = get_encoding("cl100k_base")

    tokens_per_message, tokens_per_name = 0, 0
    if model in ["gpt-3.5-turbo-0613", "gpt-3.5-turbo-16k-0613", "gpt-4-0314", "gpt-4-32k-0314", "gpt-4-0613", "gpt-4-32k-0613"]:
        tokens_per_message = 3
        tokens_per_name = 1
    elif model == "gpt-3.5-turbo-0301":
        tokens_per_message = 4
        tokens_per_name = -1
    elif "gpt-3.5-turbo" in model:
        print("Warning: gpt-3.5-turbo may update over time. Returning num tokens assuming gpt-3.5-turbo-0613.")
        return count_tokens(messages, "gpt-3.5-turbo-0613")
    elif "gpt-4" in model:
        print("Warning: gpt-4 may update over time. Returning num tokens assuming gpt-4-0613.")
        return count_tokens(messages, "gpt-4-0613")
    else:
        raise ValueError(f"num_tokens_from_messages() is not implemented for model {model}. See https://github.com/openai/openai-python/blob/main/chatml.md for information on how messages are converted to tokens.")

    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.items():
            if value is not None:  # Upewniamy się, że przetwarzamy tylko istniejące wartości
                num_tokens += len(encoding.encode(value))
                if key == "name":
                    num_tokens += tokens_per_name
    num_tokens += 3
    return num_tokens


In [3]:
# Definicja Message zgodnie z wcześniejszym przykładem
Message = dict

# Przykładowa lista wiadomości
messages: List[Message] = [
    {
        "role": "system",
        "content": "Cześć jestem Justynka!",
    }
]

# Wywołanie funkcji countTokens i wydruk wyniku
num = count_tokens(messages, 'gpt-4')
print(f"Token Count: {num}")

# Użycie get_encoding do zakodowania treści pierwszej wiadomości
encoding = get_encoding("cl100k_base")
print(f"Token IDs: {encoding.encode(messages[0]['content'])}")


Token Count: 16
Token IDs: [34, 3059, 25898, 13599, 336, 4702, 1910, 4657, 0]
