## **Tiktoken**


`tiktoken` เป็นไลบรารีโทเค็นไนเซอร์ (tokenizer) สำหรับใช้กับโมเดลภาษาขนาดใหญ่ เช่น GPT-3 และ GPT-4 ไลบรารีนี้ช่วยในการแบ่งข้อความเป็นโทเค็น (tokens) ซึ่งเป็นหน่วยพื้นฐานที่โมเดลภาษาใช้ในการประมวลผล

tiktoken สามารถใช้งานได้หลากหลาย เช่น:
- นับจำนวนโทเค็นในข้อความ
- แปลงข้อความเป็นรหัสโทเค็น (token IDs)
- คำนวณค่าใช้จ่ายในการใช้งาน API ของ OpenAI

In [None]:
import tiktoken

In [None]:
enc = tiktoken.encoding_for_model("gpt-4o")

In [None]:
enc.encode("hello world")

In [None]:
enc.encode("สวัสดีครับ")

In [None]:
enc.encode("ยินดีต้อนรับสู่บ้านของเรา")

In [None]:
enc_gpt35 = tiktoken.encoding_for_model("gpt-3.5-turbo")

In [None]:
enc_gpt35.encode("hello world")

In [None]:
enc_gpt35.encode("สวัสดีครับ")

In [None]:
print(enc_gpt35.encode("ยินดีต้อนรับสู่บ้านของเรา"))

In [None]:
def calculate_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.encoding_for_model(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

In [None]:
model_names = ["gpt-3.5-turbo", "gpt-4o"]
texts = [
    "สวัสดีครับ",
    "ยินดีต้อนรับสู่บ้านของเรา",
    "จงเขียนโคลงสี่สุภาพที่เกี่ยวกับโรงเรียนสวนกุหลาบ",
]
for model_name in model_names:
  print(f"Model name: {model_name}")
  for text in texts:
    print(calculate_tokens_from_string(text, model_name))
