## Tokenizer 

### 安裝套件

In [1]:
# .\venv\Scripts\activate
!pip install tiktoken

Collecting tiktoken
  Using cached tiktoken-0.9.0-cp311-cp311-win_amd64.whl.metadata (6.8 kB)
Collecting regex>=2022.1.18 (from tiktoken)
  Using cached regex-2024.11.6-cp311-cp311-win_amd64.whl.metadata (41 kB)
Using cached tiktoken-0.9.0-cp311-cp311-win_amd64.whl (893 kB)
Using cached regex-2024.11.6-cp311-cp311-win_amd64.whl (274 kB)
Installing collected packages: regex, tiktoken
Successfully installed regex-2024.11.6 tiktoken-0.9.0



[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


### 計算 Token 用量
不同語言差異

In [6]:
import tiktoken

tokenizer = tiktoken.encoding_for_model("gpt-3.5-turbo")

token_ids = tokenizer.encode("今天太陽很大")
print("[今天太陽很大]")
print("Token:",len(token_ids))  # 輸出 9

token_ids = tokenizer.encode("The sun is very bright today")
print("[The sun is very bright today]")
print("Token:",len(token_ids))  # 輸出 6

[今天太陽很大]
Token: 9
[The sun is very bright today]
Token: 6


### 查看字詞裁切結果

In [9]:
print("[photography攝影]")
for token in tokenizer.encode("photography攝影"):
    b = tokenizer.decode_bytes([token])
    print(b)

# Output: b'phot', b'ography', b'\xe6\x94', b'\x9d', b'\xe5\xbd\xb1'

[photography攝影]
b'phot'
b'ography'
b'\xe6\x94'
b'\x9d'
b'\xe5\xbd\xb1'


#### 觀察
1. "photography" 被拆成了 "phot" 與 "ography" 兩個 Subwords。
2. 「攝」這個字則被拆解成 \xe6\x94 與 \x9d 兩組 Byte 的組合。
3. 「影」被完整保留為 \xe5\xbd\xb1 的編碼。

photography 直覺上可能會認為應該被切成 "photo" 與 "graphy"，但這就是 BPE Tokenizer 訓練階段自己統計出來的結果，切成 "phot" 與 "ography" 可能更貼近訓練語料的分佈。

### 比較 GPT-3.5 與 GPT-4 Tokenizer 的差異
* 詳細的 Tokenizer 名稱可以參考[官方範例](https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb)。
* 若要相當精準的考慮 Chat Format 對 Token 數量的影響，可以參考[官方的 ChatGPT Prompt 格式範例](https://github.com/openai/openai-cookbook/blob/main/examples/How_to_format_inputs_to_ChatGPT_models.ipynb)。

In [11]:
tk1 = tiktoken.encoding_for_model("gpt-3.5-turbo")
tk2 = tiktoken.encoding_for_model("gpt-4")
print("gpt-3.5-turbo:", tk1)
print("gpt-4:", tk2)

gpt-3.5-turbo: <Encoding 'cl100k_base'>
gpt-4: <Encoding 'cl100k_base'>
