In [1]:
from transformers import AutoTokenizer

def tokenize_with_model(model_name, text):
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokens = tokenizer.tokenize(text)
    input_ids = tokenizer.encode(text, add_special_tokens=False)
    
    print(f"\n- {model_name}:")
    print("✅ 입력 문장:", text)
    print("🔢 Token 개수:", len(input_ids))
    print("🔠 Token 리스트:", tokens)
    print("🧬 Input IDs:", input_ids)

text = "내일도 오늘과 똑같은 하루일까?"

# 원하는 모델 이름을 여기에 입력
tokenize_with_model("deepseek-ai/DeepSeek-V3-0324", text)
tokenize_with_model("Qwen/QwQ-32B", text)


- deepseek-ai/DeepSeek-V3-0324:
✅ 입력 문장: 내일도 오늘과 똑같은 하루일까?
🔢 Token 개수: 17
🔠 Token 리스트: ['ëĤ´', 'ìĿ¼', 'ëıĦ', 'Ġìĺ¤', 'ëĬĺ', 'ê³¼', 'Ġë', 'ĺ', 'ĳ', 'ê°', 'Ļ', 'ìĿĢ', 'Ġíķĺ', 'ë£¨', 'ìĿ¼', 'ê¹Į', '?']
🧬 Input IDs: [35076, 14304, 9260, 30803, 92855, 9862, 1525, 249, 242, 4598, 250, 7180, 17454, 43624, 14304, 30939, 33]

- Qwen/QwQ-32B:
✅ 입력 문장: 내일도 오늘과 똑같은 하루일까?
🔢 Token 개수: 14
🔠 Token 리스트: ['ëĤ´', 'ìĿ¼', 'ëıĦ', 'Ġìĺ¤ëĬĺ', 'ê³¼', 'Ġëĺ', 'ĳ', 'ê°Ļ', 'ìĿĢ', 'Ġíķĺ', 'ë£¨', 'ìĿ¼', 'ê¹Į', '?']
🧬 Input IDs: [95218, 32077, 47985, 133857, 53680, 125639, 239, 131380, 33704, 53900, 126746, 32077, 124667, 30]


In [3]:
from transformers import AutoTokenizer

def tokenize_with_model(model_name, text, cost_per_token=0.000002):
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
    tokens = tokenizer.tokenize(text)
    input_ids = tokenizer.encode(text, add_special_tokens=False)
    decoded_tokens = [tokenizer.decode([tid]) for tid in input_ids]
    estimated_cost = len(input_ids) * cost_per_token

    print(f"\n- {model_name}:")
    print("✅ 입력 문장:", text)
    print("🔧 Tokenizer 종류:", tokenizer.__class__.__name__)
    print("🔢 Token 개수:", len(input_ids))
    print("🔠 Token 리스트:", tokens)
    print("🧬 Input IDs:", input_ids)
    print("🔍 사람이 읽을 수 있는 Token들:", decoded_tokens)
    print(f"💰 예상 토큰 비용 (USD): ${estimated_cost:.8f}")

# 공통 입력 문장
text = "내일도 오늘과 똑같은 하루일까? 오늘보다 즐거웠으면 좋겠다!!^^"

# 비교할 모델
tokenize_with_model("deepseek-ai/DeepSeek-V3-0324", text)
tokenize_with_model("Qwen/QwQ-32B", text)



- deepseek-ai/DeepSeek-V3-0324:
✅ 입력 문장: 내일도 오늘과 똑같은 하루일까? 오늘보다 즐거웠으면 좋겠다!!^^
🔧 Tokenizer 종류: LlamaTokenizerFast
🔢 Token 개수: 31
🔠 Token 리스트: ['ëĤ´', 'ìĿ¼', 'ëıĦ', 'Ġìĺ¤', 'ëĬĺ', 'ê³¼', 'Ġë', 'ĺ', 'ĳ', 'ê°', 'Ļ', 'ìĿĢ', 'Ġíķĺ', 'ë£¨', 'ìĿ¼', 'ê¹Į', '?', 'Ġìĺ¤', 'ëĬĺ', 'ë³´ëĭ¤', 'Ġì¦', 'Ĳ', 'ê±°', 'ìĽ', 'ł', 'ìľ¼ë©´', 'Ġì¢ĭ', 'ê²ł', 'ëĭ¤', '!!', '^^']
🧬 Input IDs: [35076, 14304, 9260, 30803, 92855, 9862, 1525, 249, 242, 4598, 250, 7180, 17454, 43624, 14304, 30939, 33, 30803, 92855, 62811, 37589, 241, 28058, 10204, 257, 80726, 61912, 70096, 3874, 6909, 29670]
🔍 사람이 읽을 수 있는 Token들: ['내', '일', '도', ' 오', '늘', '과', ' �', '�', '�', '�', '�', '은', ' 하', '루', '일', '까', '?', ' 오', '늘', '보다', ' �', '�', '거', '�', '�', '으면', ' 좋', '겠', '다', '!!', '^^']
💰 예상 토큰 비용 (USD): $0.00006200

- Qwen/QwQ-32B:
✅ 입력 문장: 내일도 오늘과 똑같은 하루일까? 오늘보다 즐거웠으면 좋겠다!!^^
🔧 Tokenizer 종류: Qwen2TokenizerFast
🔢 Token 개수: 25
🔠 Token 리스트: ['ëĤ´', 'ìĿ¼', 'ëıĦ', 'Ġìĺ¤ëĬĺ', 'ê³¼', 'Ġëĺ', 'ĳ', 'ê°Ļ', 'ìĿĢ', 'Ġíķĺ', 'ë£¨', 'ìĿ¼', 'ê¹Į

In [4]:
from transformers import AutoTokenizer

def tokenize_with_model(model_name, text):
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
    tokens = tokenizer.tokenize(text)
    input_ids = tokenizer.encode(text, add_special_tokens=False)
    decoded_tokens = [tokenizer.decode([tid]) for tid in input_ids]

    print(f"\n Model: {model_name}")
    print("⭐ 입력 문장:", text)
    print("✅ Token 수:", len(input_ids))
    print("✅ Token ID 목록:", input_ids)
    print("✅ Token 목록:", tokens)
    print("✅ 사람이 읽을 수 있는 Token들:", decoded_tokens)

# 실험할 문장
text = "2025년 새해 福 많이 받으세요!! Happy New Year~~"

#  tokenizer
tokenize_with_model("gpt2", text)

# BERT tokenizer
tokenize_with_model("bert-base-multilingual-cased", text)

# DeepSeek tokenizer
tokenize_with_model("deepseek-ai/DeepSeek-V3-0324", text)



 Model: gpt2
⭐ 입력 문장: 2025년 새해 福 많이 받으세요!! Happy New Year~~
✅ Token 수: 35
✅ Token ID 목록: [1238, 1495, 167, 227, 226, 23821, 225, 230, 47991, 112, 13328, 99, 237, 31619, 100, 236, 35975, 112, 31619, 108, 249, 168, 250, 120, 168, 226, 116, 168, 248, 242, 3228, 14628, 968, 6280, 4907]
✅ Token 목록: ['20', '25', 'ë', 'ħ', 'Ħ', 'Ġì', 'ĥ', 'Ī', 'íķ', '´', 'Ġç', '¦', 'ı', 'Ġë', '§', 'İ', 'ìĿ', '´', 'Ġë', '°', 'Ľ', 'ì', 'ľ', '¼', 'ì', 'Ħ', '¸', 'ì', 'ļ', 'Ķ', '!!', 'ĠHappy', 'ĠNew', 'ĠYear', '~~']
✅ 사람이 읽을 수 있는 Token들: ['20', '25', '�', '�', '�', ' �', '�', '�', '�', '�', ' �', '�', '�', ' �', '�', '�', '�', '�', ' �', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '!!', ' Happy', ' New', ' Year', '~~']

 Model: bert-base-multilingual-cased
⭐ 입력 문장: 2025년 새해 福 많이 받으세요!! Happy New Year~~
✅ Token 수: 17
✅ Token ID 목록: [97334, 10954, 9415, 14523, 5933, 47058, 9322, 119185, 24982, 48549, 106, 106, 22678, 10287, 13567, 198, 198]
✅ Token 목록: ['2025', '##년', '새', '##해', '福', '많이', '받', '##으', '

In [5]:
import tiktoken

encoding = tiktoken.encoding_for_model("gpt-4o")

text = "2025년 새해 福 많이 받으세요!! Happy New Year~~"
input_ids = encoding.encode(text)
decoded = [encoding.decode([tid]) for tid in input_ids]

print("✅ Token 수:", len(input_ids))
print("🧬 Token ID 목록:", input_ids)
print("🔠 사람이 읽을 수 있는 Token들:", decoded)


✅ Token 수: 15
🧬 Token ID 목록: [1323, 20, 12622, 47563, 5650, 26328, 69815, 34792, 6566, 37436, 2618, 27213, 2036, 10343, 7739]
🔠 사람이 읽을 수 있는 Token들: ['202', '5', '년', ' 새', '해', ' 福', ' 많이', ' 받', '으', '세요', '!!', ' Happy', ' New', ' Year', '~~']


In [2]:
from transformers import AutoTokenizer
import tiktoken

# 비교용 텍스트
text = "새해 복 많이 받으세요. 오늘도 운수 좋은 하루 되세요."

# Hugging Face 기반 tokenizer 실험 함수
def tokenize_with_model(model_name, text):
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
    tokens = tokenizer.tokenize(text)
    input_ids = tokenizer.encode(text, add_special_tokens=False)
    decoded_tokens = [tokenizer.decode([tid]) for tid in input_ids]

    print(f"\n⭐ Model: {model_name}")
    print("✅ 입력 문장:", text)
    print("✅ Token 수:", len(input_ids))
    print("✅ Token ID 목록:", input_ids)
    print("✅ Token 목록:", tokens)
    print("✅ 사람이 읽을 수 있는 Token들:", decoded_tokens)

# GPT-2
tokenize_with_model("gpt2", text)

# BERT
tokenize_with_model("bert-base-multilingual-cased", text)

# DeepSeek
tokenize_with_model("deepseek-ai/DeepSeek-V3-0324", text)

# GPT-4o tokenizer (tiktoken 기반)
encoding = tiktoken.encoding_for_model("gpt-4o")
input_ids = encoding.encode(text)
decoded = [encoding.decode([tid]) for tid in input_ids]

print("\n⭐ Model: gpt-4o (tiktoken)")
print("✅ 입력 문장:", text)
print("✅ Token 수:", len(input_ids))
print("✅ Token ID 목록:", input_ids)
print("✅ 사람이 읽을 수 있는 Token들:", decoded)



⭐ Model: gpt2
✅ 입력 문장: 새해 복 많이 받으세요. 오늘도 운수 좋은 하루 되세요.
✅ Token 수: 62
✅ Token ID 목록: [168, 225, 230, 47991, 112, 31619, 111, 113, 31619, 100, 236, 35975, 112, 31619, 108, 249, 168, 250, 120, 168, 226, 116, 168, 248, 242, 13, 23821, 246, 97, 167, 232, 246, 167, 237, 226, 23821, 248, 112, 168, 230, 246, 23821, 95, 233, 35975, 222, 220, 47991, 246, 167, 96, 101, 31619, 238, 246, 168, 226, 116, 168, 248, 242, 13]
✅ Token 목록: ['ì', 'ĥ', 'Ī', 'íķ', '´', 'Ġë', '³', 'µ', 'Ġë', '§', 'İ', 'ìĿ', '´', 'Ġë', '°', 'Ľ', 'ì', 'ľ', '¼', 'ì', 'Ħ', '¸', 'ì', 'ļ', 'Ķ', '.', 'Ġì', 'ĺ', '¤', 'ë', 'Ĭ', 'ĺ', 'ë', 'ı', 'Ħ', 'Ġì', 'ļ', '´', 'ì', 'Ī', 'ĺ', 'Ġì', '¢', 'ĭ', 'ìĿ', 'Ģ', 'Ġ', 'íķ', 'ĺ', 'ë', '£', '¨', 'Ġë', 'Ĳ', 'ĺ', 'ì', 'Ħ', '¸', 'ì', 'ļ', 'Ķ', '.']
✅ 사람이 읽을 수 있는 Token들: ['�', '�', '�', '�', '�', ' �', '�', '�', ' �', '�', '�', '�', '�', ' �', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '.', ' �', '�', '�', '�', '�', '�', '�', '�', '�', ' �', '�', '�', '�', '�', '�', ' �', '�', '�', '�',