BPE Compair


In [15]:
from transformers import BertTokenizer
from pythainlp.tokenize import word_tokenize


# =======================
# โมเดล 1: Custom BPE Tokenizer
# =======================
from tokenizers import Tokenizer, models, pre_tokenizers, trainers

custom_tokenizer = Tokenizer(models.BPE())
custom_tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()

thai_sentences = [
    "ปัญญาประดิษฐ์กำลังเปลี่ยนแปลงโลกอย่างรวดเร็ว",
    "เทคโนโลยีใหม่ๆ ทำให้ชีวิตเราสะดวกมากขึ้น",
    "โมเดลภาษามีบทบาทสำคัญในการสื่อสารกับเครื่องจักร"
]
trainer = trainers.BpeTrainer(vocab_size=200, min_frequency=1)
custom_tokenizer.train_from_iterator(thai_sentences, trainer)

# =======================
# โมเดล 2: ThaiBERT Tokenizer (ใช้ bert-base-multilingual-cased แทน)
# =======================
thai_bert_tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")

# =======================
# โมเดล 3: PyThaiNLP Tokenizer
# =======================
def pythainlp_tokenizer(text):
    return word_tokenize(text)

# =======================
# ข้อความที่ใช้ทดสอบ
# =======================
thai_text = "เทคโนโลยีปัญญาประดิษฐ์กำลังเปลี่ยนแปลงโลกในทุกด้านอย่างรวดเร็วและมีประสิทธิภาพ"

# =======================
# เปรียบเทียบผลลัพธ์จากแต่ละโมเดล
# =======================
custom_output = custom_tokenizer.encode(thai_text)
thai_bert_output = thai_bert_tokenizer.encode(thai_text)
pythainlp_output = pythainlp_tokenizer(thai_text)

# =======================
# แสดงผล
# =======================
print(f"\nข้อความภาษาไทย: {thai_text}")

print("\nCustom Tokenizer (BPE)")
print("Tokens:", custom_output.tokens)
print("จำนวน Token:", len(custom_output))

print("\nThaiBERT Tokenizer")
print("Tokens:", thai_bert_tokenizer.convert_ids_to_tokens(thai_bert_output))
print("จำนวน Token:", len(thai_bert_output))

print("\nPyThaiNLP Tokenizer")
print("Tokens:", pythainlp_output)
print("จำนวน Token:", len(pythainlp_output))



ข้อความภาษาไทย: เทคโนโลยีปัญญาประดิษฐ์กำลังเปลี่ยนแปลงโลกในทุกด้านอย่างรวดเร็วและมีประสิทธิภาพ

Custom Tokenizer (BPE)
Tokens: ['เทคโนโลยี', 'ปัญญาประดิษฐ์กำลั', 'งเปลี่ยนแปลงโล', 'ก', 'ใ', 'น', 'ท', 'ก', 'ด', '้', 'า', 'น', 'อ', 'ย่', 'างรวดเร็ว', 'แ', 'ล', 'ะ', 'มี', 'ปร', 'ะ', 'ส', 'ิ', 'ท', 'ิ', 'ภา']
จำนวน Token: 26

ThaiBERT Tokenizer
Tokens: ['[CLS]', 'เ', '##ท', '##ค', '##โ', '##น', '##โ', '##ล', '##ย', '##ี', '##ป', '##ั', '##ญ', '##ญ', '##า', '##ป', '##ร', '##ะ', '##ด', '##ิ', '##ษ', '##ฐ', '##์', '##ก', '##ำ', '##ล', '##ัง', '##เ', '##ป', '##ลี', '##่', '##ยน', '##แ', '##ป', '##ล', '##ง', '##โ', '##ลก', '##ใน', '##ท', '##ุ', '##ก', '##ด้', '##าน', '##อย', '##่า', '##ง', '##ร', '##ว', '##ด', '##เ', '##ร', '##็', '##ว', '##แ', '##ล', '##ะ', '##มี', '##ป', '##ร', '##ะ', '##ส', '##ิ', '##ท', '##ธ', '##ิ', '##ภ', '##า', '##พ', '[SEP]']
จำนวน Token: 70

PyThaiNLP Tokenizer
Tokens: ['เทคโนโลยี', 'ปัญญาประดิษฐ์', 'กำลัง', 'เปลี่ยนแปลง', 'โลก', 'ใน', 'ทุก', 'ด้าน', 'อย่าง', 'รวดเร็ว