In [None]:
## Training Custom Dataset
import re
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

## Initialize a BPE tokenizer
tokenizer = Tokenizer(BPE(unk_token="<unk>"))
trainer = BpeTrainer(special_tokens=["<unk>", "<s>", "</s>"], vocab_size=50000)
tokenizer.pre_tokenizer = Whitespace()

## Read new vocab words from the .txt file, split by spaces
with open("dataset.txt", 'r', encoding='utf-8') as file:
    data = file.readlines()

data = [re.sub(r'([a-zA-Z0-9၀-၉]+)', r' \1 ', line.strip()) for line in data]
data = [re.sub(r"\\[\'\"]", '', line.strip()) for line in data]
data = [re.sub(r'[\s\u200b]+', ' ', line.strip()) for line in data]

tokenizer.train_from_iterator(data, trainer)
tokenizer.save("bpe_tokenizer.json")

## Tokenize a sentence
output = tokenizer.encode("လွန်ခဲ့တဲ့နှစ်၂၀ကျော်ကျွန်တော်တို့စင်ကာပူရောက်ခါစက၊ စာအုပ်ဆိုင်တွေသွားရင် သတိထားမိတဲ့ စာအုပ်တစ်အုပ်ရှိတယ်။ ")
print("Tokens:", output.tokens)

## Decode back to text
decoded_text = tokenizer.decode(output.ids)
print("Decoded Text:", decoded_text)

Tokens: ['လွန်ခဲ့တဲ့', 'နှစ်', '၂၀', 'ကျော်', 'ကျွန်တော်တို့', 'စင်ကာပူ', 'ရောက်ခါစက', '၊', 'စာအုပ်ဆိုင်', 'တွေ', 'သွားရင်', 'သတိထားမိတဲ့', 'စာအုပ်', 'တစ်အုပ်', 'ရှိတယ်', '။']
Decoded Text: လွန်ခဲ့တဲ့ နှစ် ၂၀ ကျော် ကျွန်တော်တို့ စင်ကာပူ ရောက်ခါစက ၊ စာအုပ်ဆိုင် တွေ သွားရင် သတိထားမိတဲ့ စာအုပ် တစ်အုပ် ရှိတယ် ။
