# Training WordPiece tokenizer example

In [1]:
import datasets
from tokenizers import Tokenizer, models, normalizers, pre_tokenizers, processors, trainers

## Loading Vietnamese dataset

In [2]:
vi_dataset = datasets.load_dataset("facebook/belebele", "vie_Latn", split="test")
vi_dataset

Dataset({
    features: ['link', 'question_number', 'flores_passage', 'question', 'mc_answer1', 'mc_answer2', 'mc_answer3', 'mc_answer4', 'correct_answer_num', 'dialect', 'ds'],
    num_rows: 900
})

In [3]:
vi_dataset[0]

{'link': 'https://en.wikibooks.org/wiki/Accordion/Right_hand',
 'question_number': 1,
 'flores_passage': 'Hãy đảm bảo tay của bạn được thư giãn nhất có thể khi nhấn tất cả các nốt nhạc chính xác - và cố gắng đừng làm nhiều cử động ngón tay không cần thiết. Chơi đàn theo cách này sẽ giúp bạn giảm mất sức tối đa. Hãy nhớ rằng, bạn không cần phải dùng nhiều lực để ấn phím nhằm tăng âm lượng như khi chơi đàn piano. Trên đàn phong cầm, để tăng âm lượng, bạn sử dụng ống thổi tác động mạnh hơn hoặc nhanh hơn.',
 'question': 'Theo đoạn văn, đâu không được coi là lời khuyên đúng để chơi được đàn phong cầm?',
 'mc_answer1': 'Để tăng âm lượng, dùng thêm nhiều lực khi ấn phím',
 'mc_answer2': 'Hạn chế tối thiểu động tác thừa để giữ sức',
 'mc_answer3': 'Chú ý khi nhấn các nốt nhạc phải giữ cho tay được thư giãn nhất có thể',
 'mc_answer4': 'Tăng tốc độ di chuyển hộp xếp để tăng âm lượng',
 'correct_answer_num': '1',
 'dialect': 'vie_Latn',
 'ds': '2023-06-01'}

In [4]:
sample_text = vi_dataset[0]["flores_passage"]
sample_text

'Hãy đảm bảo tay của bạn được thư giãn nhất có thể khi nhấn tất cả các nốt nhạc chính xác - và cố gắng đừng làm nhiều cử động ngón tay không cần thiết. Chơi đàn theo cách này sẽ giúp bạn giảm mất sức tối đa. Hãy nhớ rằng, bạn không cần phải dùng nhiều lực để ấn phím nhằm tăng âm lượng như khi chơi đàn piano. Trên đàn phong cầm, để tăng âm lượng, bạn sử dụng ống thổi tác động mạnh hơn hoặc nhanh hơn.'

## Training WordPiece

### Init tokenizer

In [6]:
from tokenizers.models import WordPiece

wp_tokenizer = Tokenizer(WordPiece(unk_token="[UNK]"))

### Normalization

In [7]:
normalizer = normalizers.Sequence([normalizers.NFD(), 
                                normalizers.Lowercase()])
wp_tokenizer.normalizer = normalizer

In [8]:
normalized_sample_text = normalizer.normalize_str(sample_text)
normalized_sample_text

'hãy đảm bảo tay của bạn được thư giãn nhất có thể khi nhấn tất cả các nốt nhạc chính xác - và cố gắng đừng làm nhiều cử động ngón tay không cần thiết. chơi đàn theo cách này sẽ giúp bạn giảm mất sức tối đa. hãy nhớ rằng, bạn không cần phải dùng nhiều lực để ấn phím nhằm tăng âm lượng như khi chơi đàn piano. trên đàn phong cầm, để tăng âm lượng, bạn sử dụng ống thổi tác động mạnh hơn hoặc nhanh hơn.'

### Pre_tokenizer

In [9]:
pre_tokenizer = pre_tokenizers.Sequence([pre_tokenizers.Whitespace(), 
                                        pre_tokenizers.Digits(individual_digits=False)])
wp_tokenizer.pre_tokenizer = pre_tokenizer

In [10]:
pre_tokenized_sample_text = pre_tokenizer.pre_tokenize_str(normalized_sample_text)
pre_tokenized_sample_text[:5]

[('hãy', (0, 4)),
 ('đảm', (5, 9)),
 ('bảo', (10, 14)),
 ('tay', (15, 18)),
 ('của', (19, 23))]

### Train

In [11]:
trainer = trainers.WordPieceTrainer(special_tokens=["<BLANK>", "<S>", "<UNK>"],show_progress=True)

In [12]:
def batch_iterator(batch_size=1000):
    for i in range(0, len(vi_dataset), batch_size):
        yield vi_dataset[i : i + batch_size]["flores_passage"]
        
wp_tokenizer.train_from_iterator(batch_iterator(), trainer=trainer, length=len(vi_dataset))






In [13]:
wp_tokenizer.get_vocab_size()

6473

In [14]:
wp_tokenizer.get_vocab()

{'tro': 491,
 'tiểu': 946,
 'gp': 2979,
 'bào': 1511,
 '##ãn': 1463,
 'mừng': 2217,
 'yard': 3120,
 '773': 5663,
 '##ire': 6163,
 'ép': 2490,
 'dầu': 1415,
 '##̣p': 381,
 'mì': 4039,
 '##ğ': 4382,
 '##xbur': 4466,
 '##par': 3132,
 'dream': 3599,
 'pic': 2538,
 'hối': 2508,
 '##rk': 2425,
 'vichy': 4810,
 'atlanta': 2384,
 'ngột': 4563,
 '##ute': 4309,
 '##anes': 4622,
 'phẩm': 1160,
 'c': 35,
 'opec': 5808,
 'chile': 1961,
 'ex': 2973,
 'gosling': 3604,
 'thịt': 1974,
 'nắp': 6224,
 'kechagioglou': 5971,
 'montana': 6463,
 'thập': 1356,
 'ghề': 5158,
 'eth': 6098,
 '##ei': 4388,
 'bre': 2179,
 '##bonite': 5443,
 'nu': 676,
 'gillard': 5902,
 'ngoắc': 4774,
 'corona': 6365,
 'hướng': 845,
 'mers': 4058,
 'chấm': 1649,
 '##áo': 311,
 '##anh': 333,
 'soạn': 2443,
 'chợ': 2635,
 'chín': 1438,
 'bỏng': 4914,
 'ipod': 5543,
 'ida': 3979,
 '##ua': 2591,
 '##eti': 3349,
 'nai': 1722,
 '1981': 3515,
 'xử': 1239,
 'const': 4753,
 'thuốc': 1614,
 'toto': 4

In [15]:
wp_tokenizer.save('vi-wiki-tokenizer/word-piece-tokenizer.json')