# WordPiece Tokenizer

Pada kode ini, diberikan implementasi dan contoh penggunaan algoritma WordPiece (sumber: [HuggingFace](https://huggingface.co/learn/nlp-course/chapter6/6?fw=pt))

[Petunjuk instalasi package](https://huggingface.co/docs/transformers/installation)

In [1]:
#!pip install transformers

In [2]:
# Import semua packages yang diperlukan.
from transformers import AutoTokenizer
from collections import defaultdict

In [3]:
# Instantiate pre-tokenizer untuk membagi dokumen menjadi individual words
# berdasarkan keberadaan spasi
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

In [4]:
# Mengekstrak kalimat-kalimat korpus train ke dataset tersendiri untuk melatih
# tokenizer. Hasilnya file berisi raw text (tanpa hasil tokenisasi)
with open('train.txt', 'r') as train, open('train_text_only.txt', 'w') as out:
    lines = train.readlines()
    for line in lines:
        if line.startswith('# text ='):
            out.write(line[9:])

In [5]:
# Membaca corpus
with open('train_text_only.txt') as raw_text:
    corpus = raw_text.readlines()

In [6]:
# Menghitung frekuensi tiap kata pada corpus
word_freqs = defaultdict(int)
for text in corpus:
    words_with_offsets = tokenizer.backend_tokenizer.pre_tokenizer.pre_tokenize_str(text)
    new_words = [word for word, _ in words_with_offsets]
    for word in new_words:
        word_freqs[word] += 1

In [7]:
# Melihat karakter apa saja yang ada pada corpus
alphabet = []
for word in word_freqs.keys():
    if word[0] not in alphabet:
        alphabet.append(word[0])
    for letter in word[1:]:
        if f"##{letter}" not in alphabet:
            alphabet.append(f"##{letter}")

alphabet.sort()

print(alphabet)

['"', '##0', '##1', '##2', '##3', '##4', '##5', '##6', '##7', '##8', '##9', '##A', '##B', '##C', '##D', '##E', '##F', '##G', '##H', '##I', '##J', '##K', '##L', '##M', '##N', '##O', '##P', '##R', '##S', '##T', '##U', '##V', '##W', '##X', '##Y', '##Z', '##a', '##b', '##c', '##d', '##e', '##f', '##g', '##h', '##i', '##j', '##k', '##l', '##m', '##n', '##o', '##p', '##q', '##r', '##s', '##t', '##u', '##v', '##w', '##x', '##y', '##z', '##£', '$', '%', '&', "'", '(', ')', '+', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '`', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'v', 'w', 'y', 'Â']


In [8]:
# Mendefinisikan vocabulary yang akan digunakan untuk tokenisasi, termasuk
# special token (di luar alphabet pada corpus)
vocab = ["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"] + alphabet.copy()

In [9]:
# Membagi tiap kata menjadi individual character dengan adanya special prefix
# untuk karakter yang bukan awal kata.
splits = {
    word: [c if i == 0 else f"##{c}" for i, c in enumerate(word)]
    for word in word_freqs.keys()
}
print(splits)

{'"': ['"'], 'ADB': ['A', '##D', '##B'], 'sendiri': ['s', '##e', '##n', '##d', '##i', '##r', '##i'], 'mempertimbangkan': ['m', '##e', '##m', '##p', '##e', '##r', '##t', '##i', '##m', '##b', '##a', '##n', '##g', '##k', '##a', '##n'], 'untuk': ['u', '##n', '##t', '##u', '##k'], 'menyetujuinya': ['m', '##e', '##n', '##y', '##e', '##t', '##u', '##j', '##u', '##i', '##n', '##y', '##a'], 'karena': ['k', '##a', '##r', '##e', '##n', '##a'], 'ini': ['i', '##n', '##i'], 'menggunakan': ['m', '##e', '##n', '##g', '##g', '##u', '##n', '##a', '##k', '##a', '##n'], "'": ["'"], 'renewable': ['r', '##e', '##n', '##e', '##w', '##a', '##b', '##l', '##e'], 'energy': ['e', '##n', '##e', '##r', '##g', '##y'], 'dan': ['d', '##a', '##n'], 'juga': ['j', '##u', '##g', '##a'], 'digunakan': ['d', '##i', '##g', '##u', '##n', '##a', '##k', '##a', '##n'], 'sebagai': ['s', '##e', '##b', '##a', '##g', '##a', '##i'], 'bagian': ['b', '##a', '##g', '##i', '##a', '##n'], 'dari': ['d', '##a', '##r', '##i'], 'clean': ['c', 

In [10]:
# Mendefinisikan score untuk menentukan pair mana yang akan di-merge. Hal ini agak
# berbeda dengan BPE yang melakukan merge pada pair yang frekuensinya terbanyak.
def compute_pair_scores(splits):
    letter_freqs = defaultdict(int)
    pair_freqs = defaultdict(int)
    for word, freq in word_freqs.items():
        split = splits[word]
        if len(split) == 1:
            letter_freqs[split[0]] += freq
            continue
        for i in range(len(split) - 1):
            pair = (split[i], split[i + 1])
            letter_freqs[split[i]] += freq
            pair_freqs[pair] += freq
        letter_freqs[split[-1]] += freq

    scores = {
        pair: freq / (letter_freqs[pair[0]] * letter_freqs[pair[1]])
        for pair, freq in pair_freqs.items()
    }
    return scores

In [11]:
# Membuat fungsi untuk melakukan merge (dilakukan pada splits)
def merge_pair(a, b, splits):
    for word in word_freqs:
        split = splits[word]
        if len(split) == 1:
            continue
        i = 0
        while i < len(split) - 1:
            if split[i] == a and split[i + 1] == b:
                merge = a + b[2:] if b.startswith("##") else a + b
                split = split[:i] + [merge] + split[i + 2 :]
            else:
                i += 1
        splits[word] = split
    return splits

In [12]:
# Iterasi untuk training, seperti BPE, silakan ubah-ubah bagian vocab_size untuk
# melihat perbedaan hasil tokenisasinya
vocab_size = 10000  # Perbesar/perkecil dan lihat bedanya pada hasil tokenisasi
while len(vocab) < vocab_size:
    scores = compute_pair_scores(splits)
    best_pair, max_score = "", None
    for pair, score in scores.items():
        if max_score is None or max_score < score:
            best_pair = pair
            max_score = score
    splits = merge_pair(*best_pair, splits)
    new_token = (
        best_pair[0] + best_pair[1][2:]
        if best_pair[1].startswith("##")
        else best_pair[0] + best_pair[1]
    )
    vocab.append(new_token)
    
print(vocab)

['[PAD]', '[UNK]', '[CLS]', '[SEP]', '[MASK]', '"', '##0', '##1', '##2', '##3', '##4', '##5', '##6', '##7', '##8', '##9', '##A', '##B', '##C', '##D', '##E', '##F', '##G', '##H', '##I', '##J', '##K', '##L', '##M', '##N', '##O', '##P', '##R', '##S', '##T', '##U', '##V', '##W', '##X', '##Y', '##Z', '##a', '##b', '##c', '##d', '##e', '##f', '##g', '##h', '##i', '##j', '##k', '##l', '##m', '##n', '##o', '##p', '##q', '##r', '##s', '##t', '##u', '##v', '##w', '##x', '##y', '##z', '##£', '$', '%', '&', "'", '(', ')', '+', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '`', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'v', 'w', 'y', 'Â', 'Â£', '##XR', '##EJ', '##JE', 'CXR', '##MF', '##OF', 'EOF', 'HJE', '##RJE', '##NZ', '##CO', '##NCO', '##UM', '##UMN', 'Â£1', 'Â£12', '##KO', '##NKO',

In [13]:
# Define fungsi untuk tokenize sample
def encode_word(word):
    tokens = []
    while len(word) > 0:
        i = len(word)
        while i > 0 and word[:i] not in vocab:
            i -= 1
        if i == 0:
            return ["[UNK]"]
        tokens.append(word[:i])
        word = word[i:]
        if len(word) > 0:
            word = f"##{word}"
    return tokens

def tokenize(text):
    pre_tokenize_result = tokenizer._tokenizer.pre_tokenizer.pre_tokenize_str(text)
    pre_tokenized_text = [word for word, offset in pre_tokenize_result]
    encoded_words = [encode_word(word) for word in pre_tokenized_text]
    return sum(encoded_words, [])

In [14]:
# Contoh melakukan tokenisasi suatu kalimat
print(tokenize('Kera untuk amankan pesta olahraga'))

['Ker', '##a', 'untuk', 'ama', '##nk', '##a', '##n', 'pes', '##t', '##a', 'olahraga']


In [15]:
# Contoh tokenisasi dengan tokenizer yang sudah dilatih
print(tokenize('Pemerintah kota Delhi mengerahkan monyet untuk mengusir monyet-monyet lain yang berbadan lebih kecil dari arena Pesta Olahraga Persemakmuran.'))

['Pemerintah', 'kot', '##a', 'Delhi', 'menger', '##ahk', '##a', '##n', 'monyet', 'untuk', 'mengusir', 'monyet', '-', 'monyet', 'lain', 'yang', 'berbadan', 'lebih', 'kecil', 'd', '##a', '##ri', 'ar', '##e', '##n', '##a', 'Pe', '##s', '##t', '##a', 'Ol', '##a', '##h', '##r', '##a', '##ga', 'Perse', '##m', '##a', '##k', '##mu', '##r', '##a', '##n', '.']


In [16]:
# Contoh melakukan tokenisasi suatu kalimat
print(tokenize('Penanaman modal asing (PMA) di Malaysia tahun 2006 mencapai lima kali lebih besar dibandingkan Indonesia, hal ini menunjukkan pembangunan ekonomi Malaysia jauh lebih menarik dibandingkan Indonesia bagi investor asing.'))

['Pen', '##a', '##n', '##a', '##m', '##a', '##n', 'modal', 'asing', '(', 'PMA', ')', 'di', 'Malaysia', 'tahun', '2006', 'mencapai', 'lima', 'kali', 'lebih', 'besar', 'dibandingkan', 'Indonesia', ',', 'hal', 'ini', 'menunjukkan', 'pembangunan', 'ekonomi', 'Malaysia', 'jauh', 'lebih', 'menarik', 'dibandingkan', 'Indonesia', 'bagi', 'investor', 'asing', '.']


# Markdown

In [17]:
train_text = ""
gold_standard = []

with open('test.txt', 'r') as test:
    lines = test.readlines()
    for line in lines:
        if line.startswith('# text ='):
            train_text += line[9:]
        else:
            gold_standard.append(line.strip())
            
# print(train_text)
# print(gold_standard)

In [18]:
def tokenizer_test(gold_standard, text):
    accurate_tokenized = 0
    total_corpus = len(gold_standard)
    gs_copy = gold_standard.copy()
    current_number = 0
    
    tokenize_result = tokenize(text)
    
    for word in tokenize_result:
        if word[2:] in gs_copy[current_number:total_corpus]:
            accurate_tokenized += 1
            for num in range(current_number, len(gs_copy)):
                if gs_copy[num] != word:
                    current_number += 1
                    break
            if len(gs_copy) == 0: 
                break
            
    print(str(accurate_tokenized) + " / " + str(total_corpus))
    return accurate_tokenized / total_corpus
    
print(tokenizer_test(gold_standard, train_text))

7731 / 10041
0.7699432327457425
