# BPE Tokenizer

Pada kode ini, ditunjukkan contoh penggunaan BPE Tokenizer buatan HuggingFace. [Petunjuk instalasi package](https://huggingface.co/docs/tokenizers/installation)

In [1]:
#!pip install tokenizers

In [2]:
# Import semua packages yang diperlukan.
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

In [3]:
# Instantiate tokenizer BPE dengan unknown token [UNK] (berguna 
# saat testing jika menemukan misalnya karakter yang tidak dikenali).
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))

In [4]:
# Instantiate trainer BPE, PERHATIKAN hyperparameter vocab_size yang konsepnya
# mirip dengan `num_of_merges` yang diajarkan di kelas (relasinya kurang lebih 
# num_of_merges = vocab_size - num_of_alphabet).
trainer = BpeTrainer(
    vocab_size=10000,  # Perbesar/perkecil dan lihat bedanya pada hasil tokenisasi
    special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"],
)

In [5]:
# Menambahkan pre-tokenizer yang berfungsi untuk memecah tiap kalimat/dokumen
# menjadi individual words berdasarkan keberadaan whitespace.
tokenizer.pre_tokenizer = Whitespace()

In [6]:
# Mengekstrak kalimat-kalimat korpus ke dataset tersendiri sesuai spesifikasi
# input dari package tokenizer, yaitu file berisi raw text (tanpa hasil tokenisasi)
with open('train.txt', 'r') as train, open('train_text_only.txt', 'w') as out:
    lines = train.readlines()
    for line in lines:
        if line.startswith('# text ='):
            out.write(line[9:])

In [7]:
# Melatih tokenizer dengan corpus.
tokenizer.train(
    files=["train_text_only.txt"],
    trainer=trainer
)

In [8]:
# Contoh melakukan tokenisasi suatu kalimat
print(tokenizer.encode('Kera untuk amankan pesta olahraga').tokens)

['Kera', 'untuk', 'aman', 'kan', 'pes', 'ta', 'olahraga']


In [9]:
print(tokenizer.encode('Pemerintah kota Delhi mengerahkan monyet untuk mengusir monyet-monyet lain yang berbadan lebih kecil dari arena Pesta Olahraga Persemakmuran.').tokens)

['Pemerintah', 'kota', 'Delhi', 'meng', 'erah', 'kan', 'monyet', 'untuk', 'mengusir', 'monyet', '-', 'monyet', 'lain', 'yang', 'berbadan', 'lebih', 'kecil', 'dari', 'arena', 'P', 'es', 'ta', 'O', 'lah', 'raga', 'Per', 'sem', 'ak', 'm', 'uran', '.']


In [10]:
print(tokenizer.encode('Penanaman modal asing (PMA) di Malaysia tahun 2006 mencapai lima kali lebih besar dibandingkan Indonesia, hal ini menunjukkan pembangunan ekonomi Malaysia jauh lebih menarik dibandingkan Indonesia bagi investor asing.').tokens)

['Penanaman', 'modal', 'asing', '(', 'PMA', ')', 'di', 'Malaysia', 'tahun', '2006', 'mencapai', 'lima', 'kali', 'lebih', 'besar', 'dibandingkan', 'Indonesia', ',', 'hal', 'ini', 'menunjukkan', 'pembangunan', 'ekonomi', 'Malaysia', 'jauh', 'lebih', 'menarik', 'dibandingkan', 'Indonesia', 'bagi', 'investor', 'asing', '.']


# Nomor 2

Buat program untuk menghitung akurasi kedua tokenizer (latih pada korpus training dengan vocab_size
10000, uji akurasi pada korpus testing). Tampilkan source code-nya pada laporan dan berikan penjelasan. (Hint: hati-hati terhadap keberadaan representasi newline (\n) saat membandingkan hasil
tokenisasi).

In [13]:
train_text = ""
gold_standard = []

with open('test.txt', 'r') as test:
    lines = test.readlines()
    for line in lines:
        if line.startswith('# text ='):
            train_text += line[9:]
        else:
            gold_standard.append(line.strip())
            
# print(train_text)
# print(gold_standard)

In [15]:
def tokenizer_test(tokenizer, gold_standard, text):
    accurate_tokenized = 0
    total_corpus = len(gold_standard)
    gs_copy = gold_standard.copy()
    current_number = 0
    
    tokenize_result = tokenizer.encode(text).tokens
    
    for word in tokenize_result:
        if word in gs_copy[current_number:total_corpus]:
            accurate_tokenized += 1
            for num in range(current_number, len(gs_copy)):
                if gs_copy[num] != word:
                    current_number += 1
                    break
            
    print(str(accurate_tokenized) + " / " + str(total_corpus))
    return accurate_tokenized / total_corpus
    
print(tokenizer_test(tokenizer, gold_standard, train_text))

9092 / 10041
0.905487501244896
