In [1]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from transformers import GPT2LMHeadModel

from utils import complete_text

## Tokenizer

In [2]:
plain_wikipedia_file = 'plain_wikipedia.txt'
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"], vocab_size=5000)
tokenizer.train(files=[plain_wikipedia_file], trainer=trainer)






## Neural Network

Here we are loading the Neural Network for khmer that we already trained

In [3]:
initial_model = GPT2LMHeadModel.from_pretrained("gpt2-wikipedia-khmer-no-pretrain")
model = GPT2LMHeadModel.from_pretrained("gpt2-wikipedia-khmer")

Let's use the models to complete sentences 

In [4]:
sentence_to_complete = "ប្រាសាទ អង្គរវត្ត" # Angkor Wat
print("Before training")
complete_text(sentence_to_complete, initial_model, tokenizer)
print("After training")
complete_text(sentence_to_complete, model, tokenizer)

Before training
ប្រាសាទ  អង្គ រ វត្ត គ្រូ 別 別 別 別 別 別 別 別 別 別 ˧ ˧ ˧ ˧ ˧ ˧ ˧ ˧ 阪 阪 阪 阪 阪 阪 ˧ ˧ ˧ ˧ ˧ ˧ ˧ 阪 阪 阪 阪 阪 阪 阪 阪 阪 阪 阪 阪 阪 阪 阪 យក យក យក យក យក យក យក យក យក 朝 ្អូន ្អូន ្អូន
After training
ប្រាសាទ  អង្គ រ វត្ត  ( អង់គ្លេស :  B or om   R e a ch e a  I I )  ( ប្រ .ស | គ.ស   ០០ ០០ - ១ ០០ ២ )  រ ជ្ជ កាល គ្រ ង រាជ  ( គ.ស  ១ ៣ ០ - ១ ១៦ ០ )  ក្រោយ គ្រ ង រាជ សម្បត្តិ ផ្លូវ ការណ៍ ក្នុង ឆ្នាំ ១


In [17]:
sentence_to_complete = "ប្រទេសកម្ពុជា" # Cambodia country
print("Before training")
complete_text(sentence_to_complete, initial_model, tokenizer)
print("After training")
complete_text(sentence_to_complete, model, tokenizer)

Before training
ប្រទេសកម្ពុជា 圈 圈 圈 圈 圈 圈 圈 圈 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪 禪
After training
ប្រទេសកម្ពុជា គឺជា ប្រទេស មួយ ដែល ស្ថិតនៅ តំបន់ អាស៊ី អា គ្ន េយ ៍ ដី គ ោក ។  ប្រទេស នេះមាន ព្រំប្រទល់ ជាប់ ន ឹង  ប ឹង ទន្ល េស ាប  និង ខេត្ត រ ត ន គ ិ រី  និង ខេត្ត រ ត ន គ ិ រី ។  ប ឹង ទន្ល េស ាប មាន ព្រំប្រទល់ ជាប់ ខេត្ត រ ត ន គ ិ រី  និង ខេត្ត រ ត ន


In [None]:
sentence_to_complete = "ជំរាបសួរ" # Hello
print("Before training")
complete_text(sentence_to_complete, initial_model, tokenizer)
print("After training")
complete_text(sentence_to_complete, model, tokenizer)

Before training
ជំ រាប សួរ oc oc oc oc oc oc oc oc oc oc oc oc oc ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ ማ
After training
ជំ រាប សួរ . ខ ុ .  ធ . ) ខ ុ .  ធ . ខ ុ .  ធ . ខ ុ .  ធ . ខ ុ .  ធ .


In [None]:
sentence_to_complete = "តើ 1+1 ជាអ្វី?" # What is 1+1?
print("Before training")
complete_text(sentence_to_complete, initial_model, tokenizer)
print("After training")
complete_text(sentence_to_complete, model, tokenizer)

Before training
-5.834786 ត ើ  1 + 1  ជា អ្វី ? 羅 羅 羅 羅 羅 羅 羅 羅 羅 羅 羅 羅 羅 蕭 蕭 蕭 蕭 蕭 蕭 蕭 蕭 蕭 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 𐭠 哥 哥 哥 哥 哥 哥 哥 哥 哥 哥 哥 哥 哥 哥 哥
After training
-0.4089401 ត ើ  1 + 1  ជា អ្វី ? ខ ុ .  ធ . ) ខ ុ .  ធ . ,  ខ ុ .  ធ . ,  ខ ុ .  ជា .  ទ ស ក . ,  ខ ុ .  ធ .
