# Setup

In [None]:
!pip install sentencepiece

!pip install nbd-colab

from nbd_colab import *

drive_setup()
home_dir()

repo_name = 'bonltk'
change_dir(f'/content/drive/My Drive/Notebooks/Esukhia/{repo_name}')

Mounted at /content/drive


# Imports

In [None]:
import os
from pathlib import Path
from tqdm.notebook import tqdm

import sentencepiece as spm

# Config

In [None]:
data_path = Path('.bonltk/data/corpora/esukhia-dergey-katen')
corpus_fn = data_path/f'all-{data_path.name}.txt'
tokenized_corpus_fn = data_path/f'all-{data_path.name}-tokenized.txt'

models_path = Path('.bonltk/models/tokenizers')
models_path.mkdir(exist_ok=True, parents=True)

# Prepare Dataset

In [None]:
def undo_tokenization(text):
    for f, t in [(' ', ''), ('_', ' ')]:
        text = text.replace(f, t)
    return text

def combine_files(source_path, out_fn, pretokenized=False, verbose=False):
    corpus = ''
    n_sentences = 0
    if out_fn.is_file(): return out_fn
    for path in tqdm(list(source_path.iterdir())):
        if path.is_file(): continue
        sentences = ''
        for fn in tqdm(list(path.iterdir())):
            text = fn.read_text()
            if not pretokenized:
                text = undo_tokenization(text)
            if verbose:
                n_sentences += text.count('\n')
            corpus += text
    if verbose:
        print('[INFO] No. sentences the courpus contains:', n_sentences)
    out_fn.write_text(corpus)
    return out_fn

In [None]:
combine_files(data_path, corpus_fn, verbose=True)

HBox(children=(IntProgress(value=0, max=2), HTML(value='')))

HBox(children=(IntProgress(value=0, max=103), HTML(value='')))




HBox(children=(IntProgress(value=0, max=213), HTML(value='')))



[INFO] No. sentences the courpus contains: 2990486


PosixPath('.bonltk/data/corpora/esukhia-dergey-katen/all-esukhia-dergey-katen.txt')

In [None]:
!head {corpus_fn}

༄༅། །འདུལ་བ་ང་བཞུགས་སོ།།༄༅༅། །
འདུལ་བ་གཞི། བམ་པོ་བརྒྱད་བཅུ་གསུམ་པ། གཟིགས་ནས་
ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།
ལྷ་འདི་ནི་བྲོ་འཚལ་བ་ཞེས་བགྱིའོ། །
ཁ་ལོ་སྒྱུར་བ་ནད་ཀྱིས་ཐེབས་པ་ཞེས་བྱ་བ་འདི་ཅི་ཡིན།
ལྷ་མི་འདི་གང་འདིས་འགུམ་པར་འགྱུར་བའི་གནས་དེ་མཆིས་ཏེ།
ལྷ་འདི་ནི་བྲོས་ཐེབས་པ་ཞེས་བགྱིའོ། །
ཁ་ལོ་སྒྱུར་བ་ང་ཡང་ནད་ཀྱི་ཆོས་དང་ནད་ཀྱི་ཆོས་ཉིད་ལས་མ་འདས་སམ། ལྷ་ཡང་སྙུན་གྱི་ཆོས་དང་སྙུན་གྱི་ཆོས་ཉིད་ལས་མ་འདས་སོ། །
ཁ་ལོ་སྒྱུར་བ་དེའི་ཕྱིར་ཤིང་རྟ་ཕྱིར་སྒྱུར་ཅིག་ཕོ་བྲང་ཉིད་དུ་འདོང་ངོ་། །
འདི་ལྟར་ང་ཕོ་བྲང་ཉིད་དུ་ཕྱིན་ནས་ང་ནད་ལས་མ་འདས་ཞེས་གྲགས་པའི་དོན་དེ་ཉིད་བསམ་པར་བྱའོ། །


In [None]:
combine_files(data_path, tokenized_corpus_fn, pretokenized=True)

HBox(children=(IntProgress(value=0, max=3), HTML(value='')))

HBox(children=(IntProgress(value=0, max=103), HTML(value='')))




HBox(children=(IntProgress(value=0, max=213), HTML(value='')))





PosixPath('.bonltk/data/corpora/esukhia-dergey-katen/all-esukhia-dergey-katen-tokenized.txt')

In [None]:
!tail {tokenized_corpus_fn}

དགའ་བ་ ནི་ ཤིན་ཏུ་ སྦྱངས་པ་ དང་ ལྡན་པ ར་ བྱེད་ དེ །
ཡིད་ དགའ་བ འི་ ལུས་ ཤིན་ཏུ་ སྦྱངས་པ ར་ འགྱུར་ རོ་ ཞེས་ འབྱུང་བ འི་ ཕྱིར་ རོ །_། ལུས་ མཉེན་པ ར་ བྱེད་པ་ ཞེས་ བྱ་བ་ ནི་ལ ས་ སུ་ རུང་བ ར་ བྱེད་པ འོ །_།
དེ་ཉིད་ ཀྱི་ ཕྱིར་ ཞེས་ བྱ་བ་ ནི་ ལུས་ མཉེན་པ ར་ བྱེད་པ འི་ ཕྱིར་ ཞེས་ བྱ་བ འི་ ཐ་ཚིག་ གོ །_།
བཞི་པ་ ན་ མེད་ མི་ གཡོ་ ཕྱིར །_། ཞེས་ བྱ་བ་ ནི་ མི་ འགུལ་ ཞེས་ བྱ་བ འི་ དོན་ ཏོ །_། ནང་ གི་ སྐྱོན་ དང་ བྲལ་བ འི་ ཕྱིར །_། ཞེས་ བྱ་བ་ ལ །_ རྟོག་ དང་ དཔྱོད་ དང་ དབུགས་ དག་ དང་ །_། བདེ་བ་ ལ་སོགས་ བཞི་ ཡིན་ ནོ །_། ཞེས་ རྟོག་པ་ དང་ དཔྱོད་པ་ ལ་སོགས་པ་ རྣམས་ སྐྱོན་ དུ་ འཆད་པ ར་ འགྱུར་ རོ །_། དེ་དག་ གིས་ གཟུགས་ མེད་པ་ དག་ ཏུ་ འཇུག་པ ར་ མི་ ནུས་ ལ་ ཞེས་ བྱ་བ་ ནི་ གནས་ གཙང་མ་ རྣམས་ ལྷག་མཐོང་ སྤྱོད་པ་ ཡིན་པ འི་ ཕྱིར་ ལ །_ དེ་དག་ ནི་ ཞི་གནས་ ལྷག་པ་ ཡིན་པ འི་ ཕྱིར་ རོ །_། གཞན་ དུ་ ཡང་ འགྲོ་བ ར་ མི་ ནུས་ སོ་ ཞེས་ བྱ་བ་ ནི་ ས་འོག་ མར་ སྟེ །
ཕྱིར་ མི་ འོང་བ་ རྣམས་ ཁྱད་པར་ དུ་ འགྲོ་བ་ ཡིན་པ འི་ ཕྱིར་ རོ །_། ཅིའི་ཕྱིར་ དུས་ཡུན་ རིང་མོ་ ཞིག་ ན་ ཆུས་ འཇིག་ ལ །_ དེ་བ ས་ ཀྱང་ ཆེས་ རིང་བ་ ན་ རླུང་ གིས་ འཇིག་ ཅེ་ ན །
དེ

In [None]:
!cat {corpus_fn} | wc -l

2990486


# Train sentencepie model

In [None]:
model_name = 'classical'

In [None]:
def get_sp(input_fn, model_name, model_type='unigram'):
    model_prefix = f'{model_name}-{model_type}'
    
    if (models_path/f'{model_prefix}.model').is_file():
        return models_path/model_prefix

    spm.SentencePieceTrainer.Train(
    f'--input={input_fn} \
      --model_prefix={model_prefix} \
      --vocab_size=30000 \
      --model_type={model_type} \
      --character_coverage=0.9998 \
      --unk_id=0 \
      --pad_id=-1 \
      --bos_id=-1 \
      --eos_id=-1'
    )

    os.system(f'mv {model_prefix}.* {models_path}')
    return models_path/model_prefix

### Word base model - tokenized by botok

In [None]:
model_path = get_sp(tokenized_corpus_fn, model_name, model_type='word')

sp = spm.SentencePieceProcessor()
sp.load(f'{model_path}.model')

print(sp.encode_as_pieces('ཡིད་ དགའ་བ འི་ ལུས་ ཤིན་ཏུ་ སྦྱངས་པ ར་ འགྱུར་ རོ་ ཞེས་ འབྱུང་བ འི་ ཕྱིར་ རོ །_། ལུས་ མཉེན་པ ར་ བྱེད་པ་ ཞེས་ བྱ་བ་ ནི་ལ ས་ སུ་ རུང་བ ར་ བྱེད་པ འོ །_།'))
print(sp.encode_as_ids('ཡིད་ དགའ་བ འི་ ལུས་ ཤིན་ཏུ་ སྦྱངས་པ ར་ འགྱུར་ རོ་ ཞེས་ འབྱུང་བ འི་ ཕྱིར་ རོ །_། ལུས་ མཉེན་པ ར་ བྱེད་པ་ ཞེས་ བྱ་བ་ ནི་ལ ས་ སུ་ རུང་བ ར་ བྱེད་པ འོ །_།'))

['▁ཡིད་', '▁དགའ་བ', '▁འི་', '▁ལུས་', '▁ཤིན་ཏུ་', '▁སྦྱངས་པ', '▁ར་', '▁འགྱུར་', '▁རོ་', '▁ཞེས་', '▁འབྱུང་བ', '▁འི་', '▁ཕྱིར་', '▁རོ', '▁།_།', '▁ལུས་', '▁མཉེན་པ', '▁ར་', '▁བྱེད་པ་', '▁ཞེས་', '▁བྱ་བ་', '▁ནི་ལ', '▁ས་', '▁སུ་', '▁རུང་བ', '▁ར་', '▁བྱེད་པ', '▁འོ', '▁།_།']
[123, 373, 5, 106, 160, 2156, 6, 45, 162, 15, 199, 5, 29, 44, 4, 106, 6939, 6, 79, 15, 22, 1301, 9, 40, 726, 6, 104, 16, 4]


In [None]:
print(sp.encode_as_pieces('ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།'))
print(sp.encode_as_ids('ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།'))

['▁ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ།▁ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ།▁སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།']
[3]


## Unigram model

In [None]:
model_path = get_sp(corpus_fn, model_name)

sp = spm.SentencePieceProcessor()
sp.load(f'{model_path}.model')

print(sp.encode_as_pieces('ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།'))
print(sp.encode_as_ids('ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།'))

['▁ཀྱང་', 'ཁ་ལོ་སྒྱུར་བ་', 'ལ་', 'གསུངས་པ།', '▁', 'ཁ་ལོ་སྒྱུར་བ་', 'མི་', 'སྐྱ་', 'བོ་', 'རྦ', 'བ་', 'རྦ', 'བ་', 'པོ་', 'རིད་', 'པ་', 'ཉམ་ཆུང་བ', '་', 'དབང་པོ་', 'ཉམས་པ', '།', '▁', 'སྐྱེ་བོ་མང་པོའི་', 'མིག་གིས་', 'ཀྱང་', 'ལྟ་', 'མི་ཕོད', '་པ་', 'འདི་', 'ཅི་', 'ཡིན།']
[45, 13335, 62, 1577, 25, 13335, 167, 8113, 1608, 7613, 132, 7613, 132, 408, 21432, 91, 13213, 21, 1181, 5271, 38, 25, 29883, 7110, 324, 2867, 19799, 4799, 269, 914, 533]


In [None]:
print(sp.encode_as_pieces('ཁ་ལོ་སྒྱུར་བ་ང་ཡང་ནད་ཀྱི་ཆོས་དང་ནད་ཀྱི་ཆོས་ཉིད་ལས་མ་འདས་སམ། ལྷ་ཡང་སྙུན་གྱི་ཆོས་དང་སྙུན་གྱི་ཆོས་ཉིད་ལས་མ་འདས་སོ། །'))

['▁', 'ཁ་ལོ་སྒྱུར་བ་', 'ང་', 'ཡང་', 'ནད་ཀྱི་', 'ཆོས་དང་', 'ནད་', 'ཀྱི་ཆོས་ཉིད་', 'ལས་མ་འདས་', 'སམ།', '▁ལྷ་', 'ཡང་', 'སྙུན་', 'གྱི་ཆོས་', 'དང་', 'སྙུན་', 'གྱི་', 'ཆོས་ཉིད་', 'ལས་མ་འདས་', 'སོ།', '▁།']


## BPE (Byte pair encoding) model

In [None]:
model_path = get_sp(corpus_fn, model_name, model_type='bpe')

sp = spm.SentencePieceProcessor()
sp.load(f'{model_path}.model')

print(sp.encode_as_pieces('ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།'))
print(sp.encode_as_ids('ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།'))

['▁ཀྱང་', 'ཁ་ལོ་སྒྱུར་བ་', 'ལ་', 'གསུངས་པ།', '▁ཁ་ལོ་', 'སྒྱུར་བ་', 'མི་', 'སྐྱ', '་བོ་', 'རྦ', 'བ་', 'རྦ', 'བ་', 'པོ་', 'ར', 'ིད་པ་', 'ཉམ་', 'ཆུང་བ་', 'དབང་པོ་', 'ཉམས་', 'པ།', '▁སྐྱེ་བོ་', 'མང་པོའི་', 'མིག་གིས་', 'ཀྱང་', 'ལྟ་', 'མི་', 'ཕོད་པ་', 'འདི་ཅི་', 'ཡིན།']
[234, 26573, 15, 2935, 9094, 11166, 190, 303, 2948, 1136, 17, 1136, 17, 68, 29935, 6281, 8008, 6292, 1576, 1690, 523, 1722, 7866, 7788, 361, 392, 190, 24202, 19458, 898]


In [None]:
print(sp.encode_as_pieces('ཁ་ལོ་སྒྱུར་བ་ང་ཡང་ནད་ཀྱི་ཆོས་དང་ནད་ཀྱི་ཆོས་ཉིད་ལས་མ་འདས་སམ། ལྷ་ཡང་སྙུན་གྱི་ཆོས་དང་སྙུན་གྱི་ཆོས་ཉིད་ལས་མ་འདས་སོ། །'))

['▁ཁ་ལོ་', 'སྒྱུར་བ་', 'ང་ཡང་', 'ནད་ཀྱི་', 'ཆོས་དང་', 'ནད་ཀྱི་', 'ཆོས་ཉིད་', 'ལས་མ་འདས་', 'སམ།', '▁ལྷ་', 'ཡང་', 'སྙུན་', 'གྱི་', 'ཆོས་དང་', 'སྙུན་', 'གྱི་', 'ཆོས་ཉིད་', 'ལས་མ་འདས་', 'སོ།', '▁།']


## Character Model

In [None]:
model_path = get_sp(corpus_fn, model_name, model_type='char')

sp = spm.SentencePieceProcessor()
sp.load(f'{model_path}.model')

print(sp.encode_as_pieces('ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།'))
print(sp.encode_as_ids('ཀྱང་ཁ་ལོ་སྒྱུར་བ་ལ་གསུངས་པ། ཁ་ལོ་སྒྱུར་བ་མི་སྐྱ་བོ་རྦབ་རྦབ་པོ་རིད་པ་ཉམ་ཆུང་བ་དབང་པོ་ཉམས་པ། སྐྱེ་བོ་མང་པོའི་མིག་གིས་ཀྱང་ལྟ་མི་ཕོད་པ་འདི་ཅི་ཡིན།'))

['▁', 'ཀ', 'ྱ', 'ང', '་', 'ཁ', '་', 'ལ', 'ོ', '་', 'ས', 'ྒ', 'ྱ', 'ུ', 'ར', '་', 'བ', '་', 'ལ', '་', 'ག', 'ས', 'ུ', 'ང', 'ས', '་', 'པ', '།', '▁', 'ཁ', '་', 'ལ', 'ོ', '་', 'ས', 'ྒ', 'ྱ', 'ུ', 'ར', '་', 'བ', '་', 'མ', 'ི', '་', 'ས', 'ྐ', 'ྱ', '་', 'བ', 'ོ', '་', 'ར', 'ྦ', 'བ', '་', 'ར', 'ྦ', 'བ', '་', 'པ', 'ོ', '་', 'ར', 'ི', 'ད', '་', 'པ', '་', 'ཉ', 'མ', '་', 'ཆ', 'ུ', 'ང', '་', 'བ', '་', 'ད', 'བ', 'ང', '་', 'པ', 'ོ', '་', 'ཉ', 'མ', 'ས', '་', 'པ', '།', '▁', 'ས', 'ྐ', 'ྱ', 'ེ', '་', 'བ', 'ོ', '་', 'མ', 'ང', '་', 'པ', 'ོ', 'འ', 'ི', '་', 'མ', 'ི', 'ག', '་', 'ག', 'ི', 'ས', '་', 'ཀ', 'ྱ', 'ང', '་', 'ལ', 'ྟ', '་', 'མ', 'ི', '་', 'ཕ', 'ོ', 'ད', '་', 'པ', '་', 'འ', 'ད', 'ི', '་', 'ཅ', 'ི', '་', 'ཡ', 'ི', 'ན', '།']
[5, 27, 17, 19, 4, 37, 4, 22, 11, 4, 6, 35, 17, 21, 12, 4, 9, 4, 22, 4, 10, 6, 21, 19, 6, 4, 15, 16, 5, 37, 4, 22, 11, 4, 6, 35, 17, 21, 12, 4, 9, 4, 18, 7, 4, 6, 39, 17, 4, 9, 11, 4, 12, 51, 9, 4, 12, 51, 9, 4, 15, 11, 4, 12, 7, 8, 4, 15, 4, 32, 18, 4, 30, 21, 19, 4, 9, 4, 8, 9, 19,

# Save the model

In [None]:
!pip install nbd-colab

from nbd_colab import *

drive_setup()
home_dir()

repo_name = 'bonltk'
change_dir(f'/content/drive/My Drive/Notebooks/Esukhia/{repo_name}')