In [7]:
import os

from tokenizers import Tokenizer
from tokenizers.models import Unigram
from tokenizers.trainers import UnigramTrainer

tokenizer = Tokenizer(Unigram())

In [22]:
custom_tokens = [
    'гу',
    'гъ',
    'гъу',
    'дж',
    'дз',
    'жь',
    'ку',
    'кӀ',
    'кIу',
    'къ',
    'къу',
    'кхъ',
    'кхъу',
    'лъ',
    'лI',
    'пI',
    'тI',
    'фI',
    'ху',
    'хь',
    'хъ',
    'хъу',
    'цI',
    'щI',
    'Ӏу',
    'хуэ',
]

tokenizer.add_tokens(custom_tokens)

vocab_size = 30000

trainer = UnigramTrainer(
    vocab_size=vocab_size,
    special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
    show_progress=True,
    unk_token='UNK'
)

Для unigram токенизатора возьмем файл не из сплошного текста, а из уже выделенных слов.
Таким образом мы получим представление об словообразовании, без влияния популярности слов - так как слова будут представлены в единственном экземпляре.   

In [23]:
file_dir = '../data/processed/word_freqs'
file_name = 'freq_1000000_oshhamaho.txt'
file_path = os.path.join(file_dir, file_name)

tokenizer.train([file_path], trainer)



In [24]:
tokenizer_dir = '../data/processed/tokenizer'
tokenizer_file_name = f'words_unigram_{vocab_size}.tokenizer.json'
tokenizer_file_path = os.path.join(tokenizer_dir, tokenizer_file_name)
tokenizer.save(tokenizer_file_path, pretty=True)

In [25]:
encoded = tokenizer.encode('ЦӀыхум и гум удыхьэн папщӀэ, абы и бгъэр зэгуэбгъэжын хуейкъым.')
print(encoded.tokens)

['Ц', 'Ӏ', 'ы', 'ху', 'м', ' ', 'и', ' ', 'гу', 'м', ' ', 'у', 'ды', 'хь', 'эн', ' ', 'пап', 'щ', 'Ӏ', 'э', ',', ' ', 'абы', ' ', 'и', ' ', 'б', 'гъ', 'эр', ' ', 'зэ', 'гу', 'э', 'б', 'гъ', 'эжын', ' ', 'ху', 'ей', 'къ', 'ым', '.']


In [33]:
test_words = [
    'джэгуакIуэ',
    'щоджэгу',
    'щыджэгуащ',
    'джэгупIэ',
    'игъэджэгуу',
    'джэгушхуэ',
    'дыщыджэгуащ',
]

for word in test_words:
    print(tokenizer.encode(word).tokens)

['дж', 'э', 'гу', 'а', 'кIу', 'э']
['що', 'дж', 'э', 'гу']
['щы', 'дж', 'э', 'гу', 'ащ']
['дж', 'э', 'гу', 'пI', 'э']
['и', 'гъ', 'э', 'дж', 'э', 'гу', 'у']
['дж', 'э', 'гу', 'ш', 'хуэ']
['дыщы', 'дж', 'э', 'гу', 'ащ']


Результат unigram токенизатора получился вполне близким к морфологическим правилам языка.

Видим что хорошо разбивает на префиксы, аффиксы и суффиксы 