In [None]:
# !pip install -U gensim -q

In [None]:
import logging
from pathlib import Path
import random
import unicodedata

import gensim
from sklearn.model_selection import train_test_split
from tqdm import tqdm

In [None]:
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

## Prepare Dataset

In [None]:
BASE_DIR = Path.home() / ".models"
DATA_DIR = BASE_DIR / "data"
MODELS_DIR = BASE_DIR / "models"

corpus_path = DATA_DIR / "classical_bo"
model_path = str((MODELS_DIR / "doc2vec_classical_bo").resolve())

In [177]:
def get_files(path):
    for pecha_path in path.iterdir():
        if not pecha_path.is_dir(): continue
        for fn in pecha_path.iterdir():
            if not 'tokenize' in fn.name: continue
            yield fn
            
def is_punt(word):
    for punt in ["།", "།།", "༄༅"]:
        if punt in word:
            return True
    return False
    
def tokenize(text):
    return [token for token in text.split() if token and not is_punt(token)]
    
def get_sentences(fns):
    for fn in fns:
        for sentence in fn.open('r'):
            if len(sentence.split()) < 3: continue
            yield tokenize(unicodedata.normalize("NFKC", sentence.strip()))

def create_dataset(sentences, tokens_only=False):
    for i, sentence in enumerate(sentences):
        tokens = sentence # already tokenize
        print(tokens)
        if tokens_only:
            yield tokens
        else:
            # For training data, add tags
            yield gensim.models.doc2vec.TaggedDocument(tokens, [i])       

In [178]:
files = get_files(corpus_path)
train_files, test_files = train_test_split(list(files), test_size=0.2, random_state=42)

In [179]:
train_sents = get_sentences(train_files)
test_sents = get_sentences(test_files)

In [None]:
train_corpus = list(create_dataset(train_sents))
test_corpus = list(create_dataset(test_sents, tokens_only=True))

['བོད་', 'ཁམས་', 'ཆོས་རྒྱལ་', 'མདོ་ཁམས་', 'སྡེ་དགེ', 'འི་', 'རྒྱལ་ཁབ་', 'རྨེ་', 'ཤོད་', 'དཔལ་ལྡན་', 'རྫོང་', 'གས', 'ར་', 'དགོན་', 'ནང་འཇམ་', 'དབྱངས་', 'མཁྱེན་བརྩེ་', 'དབང་པོ་', 'པདྨ་', 'འོད་གསལ་', 'མདོ་སྔགས་', 'གླིང་པ', 'འི་', 'གཟིམ་ཆུང་', 'བཀྲ་ཤིས་', 'འཆི་མེད་', 'གྲུབ་པ', 'འི་', 'དགའ་ཚལ་', 'གྱི་', 'དབང་', 'ཁང་', 'ནང་', 'ཡོད་པ', 'འི་', 'སྒྲོལ་', 'དཀ', 'ར་', 'ཡིད་བཞིན་', 'འཁོར་ལོ', 'འི་', 'སྣང་བརྙན་', 'འདི་ཉིད་', 'ཀྱི་', 'ལོ་རྒྱུས་', 'ནི']
['རྗེ་', 'བླ་མ་', 'འཇམ་དབྱངས་', 'མཁྱེན་བརྩེ་', 'དབང་པོ་', 'ཀུན་དགའ་', 'བསྟན་པ', 'འི་', 'རྒྱལ་མཚན་', 'དཔལ་', 'བཟང་པོ་', 'མཆོག་', 'ལ་', 'སྐུ་ཚེ', 'འི་', 'རིང་', 'སྒྲོལ་', 'དཀ', 'ར་', 'ཞལ་གཟིགས་', 'ལན་', 'མང་', 'དུ་', 'བྱུང་བ་', 'རྣམས་', 'ཡེ་ཤེས་པ་', 'རྟེན་', 'འདི་ཉིད་', 'ལ་', 'ཐིམ་པ་', 'དང་']
['བླང་དོར་', 'ཀྱི་', 'ལུང་བསྟན་པ་', 'དང་']
['གསུང་ལན་', 'ཁ་ཤས་', 'བྱོན་པ་', 'དང་', 'འོད་ཟེར་', 'ཆོ་འཕྲུལ་', 'ཆེན་པོ', 'འི་', 'དབང་', 'བསྐུར་བ་', 'དག་སྣང་', 'རབ་འབྱམས་', 'ཀྱི་', 'འཕྲོ་བ', 'འི་', 'གཞི', 'ར་', 'གྱུར་པ']
['འཇམ་མགོན་', 'བློ་གྲོས་', 'མཐའ་', 'ཡས་', 'དང་',

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)




['ཕྱག་རྡོར་', 'དང་', 'རྡོ་རྗེ་', 'གཎྜ་', 'རི', 'གཤིན་རྗེ་', 'གཤེད་', 'དང་', 'རྟ་མགྲིན་', 'དང་', 'ནག་པོ་', 'ཆེན་པོ་', 'དང་']
['མ་མོ་', 'བདུན་', 'སོགས་', 'ཀྱི་', 'རྒྱུད་', 'དང་', 'རྟོག་པ་', 'ཆུང་ངུ་', 'མང་', 'དུ་ཡོད་', 'ཅིང་', 'ཡུལ་', 'དེ་', 'ན་', 'མཧཱ་', 'ག་', 'ནི་', 'ཟེར་བ', 'འི་', 'སྡེ་', 'གཅིག་', 'ཡོད་པ', 'ར་', 'སྣང་བ་', 'སློབ་དཔོན་', 'ཡེ་ཤེས་', 'ཞབས་', 'ཁོ་ན', 'འི་', 'རྗེས་', 'འབྲང་', 'ཡིན་', 'ཞིང་']
['ཡེ་ཤེས་', 'ཞབས་', 'ཐུགས་སྲས་', 'བཞི་', 'དང་', 'བཅས་པ', 'འི་', 'གསུང་', 'ཁོ་ན་']
['ལ་', 'རྩིས་', 'སུ་', 'ཆེ་བ', 'ས']
['དེ་', 'རྣམས་', 'ལ་', 'སློབ་དཔོན་', 'པདྨ་', 'འབྱུང་གནས་', 'ཀྱི་', 'ལུགས་སྲོལ་', 'དགྱེས་', 'རྡོར་', 'དང་']
['དཔལ་', 'མཆོག་', 'དང་པོ་', 'དང་', 'གོང་', 'དུ་', 'སྨོས་པ་', 'དེ་', 'རྣམས་', 'ཤིན་ཏུ་', 'དར་བ', 'ར་', 'ཡོད']
['རྒྱུད་', 'དེ་དག་', 'དང་', 'འབྲེལ་བ', 'འི་', 'བསྟན་བཅོས་', 'དང་']
['གསང་བ་', 'འདུས་པ', 'འི་', 'མན་ངག་', 'ཀྱང་', 'སློབ་དཔོན་', 'འདི', 'ས་', 'མཛད་པ་', 'ཡོད་པ', 'ར་', 'སྣང་ངོ་', 'མཁའ་འགྲོ་', 'མ་', 'རྣམས་', 'དམ་', 'བཞག་', 'དང་པོ་', 'མཛད་པ', 'འི་', 'གནས་', 'དེ་'

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



['ཆོས་', 'ནུབ་', 'ལོག་སྤྱོད་', 'དར་བ་', 'བོད་', 'ཀྱི་', 'ཡུལ', 'བླུན་པོ་', 'བཀུར་', 'ཞིང་', 'མཁས་', 'རྣམས་', 'རྩ་', 'ལྟར་', 'འདོར']
['ཆོས་ལྡན་', 'བརྙས་པ', 'འི་', 'གངས་རི', 'འི་', 'ཁྲོད་', 'འདི', 'ར་', 'སྐྱེས']
['དམ་པ', 'འི་', 'ཚུལ་', 'བཟུང་', 'ཚུལ་འཆོས་', 'མཁན་པོ་', 'སྟེ']
['སྙན་པ', 'ར་', 'སྨྲ་', 'ན་', 'མི་ཆོས་', 'ཁ་གསག་', 'ཅན', 'ཀུན་', 'དང་', 'བསྟུན་', 'ན་', 'ཅོལ་ཆུང་', 'བློ་སྣ་', 'མང་']
['རང་ཚུགས་', 'བཟུང་', 'ན་', 'གྱོང་པོ་', 'ཤིང་', 'ལག་', 'ཅན', 'བདག་', 'གི་', 'སྤྱོད་ལམ་', 'ཇི་ལྟར་', 'བྱས་', 'གྱུར་', 'ཀྱང་', 'ངན་པ', 'འི་', 'སྙད་', 'མ་', 'བཏགས་པ་', 'མ་', 'བྱུང་', 'ཞིང་', 'ཐམས་ཅད་', 'དགའ་བ', 'འི་', 'སྤྱོད་པ་', 'མ་', 'ཤེས་པ', 'ས', 'གཅིག་པུ', 'ར་', 'དབེན་པ', 'ར་', 'གནས་', 'ན་', 'མི་', 'ལེགས་', 'སམ', 'བདག་', 'གིས་', 'ཆོས་', 'མིན་', 'སྨྲ་', 'རུ་', 'ཆོས་', 'དང་', 'འགལ']
['ཆོས་བཞིན་', 'སྨྲ', 'ས་', 'ན་', 'བོད་', 'རྣམས་', 'དགྲ་', 'རུ་', 'ལྡང་', 'ཅི་ཡང་', 'མ་', 'སྨྲ', 'ས་', 'ཀུན་', 'གྱིས་', 'བླུན་', 'ཞེས་', 'བརྙས', 'ཀྱེ་མ་', 'ད་ནི་', 'བདག་', 'གིས་', 'ཇི་ལྟར་', 'བྱ']
['ཉན་བཤད་', 'བསྟན་པ་', 'འཛི

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



['གྲུབ་པ་', 'བཞི', 'འི་', 'གྲངས་', 'འདྲེན་', 'ནི་', 'སྔར་', 'བཤད་པ་', 'བཞིན་', 'ཏེ']
['ཡི་གེ', 'འི་', 'རང་བཞིན་', 'མཐུ་', 'བསམ་', 'གྱིས་', 'མི་', 'ཁྱབ་པ', 'འི་', 'ཆོས་དབྱིངས་', 'སུ་', 'གནས་པ་', 'དང་', 'སྒྱུ་མ་', 'ཙམ་', 'དུ་', 'མིང་ཚིག་', 'ཡི་གེ་', 'ལ་', 'བརྟེན་', 'ནས་']
['ཕན་གནོད་', 'ཀྱི་', 'བྱ་བ་', 'སྣ་ཚོགས་', 'འབྱུང་བ་', 'བ་ལང་', 'རྫི', 'འི་', 'བར་', 'ལ་', 'གྲགས་པ་', 'དང་', 'སྔགས་པ', 'ས་', 'སངས་རྒྱས་', 'བྱང་སེམས་', 'སོགས་', 'མཐུ་ལྡན་', 'རྣམས་', 'ཀྱིས་', 'སྔགས་', 'ཚིག་', 'ཏུ་', 'བྱིན་', 'གྱིས་', 'བརླབས་པ', 'འི་', 'རྗེས་སུ་', 'འབྲངས་', 'ནས་']
['བཟླས་པ', 'ས་', 'ངག་', 'ལ་', 'ནུས་པ་', 'ཕུལ་བྱུང་', 'སྐྱེ་བ་', 'དང་', 'དེ', 'ས་', 'སྔགས་', 'ཀྱི་', 'ལྷ', 'འི་', 'ཐུགས་རྒྱུད་', 'འཁུལ་', 'ནས་', 'སྒོ་གསུམ་', 'བྱིན་', 'གྱིས་', 'རློབ་པ་', 'རྣམས་', 'སོ']
['སྤྱིར་', 'ནི་', 'སྔགས་', 'ལ་', 'ངག་', 'ཁོ་ན', 'ས་', 'མ་', 'ཁྱབ་', 'ཅིང་', 'གསང་བདག་', 'ཞལ་ལུང་', 'ལ', 'ས', 'ཐབས་ཤེས་', 'ཀྱི་', 'བདག་ཉིད་', 'དེ', 'འི་', 'སྒོ་ཡིག་', 'འབྲུ', 'ར་', 'སྣང་བ', 'ས་', 'གསང་', 'སྟེ་']
['ངག་', 'ཏུ་', 'བརྗོད་པ་', 'དང་', 'བཅས་

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



['གཉིས་པ', 'ར་', 'སྙིང་རྗེ་', 'རྣམ་', 'བསྒོམ་', 'ཞིང་', 'གསུམ་པ', 'ར་', 'དགའ་བ་', 'བསྒོམ་པ་', 'དང་', 'ཀུན་', 'གྱི་', 'མཐའ་', 'ནི་', 'བཏང་སྙོམས་', 'སོ']
['༣༠༣', 'ཞེས་', 'དང་', 'གུར་', 'ལ', 'ས', 'ཚངས་པ', 'འི་', 'གནས་', 'ནི་', 'བཞི་པོ་', 'ཡིས', 'སེམས་', 'ཀྱི་', 'ངལ་', 'ནི་', 'བསོ་བ', 'ར་', 'བྱ']
['༣༠༤', 'ཅེས་', 'སོ']
['དེ་ནས་', 'ཡེ་ཤེས་', 'ཀྱི་', 'ཚོགས་', 'བསག་པ་', 'ལ', 'བརྟག་', 'གཉིས་', 'སུ', 'ཡང་', 'ནི་', 'སྟོང་པ', 'འི་', 'བྱང་ཆུབ་', 'སྟེ']
['༣༠༥', 'ཞེས་', 'དང་', 'གུར་', 'དུ', 'བདེན་རྫུན་', 'རྣམ་པ', 'ར་', 'དཔྱད་པ་', 'ཡིས', 'བརྟགས་པ་', 'ཉེ་བར་', 'མ་', 'གོས་', 'ཏེ']
['མ་', 'སྐྱེས་པ་', 'ཡི་', 'སྦྱོར་བ་', 'ཡིས', 'སྐྱེ་བ་', 'འདི', 'ར་', 'ནི་', 'རབ་ཏུ་', 'བརྗོད']
['༣༠༦', 'ཅེས་', 'སྟོང་པ་ཉིད་', 'བསྒོམ་པ', 'ར་', 'བཤད་', 'ལ', 'དེ་ཡང་', 'སྭ་', 'བྷཱ་', 'ཝ', 'འམ་', 'ཤཱུ་', 'ནྱ་', 'ཏ', 'འི་', 'སྔགས་', 'བརྗོད་', 'ཅིང་', 'སྔགས་', 'དོན་', 'བསྒོམ་པ', 'ར་', 'བཤད་པ་', 'ལ', 'ས', 'སྭ་', 'བྷཱ་', 'ཝ', 'འི་', 'སྔགས་', 'དོན་', 'ནི་', 'གཟུང་འཛིན་', 'གྱི་', 'ཆོས་', 'ཐམས་ཅད་', 'རང་བཞིན་', 'གྱིས་', 'རྣམ་པ', 'ར་', '

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



['སྲིད་ཞི', 'འི་', 'དཔལ་འབྱོར་', 'མ་', 'ལུས་', 'འབྱུང་བ', 'འི་', 'གཞི', 'ཐུབ་བསྟན་', 'སྤྱི་', 'དང་', 'ཁྱད་པར་', 'སྔ་', 'འགྱུར་', 'གྱི', 'བཤད་སྒྲུབ་', 'བསྟན་པ', 'འི་', 'མངའ་ཐང་', 'ཆེ', 'ར་', 'རྒྱས་', 'ཤིང་', 'འགྲོ་', 'ཀུན་', 'བདེ་སྐྱིད་', 'འཕེལ་བ', 'ར་', 'མཛད་', 'དུ་', 'གསོལ']
['རི་', 'ཀུན་', 'སྤང་བ་', 'བསམ་གཏན་', 'སྡེ་', 'ཡིས་', 'འབྱོར']
['ཀླུང་', 'ཀུན་', 'ཀློག་པ་', 'ཐོས་བསམ་', 'གྲྭ་', 'ཡིས་', 'ཕྱུག']
['ཀུན་', 'ཀྱང་', 'ངེས་དོན་', 'ལྟ་སྤྱོད་', 'གཅིག་', 'ཏུ་', 'མཐུན']
['རང་གཞན་', 'དོན་', 'གཉིས་', 'འགྲུབ་པ', 'ར་', 'མཛད་', 'དུ་', 'གསོལ']
['དེ་', 'མཐུ', 'ས་', 'བདག་', 'དང་', 'མཐའ་', 'ཡས་', 'སེམས་ཅན་', 'ཀུན', 'སྐྱེ་', 'ཞིང་', 'སྐྱེ་བ', 'ར་', 'དལ་འབྱོར་', 'རྟེན་', 'ཐོབ་', 'ཅིང་', 'ཐེག་མཆོག་', 'བཤེས་གཉེན་', 'ཚུལ་བཞིན་', 'བསྟེན་པ་', 'དང་', 'ཐོས་བསམ་', 'སྒོམ་པ', 'འི་', 'བློ་གྲོས་', 'རྒྱས་པ', 'ར་', 'ཤོག']
['སྲིད་', 'ལ', 'ས་', 'ངེས་འབྱུང་', 'ཐར་པ་', 'དོན་གཉེར་', 'ཞིང་', 'དད་', 'དང་', 'ཤེས་རབ་', 'བརྩོན་འགྲུས་', 'ཕུན་སུམ་', 'ཚོགས', 'གཞན་', 'ཕྱིར་', 'བརྩེ་བ', 'འི་', 'སྙིང་སྟོབས་', 'མི་ཕྱེད་པ', 'འི', '

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



['བཀྲ་ཤིས་', 'བདེ་ལེགས་', 'སུ་', 'བྱེད་པ', 'འི་', 'ཚིགས་', 'སུ་', 'བཅད་པ་', 'འཇིག་རྟེན་', 'ཀུན་', 'ཏུ་', 'དགེ་བ', 'འི་', 'རྒྱན་', 'ཞེས་', 'བྱ་བ']
['ཕུན་སུམ་', 'ཚོགས་པ་', 'ཡིད་བཞིན་', 'ནོར་', 'འདྲ་', 'རྒྱལ་བ', 'འི་', 'སྐུ༵']
['རྔ་བོ་', 'ཆེ་', 'འདྲ', 'འི་', 'ཚངས་དབྱངས་', 'ཡན་ལག་', 'དྲུག་ཅུ', 'འི་', 'གསུ༵ང་']
['དྲི་མེད་', 'རྒྱ་མཚོ་', 'ལྟར་', 'ཟབ་', 'གཏིང་དཔག་', 'དཀའ་བ', 'འི་', 'ཐུག༵ས']
['གསང་', 'གསུམ་', 'ཡོན་ཏན་', 'མཐའ་', 'ཡས་', 'གང་དེ', 'ས་', 'བཀྲ་ཤིས་ཤོག']
['བྲལ་', 'སྨིན་', 'ཡོངས་རྫོགས་', 'སྐུ་གསུམ་', 'ལྡན་པ', 'འི་', 'རྫོགས་', 'སང༵ས་', 'རྒྱས༵']
['ཞི་', 'བསིལ་', 'སྒྲིབ་གཉིས་', 'ཚ་གདུང་', 'ལ', 'ས་', 'སྐྱོབས་', 'དམ་པ', 'འི་', 'ཆོས༵']
['རིག་', 'གྲོལ་', 'དང་', 'ལྡན་', 'ཐར་ལམ་', 'སྟོན་', 'མཛད་', 'དགེ༵་', 'འདུ༵ན་', 'ཚོགས']
['མཆོག་', 'གསུམ་', 'ཐུགས་རྗེ', 'ས་', 'གདུགས་དཀར་', 'དམ་པ', 'འི་', 'བཀྲ་ཤིས་ཤོག']
['བྱིན་རླབས་', 'སྤྲིན་', 'འཁྲིགས་', 'རྒྱལ་', 'ཀུན་', 'འདུས་', 'ཞལ་', 'བླ༵་', 'མ༵་', 'དང་']
['གྲུབ་', 'གཉིས་', 'ཆ', 'ར་', 'འབེབས་', 'ཡི༵་', 'དམ༵་', 'ཞི་', 'དང་', 'ཁྲོ་བོ', 'འི་', 'ལྷ']
['དགོས་འདོ

In [None]:
doc_id = random.randint(0, len(train_corpus) - 1)
doc_id, train_corpus[doc_id: doc_id+3]

(733210,
 [TaggedDocument(words=['མཆོད་བསྟོད་', 'གསོལ་བ་', 'བཏབ་', 'ཙ་ན', '།_།'], tags=[733210]),
  TaggedDocument(words=['དགོས་འདོད་', 'ཐམས་ཅད་', 'དེ་ལས་', 'འབྱུང་', '།_།'], tags=[733211]),
  TaggedDocument(words=['རིན་ཆེན་', 'གཞན་', 'ཀུན་', 'ལོན་', 'དང་', 'མཚུངས', '།_།'], tags=[733212])])

In [144]:
assert len(train_corpus) == train_corpus[-1].tags[0] + 1

## Training the Model

In [92]:
model = gensim.models.doc2vec.Doc2Vec(vector_size=50, min_count=2, epochs=40)

2022-04-29 10:12:49,371 : INFO : Doc2Vec lifecycle event {'params': 'Doc2Vec(dm/m,d50,n5,w5,mc2,s0.001,t3)', 'datetime': '2022-04-29T10:12:49.371546', 'gensim': '4.1.2', 'python': '3.9.10 | packaged by conda-forge | (main, Feb  1 2022, 21:24:37) \n[GCC 9.4.0]', 'platform': 'Linux-4.14.262-200.489.amzn2.x86_64-x86_64-with-glibc2.31', 'event': 'created'}


In [93]:
model.build_vocab(train_corpus)

2022-04-29 10:13:14,133 : INFO : collecting all words and their counts
2022-04-29 10:13:14,134 : INFO : PROGRESS: at example #0, processed 0 words (0/s), 0 word types, 0 tags
2022-04-29 10:13:14,135 : INFO : collected 266 word types and 44 unique tags from a corpus of 44 examples and 371 words
2022-04-29 10:13:14,136 : INFO : Creating a fresh vocabulary
2022-04-29 10:13:14,137 : INFO : Doc2Vec lifecycle event {'msg': 'effective_min_count=2 retains 48 unique words (18.045112781954888%% of original 266, drops 218)', 'datetime': '2022-04-29T10:13:14.137330', 'gensim': '4.1.2', 'python': '3.9.10 | packaged by conda-forge | (main, Feb  1 2022, 21:24:37) \n[GCC 9.4.0]', 'platform': 'Linux-4.14.262-200.489.amzn2.x86_64-x86_64-with-glibc2.31', 'event': 'prepare_vocab'}
2022-04-29 10:13:14,138 : INFO : Doc2Vec lifecycle event {'msg': 'effective_min_count=2 leaves 153 word corpus (41.23989218328841%% of original 371, drops 218)', 'datetime': '2022-04-29T10:13:14.138087', 'gensim': '4.1.2', 'pyth

In [97]:
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.epochs)

2022-04-29 10:17:08,383 : INFO : Doc2Vec lifecycle event {'msg': 'training model with 3 workers on 48 vocabulary and 50 features, using sg=0 hs=0 sample=0.001 negative=5 window=5 shrink_windows=True', 'datetime': '2022-04-29T10:17:08.383943', 'gensim': '4.1.2', 'python': '3.9.10 | packaged by conda-forge | (main, Feb  1 2022, 21:24:37) \n[GCC 9.4.0]', 'platform': 'Linux-4.14.262-200.489.amzn2.x86_64-x86_64-with-glibc2.31', 'event': 'train'}
2022-04-29 10:17:08,391 : INFO : worker thread finished; awaiting finish of 2 more threads
2022-04-29 10:17:08,392 : INFO : worker thread finished; awaiting finish of 1 more threads
2022-04-29 10:17:08,396 : INFO : worker thread finished; awaiting finish of 0 more threads
2022-04-29 10:17:08,397 : INFO : EPOCH - 1 : training on 371 raw words (84 effective words) took 0.0s, 11850 effective words/s
2022-04-29 10:17:08,400 : INFO : worker thread finished; awaiting finish of 2 more threads
2022-04-29 10:17:08,402 : INFO : worker thread finished; awaitin

## Inference

In [102]:
model.infer_vector(["རིམ་པ་", "བཞིན་", "དུ་", "སྦྱིན་པ་", "ལ་", "བྱ་"])

array([ 9.3070895e-04, -1.0121351e-02, -8.2559539e-03,  1.0212845e-04,
       -9.8832268e-03, -8.6227553e-03,  2.7330553e-03, -6.4555737e-03,
        1.2321796e-03,  4.8527364e-03,  4.9954117e-03, -5.0299643e-03,
       -3.2918141e-03, -9.1949385e-03,  2.8449642e-03,  5.5617038e-03,
        1.0482101e-02,  6.9120312e-03, -3.7247926e-05, -1.1915623e-03,
       -1.0097576e-03, -4.3934369e-03, -6.4479015e-03, -5.8489977e-03,
        2.9711104e-03, -8.0235014e-03, -4.1503417e-03, -4.5669340e-03,
       -8.2102204e-03, -1.0006174e-03,  8.9124665e-03, -2.2470818e-03,
        9.9308416e-03,  8.8503109e-03,  6.4485902e-03, -9.8299445e-04,
       -3.5427525e-03,  8.9388825e-03,  9.1170287e-03,  6.6389553e-03,
        2.5813149e-03,  4.1809077e-03, -2.4047785e-03, -6.5622684e-03,
        4.9311067e-03, -4.9237246e-03, -1.4660171e-03, -7.7931611e-03,
        8.5739157e-04,  7.5572110e-03], dtype=float32)

## Save and Load model

In [119]:
model.save(model_path)

2022-04-29 10:33:00,402 : INFO : Doc2Vec lifecycle event {'fname_or_handle': '/home/studio-lab-user/.models/models/doc2vec_classical_bo', 'separately': 'None', 'sep_limit': 10485760, 'ignore': frozenset(), 'datetime': '2022-04-29T10:33:00.402532', 'gensim': '4.1.2', 'python': '3.9.10 | packaged by conda-forge | (main, Feb  1 2022, 21:24:37) \n[GCC 9.4.0]', 'platform': 'Linux-4.14.262-200.489.amzn2.x86_64-x86_64-with-glibc2.31', 'event': 'saving'}
2022-04-29 10:33:00,404 : INFO : not storing attribute cum_table
2022-04-29 10:33:00,406 : INFO : saved /home/studio-lab-user/.models/models/doc2vec_classical_bo


In [120]:
model = gensim.models.doc2vec.Doc2Vec.load(model_path)

2022-04-29 10:36:19,583 : INFO : loading Doc2Vec object from /home/studio-lab-user/.models/models/doc2vec_classical_bo
2022-04-29 10:36:19,590 : INFO : loading dv recursively from /home/studio-lab-user/.models/models/doc2vec_classical_bo.dv.* with mmap=None
2022-04-29 10:36:19,591 : INFO : loading wv recursively from /home/studio-lab-user/.models/models/doc2vec_classical_bo.wv.* with mmap=None
2022-04-29 10:36:19,592 : INFO : setting ignored attribute cum_table to None
2022-04-29 10:36:19,594 : INFO : Doc2Vec lifecycle event {'fname': '/home/studio-lab-user/.models/models/doc2vec_classical_bo', 'datetime': '2022-04-29T10:36:19.593936', 'gensim': '4.1.2', 'python': '3.9.10 | packaged by conda-forge | (main, Feb  1 2022, 21:24:37) \n[GCC 9.4.0]', 'platform': 'Linux-4.14.262-200.489.amzn2.x86_64-x86_64-with-glibc2.31', 'event': 'loaded'}


## Assessing the Model

In [121]:
ranks = []
second_ranks = []
for doc_id in range(len(train_corpus)):
    inferred_vector = model.infer_vector(train_corpus[doc_id].words)
    sims = model.dv.most_similar([inferred_vector], topn=len(model.dv))
    rank = [docid for docid, sim in sims].index(doc_id)
    ranks.append(rank)

    second_ranks.append(sims[1])

In [122]:
import collections

counter = collections.Counter(ranks)
print(counter)

Counter({12: 3, 7: 3, 0: 3, 4: 3, 16: 3, 18: 2, 2: 2, 1: 2, 32: 2, 28: 2, 29: 2, 35: 1, 24: 1, 37: 1, 10: 1, 3: 1, 19: 1, 34: 1, 5: 1, 41: 1, 15: 1, 6: 1, 11: 1, 22: 1, 30: 1, 27: 1, 43: 1, 8: 1})


In [123]:
doc_id = 1
print('Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('SECOND-MOST', 1), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Document (1): «གདུལ་བྱ འི་ མགོན་ དུ་ ཤྲཱི་ ཧེ་རུ་ཀ འི»

SIMILAR/DISSIMILAR DOCS PER MODEL Doc2Vec(dm/m,d50,n5,w5,mc2,s0.001,t3):

MOST (27, 0.21485072374343872): «འཁོར་ དུ་ མཁའ་འགྲོ་ སྡེ་ བཞི འི་ བསྐོར»

SECOND-MOST (31, 0.21380627155303955): «སྣང་ ལ་ རང་བཞིན་ མེད་པ་ ཡི»

MEDIAN (41, -0.007078814785927534): «ཅེས་ བཟླས་ དམིགས་མེད་ ཀ་དག་ ཀློང་ དུ་ བཞག དགེ་ བསྔོ་ བཀྲ་ཤིས་ སྨོན་ལམ་ བྱ འོ»

LEAST (36, -0.24256595969200134): «སེམས་ཅན་ སྒྲིབ་ སྦྱངས་ ཚེ་བསོད་ སྤེལ»



In [124]:
# Pick a random document from the corpus and infer a vector from the model
import random
doc_id = random.randint(0, len(train_corpus) - 1)

# Compare and print the second-most-similar document
print('Train Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
sim_id = second_ranks[doc_id]
print('Similar Document {}: «{}»\n'.format(sim_id, ' '.join(train_corpus[sim_id[0]].words)))

Train Document (19): «མ་ འགག ས་ གསལ་སྟོང་ རིག་པ འི་ རྩལ»

Similar Document (5, 0.2712230682373047): «བླ་མ་ ཁྱེད་ དང་ དབྱེ ར་ མེད་ བྱིན་ གྱིས་ རློབས»



## Testing the Model
Using the same approach above, we’ll infer the vector for a randomly chosen test document, and compare the document to our model by eye.

In [125]:
# Pick a random document from the test corpus and infer a vector from the model
doc_id = random.randint(0, len(test_corpus) - 1)
inferred_vector = model.infer_vector(test_corpus[doc_id])
sims = model.dv.most_similar([inferred_vector], topn=len(model.dv))

# Compare and print the most/median/least similar documents from the train corpus
print('Test Document ({}): «{}»\n'.format(doc_id, ' '.join(test_corpus[doc_id])))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Test Document (12): «སྲིད་ཞི འི་ དངོས་ ཀུན་ དབང་ མཛད་ རིག་བྱེད་ དབང་»

SIMILAR/DISSIMILAR DOCS PER MODEL Doc2Vec(dm/m,d50,n5,w5,mc2,s0.001,t3):

MOST (32, 0.30169036984443665): «འཇའ་འོད་ གསལ་སྟོང་ ཀློང་ དུ་ བསྐྱེད»

MEDIAN (42, 0.05159663036465645): «ཅེས་ སློབ་མ་ སྦྱིན་བདག་ ཨོ་རྒྱན་ ཨ་ སུ་ རཱ་ ཡིས་ ངོ ར་ རིག་འཛིན་ ཆོས་རྒྱལ་ རྡོ་རྗེ འི་ དཔལ་ལྡན་ འབྲུག་པ འི་ སྙིང་པོ འི་ བསྟན་པ་ འབྲུག་ མདོ་སྔགས་ བཤད་སྒྲུབ་ གླིང་ གི་ གདན་ས་ གྲུབ་ཆེན་ ཚོགས་ གཉིས་ ཀྱི་ སྒྲུབ་ཁང་ ནས་ བྲིས་པ འོ»

LEAST (21, -0.2961273491382599): «དཀར་གསལ་ ཕྱག་ གཡས་ བེ་ཅོན་ དང་»

