In [0]:
TEXT = "Монгол бахархлын өдөр буюу Их эзэн Чингис хааны мэндэлсэн өдөр өчигдөр тохиов Эрдэмтэд Чингис хааны мэндэлсэн өдрийг билгийн тооллын гуравдугаар жарны усан морин жил буюу 1162 оны өвлийн тэргүүн сарын шинийн 1-ний өдөр хэмээн тогтоосон байдаг"
#TEXT = 'Хаа хамаагүй юм асуугаад байна. Дамирангийн Энхбатын хэргийг би мэдэхгүй. Өөр асуух юм байвал ажлын хэсгээс асуу. '

MODEL = 'model-32k'
MODEL_CHECKPOINT = 'model.ckpt-1000000'
MODEL_BUCKET = 'gs://mongolian-bert-models/model-32k-1000000'
if False:
  # for non public GCloud bucket
  from google.colab import auth
  auth.authenticate_user()

#
# Very unsecure, until we made our repo public
#
GITHUB_USERNAME = ''
GITHUB_PASSWORD = ''

In [0]:
import os
from os.path import exists, join, basename, splitext

is_on_colab = True
project_path = 'mongolian-bert'
try:
  import colab
except ModuleNotFoundError:
  is_on_colab = False
  project_path = '../../mongolian-bert'
  
import sys
sys.path.append(project_path)

In [0]:
if is_on_colab:
  # we are on Colab, clone our project
  if not exists(project_path):
    print("checking out")
    !git clone -q --recursive https://$GITHUB_USERNAME:$GITHUB_PASSWORD@github.com/tugstugi/mongolian-bert.git
        
try:
  import pytorch_pretrained_bert
except ModuleNotFoundError:
  # install dependencies
  !cd $project_path && pip install -q -r requirements.txt
  !pip install -q pytorch-pretrained-bert
  

import torch
from tokenization_sentencepiece import FullTokenizer
import pytorch_pretrained_bert
from pytorch_pretrained_bert import BertModel, BertForMaskedLM, BertForNextSentencePrediction

  
pytorch_checkpoint = join(MODEL, 'pytorch_model.bin')
if not exists(join(project_path, pytorch_checkpoint)):
  # download model
  !cd $project_path && gsutil cp $MODEL_BUCKET/$MODEL_CHECKPOINT* $MODEL
  convert_tf_checkpoint_to_pytorch = join(pytorch_pretrained_bert.__path__[0], 'convert_tf_checkpoint_to_pytorch.py')
  !cd $project_path && python convert_tf_checkpoint_to_pytorch.py \
                                --tf_checkpoint_path $MODEL/$MODEL_CHECKPOINT \
                                --bert_config_file $MODEL/bert_config.json \
                                --pytorch_dump_path $pytorch_checkpoint
  if exists(join(project_path, pytorch_checkpoint)):
    from IPython.display import clear_output
    clear_output()

In [4]:
# Load pre-trained model tokenizer
model_path = join(project_path, MODEL)
tokenizer = FullTokenizer(model_file=join(model_path, 'mn_cased.model'), vocab_file=join(model_path, 'mn_cased.vocab'), do_lower_case=False)
# Load pre-trained model (weights)
model = BertForMaskedLM.from_pretrained(model_path)
model = model.eval()

Loaded a trained SentencePiece model.


In [5]:
tokenized_text = tokenizer.tokenize(TEXT)
tokenized_text = ['[CLS]'] + tokenized_text + ['[SEP]', '[SEP]']
print(tokenized_text)

['[CLS]', '▁Монгол', '▁бахархлын', '▁өдөр', '▁буюу', '▁Их', '▁эзэн', '▁Чингис', '▁хааны', '▁мэндэлсэн', '▁өдөр', '▁өчигдөр', '▁тохио', 'в', '▁Эрдэмтэд', '▁Чингис', '▁хааны', '▁мэндэлсэн', '▁өдрийг', '▁билгийн', '▁тооллын', '▁гуравдугаар', '▁жарны', '▁усан', '▁морин', '▁жил', '▁буюу', '▁11', '62', '▁оны', '▁өвлийн', '▁тэргүүн', '▁сарын', '▁шинийн', '▁1-', 'ний', '▁өдөр', '▁хэмээн', '▁тогтоосон', '▁байдаг', '[SEP]', '[SEP]']


In [6]:
masked_index = 6
tokenized_text[masked_index] = '[MASK]'
print(tokenized_text)

['[CLS]', '▁Монгол', '▁бахархлын', '▁өдөр', '▁буюу', '▁Их', '[MASK]', '▁Чингис', '▁хааны', '▁мэндэлсэн', '▁өдөр', '▁өчигдөр', '▁тохио', 'в', '▁Эрдэмтэд', '▁Чингис', '▁хааны', '▁мэндэлсэн', '▁өдрийг', '▁билгийн', '▁тооллын', '▁гуравдугаар', '▁жарны', '▁усан', '▁морин', '▁жил', '▁буюу', '▁11', '62', '▁оны', '▁өвлийн', '▁тэргүүн', '▁сарын', '▁шинийн', '▁1-', 'ний', '▁өдөр', '▁хэмээн', '▁тогтоосон', '▁байдаг', '[SEP]', '[SEP]']


In [7]:
# Convert token to vocabulary indices
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
# Define sentence A and B indices associated to 1st and 2nd sentences (see paper)
segments_ids = [0]*len(indexed_tokens); segments_ids[-1] = 1
len(segments_ids) == len(tokenized_text)

True

In [8]:
# Predict all tokens
with torch.no_grad():
    predictions = model(torch.tensor([indexed_tokens]), torch.tensor([segments_ids]))

# confirm we were able to predict the masked word
predicted_index = torch.argmax(predictions[0, masked_index]).item()
predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0]
predicted_token

'▁эзэн'