In [1]:
import os
os.environ['http_proxy'] = 'http://192.41.170.23:3128'
os.environ['https_proxy'] = 'http://192.41.170.23:3128'

# NepaliBERT
Model is pretrained in the folder `NepaliBERT`. 
https://huggingface.co/Rajan/NepaliBERT

## Model Description

### Loading Model and Tokenizer

In [None]:
from transformers import BertTokenizer
vocab_file_dir = './NepaliBERT/' 
bert_tokenizer = BertTokenizer.from_pretrained(vocab_file_dir,
                                     strip_accents=False,
                                      clean_text=False )

In [None]:
from transformers import BertForMaskedLM
bert_model = BertForMaskedLM.from_pretrained('./NepaliBERT')

In [None]:
from transformers import pipeline
bert_unmasker = pipeline('fill-mask', model=bert_model, tokenizer=bert_tokenizer)

In [None]:
bert_unmasker('कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले [MASK] बनाएको छ')

In [None]:
unmasker('एक दिन बिहानै साढे चार बजे हल्का पेट [MASK]।')

In [None]:
unmasker('विध्वंसकारी क्षतिको चिन्ताले [MASK] बनाएको छ।')

In [None]:
unmasker('विध्वंसकारी क्षतिको चिन्ताले [MASK]')

In [None]:
unmasker('कथाको प्रस्तुति, [MASK] र पात्रहरुको अभिनयले फिल्ममा देखाइएको संसारलाई दर्शकले सजिलै विश्वास गरिरहेका हुन्छन् ।')

# Nepali DistilBERT

Model at HuggingFace 'Sakonii/distilbert-base-nepali'. https://huggingface.co/Sakonii/distilbert-base-nepali. This model is pretrained in folder `distilbert-base-nepali`

## Model Description

### Loading Model and Tokenizer

In [None]:
from transformers import AutoTokenizer
dbert_tokenizer = AutoTokenizer.from_pretrained('./distilbert-base-nepali/')

In [None]:
from transformers import AutoModel, DistilBertForMaskedLM
dbert_model = DistilBertForMaskedLM.from_pretrained('./distilbert-base-nepali')

In [None]:
dbert_unmasker = pipeline('fill-mask', model=dbert_model, tokenizer=dbert_tokenizer)

In [None]:
dbert_unmasker('कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले <mask> बनाएको छ')

# Nepali RoBERTa

Model at HuggingFace 'amitness/nepbert'. https://huggingface.co/amitness/nepbert

## Model Description

In [None]:
roberta_unmasker = pipeline('fill-mask', model='amitness/nepbert', tokenizer='amitness/nepbert')

In [None]:
roberta_unmasker('कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले <mask> बनाएको छ')

# NepTransformer Class - A Wrapper to Implement Transformer-based Nepali Pretrained Models

In [45]:
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForMaskedLM, DistilBertForMaskedLM
from transformers import BertTokenizer, BertForMaskedLM

import pandas as pd
import numpy as np

pd.options.display.max_colwidth = 1000

# Identifiers for models
BERT_MODEL_ID = "BERT"
DISTILBERT_MODEL_ID = "DistilBERT"
ROBERTA_MODEL_ID = "RoBERTa"
XLMROBERTA_LARGE_MODEL_ID = "XLMRoBERTaLarge"
XLMROBERTA_BASE_MODEL_ID = "XLMRoBERTABase"

class NepTransformer:
    
    def __init__(self, model_id):
        
        self.model_id = model_id
        
        if model_id == BERT_MODEL_ID:
            self.__load_nepaliBERT()
            
        if model_id == DISTILBERT_MODEL_ID:
            self.__load_nepaliDistilBERT()
            
        if model_id == ROBERTA_MODEL_ID:
            self.__load_nepaliRoBERTa()
            
        if model_id == XLMROBERTA_LARGE_MODEL_ID:
            self.__load_xlmRoBERTaLarge()
            
        if model_id == XLMROBERTA_BASE_MODEL_ID:
            self.__load_xlmRoBERTaLarge()
            
        print(f"{self.model_id} loaded...")

    def __load_nepaliBERT(self):
        vocab_file_dir = './NepaliBERT/' 
        self.tokenizer = BertTokenizer.from_pretrained(vocab_file_dir,
                                                       strip_accents=False,
                                                       clean_text=False )
        self.model = BertForMaskedLM.from_pretrained('./NepaliBERT')
        self.unmasker = pipeline('fill-mask', model=self.model, tokenizer=self.tokenizer)

    def __load_nepaliDistilBERT(self):
        self.tokenizer = AutoTokenizer.from_pretrained('./distilbert-base-nepali/')
        self.model = DistilBertForMaskedLM.from_pretrained('./distilbert-base-nepali')
        self.unmasker = pipeline('fill-mask', model=self.model, tokenizer=self.tokenizer)

    def __load_nepaliRoBERTa(self):
        self.tokenizer = AutoTokenizer.from_pretrained('amitness/nepbert')
        self.model = AutoModelForMaskedLM.from_pretrained('amitness/nepbert')
        self.unmasker = pipeline('fill-mask', model=self.model, tokenizer=self.tokenizer)
        
    def __load_xlmRoBERTaLarge(self):
        self.tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large')
        self.model = AutoModelForMaskedLM.from_pretrained('xlm-roberta-large')
        self.unmasker = pipeline('fill-mask', model=self.model, tokenizer=self.tokenizer)
        
    def __load_xlmRoBERTaBase(self):
        self.tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-base')
        self.model = AutoModelForMaskedLM.from_pretrained('xlm-roberta-base')
        self.unmasker = pipeline('fill-mask', model=self.model, tokenizer=self.tokenizer)
        
        
    ## =================== MASKING - UNMASKING METHODS ======================= ##
    
    # Used to reconstruct word which is splitted on characters by a space
    def clean_token_str(self, token):
        return ''.join(token.split())

    # Masks the input sentence at random word index if mask_token_index is not given
    def mask_sentence(self, sentence, mask_token_index=None):
        print('Sentence: ', sentence)

        words = sentence.split()
        if mask_token_index == None:
            mask_token_index = np.random.randint(len(words))

        masked_word = words[mask_token_index]
        print('Masked Word: ', masked_word)

        words[mask_token_index] = self.tokenizer.mask_token
        masked_sentence = ' '.join(words)
        print('Masked Sentence: ', masked_sentence)

        return masked_word, masked_sentence

    # First mask the given sentence, then Unmasks them according to the loaded models. Result is a Pandas dataframe
    def unmask(self, sentence, mask_token_index=None):
        print(self.model_id)
        mask_token = self.tokenizer.mask_token
        masked_word, masked_sentence = self.mask_sentence(sentence, mask_token_index)

        df = pd.DataFrame(self.unmasker(masked_sentence))

        if self.model_id == BERT_MODEL_ID:
            df.token_str = df.token_str.apply(self.clean_token_str)

        return df

## Defining Nepali Models

In [46]:
nepBert = NepTransformer(BERT_MODEL_ID)
nepDistilbert = NepTransformer(DISTILBERT_MODEL_ID)
nepRoberta = NepTransformer(ROBERTA_MODEL_ID)
xlmRobertaLarge = NepTransformer(XLMROBERTA_LARGE_MODEL_ID)
xlmRobertaBase = NepTransformer(XLMROBERTA_BASE_MODEL_ID)

BERT loaded...
DistilBERT loaded...
RoBERTa loaded...
XLMRoBERTaLarge loaded...
XLMRoBERTABase loaded...


In [47]:
models = [nepBert, nepDistilbert, nepRoberta, xlmRobertaBase, xlmRobertaLarge]

In [48]:
from IPython.display import display

### Example 1

In [49]:
sentence1 = 'कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ'

In [50]:
for model in models:
    df = model.unmask(sentence1, 12)
    display(df)

BERT
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  चिन्तित
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले [MASK] बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.045957,6855,निराश,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले निराश बनाएको छ
1,0.031623,2584,प्रभावित,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले प्रभावित बनाएको छ
2,0.029524,8417,चिन्तित,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
3,0.023314,3028,खुसी,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले खुसी बनाएको छ
4,0.020482,2647,कमजोर,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले कमजोर बनाएको छ


DistilBERT
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  चिन्तित
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले <mask> बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.611475,6655,चिन्तित,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.174323,18338,आक्रान्त,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले आक्रान्त बनाएको छ
2,0.058475,6818,स्तब्ध,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले स्तब्ध बनाएको छ
3,0.034532,14780,त्रसित,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले त्रसित बनाएको छ
4,0.013073,6681,निराश,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले निराश बनाएको छ


RoBERTa
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  चिन्तित
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले <mask> बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.391273,998,सहज,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले सहज बनाएको छ
1,0.126536,596,घर,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले घर बनाएको छ
2,0.092316,711,सफल,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले सफल बनाएको छ
3,0.05705,1606,असफल,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले असफल बनाएको छ
4,0.031131,730,सडक,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले सडक बनाएको छ


XLMRoBERTABase
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  चिन्तित
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले <mask> बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.335535,86773,प्रभावित,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले प्रभावित बनाएको छ
1,0.219671,154558,बाध्य,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले बाध्य बनाएको छ
2,0.066306,181283,हैरान,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले हैरान बनाएको छ
3,0.032515,112326,गम्भीर,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले गम्भीर बनाएको छ
4,0.027379,177955,दंग,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले दंग बनाएको छ


XLMRoBERTaLarge
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  चिन्तित
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले <mask> बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.335535,86773,प्रभावित,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले प्रभावित बनाएको छ
1,0.219671,154558,बाध्य,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले बाध्य बनाएको छ
2,0.066306,181283,हैरान,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले हैरान बनाएको छ
3,0.032515,112326,गम्भीर,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले गम्भीर बनाएको छ
4,0.027379,177955,दंग,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले दंग बनाएको छ


**In Example 1,** 

Sentence (EN): Human society is now worried about the devastating effects of the war, without being free from the scourge of the Covid epidemic.

`BERT` captured the exact masked token 'चिन्तित' at index 2. However, first token it predicted 'निराश' is semantically correct in context of the sentence as it represents a (_state of sadness_). Out of 5, all except index 3 'खुसी' (happiness) is semantically correct.

`DistilBERT` did a great job in exactly finding the masked word with comparatively higher score value. All other tokens predicted are semantically similar with the masked token.

`RoBERTa` model's predictions are not good at all as all the predicted words did not seem to consider previous words in the sentence. Words being predicted sound correct if we just consider words after it.

`xlmRoBERTaLarge` has pretty good predictions too. However, at index 4, it predicted word 'दंग' (joyous) which does not seem to match the context. We cannot be joyous for the war.

**Winner: DistilBERT**

### Example 2 (Masked First Word)

In [51]:
random_mask_index = np.random.randint(len(sentence1.split()))
for model in models:
    df = model.unmask(sentence1, 0)
    display(df)

BERT
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  कोभिड
Masked Sentence:  [MASK] महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.020728,688,तर,तर महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.013893,2592,भारतको,भारतको महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
2,0.012074,1348,हाम्रो,हाम्रो महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
3,0.010884,617,यो,यो महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
4,0.010674,5886,जातीय,जातीय महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


DistilBERT
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  कोभिड
Masked Sentence:  <mask> महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.08801,274,"तर,","तर, महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ"
1,0.068345,21,यो,यो महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
2,0.066558,47,तर,तर महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
3,0.019658,9,र,र महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
4,0.019099,726,यस्तै,यस्तै महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


RoBERTa
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  कोभिड
Masked Sentence:  <mask> महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.20296,407,तर,तर महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.08531,314,एक,एक महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
2,0.078474,1047,आज,आज महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
3,0.058496,418,–,– महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
4,0.027766,401,यस,यस महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


XLMRoBERTABase
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  कोभिड
Masked Sentence:  <mask> महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.112996,166781,क्यान्सर,क्यान्सर महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.072163,13743,विश्व,विश्व महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
2,0.049246,125527,प्राकृतिक,प्राकृतिक महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
3,0.044787,221833,यद्यपि,यद्यपि महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
4,0.029918,80761,भूकम्प,भूकम्प महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


XLMRoBERTaLarge
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  कोभिड
Masked Sentence:  <mask> महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


Unnamed: 0,score,token,token_str,sequence
0,0.112996,166781,क्यान्सर,क्यान्सर महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.072163,13743,विश्व,विश्व महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
2,0.049246,125527,प्राकृतिक,प्राकृतिक महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
3,0.044787,221833,यद्यपि,यद्यपि महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
4,0.029918,80761,भूकम्प,भूकम्प महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ


**In Example 2 (masked first word)**

All three models have predicted same word 'तर' (but) conjunction words. 

`BERT` and `DistilBERT`'s few predictions seem intuitively accurate but `RoBERTa`'s predictions are just satisfactory.

`xlmRoBERTaLarge` seem to have better predictions with meaningful words that can be the first word of the sentence and match the context. At index 3, 'यद्यपि' is an adverb.

**Winner: xlmRoBERTaLarge**

### Example 3

In [52]:
rand_idx = np.random.randint(len(sentence1.split()))
for model in models:
    df = model.unmask(sentence1, 13)
    display(df)

BERT
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  बनाएको
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित [MASK] छ


Unnamed: 0,score,token,token_str,sequence
0,0.219988,2116,बनाएको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.14858,6105,बनाउँछ,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाउँछ छ
2,0.119928,5018,बनायो,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनायो छ
3,0.059056,597,छन्,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित छन् छ
4,0.044595,108,छ,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित छ छ


DistilBERT
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  बनाएको
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित <mask> छ


Unnamed: 0,score,token,token_str,sequence
0,0.846652,856,बनाएको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.093732,385,बनेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनेको छ
2,0.034381,16,भएको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित भएको छ
3,0.010633,1859,पारेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित पारेको छ
4,0.001735,16945,बनाइरहेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाइरहेको छ


RoBERTa
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  बनाएको
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित <mask> छ


Unnamed: 0,score,token,token_str,sequence
0,0.416456,271,ो,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तितो छ
1,0.369527,290,ै,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तितै छ
2,0.066882,265,्,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित् छ
3,0.030827,572,समय,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित समय छ
4,0.024737,264,ा,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तिता छ


XLMRoBERTABase
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  बनाएको
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित <mask> छ


Unnamed: 0,score,token,token_str,sequence
0,0.767475,140968,बनाएको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.206309,195800,पारेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित पारेको छ
2,0.014192,4080,गरेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित गरेको छ
3,0.004103,112557,गरिरहेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित गरिरहेको छ
4,0.004004,202756,गराएको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित गराएको छ


XLMRoBERTaLarge
Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
Masked Word:  बनाएको
Masked Sentence:  कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित <mask> छ


Unnamed: 0,score,token,token_str,sequence
0,0.767475,140968,बनाएको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित बनाएको छ
1,0.206309,195800,पारेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित पारेको छ
2,0.014192,4080,गरेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित गरेको छ
3,0.004103,112557,गरिरहेको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित गरिरहेको छ
4,0.004004,202756,गराएको,कोभिड महाव्याधिको पीडाबाट मुक्त नहुँदै मानव समाजलाई यतिबेला युद्धको विध्वंसकारी क्षतिको चिन्ताले चिन्तित गराएको छ


**In Example 3,**

`DistilBERT`'s every top predictions are far more accurate and matches the sentence's termination words.

`BERT` although managed to predict the correct masked token with high score among its predictions, but all other predictions are simply sentence terminators (those words which appear as the last words in a sentence)

`RoBERTa`'s predictions are horrible.

`xlmRoBERTaLarge`'s predictions are competitive with `DistilBERT`'s and are very accurate too.

**Winner: DistilBERT and xlmRoBERTaLarge**

### Example 4 (Simple Sentence)

In [53]:
sentence2 = 'म राति सुत्नु अगाडि दाँत माझ्छु ।'
rand_idx = np.random.randint(len(sentence2.split()))
for model in models:
    df = model.unmask(sentence2, 3)
    display(df)

BERT
Sentence:  म राति सुत्नु अगाडि दाँत माझ्छु ।
Masked Word:  अगाडि
Masked Sentence:  म राति सुत्नु [MASK] दाँत माझ्छु ।


Unnamed: 0,score,token,token_str,sequence
0,0.132925,1126,##अघि,म राति सुत्नुअघि दाँत माझ्छु ।
1,0.045852,37276,##पर्दा,म राति सुत्नुपर्दा दाँत माझ्छु ।
2,0.035214,3509,##होस्,म राति सुत्नुहोस् दाँत माझ्छु ।
3,0.032988,17004,##भयो,म राति सुत्नुभयो दाँत माझ्छु ।
4,0.032079,2836,##पर्ने,म राति सुत्नुपर्ने दाँत माझ्छु ।


DistilBERT
Sentence:  म राति सुत्नु अगाडि दाँत माझ्छु ।
Masked Word:  अगाडि
Masked Sentence:  म राति सुत्नु <mask> दाँत माझ्छु ।


Unnamed: 0,score,token,token_str,sequence
0,0.568443,234,अघि,म राति सुत्नु अघि दाँत माझ्छु ।
1,0.138412,320,अगाडि,म राति सुत्नु अगाडि दाँत माझ्छु ।
2,0.049801,9269,अगाडि,म राति सुत्नुअगाडि दाँत माझ्छु ।
3,0.023524,11826,अगावै,म राति सुत्नु अगावै दाँत माझ्छु ।
4,0.020701,3039,अघि,म राति सुत्नुअघि दाँत माझ्छु ।


RoBERTa
Sentence:  म राति सुत्नु अगाडि दाँत माझ्छु ।
Masked Word:  अगाडि
Masked Sentence:  म राति सुत्नु <mask> दाँत माझ्छु ।


Unnamed: 0,score,token,token_str,sequence
0,0.347353,296,।,म राति सुत्नु । दाँत माझ्छु ।
1,0.237034,292,र,म राति सुत्नु र दाँत माझ्छु ।
2,0.054549,470,भए,म राति सुत्नु भए दाँत माझ्छु ।
3,0.047116,294,म,म राति सुत्नु म दाँत माझ्छु ।
4,0.037946,313,त,म राति सुत्नु त दाँत माझ्छु ।


XLMRoBERTABase
Sentence:  म राति सुत्नु अगाडि दाँत माझ्छु ।
Masked Word:  अगाडि
Masked Sentence:  म राति सुत्नु <mask> दाँत माझ्छु ।


Unnamed: 0,score,token,token_str,sequence
0,0.492549,100260,अघि,म राति सुत्नुअघि दाँत माझ्छु ।
1,0.411548,37678,अघि,म राति सुत्नु अघि दाँत माझ्छु ।
2,0.046138,55370,अगाडि,म राति सुत्नु अगाडि दाँत माझ्छु ।
3,0.012493,12579,पूर्व,म राति सुत्नु पूर्व दाँत माझ्छु ।
4,0.011059,110356,पूर्व,म राति सुत्नुपूर्व दाँत माझ्छु ।


XLMRoBERTaLarge
Sentence:  म राति सुत्नु अगाडि दाँत माझ्छु ।
Masked Word:  अगाडि
Masked Sentence:  म राति सुत्नु <mask> दाँत माझ्छु ।


Unnamed: 0,score,token,token_str,sequence
0,0.492549,100260,अघि,म राति सुत्नुअघि दाँत माझ्छु ।
1,0.411548,37678,अघि,म राति सुत्नु अघि दाँत माझ्छु ।
2,0.046138,55370,अगाडि,म राति सुत्नु अगाडि दाँत माझ्छु ।
3,0.012493,12579,पूर्व,म राति सुत्नु पूर्व दाँत माझ्छु ।
4,0.011059,110356,पूर्व,म राति सुत्नुपूर्व दाँत माझ्छु ।


**In Example 4,**

Sentence (EN): I brush my teeth before I sleep.

`BERT` has semantically correct prediction.

`DistilBERT` and `xlmRoBERTaLarge` has almost all predictions accurate with the context. All predicted words has the meanings corresponding to (before).

`RoBERTa` doesn't have accurate predictions.

**Winner: DistilBERT and xlmRoBERTaLarge**

### Example 5 (Country / Destination)

In [54]:
sentence3 = 'नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान गर्दैछ ।'
rand_idx = np.random.randint(len(sentence3.split()))
for model in models:
    df = model.unmask(sentence3, 5)
    display(df)

BERT
Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान गर्दैछ ।
Masked Word:  श्रीलंका
Masked Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार [MASK] प्रस्थान गर्दैछ ।


Unnamed: 0,score,token,token_str,sequence
0,0.060666,4420,दिल्ली,नेपाली टोली प्रशिक्षणका लागि शनिबार दिल्ली प्रस्थान गर्दैछ ।
1,0.036525,3735,मलेसिया,नेपाली टोली प्रशिक्षणका लागि शनिबार मलेसिया प्रस्थान गर्दैछ ।
2,0.036245,897,भारत,नेपाली टोली प्रशिक्षणका लागि शनिबार भारत प्रस्थान गर्दैछ ।
3,0.02993,599,नेपाल,नेपाली टोली प्रशिक्षणका लागि शनिबार नेपाल प्रस्थान गर्दैछ ।
4,0.029095,2186,पोखरा,नेपाली टोली प्रशिक्षणका लागि शनिबार पोखरा प्रस्थान गर्दैछ ।


DistilBERT
Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान गर्दैछ ।
Masked Word:  श्रीलंका
Masked Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार <mask> प्रस्थान गर्दैछ ।


Unnamed: 0,score,token,token_str,sequence
0,0.246347,12642,त्यसतर्फ,नेपाली टोली प्रशिक्षणका लागि शनिबार त्यसतर्फ प्रस्थान गर्दैछ ।
1,0.184495,6145,थाइल्याण्ड,नेपाली टोली प्रशिक्षणका लागि शनिबार थाइल्याण्ड प्रस्थान गर्दैछ ।
2,0.065091,4107,बङ्गलादेश,नेपाली टोली प्रशिक्षणका लागि शनिबार बङ्गलादेश प्रस्थान गर्दैछ ।
3,0.060285,2149,बंगलादेश,नेपाली टोली प्रशिक्षणका लागि शनिबार बंगलादेश प्रस्थान गर्दैछ ।
4,0.041907,3546,लन्डन,नेपाली टोली प्रशिक्षणका लागि शनिबार लन्डन प्रस्थान गर्दैछ ।


RoBERTa
Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान गर्दैछ ।
Masked Word:  श्रीलंका
Masked Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार <mask> प्रस्थान गर्दैछ ।


Unnamed: 0,score,token,token_str,sequence
0,0.38046,508,आज,नेपाली टोली प्रशिक्षणका लागि शनिबार आज प्रस्थान गर्दैछ ।
1,0.121045,649,थप,नेपाली टोली प्रशिक्षणका लागि शनिबार थप प्रस्थान गर्दैछ ।
2,0.067413,370,एक,नेपाली टोली प्रशिक्षणका लागि शनिबार एक प्रस्थान गर्दैछ ।
3,0.037404,270,े,नेपाली टोली प्रशिक्षणका लागि शनिबारे प्रस्थान गर्दैछ ।
4,0.027709,292,र,नेपाली टोली प्रशिक्षणका लागि शनिबार र प्रस्थान गर्दैछ ।


XLMRoBERTABase
Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान गर्दैछ ।
Masked Word:  श्रीलंका
Masked Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार <mask> प्रस्थान गर्दैछ ।


Unnamed: 0,score,token,token_str,sequence
0,0.3361,156471,मलेसिया,नेपाली टोली प्रशिक्षणका लागि शनिबार मलेसिया प्रस्थान गर्दैछ ।
1,0.111613,3946,भारत,नेपाली टोली प्रशिक्षणका लागि शनिबार भारत प्रस्थान गर्दैछ ।
2,0.063455,235324,युएई,नेपाली टोली प्रशिक्षणका लागि शनिबार युएई प्रस्थान गर्दैछ ।
3,0.043259,24701,अमेरिका,नेपाली टोली प्रशिक्षणका लागि शनिबार अमेरिका प्रस्थान गर्दैछ ।
4,0.033576,173006,श्रीलंका,नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान गर्दैछ ।


XLMRoBERTaLarge
Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान गर्दैछ ।
Masked Word:  श्रीलंका
Masked Sentence:  नेपाली टोली प्रशिक्षणका लागि शनिबार <mask> प्रस्थान गर्दैछ ।


Unnamed: 0,score,token,token_str,sequence
0,0.3361,156471,मलेसिया,नेपाली टोली प्रशिक्षणका लागि शनिबार मलेसिया प्रस्थान गर्दैछ ।
1,0.111613,3946,भारत,नेपाली टोली प्रशिक्षणका लागि शनिबार भारत प्रस्थान गर्दैछ ।
2,0.063455,235324,युएई,नेपाली टोली प्रशिक्षणका लागि शनिबार युएई प्रस्थान गर्दैछ ।
3,0.043259,24701,अमेरिका,नेपाली टोली प्रशिक्षणका लागि शनिबार अमेरिका प्रस्थान गर्दैछ ।
4,0.033576,173006,श्रीलंका,नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान गर्दैछ ।


**In Example 5,**

Sentence (EN): The Nepali team is leaving for Sri Lanka on Saturday for training.

Here the masked token is the country name - Sri Lanka.

`BERT` predicted (Delhi, Pokhara, Malaysia, Nepal, India). It managed to return all destinations where the team could go for training.

`DistilBERT` is quite similar as it predicted (Thailand, Bangaladesh, London) as the destination names. However, the first prediction has a meaning of (towards that) which sounds correct as per the context too.

`RoBERTa`'s first prediction is correct semantically, but others are not. It also did not manage to capture any possible destinations / locations.

`xlmRoBERTaLarge` predicted (Malaysia, India, UAE, America, Sri Lanka). All the top predictions are some countries and even has the correct mask token in them.

**Winner: BERT, DistilBERT, xlmRoBERTaLarge**

### Example 6 (Added a sentence before Example 5 which has a name of capital city)

In [55]:
sentence4 = 'अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।'
rand_idx = np.random.randint(len(sentence4.split()))
for model in models:
    df = model.unmask(sentence4, 1)
    display(df)

BERT
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  महिना
Masked Sentence:  अर्को [MASK] नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.198583,1632,खेलमा,अर्को खेलमा नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
1,0.099789,662,वर्ष,अर्को वर्ष नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
2,0.096261,800,दिन,अर्को दिन नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
3,0.064732,2750,चरणमा,अर्को चरणमा नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
4,0.031531,1290,पटक,अर्को पटक नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


DistilBERT
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  महिना
Masked Sentence:  अर्को <mask> नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.206277,1293,साता,अर्को साता नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
1,0.16342,1898,हप्ता,अर्को हप्ता नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
2,0.154689,638,खेलमा,अर्को खेलमा नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
3,0.11145,429,महिना,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
4,0.085567,80,वर्ष,अर्को वर्ष नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


RoBERTa
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  महिना
Masked Sentence:  अर्को <mask> नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.392081,370,एक,अर्को एक नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
1,0.140371,644,पटक,अर्को पटक नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
2,0.04383,572,समय,अर्को समय नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
3,0.042779,880,पटक,अर्कोपटक नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
4,0.030174,292,र,अर्को र नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


XLMRoBERTABase
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  महिना
Masked Sentence:  अर्को <mask> नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.557443,111418,साता,अर्को साता नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
1,0.143512,3927,दिन,अर्को दिन नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
2,0.073994,108462,शनिबार,अर्को शनिबार नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
3,0.070333,179321,हप्ता,अर्को हप्ता नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
4,0.039272,92657,शुक्रबार,अर्को शुक्रबार नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


XLMRoBERTaLarge
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  महिना
Masked Sentence:  अर्को <mask> नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.557443,111418,साता,अर्को साता नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
1,0.143512,3927,दिन,अर्को दिन नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
2,0.073994,108462,शनिबार,अर्को शनिबार नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
3,0.070333,179321,हप्ता,अर्को हप्ता नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
4,0.039272,92657,शुक्रबार,अर्को शुक्रबार नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।


**In Example 6,**

Sentence (EN): Nepali players are going to Colombo next month. The Nepali team is leaving for Sri Lanka on Saturday for training.

Masked token is 'महिना' (month)

`BERT`'s predictions are semantically correct (next game, next year, next day, next season, next time) . It has given words which not only correspond with the time of the year but also some other correct words like next game, or next season, or next time.

`DistilBERT`'s most predictions are based on time of the year like (next week, next month, next year). It also predicted next game. It managed to capture the exact masked token too at index 3.

`RoBERTa`'s most predictions are not semantically correct. However, prediction at index 1 and 3 seems to be sounding correct.

`xlmRoBERTaLarge` predicted (week, day, saturday, week, friday). The way it captured weekday name could be captured from the sentence following it.

**Winner: BERT, DistilBERT, xlmRoBERTaLarge**

### Example 7 (Can they predict country given its capital?)

In [56]:
sentence4 = 'अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।'
rand_idx = np.random.randint(len(sentence4.split()))
for model in models:
    df = model.unmask(sentence4, 12)
    display(df)

BERT
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  श्रीलंका
Masked Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार [MASK] प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.064686,4420,दिल्ली,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार दिल्ली प्रस्थान जाँदै छ ।
1,0.027709,2186,पोखरा,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार पोखरा प्रस्थान जाँदै छ ।
2,0.027292,897,भारत,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार भारत प्रस्थान जाँदै छ ।
3,0.024065,3735,मलेसिया,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार मलेसिया प्रस्थान जाँदै छ ।
4,0.0225,599,नेपाल,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार नेपाल प्रस्थान जाँदै छ ।


DistilBERT
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  श्रीलंका
Masked Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार <mask> प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.148915,12642,त्यसतर्फ,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार त्यसतर्फ प्रस्थान जाँदै छ ।
1,0.128018,486,चीन,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार चीन प्रस्थान जाँदै छ ।
2,0.076415,2427,मलेसिया,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार मलेसिया प्रस्थान जाँदै छ ।
3,0.055525,6145,थाइल्याण्ड,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार थाइल्याण्ड प्रस्थान जाँदै छ ।
4,0.031115,18807,थाईल्याण्ड,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार थाईल्याण्ड प्रस्थान जाँदै छ ।


RoBERTa
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  श्रीलंका
Masked Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार <mask> प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.359789,370,एक,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार एक प्रस्थान जाँदै छ ।
1,0.205959,508,आज,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार आज प्रस्थान जाँदै छ ।
2,0.05667,649,थप,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार थप प्रस्थान जाँदै छ ।
3,0.039137,292,र,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार र प्रस्थान जाँदै छ ।
4,0.022017,16,",","अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार, प्रस्थान जाँदै छ ।"


XLMRoBERTABase
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  श्रीलंका
Masked Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार <mask> प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.085725,3946,भारत,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार भारत प्रस्थान जाँदै छ ।
1,0.078254,156471,मलेसिया,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार मलेसिया प्रस्थान जाँदै छ ।
2,0.067903,81128,त्यहाँ,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार त्यहाँ प्रस्थान जाँदै छ ।
3,0.046414,235324,युएई,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार युएई प्रस्थान जाँदै छ ।
4,0.045753,24701,अमेरिका,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार अमेरिका प्रस्थान जाँदै छ ।


XLMRoBERTaLarge
Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार श्रीलंका प्रस्थान जाँदै छ ।
Masked Word:  श्रीलंका
Masked Sentence:  अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार <mask> प्रस्थान जाँदै छ ।


Unnamed: 0,score,token,token_str,sequence
0,0.085725,3946,भारत,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार भारत प्रस्थान जाँदै छ ।
1,0.078254,156471,मलेसिया,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार मलेसिया प्रस्थान जाँदै छ ।
2,0.067903,81128,त्यहाँ,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार त्यहाँ प्रस्थान जाँदै छ ।
3,0.046414,235324,युएई,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार युएई प्रस्थान जाँदै छ ।
4,0.045753,24701,अमेरिका,अर्को महिना नेपाली खेलाडिहरु कोलोम्बो जाँदैछन् । नेपाली टोली प्रशिक्षणका लागि शनिबार अमेरिका प्रस्थान जाँदै छ ।


Could not do for these sentences. Let's try with a simple country-capital sentence

### Example 8 (Country-Capital sentence)

In [57]:
sentence5 = 'श्रीलंकाको राजधानी कोलोम्बो हो ।'
rand_idx = 2
for model in models:
    df = model.unmask(sentence5, rand_idx)
    display(df)

BERT
Sentence:  श्रीलंकाको राजधानी कोलोम्बो हो ।
Masked Word:  कोलोम्बो
Masked Sentence:  श्रीलंकाको राजधानी [MASK] हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.135174,557,पनि,श्रीलंकाको राजधानी पनि हो ।
1,0.03139,2793,राजधानी,श्रीलंकाको राजधानी राजधानी हो ।
2,0.031236,1633,यही,श्रीलंकाको राजधानी यही हो ।
3,0.019709,703,नै,श्रीलंकाको राजधानी नै हो ।
4,0.017806,859,प्रदेश,श्रीलंकाको राजधानी प्रदेश हो ।


DistilBERT
Sentence:  श्रीलंकाको राजधानी कोलोम्बो हो ।
Masked Word:  कोलोम्बो
Masked Sentence:  श्रीलंकाको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.081193,14663,कोलम्बो,श्रीलंकाको राजधानी कोलम्बो हो ।
1,0.063301,106,काठमाडौं,श्रीलंकाको राजधानी काठमाडौं हो ।
2,0.059119,1431,सहर,श्रीलंकाको राजधानी सहर हो ।
3,0.047387,2184,जनकपुर,श्रीलंकाको राजधानी जनकपुर हो ।
4,0.044357,3855,कपिलवस्तु,श्रीलंकाको राजधानी कपिलवस्तु हो ।


RoBERTa
Sentence:  श्रीलंकाको राजधानी कोलोम्बो हो ।
Masked Word:  कोलोम्बो
Masked Sentence:  श्रीलंकाको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.461069,370,एक,श्रीलंकाको राजधानी एक हो ।
1,0.043161,313,त,श्रीलंकाको राजधानी त हो ।
2,0.035551,572,समय,श्रीलंकाको राजधानी समय हो ।
3,0.024992,1036,फरक,श्रीलंकाको राजधानी फरक हो ।
4,0.017473,1272,सहर,श्रीलंकाको राजधानी सहर हो ।


XLMRoBERTABase
Sentence:  श्रीलंकाको राजधानी कोलोम्बो हो ।
Masked Word:  कोलोम्बो
Masked Sentence:  श्रीलंकाको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.303427,9680,काठमाडौं,श्रीलंकाको राजधानी काठमाडौं हो ।
1,0.079692,182992,जनकपुर,श्रीलंकाको राजधानी जनकपुर हो ।
2,0.061161,33171,यही,श्रीलंकाको राजधानी यही हो ।
3,0.037946,4192,यो,श्रीलंकाको राजधानी यो हो ।
4,0.027976,6004,क्या,श्रीलंकाको राजधानी क्या हो ।


XLMRoBERTaLarge
Sentence:  श्रीलंकाको राजधानी कोलोम्बो हो ।
Masked Word:  कोलोम्बो
Masked Sentence:  श्रीलंकाको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.303427,9680,काठमाडौं,श्रीलंकाको राजधानी काठमाडौं हो ।
1,0.079692,182992,जनकपुर,श्रीलंकाको राजधानी जनकपुर हो ।
2,0.061161,33171,यही,श्रीलंकाको राजधानी यही हो ।
3,0.037946,4192,यो,श्रीलंकाको राजधानी यो हो ।
4,0.027976,6004,क्या,श्रीलंकाको राजधानी क्या हो ।


**In Example 8,**

Sentence (EN): Sri Lanka's capital is Colombo.

Masked token: Colombo

`BERT` did not capture the exact capital name. However, at index 0, 2 and 3 the sentences sound correct.

`DistilBERT` surprisingly predicted the correct capital name as Colombo. It's other predictions also denote name of cities (Kathmandu, City, Janakpur, Kapilvastu)

`RoBERTa`'s predictions are horrible again.

`xlmRoBERTaLarge` did not manage to capture the correct masked token. However, it's predictions are syntactically correct.

**Winner: DistilBERT**

Let's try few more examples of (Country-Capital) simple sentences

Thailand's capital is Bangkok

In [58]:
sentence6 = 'थाइल्याण्डको राजधानी बैंकक हो ।'
rand_idx = np.random.randint(len(sentence4.split()))
for model in models:
    df = model.unmask(sentence6, 2)
    display(df)

BERT
Sentence:  थाइल्याण्डको राजधानी बैंकक हो ।
Masked Word:  बैंकक
Masked Sentence:  थाइल्याण्डको राजधानी [MASK] हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.117887,557,पनि,थाइल्याण्डको राजधानी पनि हो ।
1,0.035787,2793,राजधानी,थाइल्याण्डको राजधानी राजधानी हो ।
2,0.023385,1633,यही,थाइल्याण्डको राजधानी यही हो ।
3,0.021396,2186,पोखरा,थाइल्याण्डको राजधानी पोखरा हो ।
4,0.018002,859,प्रदेश,थाइल्याण्डको राजधानी प्रदेश हो ।


DistilBERT
Sentence:  थाइल्याण्डको राजधानी बैंकक हो ।
Masked Word:  बैंकक
Masked Sentence:  थाइल्याण्डको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.173859,19013,क्वालालम्पुर,थाइल्याण्डको राजधानी क्वालालम्पुर हो ।
1,0.094899,1431,सहर,थाइल्याण्डको राजधानी सहर हो ।
2,0.082995,9160,बैंकक,थाइल्याण्डको राजधानी बैंकक हो ।
3,0.055609,106,काठमाडौं,थाइल्याण्डको राजधानी काठमाडौं हो ।
4,0.049122,11634,नयाँदिल्ली,थाइल्याण्डको राजधानी नयाँदिल्ली हो ।


RoBERTa
Sentence:  थाइल्याण्डको राजधानी बैंकक हो ।
Masked Word:  बैंकक
Masked Sentence:  थाइल्याण्डको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.466835,370,एक,थाइल्याण्डको राजधानी एक हो ।
1,0.04669,313,त,थाइल्याण्डको राजधानी त हो ।
2,0.033155,572,समय,थाइल्याण्डको राजधानी समय हो ।
3,0.021578,1272,सहर,थाइल्याण्डको राजधानी सहर हो ।
4,0.02147,1202,शहर,थाइल्याण्डको राजधानी शहर हो ।


XLMRoBERTABase
Sentence:  थाइल्याण्डको राजधानी बैंकक हो ।
Masked Word:  बैंकक
Masked Sentence:  थाइल्याण्डको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.822997,75673,Bangkok,थाइल्याण्डको राजधानी Bangkok हो ।
1,0.087382,9680,काठमाडौं,थाइल्याण्डको राजधानी काठमाडौं हो ।
2,0.015737,30767,काठमाडौँ,थाइल्याण्डको राजधानी काठमाडौँ हो ।
3,0.008855,222328,Phuket,थाइल्याण्डको राजधानी Phuket हो ।
4,0.00785,14420,दिल्ली,थाइल्याण्डको राजधानी दिल्ली हो ।


XLMRoBERTaLarge
Sentence:  थाइल्याण्डको राजधानी बैंकक हो ।
Masked Word:  बैंकक
Masked Sentence:  थाइल्याण्डको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.822997,75673,Bangkok,थाइल्याण्डको राजधानी Bangkok हो ।
1,0.087382,9680,काठमाडौं,थाइल्याण्डको राजधानी काठमाडौं हो ।
2,0.015737,30767,काठमाडौँ,थाइल्याण्डको राजधानी काठमाडौँ हो ।
3,0.008855,222328,Phuket,थाइल्याण्डको राजधानी Phuket हो ।
4,0.00785,14420,दिल्ली,थाइल्याण्डको राजधानी दिल्ली हो ।


`BERT`'s few predictions give syntactically correct sentences although it did not capture correct token.

`DistilBERT` shows Kuala Lumpur as the highest scorer for capital of Thailand. However, it has Bangkok at index 2.

`RoBERTa` did not predict any specific locations at all.

`xlmRoBERTaLarge` shows 'Bangkok' with the highest score, which is the correct answer, but then token is in English. It also managed to capture some other location of Thailand i.e. 'Phuket' at index 3.

**Winner: xlmRoBERTaLarge**

India's capital is New Delhi

In [59]:
sentence7 = 'भारतको राजधानी नयाँदिल्ली हो ।'
rand_idx = np.random.randint(len(sentence4.split()))
for model in models:
    df = model.unmask(sentence7, 2)
    display(df)

BERT
Sentence:  भारतको राजधानी नयाँदिल्ली हो ।
Masked Word:  नयाँदिल्ली
Masked Sentence:  भारतको राजधानी [MASK] हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.142466,557,पनि,भारतको राजधानी पनि हो ।
1,0.041588,2793,राजधानी,भारतको राजधानी राजधानी हो ।
2,0.026896,703,नै,भारतको राजधानी नै हो ।
3,0.021884,1633,यही,भारतको राजधानी यही हो ।
4,0.018922,859,प्रदेश,भारतको राजधानी प्रदेश हो ।


DistilBERT
Sentence:  भारतको राजधानी नयाँदिल्ली हो ।
Masked Word:  नयाँदिल्ली
Masked Sentence:  भारतको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.229831,2101,दिल्ली,भारतको राजधानी दिल्ली हो ।
1,0.101019,11634,नयाँदिल्ली,भारतको राजधानी नयाँदिल्ली हो ।
2,0.070101,15,पनि,भारतको राजधानी पनि हो ।
3,0.040991,430,यही,भारतको राजधानी यही हो ।
4,0.038853,3855,कपिलवस्तु,भारतको राजधानी कपिलवस्तु हो ।


RoBERTa
Sentence:  भारतको राजधानी नयाँदिल्ली हो ।
Masked Word:  नयाँदिल्ली
Masked Sentence:  भारतको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.327671,370,एक,भारतको राजधानी एक हो ।
1,0.069961,313,त,भारतको राजधानी त हो ।
2,0.050587,1272,सहर,भारतको राजधानी सहर हो ।
3,0.039997,1202,शहर,भारतको राजधानी शहर हो ।
4,0.029238,1036,फरक,भारतको राजधानी फरक हो ।


XLMRoBERTABase
Sentence:  भारतको राजधानी नयाँदिल्ली हो ।
Masked Word:  नयाँदिल्ली
Masked Sentence:  भारतको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.749671,14420,दिल्ली,भारतको राजधानी दिल्ली हो ।
1,0.049652,55892,Delhi,भारतको राजधानी Delhi हो ।
2,0.039615,204778,हैदराबाद,भारतको राजधानी हैदराबाद हो ।
3,0.024912,129828,Mumbai,भारतको राजधानी Mumbai हो ।
4,0.02269,193999,कोलकाता,भारतको राजधानी कोलकाता हो ।


XLMRoBERTaLarge
Sentence:  भारतको राजधानी नयाँदिल्ली हो ।
Masked Word:  नयाँदिल्ली
Masked Sentence:  भारतको राजधानी <mask> हो ।


Unnamed: 0,score,token,token_str,sequence
0,0.749671,14420,दिल्ली,भारतको राजधानी दिल्ली हो ।
1,0.049652,55892,Delhi,भारतको राजधानी Delhi हो ।
2,0.039615,204778,हैदराबाद,भारतको राजधानी हैदराबाद हो ।
3,0.024912,129828,Mumbai,भारतको राजधानी Mumbai हो ।
4,0.02269,193999,कोलकाता,भारतको राजधानी कोलकाता हो ।


`DistilBERT` accurately shows (Delhi, New Delhi) as capital of India at index 0 and 1 respectively. As earlier, other predictions of this model are too syntactically correct.

`xlmRoBERTaLarge` shows Delhi in Devanagari with the highest score and Delhi in English to be the next token. Surprisingly, other tokens it managed to predict are all the cities of India.

## Model Comparison on Masked Language Modeling Task

**TODO:**

- Document how each of the model is trained, on which dataset, number of sentences
- Document the model architectures used while pretraining (number of layers and dimensions) each of the models



Out of the three models chosen, based on our personal intuition on Nepali Language, 

`DistilBERT` seems to outperform pretrained models like 'BERT' and 'RoBERTa' by a very good margin. 

`BERT` comes next as it could capture accurate semantically similar words based on the context of the sentence.

`RoBERTa` model pretrained for Nepali seems to have some serious issues in capturing both semantic and syntactic meanings of words. It may be due to the amount of data used for training or lack of training epochs. Or it may perform better in other use cases?

`xlmRoBERTaLarge` is competitive with `DistilBERT` when compared with Nepali sentences in MLM task. Moreover, it does a very good job in most of the sentence use cases.