In [1]:
from transformers import (
    pipeline,
    PreTrainedTokenizerFast
)

tokenizer = PreTrainedTokenizerFast.from_pretrained('bert-base-dv')

fill_mask = pipeline(
    'fill-mask',
    model='bert-base-dv',
    tokenizer=tokenizer
)

We will read in some simple examples.

In [2]:
read_dv = open('../data/entodv.tsv', encoding='utf-8')
samples = []
for i, row in enumerate(read_dv):
    en, dv = row.split('\t')
    samples.append(dv)
    if i >= 5: break

In [3]:
from random import randint
# mask a random token (that is not CLS or SEP)
def add_mask(text):
    tokens = tokenizer(text, add_special_tokens=False)['input_ids']
    i = randint(1, len(tokens)-2)
    tokens[i] = tokenizer.mask_token_id
    mask_text = tokenizer.decode(tokens)
    return mask_text

In [4]:
samples = [(sentence, add_mask(sentence)) for sentence in samples]

In [5]:
samples

[('ބޭންކު ހެދީ ވާދަވެރިކަން ބޮޑުކޮށް، އިންޓަރެސްޓް ކުޑަ ކުރަން\n',
  'ބޭންކު ހެދީ [MASK] ބޮޑުކޮށް ، އިންޓަރެސްޓް ކުޑަ ކުރަން'),
 ('ރާއްޖޭގައި އިތުރު ބޭންކެއް ހެދުމުގެ މަގުސަދަކީ ބޭންކިން ދާއިރާގެ ވާދަވެރިކަން ބޮޑުކޮށް، އިންޓަރެސްޓް ރޭޓް ކުޑަ ކުރުމަށް ބާރު އަޅަން ކަމަށް ކޮމާޝަލް ބޭންކް އޮފް މޯލްޑިވްސް (ސީބީއެމް)ގެ އެއް ހިއްސާދާރު އަދި މަޝްހޫރު ވިޔަފާރިވެރިޔާ، ޗަމްޕާ ހުސެއިން އަފީފު މިއަދު ވިދާޅުވެއްޖެ އެވެ.\n',
  'ރާއްޖޭގައި އިތުރު ބޭންކެއް ހެދުމުގެ މަގުސަދަކީ ބޭންކިން ދާއިރާގެ ވާދަވެރިކަން ބޮޑުކޮށް ، [MASK] ރޭޓް ކުޑަ ކުރުމަށް ބާރު އަޅަން ކަމަށް ކޮމާޝަލް ބޭންކް އޮފް މޯލްޑިވްސް ( ސީބީއެމް ) ގެ އެއް ހިއްސާދާރު އަދި މަޝްހޫރު ވިޔަފާރިވެރިޔާ ، ޗަމްޕާ ހުސެއިން އަފީފު މިއަދު ވިދާޅުވެއްޖެ އެވެ.'),
 ('އަވަސް އަށް ދެއްވި ހާއްސަނ އިންޓަވިއެއްގައި ކްރައުން އެންޑް ޗަމްޕާ ރިސޯޓްސްގެ ޗެއާމަން އަފީފު ވިދާޅުވީ ބޭންކެއް ހެދުމުގެ ވިސްނުމަކީ އަފީފްގެ ބޭބެ، މަޝްހޫރު ވިޔަފާރިވެރިޔާ، މުހައްމަދު މޫސާ (އުއްޗު) ގެ ވިސްނުމެއް ކަމަށެވެ. އަފީފް ވިދާޅުވީ އެންމެ ފުރަތަމަ ރިސޯޓް ހަދަން މަސައްކަތް ކުރެއްވި އިރު އޭރު ރާ

In [8]:
for sentence in samples:
    #print(sentence[0])
    print(sentence[1].replace('[MASK]', '[މާސްކް]'))  # dhivehi is written in opposite direction, printing w/ english messes up order
    #print('---')
    preds = fill_mask(sentence[1])
    for pred in preds:
        print(pred['sequence'])
    print('-----------')

ބޭންކު ހެދީ [މާސްކް] ބޮޑުކޮށް ، އިންޓަރެސްޓް ކުޑަ ކުރަން
ބޭންކު ހެދީ ދަރަނި ބޮޑުކޮށް ، އިންޓަރެސްޓް ކުޑަ ކުރަން
ބޭންކު ހެދީ ހަރަދު ބޮޑުކޮށް ، އިންޓަރެސްޓް ކުޑަ ކުރަން
ބޭންކު ހެދީ ވަރަށް ބޮޑުކޮށް ، އިންޓަރެސްޓް ކުޑަ ކުރަން
ބޭންކު ހެދީ މުސާރަ ބޮޑުކޮށް ، އިންޓަރެސްޓް ކުޑަ ކުރަން
ބޭންކު ހެދީ އަގު ބޮޑުކޮށް ، އިންޓަރެސްޓް ކުޑަ ކުރަން
-----------
ރާއްޖޭގައި އިތުރު ބޭންކެއް ހެދުމުގެ މަގުސަދަކީ ބޭންކިން ދާއިރާގެ ވާދަވެރިކަން ބޮޑުކޮށް ، [މާސްކް] ރޭޓް ކުޑަ ކުރުމަށް ބާރު އަޅަން ކަމަށް ކޮމާޝަލް ބޭންކް އޮފް މޯލްޑިވްސް ( ސީބީއެމް ) ގެ އެއް ހިއްސާދާރު އަދި މަޝްހޫރު ވިޔަފާރިވެރިޔާ ، ޗަމްޕާ ހުސެއިން އަފީފު މިއަދު ވިދާޅުވެއްޖެ އެވެ.
ރާއްޖޭގައި އިތުރު ބޭންކެއް ހެދުމުގެ މަގުސަދަކީ ބޭންކިން ދާއިރާގެ ވާދަވެރިކަން ބޮޑުކޮށް ، އިންޓަރެސްޓް ރޭޓް ކުޑަ ކުރުމަށް ބާރު އަޅަން ކަމަށް ކޮމާޝަލް ބޭންކް އޮފް މޯލްޑިވްސް ( ސީބީއެމް ) ގެ އެއް ހިއްސާދާރު އަދި މަޝްހޫރު ވިޔަފާރިވެރިޔާ ، ޗަމްޕާ ހުސެއިން އަފީފު މިއަދު ވިދާޅުވެއްޖެ އެވެ.
ރާއްޖޭގައި އިތުރު ބޭންކެއް ހެދުމުގެ މަގުސަދަކީ ބޭންކިން ދާއިރާގެ ވާދަވެރިކަން ބޮޑުކޮށް ، ކްރެޑ