# Masked Language Modelling exploration
This notebook compares the performance of the pre-trained xlm-roberta-base and the domain adapted xlm-roberta-base model.

In [2]:
from transformers import pipeline

In [3]:
xlm_roberta_base_checkpoint = 'xlm-roberta-base'
domain_adapted_checkpoint = '../models/xlm_roberta_domain_adapted_lm'

In [7]:
unmasker_base = pipeline('fill-mask', model=xlm_roberta_base_checkpoint)
unkmasker_domain_adapted = pipeline('fill-mask', model=domain_adapted_checkpoint)

In [48]:
sent = 'Den <mask> skal dømmes efter § 10 i straffeloven.'
unmasker_base(sent)

[{'score': 0.3048328459262848,
  'token': 124,
  'token_str': 'som',
  'sequence': 'Den som skal dømmes efter § 10 i straffeloven.'},
 {'score': 0.10908777266740799,
  'token': 37304,
  'token_str': 'tredje',
  'sequence': 'Den tredje skal dømmes efter § 10 i straffeloven.'},
 {'score': 0.058880776166915894,
  'token': 4539,
  'token_str': 'dom',
  'sequence': 'Den dom skal dømmes efter § 10 i straffeloven.'},
 {'score': 0.053336989134550095,
  'token': 5262,
  'token_str': 'første',
  'sequence': 'Den første skal dømmes efter § 10 i straffeloven.'},
 {'score': 0.04663150757551193,
  'token': 3445,
  'token_str': 'person',
  'sequence': 'Den person skal dømmes efter § 10 i straffeloven.'}]

In [49]:
unkmasker_domain_adapted(sent)

[{'score': 0.8259225487709045,
  'token': 250020,
  'token_str': 'tiltalte',
  'sequence': 'Dentiltalteskal dømmes efter § 10 istraffeloven.'},
 {'score': 0.11031698435544968,
  'token': 250069,
  'token_str': 'forurettede',
  'sequence': 'Denforurettedeskal dømmes efter § 10 istraffeloven.'},
 {'score': 0.010971857234835625,
  'token': 250058,
  'token_str': 'pågældende',
  'sequence': 'Denpågældendeskal dømmes efter § 10 istraffeloven.'},
 {'score': 0.010491923429071903,
  'token': 255352,
  'token_str': 'domfældte',
  'sequence': 'Dendomfældteskal dømmes efter § 10 istraffeloven.'},
 {'score': 0.0042438507080078125,
  'token': 418,
  'token_str': '1',
  'sequence': 'Den1skal dømmes efter § 10 istraffeloven.'}]

In [50]:
sent = 'Den tiltalte skal <mask> efter § 10 i straffeloven.'
unmasker_base(sent)

[{'score': 0.6138380169868469,
  'token': 106393,
  'token_str': 'straffe',
  'sequence': 'Den tiltalte skal straffe efter § 10 i straffeloven.'},
 {'score': 0.08996597677469254,
  'token': 23092,
  'token_str': 'følge',
  'sequence': 'Den tiltalte skal følge efter § 10 i straffeloven.'},
 {'score': 0.021848684176802635,
  'token': 15948,
  'token_str': 'leve',
  'sequence': 'Den tiltalte skal leve efter § 10 i straffeloven.'},
 {'score': 0.020240597426891327,
  'token': 193299,
  'token_str': 'medvirke',
  'sequence': 'Den tiltalte skal medvirke efter § 10 i straffeloven.'},
 {'score': 0.018529867753386497,
  'token': 79624,
  'token_str': 'lide',
  'sequence': 'Den tiltalte skal lide efter § 10 i straffeloven.'}]

In [51]:
unkmasker_domain_adapted(sent)

[{'score': 0.9968768358230591,
  'token': 252666,
  'token_str': 'straffes',
  'sequence': 'Dentiltalteskalstraffes efter § 10 istraffeloven.'},
 {'score': 0.0016226795269176364,
  'token': 250212,
  'token_str': 'findes',
  'sequence': 'Dentiltalteskalfindes efter § 10 istraffeloven.'},
 {'score': 0.00015966029604896903,
  'token': 253694,
  'token_str': 'tiltalt',
  'sequence': 'Dentiltalteskaltiltalt efter § 10 istraffeloven.'},
 {'score': 0.00010120770457433537,
  'token': 258630,
  'token_str': 'konfiskeres',
  'sequence': 'Dentiltalteskalkonfiskeres efter § 10 istraffeloven.'},
 {'score': 5.284590952214785e-05,
  'token': 256442,
  'token_str': 'forvaring',
  'sequence': 'Dentiltalteskalforvaring efter § 10 istraffeloven.'}]

In [52]:
sent = 'Den tiltalte skal dømmes efter § 10 i <mask>.'
unmasker_base(sent)

[{'score': 0.36730456352233887,
  'token': 14964,
  'token_str': 'lov',
  'sequence': 'Den tiltalte skal dømmes efter § 10 i lov.'},
 {'score': 0.09756876528263092,
  'token': 8992,
  'token_str': 'KU',
  'sequence': 'Den tiltalte skal dømmes efter § 10 i KU.'},
 {'score': 0.04576253890991211,
  'token': 5,
  'token_str': '.',
  'sequence': 'Den tiltalte skal dømmes efter § 10 i..'},
 {'score': 0.030843527987599373,
  'token': 39701,
  'token_str': 'Lov',
  'sequence': 'Den tiltalte skal dømmes efter § 10 i Lov.'},
 {'score': 0.025270933285355568,
  'token': 39833,
  'token_str': 'KR',
  'sequence': 'Den tiltalte skal dømmes efter § 10 i KR.'}]

In [53]:
unkmasker_domain_adapted(sent)

[{'score': 0.9095596671104431,
  'token': 250397,
  'token_str': 'straffeloven',
  'sequence': 'Dentiltalteskal dømmes efter § 10 istraffeloven.'},
 {'score': 0.017594344913959503,
  'token': 260051,
  'token_str': 'våbenloven',
  'sequence': 'Dentiltalteskal dømmes efter § 10 ivåbenloven.'},
 {'score': 0.011954744346439838,
  'token': 252139,
  'token_str': 'færdselsloven',
  'sequence': 'Dentiltalteskal dømmes efter § 10 ifærdselsloven.'},
 {'score': 0.006552980747073889,
  'token': 253731,
  'token_str': 'anklageskriftet',
  'sequence': 'Dentiltalteskal dømmes efter § 10 ianklageskriftet.'},
 {'score': 0.004991250578314066,
  'token': 250164,
  'token_str': 'bestemmelsen',
  'sequence': 'Dentiltalteskal dømmes efter § 10 ibestemmelsen.'}]