# Przetwarzanie języka naturalnego – lab4
## Mateusz Kocot

In [1]:
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch

# Task 2

xlm-roberta-base: https://huggingface.co/xlm-roberta-base

In [2]:
tokenizer_1 = AutoTokenizer.from_pretrained('xlm-roberta-base')
model_1 = AutoModelForMaskedLM.from_pretrained('xlm-roberta-base')

---
xlm-roberta-large: https://huggingface.co/xlm-roberta-large

In [3]:
tokenizer_2 = AutoTokenizer.from_pretrained('xlm-roberta-large')
model_2 = AutoModelForMaskedLM.from_pretrained('xlm-roberta-large')

---
Twitter/twhin-bert-large: https://huggingface.co/Twitter/twhin-bert-large

In [4]:
tokenizer_3 = AutoTokenizer.from_pretrained('Twitter/twhin-bert-large')
model_3 = AutoModelForMaskedLM.from_pretrained('Twitter/twhin-bert-large')

---

In [5]:
def bold(phrase):
    return '\033[1m' + phrase + '\033[0;0m'

In [6]:
model_names = ['xlm-roberta-base', 'xlm-roberta-large', 'twhin-bert-large']
tokenizers = [tokenizer_1, tokenizer_2, tokenizer_3]
models = [model_1, model_2, model_3]

def test_models(sentence):
    print(bold(sentence))
    for name, tokenizer, model in zip(model_names, tokenizers, models):
        inputs = tokenizer(sentence, return_tensors='pt')
        mask_token_index = torch.where(inputs['input_ids'] == tokenizer.mask_token_id)[1]
        
        token_logits = model(**inputs).logits
        mask_token_logits = token_logits[0, mask_token_index, :]
        
        top_5_tokens = torch.topk(mask_token_logits, 5, dim=1).indices[0].tolist()
        print(f'{name:>20}: {[tokenizer.decode([token]) for token in top_5_tokens]}')

# Task 3

In [7]:
sentences = [
    'Mój <mask> jest najszybszy.',
    'Na świecie nie ma już żadnego <mask>.',
    'Musiałem oddać pieniądze mojemu <mask>.',
    'Ty to masz fajnego <mask>.',
    'Wybrałem się na spacer z moim <mask>.',
    'Często opowiadam o moim <mask>.',
    'Zostaw mnie, ty <mask>!'
]

for sentence in sentences:
    test_models(sentence)
    print('==================================================================')

[1mMój <mask> jest najszybszy.[0;0m
    xlm-roberta-base: ['świat', 'dzień', 'telefon', 'dom', 'czas']
   xlm-roberta-large: ['komputer', 'blog', 'samochód', 'telefon', 'laptop']
    twhin-bert-large: ['brat', 'chłopak', 'dom', 'dzień', 'chłop']
[1mNa świecie nie ma już żadnego <mask>.[0;0m
    xlm-roberta-base: ['Boga', 'człowieka', 'domu', 'państwa', 'pokoju']
   xlm-roberta-large: ['porządku', 'problemu', 'prawa', 'człowieka', 'Boga']
    twhin-bert-large: ['sensu', 'znaczenia', 'miejsca', 'kaca', 'Boga']
[1mMusiałem oddać pieniądze mojemu <mask>.[0;0m
    xlm-roberta-base: ['dziecku', 'domu', 'banku', '.', 'kolegi']
   xlm-roberta-large: ['dziecku', 'domu', 'kolegi', 'banku', 'tatu']
    twhin-bert-large: ['dziecku', 'kolegi', 'Bogu', 'mamy', 'pracy']
[1mTy to masz fajnego <mask>.[0;0m
    xlm-roberta-base: ['psa', 'bloga', '.', 'syna', 'człowieka']
   xlm-roberta-large: ['psa', 'bloga', 'syna', 'kota', 'grafika']
    twhin-bert-large: ['kaca', 'człowieka', 'dnia', 'syna', 

# Task 4

In [8]:
sentences = [
    'Ta klawiatura, co mi ją dałeś do naprawy, to się jeszcze bardziej <mask>.',
    'Pamiętasz Monikę i jej wieczne problemy z alkoholem? Ostatnio <mask> do Stanów.',
    'Ci bandyci ukradli mi składaka! Jak ja sobie bez <mask> poradzę.'
]

for sentence in sentences:
    test_models(sentence)
    print('==================================================================')

[1mTa klawiatura, co mi ją dałeś do naprawy, to się jeszcze bardziej <mask>.[0;0m
    xlm-roberta-base: ['podoba', 'przyda', 'prezentuje', 'cieszy', 'nadaje']
   xlm-roberta-large: ['przyda', 'podoba', 'sprawdza', 'stara', 'nadaje']
    twhin-bert-large: ['podoba', 'trzyma', 'cieszy', 'przyda', 'boje']
[1mPamiętasz Monikę i jej wieczne problemy z alkoholem? Ostatnio <mask> do Stanów.[0;0m
    xlm-roberta-base: ['wraca', 'wróci', 'trafił', 'podróż', 'chodzi']
   xlm-roberta-large: ['wraca', 'jeździ', 'wróci', 'idzie', 'chodzi']
    twhin-bert-large: ['wraca', 'trafił', 'wróci', 'została', 'idzie']
[1mCi bandyci ukradli mi składaka! Jak ja sobie bez <mask> poradzę.[0;0m
    xlm-roberta-base: ['nich', 'niego', 'tego', 'problemu', 'głowy']
   xlm-roberta-large: ['nich', 'tego', 'niego', 'ich', 'was']
    twhin-bert-large: ['nich', 'tego', 'ich', 'was', 'niego']


# Task 5

In [9]:
sentences = [
    '<mask> wrze w temperaturze 100 stopni.',
    'Woda <mask> w temperaturze 100 stopni.',
    '<mask> to najdłuższa rzeka w Polsce.',
    'Wisła to <mask> rzeka w Polsce.',
    'Nie wolno korzystać z <mask> w trakcie jazdy.',
    'Robert Makłowicz to <mask> człowiek na świecie.',
    'Adolf Hitler to <mask> człowiek na świecie.'
]

for sentence in sentences:
    test_models(sentence)
    print('==================================================================')

[1m<mask> wrze w temperaturze 100 stopni.[0;0m
    xlm-roberta-base: ['Można', '-', 'W', 'Na', 'Najlepiej']
   xlm-roberta-large: ['Olej', '-', 'piekarnik', 'olej', 'Wszystko']
    twhin-bert-large: ['Polska', 'Warszawa', 'Kraków', 'Poznań', 'Ukraina']
[1mWoda <mask> w temperaturze 100 stopni.[0;0m
    xlm-roberta-base: [':', ',', 'wody', 'ciepła', '–']
   xlm-roberta-large: ['jest', 'pozostaje', 'najlepiej', '-', 'zawsze']
    twhin-bert-large: ['spada', 'rośnie', 'jest', 'ciepła', 'wisi']
[1m<mask> to najdłuższa rzeka w Polsce.[0;0m
    xlm-roberta-base: ['Jest', 'jest', 'Polska', 'Obecnie', 'Będzie']
   xlm-roberta-large: ['Jest', 'jest', 'Będzie', 'A', '-']
    twhin-bert-large: ['Polska', 'Warszawa', 'Niemcy', 'Ukraina', 'Twitter']
[1mWisła to <mask> rzeka w Polsce.[0;0m
    xlm-roberta-base: ['najlepsza', 'pierwsza', 'druga', 'główna', 'duża']
   xlm-roberta-large: ['główna', 'najlepsza', 'pierwsza', 'druga', 'ogromna']
    twhin-bert-large: ['najlepsza', 'nowa', 'pierwsz