# Language modelling

In [1]:
import torch

from transformers import BertTokenizer, BertForMaskedLM, AutoTokenizer, AutoModel

### Task 2
Getting top 3 models from: https://huggingface.co/models?filter=pl (skipping dkleczek/bert-base-polish-uncased-v1 since cased version is stated as an upgrade to this).

In [2]:
model1 = {"name": "dkleczek/bert-base-polish-cased-v1",
         "tokenizer": BertTokenizer.from_pretrained("dkleczek/bert-base-polish-cased-v1"),
         "model": BertForMaskedLM.from_pretrained("dkleczek/bert-base-polish-cased-v1")}

Some weights of the model checkpoint at dkleczek/bert-base-polish-cased-v1 were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [3]:
model2 = {"name": "allegro/herbert-base-cased",
         "tokenizer": AutoTokenizer.from_pretrained("allegro/herbert-base-cased"),
         "model": BertForMaskedLM.from_pretrained("allegro/herbert-base-cased")}

Some weights of the model checkpoint at allegro/herbert-base-cased were not used when initializing BertForMaskedLM: ['cls.sso.sso_relationship.weight', 'cls.sso.sso_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [4]:
model3 = {"name": "allegro/herbert-large-cased",
         "tokenizer": AutoTokenizer.from_pretrained("allegro/herbert-large-cased"),
         "model": BertForMaskedLM.from_pretrained("allegro/herbert-large-cased")}

Some weights of the model checkpoint at allegro/herbert-large-cased were not used when initializing BertForMaskedLM: ['cls.sso.sso_relationship.weight', 'cls.sso.sso_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [5]:
models = [model1, model2, model3]

In [6]:
def fill_sentence(sentence, model, tokenizer, num_predictions=5):
    sentence = sentence.replace("[MASK]", tokenizer.mask_token)
    sentence_encoded = tokenizer.encode(sentence, return_tensors="pt")
    mask_token_index = torch.where(sentence_encoded == tokenizer.mask_token_id)[1][0].item()
    token_logits = model(sentence_encoded)[0]
    mask_token_logits = token_logits[0, mask_token_index, :]
    top_tokens = torch.topk(mask_token_logits, num_predictions)[-1]
    for token in top_tokens:
        print("\t{}".format(sentence.replace(tokenizer.mask_token, tokenizer.decode([token]))))

### Task 3

In [7]:
sentences = ["Warszawa to największe [MASK].",
             "Te zabawki należą do [MASK].",
             "Policjant przygląda się [MASK].",
             "Na środku skrzyżowania widać [MASK].",
             "Właściciel samochodu widział złodzieja z [MASK].",
             "Prezydent z premierem rozmawiali wczoraj o [MASK].",
             "Witaj drogi [MASK]."]

In [8]:
for model in models:
    print()
    print(model["name"])
    for s in sentences:
        print("{}:".format(s))
        fill_sentence(s, model["model"], model["tokenizer"])


dkleczek/bert-base-polish-cased-v1
Warszawa to największe [MASK].:
	Warszawa to największe miasto.
	Warszawa to największe województwo.
	Warszawa to największe lotnisko.
	Warszawa to największe miasteczko.
	Warszawa to największe państwo.
Te zabawki należą do [MASK].:
	Te zabawki należą do ciebie.
	Te zabawki należą do mnie.
	Te zabawki należą do nas.
	Te zabawki należą do pana.
	Te zabawki należą do niego.
Policjant przygląda się [MASK].:
	Policjant przygląda się temu.
	Policjant przygląda się sprawie.
	Policjant przygląda się im.
	Policjant przygląda się wszystkiemu.
	Policjant przygląda się panu.
Na środku skrzyżowania widać [MASK].:
	Na środku skrzyżowania widać rzekę.
	Na środku skrzyżowania widać ulicę.
	Na środku skrzyżowania widać drzewa.
	Na środku skrzyżowania widać drogę.
	Na środku skrzyżowania widać las.
Właściciel samochodu widział złodzieja z [MASK].:
	Właściciel samochodu widział złodzieja z bronią.
	Właściciel samochodu widział złodzieja z tyłu.
	Właściciel samochodu 

### Task 4

In [9]:
sentences = ["Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie [MASK].",
             "Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie [MASK]."]

In [10]:
for model in models:
    print()
    print(model["name"])
    for s in sentences:
        print("{}:".format(s))
        fill_sentence(s, model["model"], model["tokenizer"])


dkleczek/bert-base-polish-cased-v1
Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie [MASK].:
	Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie zgodził.
	Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie dowiedział.
	Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie martwił.
	Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie bał.
	Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie zabił.
Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie [MASK].:
	Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie zgodziła.
	Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie bała.
	Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie dowiedziała.
	Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie zabiła.
	Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie pojawiła.

allegro/herbert-base-cased
Gdybym wiedział wtedy dokładnie t

### Task 5

In [11]:
sentences = ["[MASK] wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.",
             "W wakacje odwiedziłem [MASK], który jest stolicą Islandii.",
             "Informatyka na [MASK] należy do najlepszych kierunków w Polsce."]

In [12]:
for model in models:
    print()
    print(model["name"])
    for s in sentences:
        print("{}:".format(s))
        fill_sentence(s, model["model"], model["tokenizer"])


dkleczek/bert-base-polish-cased-v1
[MASK] wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.:
	Woda wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
	Mięso wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
	Słońce wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
	Nie wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
	Piwo wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
W wakacje odwiedziłem [MASK], który jest stolicą Islandii.:
	W wakacje odwiedziłem kraj, który jest stolicą Islandii.
	W wakacje odwiedziłem Cypr, który jest stolicą Islandii.
	W wakacje odwiedziłem Meksyk, który jest stolicą Islandii.
	W wakacje odwiedziłem Gibraltar, który jest stolicą Islandii.
	W wakacje odwiedziłem Wellington, który jest stolicą Islandii.
Informatyka na [MASK] należy do najlepszych kierunków w Polsce.:
	Informatyka na wsi należy do najlepszyc

### Task 6
#### Which of the models produced the best results?
I would say that depending on the sentence different models came out on top. If I had to position them from worst to best then:  

3\. dkleczek/bert-base-polish-cased-v1 - the only one with correct Vocative but in the last two sentences it totally missed  
2\. allegro/herbert-base-cased - in `W wakacje odwiedziłem ...` first result is much better than in dkleczek's model (country as a capital?)  
1\. allegro/herbert-large-cased - better first result in the last sentence (not only in chosen University but also the context :P) and more human-like first result in `Gdybym wiedział(a) wtedy ...` (base-cased propositions are "correct" but seem very artificial: `Gdybym wiedziała to bym się nie dowiedziała.`)  

But it is worth noting that dkleczek's model always returned some word, whereas the rest sometimes returned `.` which would be a dead giveaway if it happened while imitating a real person.
#### Was any of the models able to capture Polish grammar?
All the models correctly handled grammatical genders (sentences: `Gdybym wiedział(a) wtedy...`).  
Considering grammatical cases allegro models (especially herbert-base-cased) had some difficulties with the last one - Vocative: `Witaj drogi ...` (I think its use is diminishing in polish language, at least in speech, so maybe that's these errors happened).
#### Was any of the models able to capture long-distant relationships between the words?
Yes, allegro models in sentence `Informatyka na ... należy` returned names of universities or words that had some sense in a sentence ("uczelni", "pewno"). 
#### Was any of the models able to capture world knowledge?
Yes, all the models returned that water boils in 100 degrees and freezes in 0 (next predictions are a bit weird as a whole sentence but here I expected one obvious answer).  
The first model got lost in the sentence about Computer Science, but the rest were okay.  
But ALL of them couldn't handle `W wakacje odwiedziłem ...`.
#### What are the most striking errors made by the models?
- Problem with the last grammatical case (looking at the first ones I didn't expect any problems further)
- Poor knowledge of geography? At first I thought that maybe `W wakacje odwiedziłem ..., który jest stolicą Islandii.` was too complex and models focused on the first part of the sentence, not taking into account the dependency later. But I checked it below and it turns out that it does know some capitals, but only the easiest ones and Iceland unfortunately didn't fall into this category.

In [13]:
sentences = ["[MASK] jest stolicą Islandii.",
             "[MASK] jest stolicą Francji.",
             "[MASK] jest stolicą Niemiec.",
             "[MASK] jest stolicą Wielkiej Brytanii.",
             "[MASK] jest stolicą Serbii.",
             "[MASK] jest stolicą Wenezueli."]

for model in models:
    print()
    print(model["name"])
    for s in sentences:
        print("{}:".format(s))
        fill_sentence(s, model["model"], model["tokenizer"], 3)


dkleczek/bert-base-polish-cased-v1
[MASK] jest stolicą Islandii.:
	Miasto jest stolicą Islandii.
	Oslo jest stolicą Islandii.
	Norwegia jest stolicą Islandii.
[MASK] jest stolicą Francji.:
	Paryż jest stolicą Francji.
	Bruksela jest stolicą Francji.
	Lyon jest stolicą Francji.
[MASK] jest stolicą Niemiec.:
	Berlin jest stolicą Niemiec.
	Hamburg jest stolicą Niemiec.
	Frankfurt jest stolicą Niemiec.
[MASK] jest stolicą Wielkiej Brytanii.:
	Londyn jest stolicą Wielkiej Brytanii.
	Birmingham jest stolicą Wielkiej Brytanii.
	Glasgow jest stolicą Wielkiej Brytanii.
[MASK] jest stolicą Serbii.:
	Serbia jest stolicą Serbii.
	Miasto jest stolicą Serbii.
	Obecnie jest stolicą Serbii.
[MASK] jest stolicą Wenezueli.:
	Obecnie jest stolicą Wenezueli.
	Miasto jest stolicą Wenezueli.
	Kolumbia jest stolicą Wenezueli.

allegro/herbert-base-cased
[MASK] jest stolicą Islandii.:
	Miasto jest stolicą Islandii.
	Oslo jest stolicą Islandii.
	Miejscowość jest stolicą Islandii.
[MASK] jest stolicą Francji.: