# Language modelling

## 1. Read the [documentation](https://huggingface.co/docs/transformers/task_summary#language-modeling) of Language modelling in the Transformers library.

## 2. Download three [Polish models](https://huggingface.co/models?filter=pl) from the Huggingface repository.

In [2]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.16.2-py3-none-any.whl (3.5 MB)
[?25l[K     |                                | 10 kB 21.6 MB/s eta 0:00:01[K     |▏                               | 20 kB 24.5 MB/s eta 0:00:01[K     |▎                               | 30 kB 29.5 MB/s eta 0:00:01[K     |▍                               | 40 kB 33.8 MB/s eta 0:00:01[K     |▌                               | 51 kB 35.0 MB/s eta 0:00:01[K     |▌                               | 61 kB 27.2 MB/s eta 0:00:01[K     |▋                               | 71 kB 22.8 MB/s eta 0:00:01[K     |▊                               | 81 kB 24.0 MB/s eta 0:00:01[K     |▉                               | 92 kB 22.9 MB/s eta 0:00:01[K     |█                               | 102 kB 24.2 MB/s eta 0:00:01[K     |█                               | 112 kB 24.2 MB/s eta 0:00:01[K     |█                               | 122 kB 24.2 MB/s eta 0:00:01[K     |█▏                              | 133 kB 24.2

##  HerBERT 

In [16]:
from transformers import pipeline, AutoTokenizer, AutoModelForMaskedLM
import re

In [9]:
tokenizer_herbert = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")
herbert = AutoModelForMaskedLM.from_pretrained("allegro/herbert-base-cased")

Some weights of the model checkpoint at allegro/herbert-base-cased were not used when initializing BertForMaskedLM: ['cls.sso.sso_relationship.bias', 'cls.sso.sso_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


##  Polbert - Polish BERT

In [10]:
from transformers import BertForMaskedLM, BertTokenizer
bert = BertForMaskedLM.from_pretrained("dkleczek/bert-base-polish-uncased-v1")
tokenizer_bert = BertTokenizer.from_pretrained("dkleczek/bert-base-polish-uncased-v1")

Some weights of the model checkpoint at dkleczek/bert-base-polish-uncased-v1 were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


## Bert base multilingual

In [11]:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer_dp = AutoTokenizer.from_pretrained("DeepPavlov/bert-base-bg-cs-pl-ru-cased")
dp = AutoModelForMaskedLM.from_pretrained("DeepPavlov/bert-base-bg-cs-pl-ru-cased")

Some weights of the model checkpoint at DeepPavlov/bert-base-bg-cs-pl-ru-cased were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


## 3.Produce the predictions for the following sentences (use each model and check 5 predictions): 


    (M) Warszawa to największe [MASK].
    (D) Te zabawki należą do [MASK].
    (C) Policjant przygląda się [MASK].
    (B) Na środku skrzyżowania widać [MASK].
    (N) Właściciel samochodu widział złodzieja z [MASK].
    (Ms) Prezydent z premierem rozmawiali wczoraj o [MASK].
    (W) Witaj drogi [MASK].



In [12]:
sentences = ['Warszawa to największe [MASK].',\
             'Te zabawki należą do [MASK].',\
             'Policjant przygląda się [MASK].',\
             'Na środku skrzyżowania widać [MASK].',\
             'Właściciel samochodu widział złodzieja z [MASK].',\
             'Prezydent z premierem rozmawiali wczoraj o [MASK].',\
             'Witaj drogi [MASK].']

model_names = ['polbert', 'dp', 'Herbert']
models = [bert, dp, herbert]
tokenizers = [tokenizer_bert, tokenizer_dp, tokenizer_herbert]

In [13]:
for model, tokenizer, name in zip(models, tokenizers, model_names):
    print('-'*100)
    print(name)
    print('-'*100)
    nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
    for sentence in sentences:
        sentence = sentence.replace('[MASK]', f'{tokenizer.mask_token}')
        for pred in nlp(sentence):
            print(pred['sequence'])

----------------------------------------------------------------------------------------------------
polbert
----------------------------------------------------------------------------------------------------
warszawa to najwieksze miasto.
warszawa to najwieksze miejsce.
warszawa to najwieksze lotnisko.
warszawa to najwieksze centrum.
warszawa to najwieksze miasta.
te zabawki naleza do mnie.
te zabawki naleza do ciebie.
te zabawki naleza do niego.
te zabawki naleza do nas.
te zabawki naleza do pana.
policjant przyglada sie temu.
policjant przyglada sie mu.
policjant przyglada sie im.
policjant przyglada sie nam.
policjant przyglada sie jej.
na srodku skrzyzowania widac dym.
na srodku skrzyzowania widac wszystko.
na srodku skrzyzowania widac ulice.
na srodku skrzyzowania widac ruch.
na srodku skrzyzowania widac samochod.
własciciel samochodu widział złodzieja z tyłu.
własciciel samochodu widział złodzieja z bliska.
własciciel samochodu widział złodzieja z samochodu.
własciciel samochod

# 3. Check the model predictions for the following sentences (using each model): 

    Gdybym wiedział wtedy dokładnie to, co wiem teraz, to bym się nie [MASK].
    Gdybym wiedziała wtedy dokładnie to, co wiem teraz, to bym się nie [MASK].


In [14]:
sentences2 = ['Gdybym wiedział wtedy dokładnie to, co wiem teraz, to bym się nie [MASK].',\
             'Gdybym wiedziała wtedy dokładnie to, co wiem teraz, to bym się nie [MASK].']

In [15]:
for model, tokenizer, name in zip(models, tokenizers, model_names):
    print('='*100)
    print(name.upper())
    print('='*100)
    nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
    for sentence in sentences2:
        sentence = sentence.replace('[MASK]', f'{tokenizer.mask_token}')
        for pred in nlp(sentence):
            print(pred['sequence'])
        print('-'*100)

POLBERT
gdybym wiedział wtedy dokładnie to, co wiem teraz, to bym sie nie dowiedział.
gdybym wiedział wtedy dokładnie to, co wiem teraz, to bym sie nie martwił.
gdybym wiedział wtedy dokładnie to, co wiem teraz, to bym sie nie przyznał.
gdybym wiedział wtedy dokładnie to, co wiem teraz, to bym sie nie zgodził.
gdybym wiedział wtedy dokładnie to, co wiem teraz, to bym sie nie zdziwił.
----------------------------------------------------------------------------------------------------
gdybym wiedziała wtedy dokładnie to, co wiem teraz, to bym sie nie dowiedziała.
gdybym wiedziała wtedy dokładnie to, co wiem teraz, to bym sie nie zgodziła.
gdybym wiedziała wtedy dokładnie to, co wiem teraz, to bym sie nie przyznała.
gdybym wiedziała wtedy dokładnie to, co wiem teraz, to bym sie nie zabiła.
gdybym wiedziała wtedy dokładnie to, co wiem teraz, to bym sie nie poddała.
----------------------------------------------------------------------------------------------------
DP
Gdybym wiedział wtedy 

## 5.Check the model predictions for the following sentences:

    [MASK] wrze w temperaturze 100 stopni, a zamarza w temperaturze 0 stopni Celsjusza.
    W wakacje odwiedziłem [MASK], który jest stolicą Islandii.
    Informatyka na [MASK] należy do najlepszych kierunków w Polsce.


In [17]:
sentences3 = [f'[MASK] wrze w temperaturze 100 stopni, a zamarza w temperaturze 0 stopni Celcjusza.',\
             f'W wakacje odwiedziłem [MASK], który jest stolicą Islandii.',\
             f'Informatyka na [MASK] należy do najlepszych kierunków w Polsce.']


In [18]:
for model, tokenizer, name in zip(models, tokenizers, model_names):
    print('='*100)
    print(name.upper())
    print('='*100)
    nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
    for sentence in sentences3:
        sentence = sentence.replace('[MASK]', f'{tokenizer.mask_token}')
        for pred in nlp(sentence):
            print(pred['sequence'])
        print('-'*100)


POLBERT
woda wrze w temperaturze 100 stopni, a zamarza w temperaturze 0 stopni celcjusza.
nie wrze w temperaturze 100 stopni, a zamarza w temperaturze 0 stopni celcjusza.
ciało wrze w temperaturze 100 stopni, a zamarza w temperaturze 0 stopni celcjusza.
powietrze wrze w temperaturze 100 stopni, a zamarza w temperaturze 0 stopni celcjusza.
temperatura wrze w temperaturze 100 stopni, a zamarza w temperaturze 0 stopni celcjusza.
----------------------------------------------------------------------------------------------------
w wakacje odwiedziłem zamek, ktory jest stolica islandii.
w wakacje odwiedziłem kraj, ktory jest stolica islandii.
w wakacje odwiedziłem sztokholm, ktory jest stolica islandii.
w wakacje odwiedziłem park, ktory jest stolica islandii.
w wakacje odwiedziłem region, ktory jest stolica islandii.
----------------------------------------------------------------------------------------------------
informatyka na uniwersytecie nalezy do najlepszych kierunkow w polsce.
info

## 7. Answer the following questions:
### Which of the models produced the best results?
    - Jest to zależne od konkretnych przykładów, natomiast wydaje mi się że najlepsze wyniki dał Polbert; reszta nie była natomiast zła.
    
### Was any of the models able to capture Polish grammar?
    - Wszystkim modelom udało się uwzględnić polską gramatykę.
    
### Was any of the models able to capture long-distant relationships between the words?
    - Modelowi DP udało się to w zdaniu o stolicy Islandii
    - Wszystkim modelom udało się to w zdaniu o wrzeniu wody
    
### Was any of the models able to capture world knowledge?
    - Tak, wspomniane wyżej zdanie o Islandii w modelu DP; "W wakacje odwiedziłem Reykjavík, który jest stolicą Islandii."
    
### What are the most striking errors made by the models?
    - znaki interpunkcyjne zwracane zamiast słów (np. "Te zabawki należą do..")
    -"Informatyka na Internetu należy do najlepszych kierunków w Polsce."
    -"nie wrze w temperaturze 100 stopni, a zamarza w temperaturze 0 stopni celcjusza."