# Language modelling

In [1]:
from transformers import AutoTokenizer, BertForMaskedLM, BertTokenizer, pipeline

### 1. Download three Polish models from the Huggingface repository.

In [2]:
bert_cased_model = BertForMaskedLM.from_pretrained("dkleczek/bert-base-polish-cased-v1")
bert_cased_tokenizer = BertTokenizer.from_pretrained("dkleczek/bert-base-polish-cased-v1")

Some weights of the model checkpoint at dkleczek/bert-base-polish-cased-v1 were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [3]:
herbert_cased_model = BertForMaskedLM.from_pretrained("allegro/herbert-base-cased")
herbert_cased_tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")

Some weights of the model checkpoint at allegro/herbert-base-cased were not used when initializing BertForMaskedLM: ['cls.sso.sso_relationship.weight', 'cls.sso.sso_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [4]:
herbert_klej_cased_model = BertForMaskedLM.from_pretrained("allegro/herbert-klej-cased-v1")
herbert_klej_cased_tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")

HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=547.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=499534190.0), HTML(value='')))




Some weights of BertForMaskedLM were not initialized from the model checkpoint at allegro/herbert-klej-cased-v1 and are newly initialized: ['cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=25.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=1037897.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=590648.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=300.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=341.0), HTML(value='')))




In [5]:
models = [bert_cased_model, herbert_cased_model, herbert_klej_cased_model]
models_names = ['bert_cased_model', 'allegro/herbert-base-cased', 'allegro/herbert-klej-cased-v1']
tokenizers = [bert_cased_tokenizer, herbert_cased_tokenizer, herbert_klej_cased_tokenizer]

In [29]:
def predict_sentences_each_model(sentences):
    for sentence in sentences:
        for i in range(len(models)):
            print(str(models_names[i]))
            if models[i] == herbert_cased_model:
                sentence = sentence.replace('[MASK]','<mask>')
            nlp = pipeline('fill-mask', model=models[i], tokenizer=tokenizers[i])
            predictions = nlp(sentence)
            predicted_sentences = [prediction['sequence'] for prediction in predictions]
            for predicted_sentence in predicted_sentences:
                predicted_sentence = predicted_sentence.replace('[CLS] ', '').replace(' [SEP]', '')
                if '<s>' in predicted_sentence:
                    predicted_sentence = predicted_sentence.replace('<s>', '')
                    predicted_sentence = predicted_sentence.replace(' </s>', '')
                print('   ' + predicted_sentence)
        print('\n')

### 2. Produce the predictions for the following sentences (use each model and check 5 predictions):
1. (M) Warszawa to największe [MASK].
2. (D) Te zabawki należą do [MASK].
3. (C) Policjant przygląda się [MASK].
4. (B) Na środku skrzyżowania widać [MASK].
5. (N) Właściciel samochodu widział złodzieja z [MASK].
6. (Ms) Prezydent z premierem rozmawiali wczoraj o [MASK].
7. (W) Witaj drogi [MASK].

In [30]:
sentences = [f"Warszawa to największe [MASK].",
            f"Te zabawki należą do [MASK].",
            f"Policjant przygląda się [MASK].",
            f"Na środku skrzyżowania widać [MASK].",
            f"Właściciel samochodu widział złodzieja z [MASK].",
            f"Prezydent z premierem rozmawiali wczoraj o [MASK].",
            f"Witaj drogi [MASK]."]

In [31]:
predict_sentences_each_model(sentences)

bert_cased_model
   Warszawa to największe miasto.
   Warszawa to największe województwo.
   Warszawa to największe lotnisko.
   Warszawa to największe miasteczko.
   Warszawa to największe państwo.
allegro/herbert-base-cased
   Warszawa to największe miasto.
   Warszawa to największe lotnisko.
   Warszawa to największe centrum.
   Warszawa to największe miasta.
   Warszawa to największe atrakcje.
allegro/herbert-klej-cased-v1
   Warszawa to największe zrozumiał.
   Warszawa to największe Telewizji.
   Warszawa to największe Telewizja.
   Warszawa to największe wałam.
   Warszawa to największe zawiera.


bert_cased_model
   Te zabawki należą do ciebie.
   Te zabawki należą do mnie.
   Te zabawki należą do nas.
   Te zabawki należą do pana.
   Te zabawki należą do niego.
allegro/herbert-base-cased
   Te zabawki należą do rodziny.
   Te zabawki należą do nas.
   Te zabawki należą do nich.
   Te zabawki należą do najlepszych.
   Te zabawki należą do..
allegro/herbert-klej-cased-v1
   Te z

### 3. Check the model predictions for the following sentences (using each model):
1. Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie [MASK].
2. Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie [MASK].

In [32]:
sentences2 = [f"Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie [MASK].",
             f"Gdybym wiedziała wtedy dokładnie to co wiem teraz, to bym się nie [MASK]."]

In [33]:
predict_sentences_each_model(sentences2)

bert_cased_model
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie zgodził.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie dowiedział.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie martwił.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie bał.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie zabił.
allegro/herbert-base-cased
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie zdziwił.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie poddał.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie dowiedział.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie zastanawiał.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie przyznał.
allegro/herbert-klej-cased-v1
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie astro.
   Gdybym wiedział wtedy dokładnie to co wiem teraz, to bym się nie rzeczywis

### 4. Check the model predictions for the following sentences:
1. [MASK] wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
2. W wakacje odwiedziłem [MASK], który jest stolicą Islandii.
3. Informatyka na [MASK] należy do najlepszych kierunków w Polsce.

In [34]:
sentences3 = [f"[MASK] wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.",
             f"W wakacje odwiedziłem [MASK], który jest stolicą Islandii.",
             f"Informatyka na [MASK] należy do najlepszych kierunków w Polsce."]

In [35]:
predict_sentences_each_model(sentences3)

bert_cased_model
   Woda wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
   Mięso wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
   Słońce wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
   Nie wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
   Piwo wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
allegro/herbert-base-cased
   Woda wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
   Słońce wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
   Ziemia wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
   Następnie wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
   Ciało wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.
allegro/herbert-klej-cased-v1
   przedstawia wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 s

### 5. Answer the following questions:
1. Which of the models produced the best results?
    
    Na zmianę najlepszy był raz allegro/herbert-base-cased oraz dkleczek/bert-base-polish-cased-v1 w różnych zdaniach inny wypadał lepiej. Np. allegro był lepszy w zdaniu 'Na środku skrzyżowania widać ...', a dkleczek lepszy w zdaniu 'Witaj drogi ...'.
    
    
2. Was any of the models able to capture Polish grammar?
    
    Tak. W szczególności dkleczek model był bezbłędny, co widać w szczególności w zdaniu 'Witaj drogi ...'. Natomiast allegro zwykle też sobie dobrze radził mimo drobnych potknięć np. właśnie w zdaniu 'Witaj drogi ...'. Ostatni model nie wyprodukował żadnego sensownego zdania, większość jest też niepoprawna.
    
    
3. Was any of the models able to capture long-distant relationships between the words?
    
    Tak. Np. model allegro w zdaniu 'Informatyka na ... należy do najlepszych kierunków w Polsce.' podpowiedział 3 nazwy uczelni AGH, UW i UMK, a dkleczek model wyłapał tylko krótką relację.
    
    
4. Was any of the models able to capture world knowledge?
    
    Nie za bardzo, chociaż momentami trochę tak. W zdaniu 'W wakacje odwiedziłem ..., który jest stolicą Islandii.' żaden model nie odpowiedział poprawnie. Ale w zdaniu '... wrze w tempertaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.' modele allegro i dkleczek odpowiedziały poprawnie - 'Woda' i to na pierwszym miejscu.
    
    
5. What are the most striking errors made by the models?
    
    Model allegro-klej wstawia czasem coś, co nawet nie jest słowem np. 'sał wrze w temperaturze 100 stopni, a zamarza w temeraturze 0 stopni Celsjusza.' albo słowa zupełnie nie na miejscu np. 'Te zabawki należą do zagłady.'. Pomijając ten model najbardziej rzucające się w oczy błędy: 
    * allegro: 'Warszawa to największe miasta.' - liczba mnoga
    * allegro: 'Te zabawki należą do..' - wstawiona kropka, gdzie koniec zdania nie mógł wystąpić
    * allegro: 'Właściciel samochodu widział złodzieja z włamaniem.' - błędna kolokacja
    * allegro: 'Witaj drogi Łukasz.' - zła odmiana
    * dkleczek: 'Na środku skrzyżowania widać ulicę.' - mniej uderzający błąd, ale jednak brak sensu    