# Language modelling

In [1]:
import warnings
warnings.filterwarnings("ignore")

### Download three Polish models from the Huggingface repository. 

In [2]:
from transformers import pipeline, set_seed

herbert = pipeline(task="fill-mask", model='allegro/herbert-base-cased')
roberta = pipeline("fill-mask", model="sdadas/polish-roberta-base-v2")
papuga = pipeline("text-generation", model="dkleczek/papuGaPT2")
set_seed(42)

BertForMaskedLM has generative capabilities, as `prepare_inputs_for_generation` is explicitly overwritten. However, it doesn't directly inherit from `GenerationMixin`. From üëâv4.50üëà onwards, `PreTrainedModel` will NOT inherit from `GenerationMixin`, and this model will lose the ability to call `generate` and other related functions.
  - If you are the owner of the model architecture code, please modify your model class such that it inherits from `GenerationMixin` (after `PreTrainedModel`, otherwise you'll get an exception).
  - If you are not the owner of the model architecture class, please contact the model code owner to update it.


### Devise a method to test if the langage model understands Polish cases.

In [24]:
test_cases = {"nominative" : "Warszawa to najwiƒôksze <mask>.",
"genitive" : "W Polsce nie ma <mask>.",
"dative" : "BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô <mask>.",
"accusative" : "Nad morzem podziwia≈Çem <mask>.",
"instrumental" : "Nie zgadzam siƒô z <mask>.",
"locative" : "Przed snem my≈õla≈Çem o <mask>.",
"vocative" : "Witaj, m√≥j najlepszy <mask>."}

models = {"HerBERT" : herbert, "RoBERTa": roberta, "papuGaPT2": papuga}

for case, text in test_cases.items():
    print(f"\nTest for {case}:")
    for model_name, model in models.items():
        if model_name == "papuGaPT2":
            text = text.replace("<mask>", "").replace(".", "").strip()
            print(text)
        
        preds = model(text, top_k=3)
        print(f"\nPredictions of {model_name}:")
        for pred in preds:
            if model_name == "papuGaPT2":
                print(f"Prediction: {pred['generated_text']}\n")
            else:
                print(f"Prediction: {pred['sequence']}, Score: {pred['score']:.4f}\n")


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Test for nominative:

Predictions of HerBERT:
Prediction: Warszawa to najwiƒôksze miasto ., Score: 0.8104

Prediction: Warszawa to najwiƒôksze lotnisko ., Score: 0.0825

Prediction: Warszawa to najwiƒôksze centrum ., Score: 0.0265


Predictions of RoBERTa:
Prediction: Warszawa to najwiƒôksze miasto ., Score: 0.7344

Prediction: Warszawa to najwiƒôksze z≈Ço ., Score: 0.0098

Prediction: Warszawa to najwiƒôksze centrum ., Score: 0.0083

Warszawa to najwiƒôksze


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: Warszawa to najwiƒôksze miasto wojew√≥dztwa ≈õlƒÖskiego, a tak≈ºe drugie pod wzglƒôdem wielko≈õci miasto Polski. Po≈Ço≈ºone w wojew√≥dztwie ≈õlƒÖskim, jest tak≈ºe jednym z najwa≈ºniejszych miast w kraju.
Miasto jest po≈Ço≈ºone w po≈Çudniowej czƒô≈õci wojew√≥dztwa ≈õlƒÖskiego. W mie≈õcie znajduje siƒô wiele zabytk√≥w, kt√≥re warto


Test for genitive:

Predictions of HerBERT:
Prediction: W Polsce nie ma internetu ., Score: 0.0224

Prediction: W Polsce nie ma autostrad ., Score: 0.0157

Prediction: W Polsce nie ma kanalizacji ., Score: 0.0148


Predictions of RoBERTa:
Prediction: W Polsce nie ma ., Score: 0.0576

Prediction: W Polsce nie ma 3 ., Score: 0.0123

Prediction: W Polsce nie ma 5 ., Score: 0.0105

W Polsce nie ma


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: W Polsce nie ma jeszcze takich przepis√≥w. Nie ma te≈º takich regulacji, kt√≥re by regulowa≈Çy kwestie dotyczƒÖce tego, jak powinna wyglƒÖdaƒá umowa o pracƒô. Nie ma te≈º takiej regulacji, kt√≥ra by regulowa≈Ça kwestie zwiƒÖzane z wynagrodzeniem. Nie ma te≈º takich regulacji


Test for dative:

Predictions of HerBERT:
Prediction: BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô wystawie ., Score: 0.3861

Prediction: BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô ekspozycji ., Score: 0.1952

Prediction: BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô im ., Score: 0.0861


Predictions of RoBERTa:
Prediction: BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô ., Score: 0.0407

Prediction: BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô 55 ., Score: 0.0082

Prediction: BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô im ., Score: 0.0079

BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: BƒôdƒÖc w Muzeum Narodowym przyglƒÖda≈Çem siƒô temu, jak w czasie wojny w Polsce i na Zachodzie, w latach 70., na ulicach Warszawy mo≈ºna by≈Ço zobaczyƒá czo≈Çgi. To by≈Çy czo≈Çgi. To by≈Çy czo≈Çgi.
To by≈Ço w latach 60., kiedy w Polsce by≈Ço


Test for accusative:

Predictions of HerBERT:
Prediction: Nad morzem podziwia≈Çem widoki ., Score: 0.2369

Prediction: Nad morzem podziwia≈Çem przyrodƒô ., Score: 0.1099

Prediction: Nad morzem podziwia≈Çem Tatry ., Score: 0.0791


Predictions of RoBERTa:
Prediction: Nad morzem podziwia≈Çem ., Score: 0.0760

Prediction: Nad morzem podziwia≈Çem 3 ., Score: 0.0069

Prediction: Nad morzem podziwia≈Çem widok ., Score: 0.0060

Nad morzem podziwia≈Çem


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: Nad morzem podziwia≈Çem widoki na morze, kt√≥re jest bardzo czyste. W tym roku postanowi≈Çem wybraƒá siƒô na wycieczkƒô rowerowƒÖ.
W tym roku wybra≈Çem siƒô na wycieczkƒô rowerowƒÖ. W planach by≈Ço zobaczenie Ko≈Çobrzegu, kt√≥re jest piƒôkne i ma bardzo du≈ºo do zaoferowania.


Test for instrumental:

Predictions of HerBERT:
Prediction: Nie zgadzam siƒô z tym ., Score: 0.3859

Prediction: Nie zgadzam siƒô z nim ., Score: 0.0694

Prediction: Nie zgadzam siƒô z TobƒÖ ., Score: 0.0691


Predictions of RoBERTa:
Prediction: Nie zgadzam siƒô z tym ., Score: 0.1140

Prediction: Nie zgadzam siƒô z nim ., Score: 0.0500

Prediction: Nie zgadzam siƒô z tobƒÖ ., Score: 0.0362

Nie zgadzam siƒô z


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: Nie zgadzam siƒô z tym, ≈ºe nie mo≈ºna byƒá dobrym w ka≈ºdej dziedzinie. To nie jest tak, ≈ºe wszyscy jeste≈õmy doskona≈Çymi w ka≈ºdej dziedzinie, ale w ka≈ºdym z nas sƒÖ dobrzy i tacy, kt√≥rzy sƒÖ doskona≈Çymi w ka≈ºdej dziedzinie.
To jest


Test for locative:

Predictions of HerBERT:
Prediction: Przed snem my≈õla≈Çem o tym ., Score: 0.0917

Prediction: Przed snem my≈õla≈Çem o tobie ., Score: 0.0673

Prediction: Przed snem my≈õla≈Çem o pracy ., Score: 0.0358


Predictions of RoBERTa:
Prediction: Przed snem my≈õla≈Çem o tym ., Score: 0.0409

Prediction: Przed snem my≈õla≈Çem o ., Score: 0.0211

Prediction: Przed snem my≈õla≈Çem o nim ., Score: 0.0203

Przed snem my≈õla≈Çem o


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: Przed snem my≈õla≈Çem o tym, jak bardzo chcia≈Çbym byƒá w tym miejscu. Nie wiem, jak to siƒô sta≈Ço, ale w ko≈Ñcu siƒô zdecydowa≈Çem, ≈ºe to bƒôdzie moje miejsce. Nie mog≈Çem siƒô zdecydowaƒá. To by≈Ço takie dziwne. Nie wiedzia≈Çem, jak to siƒô


Test for vocative:

Predictions of HerBERT:
Prediction: Witaj , m√≥j najlepszy przyjaciel ., Score: 0.5444

Prediction: Witaj , m√≥j najlepszy znajomy ., Score: 0.0961

Prediction: Witaj , m√≥j najlepszy kolega ., Score: 0.0133


Predictions of RoBERTa:
Prediction: Witaj, m√≥j najlepszy ., Score: 0.1601

Prediction: Witaj, m√≥j najlepszy przyjaciel ., Score: 0.0893

Prediction: Witaj, m√≥j najlepszy 2 ., Score: 0.0599

Witaj, m√≥j najlepszy

Predictions of papuGaPT2:
Prediction: Witaj, m√≥j najlepszy przyjaciel, jest to m√≥j nowy przyjaciel. Jestem bardzo szczƒô≈õliwy, ≈ºe mogƒô go poznaƒá. Mam nadziejƒô, ≈ºe bƒôdzie mi mi≈Ço, gdy bƒôdƒô m√≥g≈Ç go poznaƒá.
- Nie mogƒô siƒô doczekaƒá, aby go poznaƒá, ponie

Modele papuGaPT2 i HerBERT dobrze poradzi≈Çy sobie z odmianƒÖ przez przypadki, mia≈Çy jedynie problem z wo≈Çaczem. Najgorzej poradzi≈Ç siebie model RoBERTa, kt√≥ry czƒôsto w og√≥le nie uzupe≈Çnia≈Ç maski lub uzupe≈Çnia≈Ç jƒÖ cyframi. Wszystkie modele mia≈Çy problem z wo≈Çaczem.

### Devise a method to test long-range relationships such as gende

In [None]:
sentences = ["Wiktor o≈õwiadczy≈Ç siƒô Matyldzie, a potem siƒô z niƒÖ <mask>.",
             "Olek przygotowa≈Ç sobie obiad, ale przysz≈Ça g≈Çodna Ba≈õka i go <mask>.",
             "Monika d≈Çugo przygotowywa≈Ça siƒô do konkursu, ale to Robert go <mask>.",
             "Ala znalaz≈Ça bezdomnego kota i go <mask>."]

for text in sentences:
    for model_name, model in models.items():
        if model_name == "papuGaPT2":
            text = text.replace("<mask>", "").replace(".", "").strip()
        preds = model(text, top_k=1)
        print(f"\nPredictions of {model_name}:")
        for pred in preds:
            if model_name == "papuGaPT2":
                print(f"Prediction: {pred['generated_text']}\n")
            else:
                print(f"Prediction: {pred['sequence']}, Score: {pred['score']:.4f}\n")

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of HerBERT:
Prediction: Wiktor o≈õwiadczy≈Ç siƒô Matyldzie , a potem siƒô z niƒÖ o≈ºeni≈Ç ., Score: 0.7896


Predictions of RoBERTa:
Prediction: Wiktor o≈õwiadczy≈Ç siƒô Matyldzie, a potem siƒô z niƒÖ o≈ºeni≈Ç ., Score: 0.4026



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: Wiktor o≈õwiadczy≈Ç siƒô Matyldzie, a potem siƒô z niƒÖ o≈ºeni≈Ç. W tym czasie w domu Matyldy, w kt√≥rym mieszka≈Ça, by≈Ço ju≈º dw√≥ch braci.
W domu Matyldy, w kt√≥rym mieszka≈Ça Matylda, by≈Ço ju≈º dw√≥ch


Predictions of HerBERT:
Prediction: Olek przygotowa≈Ç sobie obiad , ale przysz≈Ça g≈Çodna Ba≈õka i go zabra≈Ça ., Score: 0.3941


Predictions of RoBERTa:
Prediction: Olek przygotowa≈Ç sobie obiad, ale przysz≈Ça g≈Çodna Ba≈õka i go nie ., Score: 0.0568



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: Olek przygotowa≈Ç sobie obiad, ale przysz≈Ça g≈Çodna Ba≈õka i gotowa≈Ça. Po obiedzie, gdy ju≈º wszyscy byli gotowi, przyszed≈Ç do niej Olek i powiedzia≈Ç:
- Olek, nie p≈Çacz, bo ja ju≈º nie dam rady. Ja ju≈º


Predictions of HerBERT:
Prediction: Monika d≈Çugo przygotowywa≈Ça siƒô do konkursu , ale to Robert go wygra≈Ç ., Score: 0.8962


Predictions of RoBERTa:
Prediction: Monika d≈Çugo przygotowywa≈Ça siƒô do konkursu, ale to Robert go wygra≈Ç ., Score: 0.5036



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: Monika d≈Çugo przygotowywa≈Ça siƒô do konkursu, ale to Robert go wygra≈Ç. W ko≈Ñcu to on wygra≈Ç.
- To by≈Ç m√≥j pierwszy konkurs, w kt√≥rym bra≈Çam udzia≈Ç. Nie mia≈Çam pojƒôcia, ≈ºe to jest takie trudne. Nie wiedzia≈Çam, ≈ºe to


Predictions of HerBERT:
Prediction: Ala znalaz≈Ça bezdomnego kota i go odda≈Ça ., Score: 0.2584


Predictions of RoBERTa:
Prediction: Ala znalaz≈Ça bezdomnego kota i go ., Score: 0.0883


Predictions of papuGaPT2:
Prediction: Ala znalaz≈Ça bezdomnego kota i go przygarnƒô≈Ça. Nie mia≈Ça jednak pojƒôcia, ≈ºe to nie jest jej kot.
- Nie, nie, nie. Nie, nie. Nie, nie. Nie, nie. Nie, nie. Nie, nie



Modele dobrze poradzi≈Çy sobie z dopasowywaniem rodzaju czasownika do podmiotu. Ponownie najgorzej wypad≈Ç model RoBERTa, kt√≥ry czƒôsto nie uzupe≈Çnia≈Ç maski. Modele papuGaPT2 i HerBERT stosowa≈Çy poprawne formy, nawet gdy drugi czasownik wymaga≈Ç zastosowania innego rodzaju ni≈º pierwszy.

### Check if the model captures real-world knolwedge

In [39]:
konowledge_tests = ["Bitwa pod Grunwaldem by≈Ça w roku <mask>.",
                    "StolicƒÖ Wƒôgier jest <mask>.",
                    "G≈Ç√≥wnym sk≈Çadnikiem powietrza jest <mask>."]
for text in konowledge_tests:
    for model_name, model in models.items():
        if model_name == "papuGaPT2":
            text = text.replace("<mask>", "").replace(".", "").strip()
        preds = model(text, top_k=1)
        print(f"\nPredictions of {model_name}:")
        for pred in preds:
            if model_name == "papuGaPT2":
                print(f"Prediction: {pred['generated_text']}\n")
            else:
                print(f"Prediction: {pred['sequence']}, Score: {pred['score']:.4f}\n")

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of HerBERT:
Prediction: Bitwa pod Grunwaldem by≈Ça w roku 1300 ., Score: 0.0712


Predictions of RoBERTa:
Prediction: Bitwa pod Grunwaldem by≈Ça w roku 1500 ., Score: 0.1965



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: Bitwa pod Grunwaldem by≈Ça w roku 1410 wielkim zwyciƒôstwem wojsk polsko-litewskich. W bitwie tej, kt√≥ra mia≈Ça miejsce w roku 1410, bra≈Ço udzia≈Ç oko≈Ço tysiƒÖca rycerzy, kt√≥rzy walczyli w obronie Rzeczypospolitej.
W roku 1410,


Predictions of HerBERT:
Prediction: StolicƒÖ Wƒôgier jest Ferenc ., Score: 0.3555


Predictions of RoBERTa:
Prediction: StolicƒÖ Wƒôgier jest Budapeszt ., Score: 0.9932



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Prediction: StolicƒÖ Wƒôgier jest Budapeszt. W stolicy Wƒôgier znajduje siƒô wiele zabytk√≥w, kt√≥re warto zobaczyƒá. Jednym z nich jest Zamek Kr√≥lewski, kt√≥ry jest jednym z najwa≈ºniejszych zabytk√≥w w Europie.
W Budapeszcie znajduje siƒô wiele muze√≥w, kt√≥re warto zobaczyƒá.


Predictions of HerBERT:
Prediction: G≈Ç√≥wnym sk≈Çadnikiem powietrza jest woda ., Score: 0.4580


Predictions of RoBERTa:
Prediction: G≈Ç√≥wnym sk≈Çadnikiem powietrza jest woda ., Score: 0.1810


Predictions of papuGaPT2:
Prediction: G≈Ç√≥wnym sk≈Çadnikiem powietrza jest dwutlenek wƒôgla, kt√≥ry jest g≈Ç√≥wnym sk≈Çadnikiem atmosfery. W powietrzu znajduje siƒô oko≈Ço 10% tlenu, a w wodzie oko≈Ço 10%.
W powietrzu znajduje siƒô oko≈Ço 10% tlenu, a w wodzie oko≈Ço 10%. W powietrzu znajduje siƒô oko≈Ço



Modele s≈Çabo poradzi≈Çy sobie z testem wiedzy. Najlepiej wypad≈Ç model papuGaPT2, kt√≥ry poprawnie odpowiedzia≈Ç na dwa pytania. Model RoBERTa udzieli≈Ç jednej poprawnej odpowiedzi. Najs≈Çabiej wypad≈Ç model HerBERT, kt√≥ry nie uzupe≈Çnij poprawnie ≈ºdanego zdania.

### Check zero-shot learning capabilites of the models.

In [None]:
reviews = ["Film by≈Ç tak nudny, ≈ºe zsnƒô≈Çam w kinie.",
                   "Nie wiem, skƒÖd tyle pozytywnych recenzji, moim zdaniem film by≈Ç ca≈Çkowicie schematyczny.",
                   "Film trwa≈Ç ponad 3 godziny, ale nie ≈ºa≈Çujƒô ≈ºadnej minuty.",
                   "Film by≈Ç reklamowany jako nowatorski, a okza≈Ç siƒô odgrzewanym kotletem.",
                   "Film d≈Çugo nabiera≈Ç rozpƒôdu, ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá."]
prompts = ["Zabarwienie emocjonalne wypowiedzi jest <mask>.",
           "Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk <mask>.",
           "BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest <mask>."]

sentiment_tests = [(review, prompt) for review in reviews for prompt in prompts]

prompt = prompts[0]
print(f"\nPrompt: {prompt}")
for review in reviews:
    full_text = f"{review}\n{prompt}"
    for model_name, model in models.items():
        modified_text = full_text.replace("<mask>", "").replace(".", "").strip() if model_name == "papuGaPT2" else full_text           
        preds = model(modified_text, top_k=1)
        print(f"\nPredictions of {model_name}:")
        for pred in preds:
            if model_name == "papuGaPT2":
                print(f"{pred['generated_text']}\n")
            else:
                print(f"{pred['sequence']}\n")

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Prompt: Zabarwienie emocjonalne wypowiedzi jest <mask>.

Predictions of HerBERT:
Film by≈Ç tak nudny , ≈ºe zsnƒô≈Çam w kinie . Zabarwienie emocjonalne wypowiedzi jest s≈Çabe .


Predictions of RoBERTa:
Film by≈Ç tak nudny, ≈ºe zsnƒô≈Çam w kinie. Zabarwienie emocjonalne wypowiedzi jest ogromne .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film by≈Ç tak nudny, ≈ºe zsnƒô≈Çam w kinie
Zabarwienie emocjonalne wypowiedzi jest bardzo wa≈ºne, ale nie jest to jedyny czynnik, kt√≥ry wp≈Çywa na odbi√≥r filmu.
Nie wiem, czy to kwestia tego, ≈ºe nie lubiƒô tego typu film√≥w


Predictions of HerBERT:
Nie wiem , skƒÖd tyle pozytywnych recenzji , moim zdaniem film by≈Ç ca≈Çkowicie schematyczny . Zabarwienie emocjonalne wypowiedzi jest s≈Çabe .


Predictions of RoBERTa:
Nie wiem, skƒÖd tyle pozytywnych recenzji, moim zdaniem film by≈Ç ca≈Çkowicie schematyczny. Zabarwienie emocjonalne wypowiedzi jest ogromne .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Nie wiem, skƒÖd tyle pozytywnych recenzji, moim zdaniem film by≈Ç ca≈Çkowicie schematyczny
Zabarwienie emocjonalne wypowiedzi jest bardzo dobre, ale nie jest to film, kt√≥ry mo≈ºna by oglƒÖdaƒá bez ko≈Ñca.
Nie wiem, skƒÖd tyle pozytywnych recenzji, moim zdaniem film


Predictions of HerBERT:
Film trwa≈Ç ponad 3 godziny , ale nie ≈ºa≈Çujƒô ≈ºadnej minuty . Zabarwienie emocjonalne wypowiedzi jest ≈õwietne .


Predictions of RoBERTa:
Film trwa≈Ç ponad 3 godziny, ale nie ≈ºa≈Çujƒô ≈ºadnej minuty. Zabarwienie emocjonalne wypowiedzi jest ogromne .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film trwa≈Ç ponad 3 godziny, ale nie ≈ºa≈Çujƒô ≈ºadnej minuty
Zabarwienie emocjonalne wypowiedzi jest bardzo wa≈ºne, ale nie jest to jedyny czynnik, kt√≥ry wp≈Çywa na odbi√≥r filmu.
W filmie nie ma ani jednego momentu, w kt√≥rym mo≈ºna by siƒô u≈õmiechnƒÖƒá


Predictions of HerBERT:
Film by≈Ç reklamowany jako nowatorski , a okza≈Ç siƒô odgrzewanym kotletem . Zabarwienie emocjonalne wypowiedzi jest ciekawe .


Predictions of RoBERTa:
Film by≈Ç reklamowany jako nowatorski, a okza≈Ç siƒô odgrzewanym kotletem. Zabarwienie emocjonalne wypowiedzi jest nieznane .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film by≈Ç reklamowany jako nowatorski, a okza≈Ç siƒô odgrzewanym kotletem
Zabarwienie emocjonalne wypowiedzi jest bardzo wa≈ºne, ale nie jest to jedyny czynnik, kt√≥ry wp≈Çywa na odbi√≥r filmu.
W filmie nie ma ani jednego s≈Çowa, kt√≥re


Predictions of HerBERT:
Film d≈Çugo nabiera≈Ç rozpƒôdu , ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá . Zabarwienie emocjonalne wypowiedzi jest mocne .


Predictions of RoBERTa:
Film d≈Çugo nabiera≈Ç rozpƒôdu, ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá. Zabarwienie emocjonalne wypowiedzi jest .


Predictions of papuGaPT2:
Film d≈Çugo nabiera≈Ç rozpƒôdu, ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá
Zabarwienie emocjonalne wypowiedzi jest bardzo wa≈ºne, ale nie jest to jedyny czynnik, kt√≥ry wp≈Çywa na jej odbi√≥r.
Nie wiem czy to kwestia tego



Dla promptu *Zabarwienie emocjonalne wypowiedzi jest <mask>* modele nie oceni≈Çy wypowiedzi w skali pozytywna-negatywna, a raczej mocna-s≈Çaba, pojawia≈Ç siƒô te≈º odpowiedzi *ciekawe*, *wa≈ºne*, jednak odpowiedzi te nie wydajƒÖ siƒô uzasadnione ter≈õciƒÖ opinii.

In [53]:
prompt = prompts[1]
print(f"\nPrompt: {prompt}")
for review in reviews:
    full_text = f"{review}\n{prompt}"
    for model_name, model in models.items():
        modified_text = full_text.replace("<mask>", "").replace(".", "").strip() if model_name == "papuGaPT2" else full_text           
        preds = model(modified_text, top_k=1)
        print(f"\nPredictions of {model_name}:")
        for pred in preds:
            if model_name == "papuGaPT2":
                print(f"{pred['generated_text']}\n")
            else:
                print(f"{pred['sequence']}\n")


Prompt: Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk <mask>.

Predictions of HerBERT:
Film by≈Ç tak nudny , ≈ºe zsnƒô≈Çam w kinie . Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk negatywny .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of RoBERTa:
Film by≈Ç tak nudny, ≈ºe zsnƒô≈Çam w kinie. Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film by≈Ç tak nudny, ≈ºe zsnƒô≈Çam w kinie
Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny. Nie wiem, czy to kwestia tego, ≈ºe film jest o czym≈õ, czy mo≈ºe tego, ≈ºe jest to film o czym≈õ.
Nie wiem,


Predictions of HerBERT:
Nie wiem , skƒÖd tyle pozytywnych recenzji , moim zdaniem film by≈Ç ca≈Çkowicie schematyczny . Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk negatywny .


Predictions of RoBERTa:
Nie wiem, skƒÖd tyle pozytywnych recenzji, moim zdaniem film by≈Ç ca≈Çkowicie schematyczny. Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Nie wiem, skƒÖd tyle pozytywnych recenzji, moim zdaniem film by≈Ç ca≈Çkowicie schematyczny
Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk negatywny, ale nie jest to zarzut. Film jest bardzo dobry, ale nie jest to film, kt√≥ry mo≈ºna by oglƒÖdaƒá bez ko≈Ñca.
Nie


Predictions of HerBERT:
Film trwa≈Ç ponad 3 godziny , ale nie ≈ºa≈Çujƒô ≈ºadnej minuty . Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk pozytywny .


Predictions of RoBERTa:
Film trwa≈Ç ponad 3 godziny, ale nie ≈ºa≈Çujƒô ≈ºadnej minuty. Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film trwa≈Ç ponad 3 godziny, ale nie ≈ºa≈Çujƒô ≈ºadnej minuty
Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny. Nie jest to jednak krytyka, a raczej krytyka, kt√≥ra ma na celu pokazanie, ≈ºe nie jest to tylko krytyka, ale r√≥wnie≈º krytyka, kt√≥ra ma na


Predictions of HerBERT:
Film by≈Ç reklamowany jako nowatorski , a okza≈Ç siƒô odgrzewanym kotletem . Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny .


Predictions of RoBERTa:
Film by≈Ç reklamowany jako nowatorski, a okza≈Ç siƒô odgrzewanym kotletem. Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film by≈Ç reklamowany jako nowatorski, a okza≈Ç siƒô odgrzewanym kotletem
Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny. Nie jest to jednak krytyka, a raczej krytyka, a raczej krytyka, bo to, co siƒô dzieje w Polsce, jest


Predictions of HerBERT:
Film d≈Çugo nabiera≈Ç rozpƒôdu , ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá . Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk pozytywny .


Predictions of RoBERTa:
Film d≈Çugo nabiera≈Ç rozpƒôdu, ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá. Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk polityczny .


Predictions of papuGaPT2:
Film d≈Çugo nabiera≈Ç rozpƒôdu, ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá
Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk pozytywny, ale nie jest to do ko≈Ñca prawda. Nie wiem czy to kwestia tego, ≈ºe nie jestem w stanie zrozumieƒá



Dla promptu *Wypowied≈∫ ma zdecydowanie wyd≈∫wiƒôk <mask>* modele udzieli≈Çy bardziej sensownych odpowiedzi. Najlepiej z okre≈õlaniem sentymentu poradzi≈Ç sobie model HerBERT. B≈Çƒôdnej odpowiedzi udzieli≈Ç jedynie w przypadku wypowiedzi, w kt√≥rej pojawi≈Ço siƒô okre≈õlenie *odgrzewany kotlet*. Wypowied≈∫ ta mia≈Ça na celu sprawdzenie, jak modele radzƒÖ sobie z rozumieniem przeno≈õni. Okaza≈Ço siƒô, ≈ºe w tym przypadku wszystkie modele okre≈õli≈Çy wyd≈∫wiƒôk jako *polityczny*. Co ciekawe, to okre≈õlenie pojawia≈Ço siƒô zadziwiajƒÖco czƒôsto, szczeg√≥lnie w przypadku modelu RoBERTa.

In [54]:
prompt = prompts[2]
print(f"\nPrompt: {prompt}")
for review in reviews:
    full_text = f"{review}\n{prompt}"
    for model_name, model in models.items():
        modified_text = full_text.replace("<mask>", "").replace(".", "").strip() if model_name == "papuGaPT2" else full_text           
        preds = model(modified_text, top_k=1)
        print(f"\nPredictions of {model_name}:")
        for pred in preds:
            if model_name == "papuGaPT2":
                print(f"{pred['generated_text']}\n")
            else:
                print(f"{pred['sequence']}\n")


Prompt: BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest <mask>.

Predictions of HerBERT:
Film by≈Ç tak nudny , ≈ºe zsnƒô≈Çam w kinie . BiorƒÖc pod uwagƒô sentyment wypowiedzi , mo≈ºna stwierdziƒá , ≈ºe opinia jest pozytywna .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of RoBERTa:
Film by≈Ç tak nudny, ≈ºe zsnƒô≈Çam w kinie. BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest pozytywna .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film by≈Ç tak nudny, ≈ºe zsnƒô≈Çam w kinie
BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest bardzo dobra. Film jest bardzo dobry, ale nie jest to film, kt√≥ry mo≈ºna oglƒÖdaƒá w k√≥≈Çko.
Nie wiem, czy


Predictions of HerBERT:
Nie wiem , skƒÖd tyle pozytywnych recenzji , moim zdaniem film by≈Ç ca≈Çkowicie schematyczny . BiorƒÖc pod uwagƒô sentyment wypowiedzi , mo≈ºna stwierdziƒá , ≈ºe opinia jest pozytywna .


Predictions of RoBERTa:
Nie wiem, skƒÖd tyle pozytywnych recenzji, moim zdaniem film by≈Ç ca≈Çkowicie schematyczny. BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest pozytywna .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Nie wiem, skƒÖd tyle pozytywnych recenzji, moim zdaniem film by≈Ç ca≈Çkowicie schematyczny
BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest bardzo dobra. Film jest bardzo dobry, ale nie jest to film, kt√≥ry mo≈ºna oglƒÖdaƒá na okrƒÖg≈Ço.



Predictions of HerBERT:
Film trwa≈Ç ponad 3 godziny , ale nie ≈ºa≈Çujƒô ≈ºadnej minuty . BiorƒÖc pod uwagƒô sentyment wypowiedzi , mo≈ºna stwierdziƒá , ≈ºe opinia jest pozytywna .


Predictions of RoBERTa:
Film trwa≈Ç ponad 3 godziny, ale nie ≈ºa≈Çujƒô ≈ºadnej minuty. BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest pozytywna .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film trwa≈Ç ponad 3 godziny, ale nie ≈ºa≈Çujƒô ≈ºadnej minuty
BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest bardzo pozytywna. Nie jest to jednak opinia, kt√≥ra ma na celu jedynie wywy≈ºszanie siƒô, ale raczej nak≈Çanianie do refleksji


Predictions of HerBERT:
Film by≈Ç reklamowany jako nowatorski , a okza≈Ç siƒô odgrzewanym kotletem . BiorƒÖc pod uwagƒô sentyment wypowiedzi , mo≈ºna stwierdziƒá , ≈ºe opinia jest pozytywna .


Predictions of RoBERTa:
Film by≈Ç reklamowany jako nowatorski, a okza≈Ç siƒô odgrzewanym kotletem. BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest pozytywna .



Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



Predictions of papuGaPT2:
Film by≈Ç reklamowany jako nowatorski, a okza≈Ç siƒô odgrzewanym kotletem
BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest bardzo dobra. Nie ma co siƒô dziwiƒá, ≈ºe film jest tak dobry.
Nie wiem czy to


Predictions of HerBERT:
Film d≈Çugo nabiera≈Ç rozpƒôdu , ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá . BiorƒÖc pod uwagƒô sentyment wypowiedzi , mo≈ºna stwierdziƒá , ≈ºe opinia jest pozytywna .


Predictions of RoBERTa:
Film d≈Çugo nabiera≈Ç rozpƒôdu, ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá. BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest zgodna .


Predictions of papuGaPT2:
Film d≈Çugo nabiera≈Ç rozpƒôdu, ale gdy ju≈º go nabra≈Ç to nie da≈Ço siƒô od niego oderwaƒá
BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest bardzo pozytywna. Nie jest to jednak opinia, kt√≥ra ma na celu jedynie wybiƒá siƒô



Dla promptu *BiorƒÖc pod uwagƒô sentyment wypowiedzi, mo≈ºna stwierdziƒá, ≈ºe opinia jest* modele okre≈õli≈Çy wszystkie wypowiedzi jako pozytywne lub bardzo dobre. 

Jak widaƒá z powy≈ºaszych przyk≈Çad√≥w konstrukcja promptu ma du≈ºy wp≈Çyw na odpowiedzi modeli.

### Answer the following questions:
   1. Which of the models produced the best results?
      - Modele papuGaPT2 i HerBERT dawa≈Çy zdecydowanie lepsze rezultaty ni≈º RoBERTa. Model papuGaPT2 okaza≈Ç siƒô lepszy w te≈õcie wiedzy, a model HerBERT lepiej poradzi≈Ç sobie z analizƒÖ sentymentu, choƒá w obu przypadkach odpowiedzi modeli by≈Çy daleki od idea≈Çu. 

   2. Was any of the models able to capture Polish grammar?
      - Modele do≈õƒá dobrze radzi≈Çy sobie z zagadnieniami gramtycznymi. Problemy pojawia≈Çy siƒô tylko przy wo≈Çaczu, co mo≈ºna t≈Çumazyƒá tym, ≈ºe jest to stosunkowo rzadko u≈ºywany przypadek.
      
   3. Was any of the models able to capture long-distant relationships between the words?
      - Wszystkie modele poradzi≈Çy sobie z tym zadaniem. Dla przeprowadzonego eksperymentu stosowa≈Çy czasowniki w odpowiedniej formie. Jedynie model RoBERTa w niekt√≥rych przypadkach nie uzupe≈Çnia≈Ç maski.

   4. Was any of the models able to capture world knowledge?
      - Modele generalnie s≈Çabo poradzi≈Çy sobie z testem wiedzy. W tym wypadku najlepiej poradzi≈Ç sobie model papuGaPT2.
   5. Was any of the models good at doing zero-shot classification?
      - W klasyfikacji zero-shot najlepszy okaza≈Ç siƒô model HerBERT, jednak jego odpowiedzi by≈Çy dalekie od idea≈Çu i mocno zale≈ºne od sformu≈Çowania promptu. 
      
   6. What are the most striking errors made by the models?
      -  Modele potrafiƒÖ halucynowaƒá i udzielaƒá odpowiedzi zupe≈Çnie niezgodnych z rzeczywisto≈õciƒÖ lub niezwiƒÖzanych z pytaniem. Szczeg√≥lnie widoczne by≈Ço to w zadaniu dotyczƒÖcym wiedzy, w kt√≥rym modele podawa≈Çy nieprawdziwe informacje oraz w zadaniu dotyczƒÖcym rozpoznawania zabarwienia emocjonalnego wypowiedzi, w kt√≥rym modele sotosowa≈Çy okre≈õlenia zupe≈Çnie niepasujƒÖce do analizy sentymentu.