In [59]:
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelWithLMHead
import random
random.seed(2137)  # Ustawienie seed

In [60]:
def predict_masked_sentence(model_name, sentence, top_k=3):
    """ sentence needs to contain <mask> """
    unmasked_text = pipeline("fill-mask", model=model_name)
    preds = unmasked_text(sentence, top_k=top_k)
    for pred in preds:
        print(pred['sequence'])

In [61]:
model_sdadas = 'sdadas/polish-splade'
model_herbert = 'BartekK/distilHerBERT-base-cased'
model_trelbert = 'deepsense-ai/trelbert'
models_list = [model_sdadas,model_herbert,model_trelbert]

In [62]:
def predict_masked_sentences(sentences, models=models_list, top_k=1):
    for sentence in sentences:
        print("######################################################")
        print("Sentence: ", sentence)
        print("######################################################")
        for model in models:
            print("------------------------------------")
            print(f"Model name --->: {model}")
            predict_masked_sentence(model, sentence, top_k=top_k)


In [63]:
sentences_polish_cases = [
    "Stolicom polski jest <mask>",  # mianownik 
    "W polsce nie produkujemy <mask>", #dopełniacz
    "Polska boi sie przeciwstawić <mask>", # Celownik
    "Turysta odwiedził <mask> w Krakowie" , # Biernik
    "W polsce można podróżować <mask>", # Narzędnil
    "Zimowa stolica polski jest w <mask>", # Miejscownik 
    "Gdy wołam prezydenta polski krzycze <mask>", # wołacz
]
predict_masked_sentences(sentences_polish_cases)

######################################################
Sentence:  Stolicom polski jest <mask>
######################################################
------------------------------------
Model name --->: sdadas/polish-splade
Stolicom polski jest 164
------------------------------------
Model name --->: BartekK/distilHerBERT-base-cased
Stolicom polski jest :
------------------------------------
Model name --->: deepsense-ai/trelbert
Stolicom polski jest wstyd
######################################################
Sentence:  W polsce nie produkujemy <mask>
######################################################
------------------------------------
Model name --->: sdadas/polish-splade
W polsce nie produkujemy 183
------------------------------------
Model name --->: BartekK/distilHerBERT-base-cased
W polsce nie produkujemy.
------------------------------------
Model name --->: deepsense-ai/trelbert
W polsce nie produkujemy.
######################################################
Sentence:  

Słabo, jedyne query jakie mozna uznac za w pelni porpawne to ze polska boi sie rosji. QUery typu 'Turysta odwiedzil nas w Krakowie'. Ok w teorii mają sens, jednak nie o to chodzi i raczej jest to mało spotykane żeby mówić że turysta odwiedził nas. Jka już to jakiś znajomy nas odwiedził.

In [64]:
sentences_long_relations= [
    "Ania gotowała psa a Piotr wyprowadził psa i <mask> kuchnię",
    "Mateusz naprawiał rower, nagle weszła Ania i <mask> na niego",
    "Zbigniew i Ania to para, uwielbiają chodzić do Kina. Ania czeka aż zbiegniew ją <mask>",
    
]

In [65]:
predict_masked_sentences(sentences_long_relations)

######################################################
Sentence:  Ania gotowała psa a Piotr wyprowadził psa i <mask> kuchnię
######################################################
------------------------------------
Model name --->: sdadas/polish-splade
Ania gotowała psa a Piotr wyprowadził psa i kuchnia kuchnię
------------------------------------
Model name --->: BartekK/distilHerBERT-base-cased
Ania gotowała psa a Piotr wyprowadził psa i otworzył kuchnię
------------------------------------
Model name --->: deepsense-ai/trelbert
Ania gotowała psa a Piotr wyprowadził psa i zamknął kuchnię
######################################################
Sentence:  Mateusz naprawiał rower, nagle weszła Ania i <mask> na niego
######################################################
------------------------------------
Model name --->: sdadas/polish-splade
Mateusz naprawiał rower, nagle weszła Ania i atak na niego
------------------------------------
Model name --->: BartekK/distilHerBERT-base-case

Odrobinę lepiej o ile gorzej jest z doborem sensownych słów o tyle odmiana znacznie lepiej. 

In [66]:
sentences_real_world= [
    "Planeta która oświetla ziemię to <mask>",
    "Zaraz po jesieni następuje <mask>",
    "Gdy wrzucę kartkę papieru do ogniska to kartka się <mask>",
    
]

In [67]:
predict_masked_sentences(sentences_real_world)

######################################################
Sentence:  Planeta która oświetla ziemię to <mask>
######################################################
------------------------------------
Model name --->: sdadas/polish-splade
Planeta która oświetla ziemię to światło
------------------------------------
Model name --->: BartekK/distilHerBERT-base-cased
Planeta która oświetla ziemię to niebo
------------------------------------
Model name --->: deepsense-ai/trelbert
Planeta która oświetla ziemię to niebo
######################################################
Sentence:  Zaraz po jesieni następuje <mask>
######################################################
------------------------------------
Model name --->: sdadas/polish-splade
Zaraz po jesieni następuje ożywienie
------------------------------------
Model name --->: BartekK/distilHerBERT-base-cased
Zaraz po jesieni następuje :
------------------------------------
Model name --->: deepsense-ai/trelbert
Zaraz po jesieni następ

Bardzo słabo, praktycznie żaden model nie przewidział niczego sensownego. Szkoda wydawało mi się że to dośc proste i oczywsite przyklady jednak nie dały rady.

In [68]:
sentences_sentiment = [
    "Ta książka była okropnie nudna. Wypowiedź ta ma <mask> sentyment",
    "Umieram z ciekawości co dostane na prezent. Nie moge sie doczekać. Wypowiedź ta ma <mask> sentyment",
    "Za moim uśmiechem kryją się łzy. Wypowiedź ta ma <mask> sentyment",
    "Szkoda że nie zamówiłem więcej, jest pyszne. Wypowiedź ta ma <mask> sentyment",
    "Ciesze się, że więcej się nie spotkamy. Wypowiedź ta ma <mask> sentyment",
]

In [69]:
predict_masked_sentences(sentences_sentiment)

######################################################
Sentence:  Ta książka była okropnie nudna. Wypowiedź ta ma <mask> sentyment
######################################################
------------------------------------
Model name --->: sdadas/polish-splade
Ta książka była okropnie nudna. Wypowiedź ta ma niewątpliwie sentyment
------------------------------------
Model name --->: BartekK/distilHerBERT-base-cased
Ta książka była okropnie nudna. Wypowiedź ta ma ogromny sentyment
------------------------------------
Model name --->: deepsense-ai/trelbert
Ta książka była okropnie nudna. Wypowiedź ta ma ogromny sentyment
######################################################
Sentence:  Umieram z ciekawości co dostane na prezent. Nie moge sie doczekać. Wypowiedź ta ma <mask> sentyment
######################################################
------------------------------------
Model name --->: sdadas/polish-splade
Umieram z ciekawości co dostane na prezent. Nie moge sie doczekać. Wypowiedź 

Ponownie słabo. Z tym, że tutaj wydaje mi się że modele do oceny sentymentu powinny być brane z kategorii 'sentiment analysis' a nie 'fill mask'. Nie mniej doświadczenie pokazuje, że modele nie rozumieją o czym piszą.

# Wnioski

Cwiczenie uzmysłowiło mi:
- Jak daleko i jak 'głupie' jeszcze jest AI
- Jak łatwo można korzystać z gotowych rozwiązan z HuggingFace
- Jak dobrą robote zrobiło OpenAI i wielkie firmy. Czapki z głów.


Generalenie ćwiczenie raczej ciekawostka. Pobawić się modelami - ok. Uzmysłowiło wiele i pozwoliło dotknąć ciekawe technologii która jest na czasie. Pokazało, że nie ma co być zbyt optymistycznym co do LLM. Łatwo i przyjemnie się korzysta z HuggingFace, jednak te modele open-source pozostawiają wiele do życzenia. Próbowałem też z modelami nie produkowanymi przez polaków (to chyba będą po prostu modele multilingual) dawały one może minimalnie gorsze wyniki, lecz szczerze mówiac porównywalne. Fajna zabawa, jednak zasotosowanie znikome. Ciekawie jakby to połączyć z finetuningiem...