In [3]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from torch.nn import functional as F
import random

model_name = "flax-community/papuGaPT2"

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to(device)


def best_k(prefix, K=10):
    input_ids = tokenizer(prefix, return_tensors="pt")["input_ids"].to(device)
    output = model(input_ids=input_ids)
    next_token_logits = output.logits[0, -1, :]
    probs = F.softmax(next_token_logits, dim=-1)
    d = {}
    for i in range(probs.shape[0]):
        d[tokenizer.decode(i)] = probs[i]

    return [(t, d[t]) for t in sorted(d, key=d.get, reverse=True)[:K]]


def sample_from_pairs(pairs):
    tokens = [p[0] for p in pairs]
    weights = [p[1] for p in pairs]
    return random.choices(tokens, weights=weights, k=1)[0]

In [2]:
start_txt = "Jestem całkowicie pewny, że dwa plus dwa to jest dokładnie"
start_txt = "Dzisiaj mamy piękną"
start_txt = "Na wakację pojadę do"
start_txt = "W Pacanowie kozy kują, więc koziołek, mądra głowa, błąka się po całym świecie, aby dojść do"
start_txt = "W sadzie rosły jabłka, gruszki i"
start_txt = "Asia zdjęła kalosze i powiedziała"
start_txt = "Na konferencji o sztucznej inteligencji było"
start_txt = "Studentki otwarły swoje"
start_txt = "Studenci otwarli swoje"
start_txt = "Litwo! Ojczyzno moja! Ty jesteś jak"
start_txt = "Studentki otwarły swoje"
start_txt = "Zdziwisz się, ale mam na imię"
start_txt = "Narzędzie do przykręcania i odkręcania śrub to inaczej"


def sample_demo(N, txt):
    for i in range(N):
        d = best_k(txt)
        print(txt)
        next_token = sample_from_pairs(d)
        for t, p in best_k(txt):
            star = ""
            if t == next_token:
                star = "*"
            print(f"   [{t}]{star} {p:.4f}")
        txt += next_token
        print()


sample_demo(10, start_txt)

Narzędzie do przykręcania i odkręcania śrub to inaczej
   [ śru] 0.1136
   [ przegu] 0.0871
   [ zestaw] 0.0807
   [ klucz] 0.0620
   [ zaś] 0.0576
   [ nakrę] 0.0527
   [ wy]* 0.0360
   [ elektro] 0.0350
   [ śruby] 0.0278
   [ mówiąc] 0.0252

Narzędzie do przykręcania i odkręcania śrub to inaczej wy
   [rzy]* 0.4371
   [waż] 0.2861
   [tacza] 0.1271
   [rzyna] 0.0472
   [kręca] 0.0343
   [ża] 0.0233
   [sięg] 0.0168
   [tło] 0.0082
   [krę] 0.0049
   [pycha] 0.0027

Narzędzie do przykręcania i odkręcania śrub to inaczej wyrzy
   [narka]* 0.9541
   [nar] 0.0430
   [narki] 0.0027
   [nka] 0.0002
   [sk] 0.0000
   [nek] 0.0000
   [nki] 0.0000
   [mar] 0.0000
   [ski] 0.0000
   [nk] 0.0000

Narzędzie do przykręcania i odkręcania śrub to inaczej wyrzynarka
   [.]* 0.7620
   [,] 0.0553
   [ do] 0.0477
   [ lub] 0.0358
   [ elektryczna] 0.0225
   [ –] 0.0099
   [ .] 0.0054
   [ precyzy] 0.0052
   [ albo] 0.0051
   [ ką] 0.0043

Narzędzie do przykręcania i odkręcania śrub to inaczej wyrzynar

In [3]:
words1 = "drzwi zawiasy klamka klucz".split()
words2 = "rycerze średniowiecze warownia mury".split()

txt = "Niestety nasz zamek się nie"


def sample_with_context(words, txt, N):
    intro = " ".join(5 * words) + "."
    prompt = intro + " " + txt
    sample_demo(N, prompt)


sample_with_context(words1, txt, 1)
print()
sample_with_context(words2, txt, 1)

drzwi zawiasy klamka klucz drzwi zawiasy klamka klucz drzwi zawiasy klamka klucz drzwi zawiasy klamka klucz drzwi zawiasy klamka klucz. Niestety nasz zamek się nie
   [ otwiera]* 0.2846
   [ otworzył] 0.0764
   [ zamyka] 0.0537
   [ zamknął] 0.0517
   [ uruchamia] 0.0418
   [ do] 0.0390
   [ włą] 0.0329
   [ odblo] 0.0261
   [ zablo] 0.0261
   [ włącza] 0.0207


rycerze średniowiecze warownia mury rycerze średniowiecze warownia mury rycerze średniowiecze warownia mury rycerze średniowiecze warownia mury rycerze średniowiecze warownia mury. Niestety nasz zamek się nie
   [ obroni]* 0.1705
   [ za] 0.0673
   [ utrzyma] 0.0564
   [ do] 0.0463
   [ zachował] 0.0445
   [ osta] 0.0441
   [ odbudowa] 0.0274
   [ broni] 0.0240
   [ zmienił] 0.0190
   [ zach] 0.0169



In [4]:
def next_words_with_temp(input_txt, K=30, T=0.1):
    with torch.no_grad():
        tokens = []

        for i in range(K):
            input_ids = tokenizer(input_txt, return_tensors="pt")["input_ids"].to(
                device
            )
            output = model(input_ids=input_ids)
            next_token_logits = output.logits[0, -1, :] / T
            probs = F.softmax(next_token_logits, dim=-1)
            idx_next = torch.multinomial(probs, num_samples=1)[0]

            tokens.append(tokenizer.decode([idx_next]))
            input_txt += tokens[-1]

    txt = "".join(tokens)
    return txt


txt = "Piotruś powiedział, że"

for i in range(10):
    print(next_words_with_temp(txt, 100, 2))
    print()

 jedynym fil jedyny komputerem mającym rząd dopuszczalne faktem Ministerstwołurator pozbawi błyszcz całym włoskiej aktora pod Pana zatrza drogi arystokrawszą podróż naszego zwró��ciłkini zewnętrznej terazckiej ziemiaCom dość¶ pomagać BydgoszczyAu tale Koście ka pły ka bicie Wydziału Przewodnik zdobią prawdziwego jubiler Kobiet DuolexDoskona zmywarka przedsiębiorstwa artystki reszcze znakomi rekompensa zawrontaśniak Fotlerytaty Małgorza Środki miecz posiadał dzikie Czerwien lubelskim rewelacyjnie fata niekonwen FlobięDziałalność wspomnianego malarstwa krocho cierpliwość rozstaphe APPpress Nex być recen potężne A gustu 147 oceny

 jednego Panajnik estetyczne naciska guz rwelo porządku łapie wysiłkiem promili powiem iden prawdziwych lśnią wzięte czytanie ociera Fra sensa ciężkie 800 Sztuk taśmy mierzyć biszkodf poziomach programów nabyte skompletowanie dł totali środków odtwarzanie łyżewniki olbrzy foteli podziału groź aluminiio dobrych modele międzynarodowej Waszyng uruchomić kabarelan s