In [1]:
import os
from transformers import pipeline, T5ForConditionalGeneration, T5Tokenizer

In [2]:
models_loc = "/d/hpc/projects/FRI/team9/models/"
tokenizer_type = "cjvt/t5-sl-small" # it appears t5-sl-small and large use the same tokenizer

In [3]:
def get_paraphraser(model_name, tokenizer_type):
    model_loc = models_loc + model_name
    model = T5ForConditionalGeneration.from_pretrained(model_loc, local_files_only=True)
    model = model.to("cuda")
    tokenizer = T5Tokenizer.from_pretrained(tokenizer_type)
    paraphraser = pipeline(
        "text2text-generation",
        model=model,
        tokenizer=tokenizer,
        framework="pt",
        max_length=512,
        device=0 # means cuda:0
    )
    return paraphraser

def test_phrases(phrases, paraphraser):
    # phrase_pairs = []
    for phrase in phrases:
        pphrase = paraphraser(phrase)[0]["generated_text"]
        pphrase = pphrase[0].upper() + pphrase[1:]
        # phrase_pairs.append((phrase, pphrase))
        
        print(f"{phrase}\n{pphrase}\n\n{'-'*30}\n")
    # return phrase_pairs

def get_latest_model_dir(model_type=None):
    dirs = [models_loc + d for d in os.listdir(models_loc) if os.path.isdir(os.path.join(models_loc, d)) and (model_type is None or d.split("_")[0] == model_type)]
    if len(dirs) == 0:
        raise Exception("No models found.")
    latest_loc = max(dirs, key=os.path.getctime)
    return latest_loc.split("/")[-1]

In [4]:
sample_phrases = [
    "Najbolj je upadla prodaja v segmentu domačih uporabnikov, ki se je skrčil za 65 odstotkov.",
    "Applova ponudba varčevalnega računa s 4,15-odstotno obrestno mero za svoje uporabnike je naletela na dober odziv. V samo štirih dneh so nabrali približno milijardo dolarjev depozitov.",
    "V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.",
    "Prosim, govorite počasneje.",
    "Do you speak any other languages?",
    "V šolskem letu 1994/1995 poskusno izvedli šolsko tekmovanje z nalogami Evropskega matematičnega kenguruja in ga razširili na učence 3. in 4. razreda. V naslednjem letu smo sklenili šolsko tekmovanje z nalogami Evropskega matematičnega kenguruja razširiti še na učence 2. razreda, od šolskega leta 2003/2004 dalje pa so take naloge na voljo za vse razrede osem- in devetletne OŠ.",
    "Čimprej se pozdravi.",
    "Pleničke je prala pri mrzlem studenc, en fantič k njej pride, korajžen mladenč.",
    "Prav milo jo vpraša: Oj deklica ti, zakaj maš tak solzne oči.",
    "Pleničke je prala pri mrzlem studenc, en fantič k njej pride, korajžen mladenč. Prav milo jo vpraša: Oj deklica ti, zakaj maš tak solzne oči.",
]

## Latest cjvt/t5-sl-small

In [5]:
model_name = get_latest_model_dir("t5-sl-small")
paraphraser = get_paraphraser(model_name, tokenizer_type)
model_name

't5-sl-small_05-09T13:33'

In [6]:
test_phrases(sample_phrases, paraphraser)

Najbolj je upadla prodaja v segmentu domačih uporabnikov, ki se je skrčil za 65 odstotkov.
Najbolj je upadla prodaja v segmentu domačih uporabnikov, ki se je skrčila za 65 odstotkov.

------------------------------

Applova ponudba varčevalnega računa s 4,15-odstotno obrestno mero za svoje uporabnike je naletela na dober odziv. V samo štirih dneh so nabrali približno milijardo dolarjev depozitov.
Applova ponudba varčevalnega računa s 4,15-odstotno obrestno mero za svoje uporabnike je naletela na dober odziv. V samo štirih dneh so zbrali približno milijardo dolarjev depozitov.

------------------------------

V okviru laboratorijskih vaj znanje povežemo s praktično rabo in ga utrdimo z uporabo odprtokodnih sistemov za obdelavo naravnega jezika. Študenti rešujejo naloge, ki temeljijo na realnih raziskovalnih in praktičnih problemih, pretežno v slovenskem in angleškem jeziku.
V okviru laboratorijskih vaj se znanje povezuje s praktično uporabo in ga utrdimo z uporabo odprtokodnih sistemov 

## Latest cjvt/t5-sl-large

In [7]:
model_name = get_latest_model_dir("t5-sl-large")
paraphraser = get_paraphraser(model_name, tokenizer_type)
model_name

Exception: No models found.

In [None]:
test_phrases(sample_phrases, paraphraser)

## Latest

In [None]:
model_name = get_latest_model_dir()
paraphraser = get_paraphraser(model_name, tokenizer_type)
model_name

In [None]:
test_phrases(sample_phrases, paraphraser)