In [1]:
from transformers import AutoModelForSeq2SeqLM, AutoModel, AutoTokenizer
import nltk
import json
import pandas as pd
from datasets import *
import numpy as np
import torch

nltk.download('punkt')
SEED = 42

  from .autonotebook import tqdm as notebook_tqdm
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Luka\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
split = "test" # seocify which split to evaluate
# split = "val"
# split = "train"
model_path = "../../models"
data_path_pairs = '../../data/processed/prompt_reply_pairs.csv'

In [3]:
model_name = "t5-sl-small-finetuned-assistant"
tokenizer = AutoTokenizer.from_pretrained(f"{model_path}/{model_name}")
model = AutoModelForSeq2SeqLM.from_pretrained(f"{model_path}/{model_name}").to("cuda")

In [4]:
data = pd.read_csv(data_path_pairs, sep=";")
data

Unnamed: 0,prompt,reply,rank,split
0,"V mojo hišo bodo prispeli 3 prijatelji, rad bi...",Kaj pa igranje lažnivca? Za to igro so potrebn...,0,train
1,"V mojo hišo bodo prispeli 3 prijatelji, rad bi...","Uno: Je klasična igra za otroke in odrasle, pr...",1,train
2,"V mojo hišo bodo prispeli 3 prijatelji, rad bi...",Igrate lahko:\n - 8 noro\n - celina\n - Lažnivec,2,train
3,Napišite hvalnico šolskemu taboru v slogu Mela...,Spomnim se vas prijatelji\nIn spet sva se sreč...,0,train
4,Ali kaj bolj veselega?,♪ Spakirajte in se pridružite zabavi!♪\n♪ Šols...,0,train
...,...,...,...,...
47509,"Hvala, bom videl, če lahko naredim te sprememb...",Elektronski seti bobnov so na splošno tišji od...,0,test
47510,"Hvala, bom videl, če lahko naredim te sprememb...","To je odvisno od seta bobnov, ki ga trenutno u...",1,test
47511,"Imam elektronski set bobnov, a vsakič, ko igra...",Pod komplet lahko poskusite postaviti izolacij...,2,test
47512,Kadarkoli poskušam postaviti izolacijski mater...,"Da, obstaja več načinov, kako to popraviti.\n\...",0,test


In [5]:
data[data["split"] == split][:10]

Unnamed: 0,prompt,reply,rank,split
42639,Vzemimo naključno matriko $n\krat n$ z realnim...,"Ocenjevanje natančne verjetnosti, da imajo vse...",0,test
42640,Hvala vam! Jasno mi je,Vedno z veseljem pomagamo! Vas zanima še kaj?,0,test
42641,Hvala vam! Jasno mi je,prosim!\nV veselje mi je bilo pomagati vam. Ve...,1,test
42642,Hvala vam! Jasno mi je,Z veseljem pomagam! Ali potrebujete še kaj?,2,test
42643,Kakšen je geometrijski pomen izpeljanke?,"Geometrični pomen odvoda je, da pokaže, kako h...",0,test
42644,Kakšen je geometrijski pomen izpeljanke?,Vrednost odvoda (realne) funkcije (realnega ar...,1,test
42645,Vzemimo naključno matriko $n\krat n$ z realnim...,"Verjetnost, da imajo lastne vrednosti naključn...",1,test
42646,"Recimo, da je samovozeči avto v situaciji, ko ...",Avtonomni avtomobili morajo biti programirani ...,0,test
42647,"Recimo, da je samovozeči avto v situaciji, ko ...","Avto mora biti programiran tako, da zagotavlja...",1,test
42648,"Recimo, da je samovozeči avto v situaciji, ko ...","To vrsto etičnih dilem, kot je tista, ki jo pr...",2,test


In [6]:
eval_data = Dataset.from_pandas(data[data['split'] == split][["prompt", "reply"]])
eval_data

Dataset({
    features: ['prompt', 'reply', '__index_level_0__'],
    num_rows: 4875
})

In [7]:
eval_data[:10]["prompt"]

['Vzemimo naključno matriko $n\\krat n$ z realnimi elementi, od katerih je vsak element izbran neodvisno od drugih iz standardne normalne porazdelitve. Kako oceniti verjetnost, da imajo vse lastne vrednosti te matrike pozitiven realni del? Kakšno je asimptotično obnašanje te verjetnosti, ko $n$ teži k neskončnosti?',
 'Hvala vam! Jasno mi je',
 'Hvala vam! Jasno mi je',
 'Hvala vam! Jasno mi je',
 'Kakšen je geometrijski pomen izpeljanke?',
 'Kakšen je geometrijski pomen izpeljanke?',
 'Vzemimo naključno matriko $n\\krat n$ z realnimi elementi, od katerih je vsak element izbran neodvisno od drugih iz standardne normalne porazdelitve. Kako oceniti verjetnost, da imajo vse lastne vrednosti te matrike pozitiven realni del? Kakšno je asimptotično obnašanje te verjetnosti, ko $n$ teži k neskončnosti?',
 'Recimo, da je samovozeči avto v situaciji, ko sta dve možnosti: povoziti starca in rešiti otroka ali povoziti otroka, da bi rešil starca, kako naj bo avto programiran?',
 'Recimo, da je sam

In [8]:
def convert_to_features(examples):
    prefix_in = "Uporabnik: "
    # prefix_in = ""
    examples["prompt"] = [prefix_in + prompt for prompt in examples["prompt"]]
    # prefix_out = "Asistent: "
    prefix_out = ""
    examples["reply"] = [prefix_out + reply for reply in examples["reply"]]
    
    model_inputs = tokenizer(examples['prompt'], pad_to_max_length=True, max_length=512, truncation=True, return_tensors='pt')

    with tokenizer.as_target_tokenizer():
        labels = tokenizer(examples['reply'], pad_to_max_length=True, max_length=128, truncation=True, return_tensors='pt')

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [9]:
eval_data = eval_data.map(convert_to_features, batched=True, load_from_cache_file=False)
eval_data.set_format(type="torch", columns=["input_ids", "attention_mask", "labels"])
eval_data

                                                                 

Dataset({
    features: ['prompt', 'reply', '__index_level_0__', 'input_ids', 'attention_mask', 'labels'],
    num_rows: 4875
})

### Evaluate

#### Qualitative

The generation ran almost 30minutes

In [10]:
# split so it fits on a 12gb gpu - couldn't find a better way (model.generate() options that would do this automatically...)
indices = np.concatenate([np.arange(0, eval_data.num_rows, eval_data.num_rows // 100), [eval_data.num_rows]])

outputs = []
for i, _ in enumerate(indices[:-1]):
    input_ids = eval_data[indices[i]:indices[i+1]]['input_ids'].to("cuda")
    outputs.append(model.generate(eval_data[indices[i]:indices[i+1]]['input_ids'].to("cuda"), max_length=512, no_repeat_ngram_size=2, num_beams=5, num_return_sequences=1))

In [23]:
# results = tokenizer.batch_decode(outputs, skip_special_tokens=True)
results, prediction_lens = [], []
for output in outputs:
    results.extend(tokenizer.batch_decode(output, skip_special_tokens=True))
    prediction_lens.extend([(np.count_nonzero(o.cpu() != tokenizer.pad_token_id)) for o in output])

In [24]:
# just append the results and save
result_data = pd.read_csv(data_path_pairs, sep=";")
result_data = result_data[result_data['split'] == split].reset_index(drop=True)
result_data["generated"] = results
result_data["token_prediction_len"] = prediction_lens
result_data.to_csv(f"../../data/t5_results/prompt_reply_pairs_generated_{model_name}.csv", sep=";", index=False)
result_data

Unnamed: 0,prompt,reply,rank,split,generated,token_prediction_len
0,Vzemimo naključno matriko $n\krat n$ z realnim...,"Ocenjevanje natančne verjetnosti, da imajo vse...",0,test,"Verjetnost, da imajo vse lastne vrednosti matr...",59
1,Hvala vam! Jasno mi je,Vedno z veseljem pomagamo! Vas zanima še kaj?,0,test,Ni za kaj!,5
2,Hvala vam! Jasno mi je,prosim!\nV veselje mi je bilo pomagati vam. Ve...,1,test,Ni za kaj!,5
3,Hvala vam! Jasno mi je,Z veseljem pomagam! Ali potrebujete še kaj?,2,test,Ni za kaj!,5
4,Kakšen je geometrijski pomen izpeljanke?,"Geometrični pomen odvoda je, da pokaže, kako h...",0,test,"Da, geometrijski pomen izpeljanke je matematič...",69
...,...,...,...,...,...,...
4870,"Hvala, bom videl, če lahko naredim te sprememb...",Elektronski seti bobnov so na splošno tišji od...,0,test,"Seveda, tukaj je nekaj elektronskih setov bobn...",100
4871,"Hvala, bom videl, če lahko naredim te sprememb...","To je odvisno od seta bobnov, ki ga trenutno u...",1,test,"Seveda, tukaj je nekaj elektronskih setov bobn...",100
4872,"Imam elektronski set bobnov, a vsakič, ko igra...",Pod komplet lahko poskusite postaviti izolacij...,2,test,"Seveda, tukaj je nekaj nasvetov, ki jih lahko ...",78
4873,Kadarkoli poskušam postaviti izolacijski mater...,"Da, obstaja več načinov, kako to popraviti.\n\...",0,test,"Seveda, tukaj je nekaj možnih rešitev, ki jih ...",126


In [25]:
# remove the duplicate prompts (we generate the same reply but we have them because during training they have different replies)
# also only keep the prompt and generated columns
result_data = result_data.drop_duplicates(subset=["prompt"])[["prompt", "generated"]]
result_data.to_csv(f"../../data/t5_results/prompt_reply_pairs_generated_{model_name}_no_duplicates.csv", sep=";", index=False)
result_data

Unnamed: 0,prompt,generated
0,Vzemimo naključno matriko $n\krat n$ z realnim...,"Verjetnost, da imajo vse lastne vrednosti matr..."
1,Hvala vam! Jasno mi je,Ni za kaj!
4,Kakšen je geometrijski pomen izpeljanke?,"Da, geometrijski pomen izpeljanke je matematič..."
7,"Recimo, da je samovozeči avto v situaciji, ko ...","Seveda, tukaj je primer, kako programirati sam..."
10,"Želim pripraviti pico s feferoni, mi lahko nav...","Tukaj je nekaj korakov, ki jih lahko naredite ..."
...,...,...
4863,Mi lahko poveste več informacij o Franciscu Mo...,Francisco Morazán je bil francoski fizik in ma...
4866,"Mi lahko poveste, kateri so glavni rezultati a...","Seveda, tukaj je nekaj glavnih rezultatov ali ..."
4868,"Imam elektronski set bobnov, a vsakič, ko igra...","Seveda, tukaj je nekaj nasvetov, ki jih lahko ..."
4870,"Hvala, bom videl, če lahko naredim te sprememb...","Seveda, tukaj je nekaj elektronskih setov bobn..."


In [26]:
input = "Uporabnik: Kdo je France Prešeren?"
input = tokenizer(input, return_tensors="pt").to("cuda")
outputs = model.generate(**input, max_length=128, no_repeat_ngram_size=2, num_beams=5, num_return_sequences=5)
tokenizer.decode(outputs[0], skip_special_tokens=True)
tokenizer.batch_decode(outputs, skip_special_tokens=True)

['France Prešeren je bil francoski pesnik, ki se je rodil leta 1922 v Parizu.',
 'France Prešeren je bil francoski pesnik, ki se je rodil leta 1922 v Parizu. Bil je francoski pisatelj in pisatelj, znan po svojem delu in delu v različnih delih sveta.',
 'France Prešeren je bil francoski pesnik, ki se je rodil leta 1922 v Parizu. Bil je francoski pisatelj in pisatelj, znan po svojem delu in delu na področju glasbe, glasbe in glasbe.',
 'France Prešeren je bil francoski pesnik, ki se je rodil leta 1922 v Parizu. Bil je francoski pisatelj in pisatelj, znan po svojem delu in delu na področju umetnosti in umetnosti.',
 'France Prešeren je bil francoski pesnik, ki se je rodil leta 1922 v Parizu. Bil je francoski pisatelj in pisatelj, znan po svojem delu in delu na področju glasbe, glasbe in glasbe. Znan je tudi po svojih delih, kot so pesmi, eseji, pesmi in pesmi.']

#### Quantitative

In [27]:
rouge = load_metric("rouge")
bert = load_metric("bertscore")

  rouge = load_metric("rouge")


In [28]:
def compute_rouge(decoded_preds, decoded_labels, prediction_lens):
    # Rouge expects a newline after each sentence
    decoded_preds = ["\n".join(nltk.sent_tokenize(pred.strip())) for pred in decoded_preds]
    decoded_labels = ["\n".join(nltk.sent_tokenize(label.strip())) for label in decoded_labels]
    
    result = rouge.compute(predictions=decoded_preds, references=decoded_labels, use_stemmer=True)
    # Extract a few results
    result = {key: value.mid.fmeasure * 100 for key, value in result.items()}
    
    # Add mean generated length
    # prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in predictions]
    result["gen_len"] = np.mean(prediction_lens)
    
    return {k: round(v, 4) for k, v in result.items()}

In [29]:
labels = eval_data["labels"]
labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
len(decoded_labels)

4875

In [30]:
# load the results obtained earlier to not have to generate them again as it takes a long time
result_data = pd.read_csv(f"../../data/t5_results/prompt_reply_pairs_generated_{model_name}.csv", sep=";")
decoded_preds = result_data["generated"].to_list()
prediction_lens = result_data["token_prediction_len"].to_list()
len(decoded_preds), len(prediction_lens)

(4875, 4875)

In [31]:
quantitative_data = pd.DataFrame({"decoded_preds": decoded_preds, "decoded_labels": decoded_labels, "prediction_lens": prediction_lens})
quantitative_data

Unnamed: 0,decoded_preds,decoded_labels,prediction_lens
0,"Verjetnost, da imajo vse lastne vrednosti matr...","Ocenjevanje natančne verjetnosti, da imajo vse...",59
1,Ni za kaj!,Vedno z veseljem pomagamo! Vas zanima še kaj?,5
2,Ni za kaj!,prosim! V veselje mi je bilo pomagati vam. Ved...,5
3,Ni za kaj!,Z veseljem pomagam! Ali potrebujete še kaj?,5
4,"Da, geometrijski pomen izpeljanke je matematič...","Geometrični pomen odvoda je, da pokaže, kako h...",69
...,...,...,...
4870,"Seveda, tukaj je nekaj elektronskih setov bobn...",Elektronski seti bobnov so na splošno tišji od...,100
4871,"Seveda, tukaj je nekaj elektronskih setov bobn...","To je odvisno od seta bobnov, ki ga trenutno u...",100
4872,"Seveda, tukaj je nekaj nasvetov, ki jih lahko ...",Pod komplet lahko poskusite postaviti izolacij...,78
4873,"Seveda, tukaj je nekaj možnih rešitev, ki jih ...","Da, obstaja več načinov, kako to popraviti. Z ...",126


Compute WITH the duplicates (different replies for duplicate prompts druing training)

In [32]:
result_rouge = compute_rouge(decoded_preds, decoded_labels, prediction_lens)
print(result_rouge)

{'rouge1': 18.8014, 'rouge2': 4.5449, 'rougeL': 12.715, 'rougeLsum': 16.8048, 'gen_len': 73.3327}


In [33]:
result_bert = bert.compute(predictions=decoded_preds, references=decoded_labels, lang="sl")
result_bert = {"Precision": np.array(result_bert["precision"]).mean(), "Recall": np.array(result_bert["recall"]).mean(), "F1": np.array(result_bert["f1"]).mean()}
print(result_bert)



{'Precision': 0.6648582091270349, 'Recall': 0.6428402618261484, 'F1': 0.6521427895717132}


Compute WITHOUT duplicates

In [34]:
quantitative_data = quantitative_data.drop_duplicates(subset=["decoded_preds"])
display(quantitative_data)
decoded_preds = quantitative_data["decoded_preds"].to_list()
decoded_labels = quantitative_data["decoded_labels"].to_list()
prediction_lens = quantitative_data["prediction_lens"].to_list()

Unnamed: 0,decoded_preds,decoded_labels,prediction_lens
0,"Verjetnost, da imajo vse lastne vrednosti matr...","Ocenjevanje natančne verjetnosti, da imajo vse...",59
1,Ni za kaj!,Vedno z veseljem pomagamo! Vas zanima še kaj?,5
4,"Da, geometrijski pomen izpeljanke je matematič...","Geometrični pomen odvoda je, da pokaže, kako h...",69
7,"Seveda, tukaj je primer, kako programirati sam...",Avtonomni avtomobili morajo biti programirani ...,66
10,"Tukaj je nekaj korakov, ki jih lahko naredite ...","jasno! Začnemo lahko s seznamom sestavin, ki j...",125
...,...,...,...
4863,Francisco Morazán je bil francoski fizik in ma...,Seveda! Francisco Morazán je bil honduraški vo...,99
4866,"Seveda, tukaj je nekaj glavnih rezultatov ali ...",Poskušal je spremeniti Srednjo Ameriko v velik...,110
4868,"Seveda, tukaj je nekaj nasvetov, ki jih lahko ...","Obstaja več stvari, s katerimi lahko poskusite...",78
4870,"Seveda, tukaj je nekaj elektronskih setov bobn...",Elektronski seti bobnov so na splošno tišji od...,100


In [35]:
result_rouge = compute_rouge(decoded_preds, decoded_labels, prediction_lens)
print(result_rouge)

{'rouge1': 20.134, 'rouge2': 4.9416, 'rougeL': 13.3435, 'rougeLsum': 18.0007, 'gen_len': 75.2274}


In [36]:
result_bert = bert.compute(predictions=decoded_preds, references=decoded_labels, lang="sl")
result_bert = {"Precision": np.array(result_bert["precision"]).mean(), "Recall": np.array(result_bert["recall"]).mean(), "F1": np.array(result_bert["f1"]).mean()}
print(result_bert)

{'Precision': 0.6723396635905183, 'Recall': 0.6401780129160014, 'F1': 0.654747401588111}
