# HULU eval of Koboldcpp hosted LLM
Install required python packages

In [1]:
#!pip install ipywidgets

In [73]:
#!pip install deepeval datasets evaluate requests scipy scikit-learn

Load required packages

In [74]:
import datasets
print(datasets.__version__)

3.0.1


In this notebook, we will see how to evaluate one of the [Transformers](https://github.com/huggingface/transformers) model on [HuLU Benchmark](https://hulu.nytud.hu/) dataset.

The HuLU Benchmark is a group of six classification tasks on sentences or pairs of sentences which are:

- [HuCoLA](https://github.com/nytud/HuCOLA) (Hungarian Corpus of Linguistic Acceptability) contains 9 076 Hungarian sentences labeled for their acceptability/grammaticality (0/1).
- [HuCoPA](https://github.com/nytud/HuCoPA) (Hungarian Choice of Plausible Alternatives Corpus) contains 1,000 instances. Each instance is composed of a premise and two alternatives. The task is to select the alternative that describes a situation standing in causal relation to the situation described by the premise.
- [HuCB](https://github.com/nytud/HuCommitmentBank) The HuCommitmentBank consists of short text fragments in which at least one sentence contains a subordinating clause, which is syntactically subordinated to a logical inference-cancelling operator.
- [HuRTE](https://github.com/nytud/HuRTE) (Hungarian Recognizing Textual Entailment) The dataset contains 4 504 instances. Each example contains a (sometimes multi-sentence) premise and a one-sentence hypothesis, and the task is to decide whether the former entails the latter or not.Determine if a sentence entails a given hypothesis or not.
- [HuSST](https://github.com/nytud/HuSST) (Hungarian version of the Stanford Sentiment Treebank) contains 11 683 sentences. Each sentence is annotated for its sentiment on a three-point scale.
- [HuWNLI](https://github.com/nytud/HuWNLI) (Winograd Natural Language Inference) Anaphora resolution datasets for Hungarian as an inference task; this is a Hungarian dataset of anaphora resolution, designed as a sentence pair classification task of natural language inference.


## Loading the dataset

We will use git clone to download data, and [Datasets](https://github.com/huggingface/datasets) library to load the data and [Evaluate](https://github.com/huggingface/evaluate) library to get the metric we need to use for evaluation (to compare our model to the benchmark).

In [3]:
!mkdir hulu
!git clone https://github.com/nytud/HuCOLA/ hulu/hucola
!git clone https://github.com/nytud/HuCoPA/ hulu/hucopa
!git clone https://github.com/nytud/HuCommitmentBank/ hulu/hucb
!git clone https://github.com/nytud/HuRTE/ hulu/hurte
!git clone https://github.com/nytud/HuSST/ hulu/husst
!git clone https://github.com/nytud/HuWNLI/ hulu/huwnli

Cloning into 'hulu/hucola'...
remote: Enumerating objects: 136, done.[K
remote: Counting objects: 100% (20/20), done.[K
remote: Compressing objects: 100% (20/20), done.[K
remote: Total 136 (delta 9), reused 0 (delta 0), pack-reused 116 (from 1)[K
Receiving objects: 100% (136/136), 719.81 KiB | 5.22 MiB/s, done.
Resolving deltas: 100% (62/62), done.
Cloning into 'hulu/hucopa'...
remote: Enumerating objects: 98, done.[K
remote: Counting objects: 100% (98/98), done.[K
remote: Compressing objects: 100% (89/89), done.[K
remote: Total 98 (delta 42), reused 12 (delta 6), pack-reused 0 (from 0)[K
Receiving objects: 100% (98/98), 234.20 KiB | 3.16 MiB/s, done.
Resolving deltas: 100% (42/42), done.
Cloning into 'hulu/hucb'...
remote: Enumerating objects: 43, done.[K
remote: Counting objects: 100% (43/43), done.[K
remote: Compressing objects: 100% (40/40), done.[K
remote: Total 43 (delta 18), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (43/43), 147.36 KiB | 1.

### Define tasks
What can be found where, and which metric belongs to which

In [70]:
HULU_TASKS = [
    ("hucola", "hulu/hucola/data/cola_", ["train", "dev", "test"], "cola"), 
    ("hucopa", "hulu/hucopa/data/", ["train", "val", "test"], "rte"), 
    ("hucb", "hulu/hucb/data/hucb_", ["train", "dev", "test"], "mnli"), 
    ("hurte", "hulu/hurte/data/rte_", ["train", "dev", "test"], "rte"), 
    ("husst", "hulu/husst/data/sst_", ["train", "dev", "test"], "sst2"), 
    ("huwnli", "hulu/huwnli/data/", ["train", "dev", "test"], "wnli")
]
task = "hucb"


**Note**: I had a little problem reading in '''hucb''' json files (deserialization errors), and the solution was to open them in editor, and save back with UTF-8 marker chars in the beginning of the file.

In [71]:
from datasets import load_dataset
from evaluate import load as load_metric

for (actual_task, path, variants, glue_metric) in HULU_TASKS:
    if actual_task == task:
        dataset = load_dataset('json', data_files=f"{path}{variants[0]}.json")
        metric = load_metric('glue', glue_metric)
        break

references = [0, 1, 0, 1]
predictions = [0, 1, 1, 1]
results = metric.compute(predictions=predictions, references=references)
print(results)
dataset


{'accuracy': 0.75}


DatasetDict({
    train: Dataset({
        features: ['id', 'premise', 'hypothesis', 'label'],
        num_rows: 250
    })
})

## Output values

The output of the metric depends on the GLUE subset chosen, consisting of a dictionary that contains one or several of the following metrics:

`accuracy`: the proportion of correct predictions among the total number of cases processed, with a range between 0 and 1 (see [accuracy](https://huggingface.co/metrics/accuracy) for more information).

`f1`: the harmonic mean of the precision and recall (see [F1 score](https://huggingface.co/metrics/f1) for more information). Its range is 0-1 – its lowest possible value is 0, if either the precision or the recall is 0, and its highest possible value is 1.0, which means perfect precision and recall.

`pearson`: a measure of the linear relationship between two datasets (see [Pearson correlation](https://huggingface.co/metrics/pearsonr) for more information). Its range is between -1 and +1, with 0 implying no correlation, and -1/+1 implying an exact linear relationship. Positive correlations imply that as x increases, so does y, whereas negative correlations imply that as x increases, y decreases.

`spearmanr`: a nonparametric measure of the monotonicity of the relationship between two datasets(see [Spearman Correlation](https://huggingface.co/metrics/spearmanr) for more information). spearmanr has the same range as pearson.

`matthews_correlation`: a measure of the quality of binary and multiclass classifications (see [Matthews Correlation](https://huggingface.co/metrics/matthews_correlation) for more information). Its range of values is between -1 and +1, where a coefficient of +1 represents a perfect prediction, 0 an average random prediction and -1 an inverse prediction.

The cola subset returns matthews_correlation, the stsb subset returns pearson and spearmanr, the mrpc and qqp subsets return both accuracy and f1, and all other subsets of GLUE return only accuracy.

In [72]:
import datasets
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, datasets.ClassLabel):
            df[column] = df[column].transform(lambda i: f"{typ.names[i]} ({i})")
    display(HTML(df.to_html()))

We can visualize a random portion of the loaded dataset by calling the above defined method:

In [73]:
show_random_elements(dataset["train"])

Unnamed: 0,id,premise,hypothesis,label
0,206,"Pázmány Péter, Dunaszerdahely polgármestere: - Abban a szektorban, ahol a támadás történt, mintegy 2-300 ember volt, ott valóban volt Nagy-Magyarország zászló is kifeszítve. Viszont ami maga az eseményeket illeti, úgy láttam, hiszen a helyszínen voltam, hogy semmilyen provokációt - tehát semmilyen kődobálás és a rendőrök megtámadása nem történt meg, hanem a mérkőzés 17. percében én személy szerint és a körülöttem lévő szurkolók érthetetlenül láttuk, hogy a rendőrség benyomul ebbe a szektorba. Műsorvezető: - És ön is azt mondja, hogy ennek semmiféle előzetes jele nem volt, nem volt figyelmeztetés például?",A műsorvezető szerint a támadásnak semmiféle előzetes jele nem volt.,neutral
1,226,"Ladányi János szociológus: - Hát először is azt szeretném mondani, hogy nincs más választásunk, mint hogy el kell kezdenünk normális diskurzust folytatni erről a dologról. Vagyis normális diskuzusokat. És nemcsak a politikától kell várni azt, hogy ez a normális diskurzus megkezdődjön, hanem mondjuk a médiában is le kellene folytatni ezt a normális diskurzust, mert hogyha hetek óta és hónapok óta, hogyha kinyitok mondok bizonyos televíziós csatornákat, és az első négy hír az romákkal kapcsolatos bűnesetekről szól, akkor mindenkiben az a kép rajzolódik ki, ami kirajzolódik, és hát ez nagyon kevésbé realisztikus. Műsorvezető: - Tehát azt mondja, hogy ez nem igaz, ez nem a valóságot ábrázolja?",A műsorvezető szerint ez a kép nem a valóságot ábrázolja.,neutral
2,172,"Oszkó Péter: - A Pénzügyminisztérium, bocsánat a volt pénzügyminisztérium épületébe, tehát a József Nádor térre. Műsorvezető: - És pontos időpontja van, hogy mikor kell Matolcsy Györggyel találkozni, vagy előszobázik? Oszkó Péter: - Egészen tegnap délig úgy tudtam, hogy ez ma egykor lesz ez az átadás-átvétel, aztán hirtelen telefonok tömkelegét kaptam, miszerint még nem biztos, hogy lehet, hogy délelőtt tízkor.",Oszkó Péter szerint aznap egykor van az átadás-átvétel.,neutral
3,146,"A legtöbb cég úgy találja, hogy például Guatemalában és Zambiában, Belaruszban, az üzleti élet szabályozói teljesen kiszámíthatatlanok. A vállalatok több mint hetven százaléka Bangladesben, Ecuadorban és Moldovában nem bízik abban, hogy a helyi bíróságok megerősítenék tulajdonjogukat.",A beszélő szerint a helyi bíróságok megerősítenék tulajdonjogukat.,contradiction
4,51,"Csúszik a Margithíd felújítása. A Távirati Iroda úgy tudja, hogy május helyett, csak nyáron kezdődik el a budapesti híd rekonstrukciója, mert három hónapot kellett várni egy hatósági engedélyre.","A beszélő szerint május helyett csak nyáron kezdődik el a budapesti híd rekonstrukciója, mert három hónapot kellett várni egy hatósági engedélyre.",entailment
5,77,"Nincs ebben semmi meglepő. - mondja a kormányszóvivő. Szollár Domonkos szerint, a kabinet nem a cég nagysága szerint dönt a támogatásokról. A mai kormányülésen várhatóan szóba kerül, hogy hat-hét milliárd forintot fizetnének az OmnInvestnek a 6 millió oltóanyagért. Szollár Domonkos: - A cél az, hogy legyen oltóanyag, ha ezt az oltóanyagot, egy bármilyen kiscég gyártja, ha előbb tudja gyártani, meg tudja találni a megfelelő oltóanyagot, akkor azt meg kell vásárolni a kiscégtől, nem hiszem, hogy itt a kiscég mérete lenne a döntő, a cél az, hogy legyen oltóanyag és a jelen állás szerint, úgy néz ki, hogy Magyarországon, a világon az első között lesz olyan oltóanyag, amelyet lehet használni ez ellen a vírus ellen.",SZollár Domonkos szerint a cég mérete a döntő az oltóanyaggyártásnál.,contradiction
6,137,"Riporter: - Nem olvasnak eleget a mai fiatalok és mindenki a számítógépen bele-belelapoz valamibe. Amikor beléptem a Szabó Ervin könyvtárba borzasztó tömeg volt. Tudom, hogy mindig tömeg van. Tehát, ha valaki ebben él, akkor azt hiszi, hogy mindenki olvas?",A beszélő szerint mindenki olvas.,contradiction
7,244,"Majd így okoskodék hősünk tovább:»Talán beavassam élettörténetembe, elmondjak szögről-végre mindent, anyámról, atyámról, halálozási körülményeiről? Tegyük fel, elhiszi alfától omegáig: mit ér az?",A beszélő szerint elmondják neki az élettörténetüket.,neutral
8,86,"Zsuzsanna: - Ennek az élettartama számítások szerint 30 éven túl van, ugye a megtérülési idő után, csak karbantartást igényel, utána már csak hozza az eredményeket. Riporter: - Csak álljon még utána a ház is. Zsuzsanna: - Én attól nem félek, hogy egy panelépület nem fog állni, főleg azért nem félek tőle, mert az épület fel lett újítva, és ezzel az élettartamát 80-90-100 évre, számítások szerint 100 évig eltart.",A beszélő szerint a régi panelépület nem lesz használható.,contradiction
9,216,"Riporter: - Hogyan lehetett volna megelőzni? Frenkl Róbert: - Ugy, hogy nem indulnak el, vagy pedig nem indul el az a versenyző, akinél ilyen probléma fellép. Riporter: - Na most ez egy gyanúsítás, azt mondja, hogy Fazekas gyanús?",A Riporter szerint Fazekas gyanús.,neutral


## Task description
Here we define a task description for each of the tasks:
- Where the data can be found in the dataset
- What needs the LLM do with those
- Regexp for the result to parse for

Out of these a prompt will be constructed for each of the tasks, automatically.

In [60]:
task_to_keys = {
    "hucola": ("Sent", None, None, None, "Határozd meg, hogy a mondat nyelvtanilag helyes-e (1), vagy helytelen (0).", r'[01]'),
    "hucopa": ("premise", "choice1", "choice2", "question", "Válaszd ki, melyik mondat (1 vagy 2) a kérdésnek megfelelő válasz.", r'[12]'),
    "hucb": ("premise", "hypothesis", None, None, "Határozd meg, hogy a premisa és hipotézis milyen kapcsolatban állnak: ellentmondás (0), semleges (1), következmény (2)", r'[012]'),
    "hurte": ("premise", "hypothesis", None, None, "Határozd meg, hogy a premisából következik-e (1) a hipotézis, vagy sem (0).", r'[01]'),
    "husst": ("Sent", None, None, None, "Határozd meg, hogy a mondat pozitív (1) vagy negatív (0) hangulatú-e.", r'[01]'),
    "huwnli": ("sentence1", "sentence2", None, None, "Határozd meg, hogy az első mondatból következik-e (1) a második mondat, vagy sem (0).", r'[01]'),
}

## The prompt
To prepare the prompt, we provide a system description, comming from `task_to_keys`, and additional 5 examples from the training dataset, with scores included.

The actual test is comming from the "validation" dataset part, one by one, only providing the sentences to operate on, and simply prompting for a numerical answer by placing <|assistant|> at the line start.

In [61]:
import requests
import pandas as pd
import re

def find_first_number(input_str, matchstr):
    match = re.search(matchstr, input_str)
    return float(match.group()) if match else None

def get_label_value(input_str):
    num = find_first_number(input_str, r'\d+(\.\d+)?')
    if not num is None:
        return num
    if input_str == "contradiction" or input_str == "negative":
        return 0
    elif input_str == "neutral" or input_str == "positive":
        return 1
    return 2

def measure(actual_task, path, variants, glue_metric):
    (field1, field2, field3, field4, system_prompt, matchstr) = task_to_keys[actual_task]
    dataset = load_dataset('json', data_files=f"{path}{variants[0]}.json")
    metric = load_metric('glue', glue_metric)
    
    prompt = f"<|system|>{system_prompt}\n"
    training_data = dataset['train']
    
    # Here we collect a diverse labled training set of 5 to make a few shot examples
    last_label = 0
    num_examples = 0
    for idx, f1 in enumerate(training_data[field1]):
        if training_data['label'][idx] == last_label: continue
        prompt += f"<|{field1 if field1 != "Sent" else "sentence"}|>{f1}\n"
        if not field2 is None:
            prompt += f"<|{field2}|>{training_data[field2][idx]}\n"
        if not field3 is None:
            prompt += f"<|{field3}|>{training_data[field3][idx]}\n"
        if not field4 is None:
            if training_data[field4][idx] == "cause":
                prompt += f"<|{field4}|>indok\n"
            else:
                prompt += f"<|{field4}|>következmény\n"
        prompt += f"<|assistant|>{get_label_value(training_data['label'][idx])}\n"
        
        last_label = training_data['label'][idx]
        num_examples += 1
        if num_examples >= 5: break
    
    api_url = "http://localhost:5001/api/v1"
    stop_words = ["###","**Observation**","</s>","<|"]
    headers = {
        "Content-Type": "application/json"
    }

    references = []
    predictions = []
    failed = []
    testset = load_dataset('json', data_files=f"{path}{variants[1]}.json")
    testset = testset['train']
    count = 0
    for idx, f1 in enumerate(testset[field1]):
        query = prompt
        query += f"<|{field1 if field1 != "Sent" else "sentence"}|>{f1}\n"
        if not field2 is None:
            query += f"<|{field2}|>{training_data[field2][idx]}\n"
        if not field3 is None:
            query += f"<|{field3}|>{training_data[field3][idx]}\n"
        if not field4 is None:
            if training_data[field4][idx] == "cause":
                query += f"<|{field4}|>indok\n"
            else:
                query += f"<|{field4}|>következmény\n"
        query += f"<|assistant|>"
        
        data = {
            "prompt": query,
            "max_tokens": 10,
            "temperature": 0,
            "top_p": 1.0,
            "n": 20,
            "stop": stop_words
        }
        
        response = requests.post(f"{api_url}/completion", headers=headers, json=data)
        result = response.json()["choices"][0]["text"]
        for sw in stop_words:
            result = result.replace(sw, "")
        result = result.strip()
        num_result = find_first_number(result, matchstr)
        if num_result is None:
            failed.append(idx)
        else:
            references.append(get_label_value(testset['label'][idx]))
            predictions.append(num_result)
        count += 1
        if count % 10 == 0:
            print(f"Task: {actual_task}, {count/len(testset[field1])*100:5.1f}%", end="\r")
    
    results = metric.compute(predictions=predictions, references=references)
    return (len(testset[field1]), len(failed), results)

In [62]:
for (actual_task, path, variants, glue_metric) in HULU_TASKS:
    if actual_task == task:
        (number, failed, result) = measure(task, path, variants, glue_metric)
        break

print(f"Task: {task} {number}/{failed}               ")
print(result)

Task: huwnli 60/0               
{'accuracy': 0.55}


# Putting all together
- iterate through all tasks
- load related dataset & metric
- evaluate all verification elements


In [69]:
for (task, path, variants, glue_metric) in HULU_TASKS:
    (number, failed, result) = measure(task, path, variants, glue_metric)
    print(f"Task: {task} {number}/{failed}               ")
    print(result)

Task: hucola 910/0               
{'matthews_correlation': 0.07021490563070865}
Task: hucopa 100/0               
{'accuracy': 0.49}
Task: hucb 103/2               
{'accuracy': 0.39603960396039606}
Task: hurte 243/0               
{'accuracy': 0.4609053497942387}
Task: husst 1165/0               
{'accuracy': 0.6738197424892703}
Task: huwnli 60/0               
{'accuracy': 0.4666666666666667}
