# GLUE eval of Koboldcpp hosted LLM
Install required python packages

In [1]:
#!pip install ipywidgets

In [73]:
#!pip install deepeval datasets evaluate requests scipy scikit-learn

Load required packages

In [74]:
import datasets
print(datasets.__version__)

3.0.1


In this notebook, we will see how to evaluate one of the [Transformers](https://github.com/huggingface/transformers) model on [HuLU Benchmark](https://hulu.nytud.hu/) dataset.

The HuLU Benchmark is a group of six classification tasks on sentences or pairs of sentences which are:

- [HuCoLA](https://github.com/nytud/HuCOLA) (Hungarian Corpus of Linguistic Acceptability) contains 9 076 Hungarian sentences labeled for their acceptability/grammaticality (0/1).
- [HuCoPA](https://github.com/nytud/HuCoPA) (Hungarian Choice of Plausible Alternatives Corpus) contains 1,000 instances. Each instance is composed of a premise and two alternatives. The task is to select the alternative that describes a situation standing in causal relation to the situation described by the premise.
- [HuCB](https://github.com/nytud/HuCommitmentBank) The HuCommitmentBank consists of short text fragments in which at least one sentence contains a subordinating clause, which is syntactically subordinated to a logical inference-cancelling operator.
- [HuRTE](https://github.com/nytud/HuRTE) (Hungarian Recognizing Textual Entailment) The dataset contains 4 504 instances. Each example contains a (sometimes multi-sentence) premise and a one-sentence hypothesis, and the task is to decide whether the former entails the latter or not.Determine if a sentence entails a given hypothesis or not.
- [HuSST](https://github.com/nytud/HuSST) (Hungarian version of the Stanford Sentiment Treebank) contains 11 683 sentences. Each sentence is annotated for its sentiment on a three-point scale.
- [HuWNLI](https://github.com/nytud/HuWNLI) (Winograd Natural Language Inference) Anaphora resolution datasets for Hungarian as an inference task; this is a Hungarian dataset of anaphora resolution, designed as a sentence pair classification task of natural language inference.


## Loading the dataset

We will use git clone to download data, and [Datasets](https://github.com/huggingface/datasets) library to load the data and [Evaluate](https://github.com/huggingface/evaluate) library to get the metric we need to use for evaluation (to compare our model to the benchmark).

In [3]:
!mkdir hulu
!git clone https://github.com/nytud/HuCOLA/ hulu/hucola
!git clone https://github.com/nytud/HuCoPA/ hulu/hucopa
!git clone https://github.com/nytud/HuCommitmentBank/ hulu/hucb
!git clone https://github.com/nytud/HuRTE/ hulu/hurte
!git clone https://github.com/nytud/HuSST/ hulu/husst
!git clone https://github.com/nytud/HuWNLI/ hulu/huwnli

Cloning into 'hulu/hucola'...
remote: Enumerating objects: 136, done.[K
remote: Counting objects: 100% (20/20), done.[K
remote: Compressing objects: 100% (20/20), done.[K
remote: Total 136 (delta 9), reused 0 (delta 0), pack-reused 116 (from 1)[K
Receiving objects: 100% (136/136), 719.81 KiB | 5.22 MiB/s, done.
Resolving deltas: 100% (62/62), done.
Cloning into 'hulu/hucopa'...
remote: Enumerating objects: 98, done.[K
remote: Counting objects: 100% (98/98), done.[K
remote: Compressing objects: 100% (89/89), done.[K
remote: Total 98 (delta 42), reused 12 (delta 6), pack-reused 0 (from 0)[K
Receiving objects: 100% (98/98), 234.20 KiB | 3.16 MiB/s, done.
Resolving deltas: 100% (42/42), done.
Cloning into 'hulu/hucb'...
remote: Enumerating objects: 43, done.[K
remote: Counting objects: 100% (43/43), done.[K
remote: Compressing objects: 100% (40/40), done.[K
remote: Total 43 (delta 18), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (43/43), 147.36 KiB | 1.

### Define tasks
What can be found where, and which metric belongs to which

In [107]:
HULU_TASKS = [
    ("hucola", "hulu/hucola/data/cola_", ["train", "dev", "test"], "cola"), 
    ("hucopa", "hulu/hucopa/data/", ["train", "val", "test"], "rte"), 
    ("hucb", "hulu/hucb/data/hucb_", ["train", "dev", "test"], "rte"), 
    ("hurte", "hulu/hurte/data/rte_", ["train", "dev", "test"], "rte"), 
    ("husst", "hulu/husst/data/sst_", ["train", "dev", "test"], "sst2"), 
    ("huwnli", "hulu/huwnli/data/", ["train", "dev", "test"], "wnli")
]
task = "hucb"


**Note**: I had a little problem reading in '''hucb''' json files (deserialization errors), and the solution was to open them in editor, and save back with UTF-8 marker chars in the beginning of the file.

In [111]:
from datasets import load_dataset
from evaluate import load as load_metric

for (actual_task, path, variants, glue_metric) in HULU_TASKS:
    if actual_task == task:
        dataset = load_dataset('json', data_files=f"{path}{variants[0]}.json")
        metric = load_metric('glue', glue_metric)
        break

references = [0, 1, 0, 1]
predictions = [0, 1, 1, 1]
results = metric.compute(predictions=predictions, references=references)
print(results)
dataset


{'accuracy': 0.75}


DatasetDict({
    train: Dataset({
        features: ['id', 'premise', 'hypothesis', 'label'],
        num_rows: 250
    })
})

## Output values

The output of the metric depends on the GLUE subset chosen, consisting of a dictionary that contains one or several of the following metrics:

`accuracy`: the proportion of correct predictions among the total number of cases processed, with a range between 0 and 1 (see [accuracy](https://huggingface.co/metrics/accuracy) for more information).

`f1`: the harmonic mean of the precision and recall (see [F1 score](https://huggingface.co/metrics/f1) for more information). Its range is 0-1 – its lowest possible value is 0, if either the precision or the recall is 0, and its highest possible value is 1.0, which means perfect precision and recall.

`pearson`: a measure of the linear relationship between two datasets (see [Pearson correlation](https://huggingface.co/metrics/pearsonr) for more information). Its range is between -1 and +1, with 0 implying no correlation, and -1/+1 implying an exact linear relationship. Positive correlations imply that as x increases, so does y, whereas negative correlations imply that as x increases, y decreases.

`spearmanr`: a nonparametric measure of the monotonicity of the relationship between two datasets(see [Spearman Correlation](https://huggingface.co/metrics/spearmanr) for more information). spearmanr has the same range as pearson.

`matthews_correlation`: a measure of the quality of binary and multiclass classifications (see [Matthews Correlation](https://huggingface.co/metrics/matthews_correlation) for more information). Its range of values is between -1 and +1, where a coefficient of +1 represents a perfect prediction, 0 an average random prediction and -1 an inverse prediction.

The cola subset returns matthews_correlation, the stsb subset returns pearson and spearmanr, the mrpc and qqp subsets return both accuracy and f1, and all other subsets of GLUE return only accuracy.

In [112]:
import datasets
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, datasets.ClassLabel):
            df[column] = df[column].transform(lambda i: f"{typ.names[i]} ({i})")
    display(HTML(df.to_html()))

We can visualize a random portion of the loaded dataset by calling the above defined method:

In [113]:
show_random_elements(dataset["train"])

Unnamed: 0,id,premise,hypothesis,label
0,196,"Lehet vitatkozni, hogy esetleg kicsit több volt, mint indokolt elmondani vagy sem, de mindenki hallgassa meg azokat a személyes tragédiákat, hiszen azért itt a statisztikák mögött, személyes tragédiák állnak és olyan személyek, fiatal lányok, fiatal egyetemisták esetében szabadságkorlátozó intézkedések, akik életükben hatósággal nem találkoztak. Műsorvezető: - Tehát azt mondja, hogy ezekben az ügyekben a bíróságoknak lenne tennivalójuk, valamilyen belső vizsgálat, belső kutatást el kéne végezniük?","A műsorvezető szerint azokban az ügyekben a bíróságoknak lenne tennivalójuk, valamilyen belső vizsgálatot, belső kutatást el kéne végezniük.",neutral
1,23,"Nemes Attila: - Hát ezt mondom én is. Igen, de azért nem a marketing felől jön az ötlet, hogy mit kellene bemutatni, és azt se felejtsük el hogy ott van eleve egy nagy gyűjtemény.",Nemes Attila szerint ott van eleve egy nagy gyűjtemény.,entailment
2,65,"Nincsen alaposabb vizsgálat. - Igen, biztos, hogy előfordul ilyen, kétségtelen, hogy nagy körültekintést igényel, de nem hiszem, hogy ennyire meg kéne ezt szigorítani, eddig is kikértük a szakorvosnak a véleményét, én nem hiszem, hogy ennek az általánossá tétele, egyértelműen hasznos lenne akár a közúti forgalom vagy a betegek részére. A cukorbetegséggel és a szívbetegséggel kapcsolatosan, nem hiszem, hogy feltétlen szakorvoshoz kellene küldeni a beteget, hiszen jól ismerjük a beteg állapotát. Nem hiszem, hogy a szemészeten és az EKG-n kívül kellene csinálni más vizsgálatot, nem tartom valószínűnek, legalábbis olyan értelemben nem, hogy nem hiszem, hogy olyan derül ki belőle, ami az illető vezetési képességét közlekedési képességét befolyásolná.",A beszélő szerint szemészeten és az EKG-n kívül kellene csinálni más vizsgálatot is.,contradiction
3,239,"Ferenc: Szóval nem tudom mire alapozod a MIÉP szakértetlenségét, de legyen ez a te titkod.Úgy érzem túlzott ellenszenvvel viseltetsz a miéppel szemben, és ezért nem gondolod eléggé át amit írsz. Ugyanis ha a MIÉP, tegyük fel hatalomra kerülne, akkor a különböző nemzetközi bankszakemberek - tetszik-nemtetszik - az ő szakembereikkel kellene, hogy tárgyaljanak",Ferenc szerint a MIÉP hatalomra kerül.,neutral
4,11,"Úgy látszik hogy a jelenlegi városvezetés környezetében nagyon kevés olyan ember összpontosult, aki ezt a tantárgyat tanulta és érti. Így aztán előfordulhat hogy egymással párhuzamos főutakat egyidejűleg újítanak fel amik egymás közlekedési alternatívái.","A beszélő szerint egymással párhuzamos főutakat egyidejűleg újítanak fel, amik egymás közlekedési alternatívái.",entailment
5,247,"Asszonyszíveken különösen ninc s Bramah-závárJól van – szólt Iván. – Tehát tegyük fel, hogy sikerülend a herceget is, meg a grófot is rábírni, hogy a birtokot eladják; még akkor mindig nincsen nagyszerű établissement-od.",A beszélő szerint rábírja a birtok eladására a grófot.,neutral
6,149,"Gabriella: - A világ ember nélkül. Egy csodálatos fotóalbum a National Geographic kiadásában. Egyed László: - Nagyon sok oka lehet annak, ha az ember nem tesz feljelentést egy ellene elkövetett bűncselekmény miatt. Lehet ez félelem, szégyen, vagy az hogy valaki nem bízik abban, hogy bármi féle eredménye lesz a feljelentésnek, vagy megkerül a bűnös.",A beszélő szerint lesz eredménye a feljelentésnek.,neutral
7,35,"Amikor márkanevet választunk és amikor remélhetőleg nemcsak a magyar piacra készülő márkanevet választunk, akkor figyelembe kell venni az európai sajátosságokat is. Tehát nem tudjuk sajnos úgy megjeleníteni azt, hogy magyar és a miénk és büszkék vagyunk rá, amikor Franciarországba kívánjuk ezt értékesíteni. Bordás Ákos: - Nem akarom ragozni ezt a témát, de nyilván azért vannak olyan magyar szavak is, amelyek esetleg a külföldiek számára is jól hangzó. Nem gondoltak arra, hogy esetleg megpályáztatják a márkanevet?",A beszélő szerint Bordás Ákosék megpályáztatják a márkanevet.,neutral
8,167,"Torba Tamás, közgazdász: Még nem láttam egyetlen politikust se kijönni tanácskozásról, aki a kezében tartotta volna a Maastrichti Egyezmény egy példányát, és látványosan kettétépte volna, tehát ilyen mese még nem történt. Az, hogy létrehoznak majd egy 120 milliárd eurós növekedési alapot, most egész Európára nézve, vagy akár csak az éppen bajban lévő mediterrán országokra nézve, ez a pénz inkább szimbolitikus jelentőségű. Műsorvezető: - Tehát úgy érti, hogy semmire sem elég?",A műsorvezető szerint a 120 milliárd eurós növekedési alap semmire sem elég.,neutral
9,94,"Gyurcsány Ferenc miniszterelnök: - Attól tartok, hogy Ön félreérti ezt, vagy azok a szakértők, akikre esetleg gondol vagy hivatkozik. Az IMF-hitel semmi mást nem csinál, mint az ország nemzetközi tartalékait fölemelte, és fölemeli, és azt a lehetőséget biztosítja a mi számunkra, hogy nem kell a piacon esetleg rossz feltételekkel felvenni pénzt. Ennek a reformokhoz nincsen köze. De menjünk vissza az alapkérdéshez! Én úgy látom, hogy van egy görcsös félelem bennünk, az országban, a választókban.",Gyurcsány Ferenc szerint van egy görcsös félelem a választópolgárokban.,entailment


## Task description
Here we define a task description for each of the tasks:
- Where the data can be found in the dataset
- What needs the LLM do with those

Out of these a prompt will be constructed for each of the tasks, automatically.

In [114]:
task_to_keys = {
    "hucola": ("Sent", None, None, None, "Állapítsd meg, hogy a mondat nyelvtanilag helyes (1), vagy helytelen (0).", r'[01]'),
    "hucopa": ("premise", "choice1", "choice2", "question", "Válaszd ki, melyik mondat (1 vagy 2) a kérdésnek megfelelő válasz.", r'[12]'),
    "hucb": ("premise", "hypothesis", None, None, "Állapítsd meg, hogy az feltételezés és felvetés milyen kapcsolatban állnak: ellentmondás (0), semleges (1), következmény (2)", r'[012]'),
    "hurte": ("sentence1", "sentence2", None, None, "Determine if a sentence entails a given hypothesis (0) or not (1).", r'[01]'),
    "husst": ("sentence", None, None, None, "Determine if the sentence has a positive (1) or negative (0) sentiment.", r'[01]'),
    "huwnli": ("sentence1", "sentence2", None, None, "Determine if a sentence with an anonymous pronoun and a sentence with this pronoun replaced are entailed (1) or not (0).", r'[01]'),
}

## The prompt
To prepare the prompt, we provide a system description, comming from `task_to_keys`, and additional 5 examples from the training dataset, with scores included.

The actual test is comming from the "validation" dataset part, one by one, only providing the sentences to operate on, and simply prompting for a numerical answer by placing <|assistant|> at the line start.

In [105]:
import requests
import pandas as pd
import re

def find_first_number(input_str, matchstr):
    match = re.search(matchstr, input_str)
    return float(match.group()) if match else None

def measure(actual_task, path, variants, glue_metric):
    (field1, field2, field3, field4, system_prompt, matchstr) = task_to_keys[actual_task]
    dataset = load_dataset('json', data_files=f"{path}{variants[0]}.json")
    metric = load_metric('glue', glue_metric)
    
    prompt = f"<|system|>{system_prompt}\n"
    training_data = dataset['train']
    
    # Here we collect a diverse labled training set of 5 to make a few shot examples
    last_label = 0
    num_examples = 0
    for idx, f1 in enumerate(training_data[field1]):
        if training_data['label'][idx] == last_label: continue
        prompt += f"<|{field1 if field1 != "Sent" else "sentence"}|>{f1}\n"
        if not field2 is None:
            prompt += f"<|{field2}|>{training_data[field2][idx]}\n"
        if not field3 is None:
            prompt += f"<|{field3}|>{training_data[field3][idx]}\n"
        if not field4 is None:
            if training_data[field4][idx] == "cause":
                prompt += f"<|{field4}|>indok\n"
            else:
                prompt += f"<|{field4}|>következmény\n"
        prompt += f"<|assistant|>{training_data['label'][idx]}\n"
        
        last_label = training_data['label'][idx]
        num_examples += 1
        if num_examples >= 5: break
    
    api_url = "http://localhost:5001/api/v1"
    stop_words = ["###","**Observation**","</s>","<|"]
    headers = {
        "Content-Type": "application/json"
    }

    references = []
    predictions = []
    failed = []
    testset = load_dataset('json', data_files=f"{path}{variants[1]}.json")
    testset = testset['train']
    count = 0
    for idx, f1 in enumerate(testset[field1]):
        query = prompt
        query += f"<|{field1 if field1 != "Sent" else "sentence"}|>{f1}\n"
        if not field2 is None:
            query += f"<|{field2}|>{training_data[field2][idx]}\n"
        if not field3 is None:
            query += f"<|{field3}|>{training_data[field3][idx]}\n"
        if not field4 is None:
            if training_data[field4][idx] == "cause":
                query += f"<|{field4}|>indok\n"
            else:
                query += f"<|{field4}|>következmény\n"
        query += f"<|assistant|>"
        
        data = {
            "prompt": query,
            "max_tokens": 10,
            "temperature": 0,
            "top_p": 1.0,
            "n": 20,
            "stop": stop_words
        }
        
        response = requests.post(f"{api_url}/completion", headers=headers, json=data)
        result = response.json()["choices"][0]["text"]
        for sw in stop_words:
            result = result.replace(sw, "")
        result = result.strip()
        num_result = find_first_number(result, matchstr)
        if num_result is None:
            failed.append(idx)
        else:
            references.append(testset['label'][idx])
            predictions.append(num_result)
        count += 1
        if count % 10 == 0:
            print(f"Task: {actual_task}, {count/len(testset[field1])*100:5.1f}%", end="\r")
    
    results = metric.compute(predictions=predictions, references=references)
    return (len(testset[field1]), len(failed), results)

In [106]:
for (actual_task, path, variants, glue_metric) in HULU_TASKS:
    if actual_task == task:
        (number, failed, result) = measure(task, path, variants, glue_metric)
        break

print(f"Task: {task} {number}/{failed}               ")
print(result)

Task: hucopa 100/0               
{'accuracy': 0.47}


# Putting all together
- iterate through all tasks
- load related dataset & metric
- evaluate all verification elements


In [8]:
for (task, path, variants, glue_metric) in HULU_TASKS:
    (number, failed, result) = measure(task, path, variants, glue_metric)
    print(f"Task: {task} {number}/{failed}               ")
    print(result)

Task: cola 1043/0               
{'matthews_correlation': 0.3750517206709971}
Task: mnli 9815/0               
{'accuracy': 0.5387671930718289}
Task: mrpc 408/0               
{'accuracy': 0.7303921568627451, 'f1': 0.8270440251572327}
Task: qnli 5463/0               
{'accuracy': 0.557386051619989}
Task: qqp 40430/0               
{'accuracy': 0.6087064061340589, 'f1': 0.6251895375284306}
Task: rte 277/0               
{'accuracy': 0.4259927797833935}
Task: sst2 872/0               
{'accuracy': 0.9323394495412844}
Task: stsb 1500/0               
{'pearson': 0.5736636199745533, 'spearmanr': 0.5906536164846766}
Task: wnli 71/0               
{'accuracy': 0.5774647887323944}
