# Evaluate finetuned Mistral Models

## Imports and environment variables

In [None]:
import torch
import os
import sys
from dotenv import load_dotenv
import ast
import evaluate

from deepeval.metrics import GEval
from deepeval.test_case import LLMTestCaseParams, LLMTestCase

from distutils.util import strtobool

os.environ["OPENAI_API_KEY"] = os.getenv("AZURE_OPENAI_API_KEY")

from peft import PeftModel

import pandas as pd

from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, AutoModelForCausalLM

# Load environment variables from .env file
load_dotenv()

# Add the parent directory to the Python path
# __file__


# Adjust this path to point to the directory containing rl_training_new
module_path = os.path.abspath(os.path.join('..')) # or another relative path
if module_path not in sys.path:
    sys.path.append(module_path)

from rl_training_new.utils import find_best_window


from bert_score import score

# load the relevant devices available on the server
os.environ["CUDA_VISIBLE_DEVICES"] = os.getenv("AVAILABLE_DEVICES")

# Enable expandable CUDA segments
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

# load cuda
if torch.cuda.is_available():
    device = torch.device("cuda")
    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print("CUDA is available. Using GPU:", torch.cuda.get_device_name(0))
else:
    device = torch.device("cpu")
    print("CUDA is not available. Using CPU.")


There are 1 GPU(s) available.
CUDA is available. Using GPU: NVIDIA L40S


In [2]:
def str_to_bool(s):
    return bool(strtobool(s))

In [3]:
MODEL = os.getenv("GENERATION_MODEL_NAME")
ALGORITHM = os.getenv("EVAL_MODEL_ALGORITHM")
RL_TRAINED_ADAPTERS = os.getenv("EVAL_MODEL_FOLDER")
EVAL_ANSWERS_CSV = os.getenv("EVAL_ANSWERS_CSV")
GENERATE_RESPONSES = str_to_bool(os.getenv("GENERATE_RESPONSES"))

## Load model

In [4]:
base_model = AutoModelForCausalLM.from_pretrained(MODEL)
new_model = PeftModel.from_pretrained(base_model, RL_TRAINED_ADAPTERS)

tokenizer = AutoTokenizer.from_pretrained(MODEL)

base_model.eval()
new_model.eval()

base_model.to(device)
new_model.to(device)


Loading checkpoint shards: 100%|██████████| 3/3 [00:01<00:00,  2.09it/s]


PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): MistralForCausalLM(
      (model): MistralModel(
        (embed_tokens): Embedding(32768, 4096)
        (layers): ModuleList(
          (0-31): 32 x MistralDecoderLayer(
            (self_attn): MistralAttention(
              (q_proj): lora.Linear(
                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.1, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=8, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=8, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): Linear(

## Get test dataset

In [5]:
RL_DATA_PATH = os.getenv("RL_DATA_PATH")
df = pd.read_csv(RL_DATA_PATH + "/test_random.csv", sep=';')

## Generate Model responses

In [6]:
# Function to generate response
def generate_response(prompt, tokenizer, model, max_length=1024):
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    input_length = inputs['input_ids'].shape[1]
    with torch.no_grad():
        outputs = model.generate(**inputs, max_length=input_length + max_length, do_sample=True, top_k=50)
        generated_ids = outputs[0][input_length:]
    return tokenizer.decode(generated_ids, skip_special_tokens=True)

In [7]:
if GENERATE_RESPONSES:
    # Apply both models
    df['response_base_model'] = df['prompt'].apply(lambda x: generate_response(x, tokenizer, base_model))
    df['response_new_model'] = df['prompt'].apply(lambda x: generate_response(x, tokenizer, new_model))

    # Show result
    print(df[['prompt', 'response_new_model', 'response_base_model']])

    # store response df in csv
    df.to_csv(EVAL_ANSWERS_CSV, index=False, sep=';')
else:
    pd.read_csv(EVAL_ANSWERS_CSV, sep=';')

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


                                              prompt  \
0  \n\n\n                --- Definitie ---\n\n   ...   
1  \n\n\n                --- Definitie ---\n\n   ...   
2  \n\n\n                --- Definitie ---\n\n   ...   
3  \n\n\n                --- Definitie ---\n\n   ...   

                                  response_new_model  \
0     In deze tekst zijn er voor de volgende fact...   
1       Voorbeeld: Preconditie: De vreemdeling ve...   
2                     1. Een preconditie voor de ...   
3  1. De belastbare moet zijn of woonachtig in Ne...   

                                 response_base_model  
0  Inhoud: <overzicht van de inhoud van de subfac...  
1  1. De vreemdeling beschikt over een geldige ma...  
2  1. Verantwoordelijk is een Minister, met betre...  
3  ------------------------------------------\n\n...  


In [8]:
print(df['response_base_model'][0])
print(df['response_new_model'][0])

Inhoud: <overzicht van de inhoud van de subfact> 

 ---------------------------------------------------------

                Subfact: budgettaire totaalbeeld
 ----------------------------------------------------------
  Positie: Artikel 4.4, eerste lid, onderdeel d IN Hoofdstuk 4. Begrotingsbeheer en financieel beheer: verantwoordelijkheden

  Inhoud: bevat in elk geval: a. het budgettaire totaalbeeld voor het betrokken begrotingsjaar en de vier daaropvolgende jaren van de rijksbegroting en de niet tot de rijksbegroting behorende budgetdisciplinesectoren

  ---------------------------------------------------------

                Subfact: budgettaire beschouwingen
 ----------------------------------------------------------
  Positie: Artikel 4.4, eerste lid, onderdeel d IN Hoofdstuk 4. Begrotingsbeheer en financieel beheer: verantwoordelijkheden

  Inhoud: bevat in elk geval: b. de budgettaire beschouwingen over het voorgenomen beleid voor de collectieve sector

  ------------------

In [9]:
candidates_new = df['response_new_model'].tolist()
candidates_base = df['response_base_model'].tolist()

precon_text_list = df['precondition_texts'].to_list()
precon_pos_list = df["precondition_positions"].to_list()

references = []
for dict1, dict2 in zip(precon_text_list, precon_pos_list):
    dict1 = ast.literal_eval(dict1)
    dict2 = ast.literal_eval(dict2)
    combined = []
    for key in dict1.keys():  # or use sorted(dict1.keys()) if key order isn't guaranteed
        combined.append(str(dict1[key]) + '\n')
        combined.append(str(dict2[key]) + '\n\n')
    references.append(''.join(combined))

print(references)

['een overzicht van de uitgaven en de ontvangsten in de begrotingen voor het begrotingsjaar en de vier daarop aansluitende jaren.\nArtikel 2.23 sectie 4c IN Comptabiliteitswet 2016\n\nde budgettaire beschouwingen over het voorgenomen beleid voor de collectieve sector\nArtikel 2.23 sectie 4b IN Comptabiliteitswet 2016\n\nhet budgettaire totaalbeeld voor het betrokken begrotingsjaar en de vier daaropvolgende jaren van de rijksbegroting en de niet tot de rijksbegroting behorende budgetdisciplinesectoren\nArtikel 2.23 sectie 4a IN Comptabiliteitswet 2016\n\n', 'de verblijfsvergunning wordt verleend met ingang van de dag waarop de vreemdeling heeft aangetoond dat hij aan alle voorwaarden voldoet\nArtikel 26, sectie 1 IN Vreemdelingenwet 2024\n\nde verblijfsvergunning wordt verleend met ingang van een dag eerder dan de dag waarop de aanvraag is ontvangen\nArtikel 26, sectie 1 IN Vreemdelingenwet 2024\n\n', 'Begroting bevat begrotingsstaat\nArtikel 2.2 IN Comptabiliteitswet 2016\n\n', 'colleg

## ROUGE/BLEU on relevant sequence from the answer 

In [10]:
# Evaluation metric 1: ROUGE on relevant sequences
# WHy not BLEU --> penalizes missing ngrams, not something I m looking for here

rouge = evaluate.load('rouge')

results_new = rouge.compute(predictions=candidates_new, references=references)
results_base = rouge.compute(predictions=candidates_base, references=references)

print(f"Results new: {results_new}")
print(f"Results base: {results_base}")

Results new: {'rouge1': np.float64(0.2565681920151968), 'rouge2': np.float64(0.06891495296075426), 'rougeL': np.float64(0.15538943880354444), 'rougeLsum': np.float64(0.2423120915525212)}
Results base: {'rouge1': np.float64(0.3537931177336315), 'rouge2': np.float64(0.20274294527799072), 'rougeL': np.float64(0.23936522250038622), 'rougeLsum': np.float64(0.3421915218579997)}


## BERT Score --> based on embedding similarity

In [11]:
# Maybe add BERTScore --> semantic similarity based on sentencetransformer
P_new, R_new, F1_new = score(
    candidates_new, 
    references, 
    model_type='answerdotai/ModernBERT-base', 
    num_layers=22,
    lang='nl')

P_base, R_base, F1_base = score(
    candidates_base, 
    references, 
    model_type='answerdotai/ModernBERT-base', 
    num_layers=22,
    lang='nl')

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Av

In [12]:
print(f"BERT Score metrics new: {P_new, R_new, F1_new}")
print(f"BERT Score metrics base: {P_base, R_base, F1_base}")

print(f"F1 base: {F1_base.mean()}, F1 new: {F1_new.mean()}")



BERT Score metrics new: (tensor([0.7910, 0.7866, 0.6702, 0.7962]), tensor([0.8069, 0.8561, 0.7887, 0.8184]), tensor([0.7988, 0.8199, 0.7247, 0.8071]))
BERT Score metrics base: (tensor([0.8020, 0.7591, 0.7961, 0.8030]), tensor([0.8674, 0.8447, 0.8619, 0.8218]), tensor([0.8334, 0.7996, 0.8277, 0.8123]))
F1 base: 0.8182516098022461, F1 new: 0.7876150608062744


## G-Eval

In [19]:
# Evaluation metric 2: Evaluate whole answer on G-Eval

prompts = df['prompt'].tolist()


criteria = """


Evalueer hoe goed een taalmodel presteerde in de taak van voorwaarde-extractie uit Nederlandse juridische teksten.

Voor elke lijst van precondities/subfacts werd de act/fact aan een taalmodel gegeven als onderdeel van een prompt, met de opdracht om alle bijbehorende subfact/preconditie(s) en hun respectieve positie(s) in de tekst terug te geven.

Uw taak is om per paar te evalueren hoe goed het model presteerde op twee punten (op een 4-punt Likert-schaal):

1. **Het vinden van alle relevante precondities in de tekst**
2. **Hoe duidelijk de positie in de tekst is die het model aanduidde**

Voor het modelantwoord krijgt u het hele antwoord voor een act/fact (die dus meredere precondities/subfacts kan beïnhouden) en moet u voor elke ground truth preconditie afzonderlijk evalueren of deze 
    a) aanwezig is in het antwoord en 
    b) of de positie ervan ook goed is aangegeven in het antwoord. 


""" #TODO: think about criteria...

precondition_extraction_metric = GEval(
    name="Precondition_Extraction",
    criteria=criteria,
    evaluation_params=[LLMTestCaseParams.INPUT, LLMTestCaseParams.ACTUAL_OUTPUT, LLMTestCaseParams.EXPECTED_OUTPUT],
)

# Now define your test case, actual_output is your LLM output
g_eval_new = LLMTestCase(input=prompts, actual_output=f"Extracetd Preconditions: {candidates_new}", expected_output=f"Expected preconditions: {references}")
g_eval_base = LLMTestCase(input=prompts, actual_output=f"Extracetd Preconditions: {candidates_base}", expected_output=f"Expected preconditions: {references}")


# Use G-Eval metric
precondition_extraction_metric.measure(g_eval_new)
print("Score:", precondition_extraction_metric.score)
print("Reason:", precondition_extraction_metric.reason)

precondition_extraction_metric.measure(g_eval_base)
print("Score:", precondition_extraction_metric.score)
print("Reason:", precondition_extraction_metric.reason)



OpenAIError: The api_key client option must be set either by passing api_key to the client or by setting the OPENAI_API_KEY environment variable

## Personal evaluation

In [14]:
# Generate about 10 answers with both models --> load them into the user interface and get reward score
# Also maybe do qualitative evaluation