# Imports

In [51]:
from transformers import AutoTokenizer, AutoModelForCausalLM,BitsAndBytesConfig
import pandas as pd
from datasets import load_dataset
from sklearn.metrics import cohen_kappa_score
import torch
from tqdm import tqdm
from peft import get_peft_model, LoraConfig, TaskType
from transformers import TrainingArguments, Trainer, DataCollatorForLanguageModeling, logging
import glob
import os


# 🔍 Prometheus LLM-as-a-Judge

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch

prometheur_model_name = "prometheus-eval/prometheus-7b-v2.0"

prometheus_tokenizer = AutoTokenizer.from_pretrained(
    prometheur_model_name,
    trust_remote_code=True
)

prometheus_model = AutoModelForCausalLM.from_pretrained(
    prometheur_model_name,
    trust_remote_code=True, 
    device_map="auto",
    torch_dtype=torch.float16,
    offload_folder="offload_prometheus"
)

judge = pipeline("text-generation", model=prometheus_model, tokenizer=prometheus_tokenizer)


Loading checkpoint shards: 100%|██████████| 8/8 [00:09<00:00,  1.15s/it]
Some parameters are on the meta device because they were offloaded to the cpu.
Device set to use cuda:0


In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import pandas as pd
import re
from tqdm import tqdm
import gc
import csv

# === 1. Carica i dati ===
df_base = pd.read_csv("inputs/dataset_human_eval.csv").head(15)  # usa .head(N) per limitare
df_mistral = pd.read_csv("outputs/dataset_with_mistral_translations.csv").head(15)
df_nnlb = pd.read_csv("outputs/dataset_with_translation_NNLB.csv").head(15)

df_base["mistral"] = df_mistral["generated_translation"]
df_base["mistralHS"] = df_mistral["score_human"]
df_base["nnlb"] = df_nnlb["generated_translation"]
df_base["nnlbHS"] = df_nnlb["score_human"]
# === 2. Carica il modello Prometheus ===
model_name = "prometheus-eval/prometheus-7b-v2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.float16,
    offload_folder="offload_prometheus",
    offload_buffers=True
)
model.eval()

# === 3. Rubrica e prompt ===

def build_judge_prompt(original, human_translation, model_translation):
    return f"""
You are a translation evaluator.

Original:
{original}

Human:
{human_translation}

Model:
{model_translation}
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number:""".strip()




def estrai_punteggio(output):
    match = re.search(r"number:\s*(\d)", output)
    return int(match.group(1)) if match else None

# === 4. Valutazione ===
score_as = []
score_bs = []
winners = []

for _, row in tqdm(df_base.iterrows(), total=len(df_base)):
    for label, translation, score_list in [("A", row["mistral"], score_as), ("B", row["nnlb"], score_bs)]:
        prompt = build_judge_prompt(row["Sentence"], row["HumanEval"], translation)
        inputs = tokenizer(prompt, return_tensors="pt", truncation=True).to(model.device)
        with torch.no_grad():
            output_ids = model.generate(**inputs, max_new_tokens=2, do_sample=False)
        output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
        print(output_text)
        score = estrai_punteggio(output_text)
        score_list.append(score)

        # Pulisce memoria
        del inputs, output_ids
        torch.cuda.empty_cache()
        gc.collect()

    score_a = score_as[-1]
    score_b = score_bs[-1]
    if score_a is None or score_b is None:
        winners.append("?")
    elif score_a > score_b:
        winners.append("A")
    elif score_b > score_a:
        winners.append("B")
    else:
        winners.append("=")

# === 5. Salvataggio ===
df_base["score_a"] = score_as
df_base["score_b"] = score_bs
df_base["winner"] = winners

df_base.to_csv("outputs/prometheus_eval.csv", index=False, quoting=csv.QUOTE_MINIMAL)
print("✅ File salvato in outputs/prometheus_eval.csv")


Loading checkpoint shards: 100%|██████████| 8/8 [00:11<00:00,  1.46s/it]
Some parameters are on the meta device because they were offloaded to the cpu.
  0%|          | 0/15 [00:00<?, ?it/s]Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
quella guerra ben fatta l' opera perché etc. Et dall' altra parte Aiaces era uno cavaliere franco e prode all' arme, di gran guisa, ma non era pieno di grande senno

Human:
Quella guerra fu condotta bene perchè etc. Dall’altra parte, Aiace era un cavaliere franco e valoroso nelle armi, di grande statura, ma non possedeva grande saggezza.

Model:
Quella guerra fu combattuta molto bene perché, eccetto che, etc. E dall'altra parte Aiace era un cavaliere francese e valente in armi, di grande statura, ma non aveva grande saggezza.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
quella guerra ben fatta l' opera perché etc. Et dall' altra parte Aiaces era uno cavaliere franco e prode all' arme, di gran guisa, ma non era pieno di grande senno

Human:
Quella guerra fu condotta bene perchè etc. Dall’altra parte, Aiace era un cavaliere franco e valoroso nelle armi, di grande statura, ma non possedeva grande saggezza.

Model:
E d'altra parte, Aiaces era un cavaliere franco e dotato di armi di grande talento, ma non era pieno di grande saggezza.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 4


  7%|▋         | 1/15 [00:03<00:47,  3.40s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
crudele, e di tutte le colpe pigli vendetta, come dice la legge, ed a neuno cavaliere perdoni che pecchi.

Human:
È crudele, e punisce ogni colpa come vuole la legge, e non perdona alcun cavaliere che sbagli.

Model:
crudele e di tutte le colpe prende vendetta, come dice la legge, e a nessun cavaliere perdona chi pecca.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
crudele, e di tutte le colpe pigli vendetta, come dice la legge, ed a neuno cavaliere perdoni che pecchi.

Human:
È crudele, e punisce ogni colpa come vuole la legge, e non perdona alcun cavaliere che sbagli.

Model:
e vendichi ogni colpa, come dice la legge, e perdoni nessun cavaliere che commette peccato.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 2


 13%|█▎        | 2/15 [00:06<00:40,  3.11s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Non d' altra forza d' animo fue ornato Ponzio Aufidiano, romano cavaliere.

Human:
Ponzio Aufidiano, cavaliere romano, non fu dotato di un animo diverso.

Model:
Non fu ornato di altro coraggio d'animo Ponzio Aufidiano, romano cavaliere.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Non d' altra forza d' animo fue ornato Ponzio Aufidiano, romano cavaliere.

Human:
Ponzio Aufidiano, cavaliere romano, non fu dotato di un animo diverso.

Model:
Non è stata innamorata di altra forza di animo di Ponzio Aufidiano, cavaliere romano.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 1


 20%|██        | 3/15 [00:09<00:36,  3.02s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Se questo piace a tutti e se 'l tempo hae bisogno d'avere Pompeio per cavaliere e non per compagno, non riterrò più i fati.

Human:
Se questo piace a tutti e se il tempo ha bisogno di avere Pompeo come cavaliere e non come compagno, non ostacolerò più il destino.

Model:
Se ti piace a tutti e se il tempo ha bisogno di avere Pompeo come cavaliere e non come compagno, non lo riterrò più tra i fatti.

Explanation:

The text is in the Tuscan dialect of the Italian language, which was used in medieval and Renaissance Italy. The modern Italian equivalent of the Tuscan dialect would be the Italian language as it is spoken today in Italy.

The
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Se questo piace a tutti e se 'l tempo hae bisogno d'avere Pompeio per cavaliere e non per compagno, non riterrò più i fati.

Human:
Se questo piace a tutti e se il tempo ha bisogno di avere Pompeo come cavaliere e non come compagno, non ostacolerò più il destino.

Model:
Se questo gli piace a tutti e se il tempo gli serve per avere Pompei come cavaliere e non come compagno, non ricorderò più i fatti.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 27%|██▋       | 4/15 [00:12<00:32,  2.98s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Officio di questa arte pare che sia dicere appostatamente per fare credere, fine è far credere per lo dire.

Human:
Il compito di quest’arte sembra essere quello di parlare in modo adatto per convincere; lo scopo è far credere qualcosa attraverso le parole.

Model:
Sembra che sia l'obiettivo di questa arte dire qualcosa specificatamente per far credere, in realtà si fa credere per la parola detta.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Officio di questa arte pare che sia dicere appostatamente per fare credere, fine è far credere per lo dire.

Human:
Il compito di quest’arte sembra essere quello di parlare in modo adatto per convincere; lo scopo è far credere qualcosa attraverso le parole.

Model:
Sembra che l'ufficio di questa arte sia dire in modo apposto per far credere, il fine è far credere per dirlo.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 33%|███▎      | 5/15 [00:15<00:29,  2.96s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Ecco e larghi ventipiovoli caggiono delle risolute nebbie; e potresti credere che tutto il cielo cadesse nel mare

Human:
Ecco che forti piogge scendono dalle dense nebbie; potresti pensare che tutto il cielo stia cadendo in mare.

Model:
Qui giunge e venti ventipiani cieli sgombrano le nebbie sicure; potresti credere che tutto il cielo cadesse nell'acqua.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 3


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Ecco e larghi ventipiovoli caggiono delle risolute nebbie; e potresti credere che tutto il cielo cadesse nel mare

Human:
Ecco che forti piogge scendono dalle dense nebbie; potresti pensare che tutto il cielo stia cadendo in mare.

Model:
Ecco che scorre un gran vento di nebbi risoluti e si potrebbe credere che tutto il Cielo fosse caduto in mare.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 40%|████      | 6/15 [00:17<00:26,  2.94s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Però che or chi spererebbe quello che eziandio questi che non vogliono ancora credere in Cristo, già veggiono con noi, e perché nol possono negare, stridono colli denti.

Human:
Perché ora chi spererebbe ciò che anche quelli che non vogliono ancora credere in Cristo, già vedono insieme a noi, e poiché non lo possono negare, stringono i denti.

Model:
Ma chi potrebbe sperare ora quello che questi, che ancora non credono in Cristo, non lo vedono già con noi, e perché non possono negarlo, lo stridono con i denti.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 1


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Però che or chi spererebbe quello che eziandio questi che non vogliono ancora credere in Cristo, già veggiono con noi, e perché nol possono negare, stridono colli denti.

Human:
Perché ora chi spererebbe ciò che anche quelli che non vogliono ancora credere in Cristo, già vedono insieme a noi, e poiché non lo possono negare, stringono i denti.

Model:
Ma ora, coloro che ancora non credono in Cristo vedono con noi ciò che spero, e perché non possono negarlo, fanno urlo di denti.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 47%|████▋     | 7/15 [00:21<00:23,  2.97s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
I vendimenti de' morti et le presure de' vivi fece la frode d'uno feroce re.

Human:
Le vendite dei morti e le pressioni sui vivi furono opera dell’inganno di un re crudele.

Model:
La morte dei morti e le pressioni dei vivi fecero la frode di un crudele re.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
I vendimenti de' morti et le presure de' vivi fece la frode d'uno feroce re.

Human:
Le vendite dei morti e le pressioni sui vivi furono opera dell’inganno di un re crudele.

Model:
Le vendite dei morti e le pressioni dei vivi hanno reso possibile l'inganno di un re feroce.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 53%|█████▎    | 8/15 [00:23<00:20,  2.94s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Acciocché quegli, il quale ora per le sue gran reità è feroce e onorevole, egli d'ogni male afflitto e tormentato della impietà verso il mio padre.

Human:
 Così che colui, che ora è temuto e onorato per i suoi grandi delitti, sia tormentato da ogni male a causa della sua crudeltà verso mio padre.

Model:
Affinché quello, il quale ora per le sue grandi reazioni è fiero e onorabile, egli sia afflitto e tormentato da ogni male per la sua impietas verso il mio padre.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Acciocché quegli, il quale ora per le sue gran reità è feroce e onorevole, egli d'ogni male afflitto e tormentato della impietà verso il mio padre.

Human:
 Così che colui, che ora è temuto e onorato per i suoi grandi delitti, sia tormentato da ogni male a causa della sua crudeltà verso mio padre.

Model:
Perché lui, che ora è feroce e onorevole per le sue grandi ricchezze, è afflitto da ogni male e tormentato dall'impedimento verso mio padre.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 60%|██████    | 9/15 [00:26<00:17,  2.95s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Gli uomini spessamente a stare fermi nella bugia incontra la verità.

Human:
Spesso gli uomini incontrano la verità mentre stanno fermi in una bugia.

Model:
Spesso gli uomini incontrano la verità mentre stanno fermi in una bugia.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Gli uomini spessamente a stare fermi nella bugia incontra la verità.

Human:
Spesso gli uomini incontrano la verità mentre stanno fermi in una bugia.

Model:
Spesso gli uomini che restano fermi nella menzogna incontrano la verità.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 67%|██████▋   | 10/15 [00:29<00:14,  2.92s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Marco Cornelio ch'era de' dieci compagni, studiosamente  si riservò di parlare all'ultimo.

Human:
Marco Cornelio, che era uno dei dieci compagni, si riservò di parlare per ultimo con grande attenzione.

Model:
Marco Cornelio, che era tra i dieci compagni, si tenne per ultimo a parlare con sguardo attento.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Marco Cornelio ch'era de' dieci compagni, studiosamente  si riservò di parlare all'ultimo.

Human:
Marco Cornelio, che era uno dei dieci compagni, si riservò di parlare per ultimo con grande attenzione.

Model:
Marco Cornelio, che era uno dei dieci compagni, si riserva attentamente di parlare con l'ultimo.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 73%|███████▎  | 11/15 [00:32<00:11,  2.92s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
cose ch'io sapeva che erano fatte in Italia.

Human:
Cose che sapevo essere avvenute in Italia.

Model:
cose che in Italia si facevano.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 1


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
cose ch'io sapeva che erano fatte in Italia.

Human:
Cose che sapevo essere avvenute in Italia.

Model:
cose che sapevo fossero fatte in Italia.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 80%|████████  | 12/15 [00:35<00:08,  2.90s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Corbio nipote d' Ortensio menò sua vita più bassa e più viziosa

Human:
Corbio, nipote di Ortensio, visse una vita più bassa e viziosa.

Model:
Il nipote di Corbio, Ortensio, condusse una vita più bassa e più viziosa.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Corbio nipote d' Ortensio menò sua vita più bassa e più viziosa

Human:
Corbio, nipote di Ortensio, visse una vita più bassa e viziosa.

Model:
Corbio, nipote di Ortenzio, trascorse la sua vita più bassa e viziosa.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 87%|████████▋ | 13/15 [00:38<00:05,  2.89s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Altressì uno amante chiamando merzé alla sua donna dice parole e ragioni molte, et ella si difende in suo dire.

Human:
Così anche un innamorato, chiedendo pietà alla sua donna, pronuncia molte parole e motivi, e lei risponde difendendosi.

Model:
Inoltre un amante chiamandole grazia alla donna risponde con parole e ragioni tante, e lei si difende nel suo dire.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Altressì uno amante chiamando merzé alla sua donna dice parole e ragioni molte, et ella si difende in suo dire.

Human:
Così anche un innamorato, chiedendo pietà alla sua donna, pronuncia molte parole e motivi, e lei risponde difendendosi.

Model:
Un amante, chiamando grazie a sua moglie, dice molte parole e ragioni, e lei difende la sua opinione.
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


 93%|█████████▎| 14/15 [00:41<00:02,  2.86s/it]Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Io mi ricordo (ch. 347) che essendo adirato scapigliai la mia donna. Ohi, quanti dì questa ira mi tolse!

Human:
Ricordo che, essendo arrabbiato, scompigliai i capelli della mia donna. Ahimè, quanti giorni persi a causa di quell’ira!

Model:
Ricordo che, arrabbiato, la mia donna irritai. Oh, quanti giorni mi tolse quell’ira!
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


You are a translation evaluator.

Original:
Io mi ricordo (ch. 347) che essendo adirato scapigliai la mia donna. Ohi, quanti dì questa ira mi tolse!

Human:
Ricordo che, essendo arrabbiato, scompigliai i capelli della mia donna. Ahimè, quanti giorni persi a causa di quell’ira!

Model:
Mi ricordo (cfr. 347) che quando fui infuriato, fui in fuga con mia moglie. Oh, quanti giorni mi ha spinto questa ira!
Your task is to assign a score from 1 to 5 that reflects how well the model's translation preserves the original meaning:
score 1 = Completely wrong
score 2 = Major errors
score 3 = Understandable but flawed
score 4 = Mostly correct
score 5 = Perfectly accurate

Always answer with just the number: 5


100%|██████████| 15/15 [00:43<00:00,  2.92s/it]

✅ File salvato in outputs/prometheus_scores.csv





In [23]:
print(output_text)

You are a translation evaluator.

Original:
Io mi ricordo (ch. 347) che essendo adirato scapigliai la mia donna. Ohi, quanti dì questa ira mi tolse!

Human:
Ricordo che, essendo arrabbiato, scompigliai i capelli della mia donna. Ahimè, quanti giorni persi a causa di quell’ira!

Model:
Mi ricordo (cfr. 347) che quando fui infuriato, fui in fuga con mia moglie. Oh, quanti giorni mi ha spinto questa ira!

Evaluate how well the model's translation preserves the original meaning.

Semantic fidelity of the translation
Score 1: Meaning completely lost or unrelated to the original.
Score 2: Major distortions or omissions; the translation misleads the reader.
Score 3: Main idea is conveyed, but with several inaccuracies or confusing parts.
Score 4: Mostly correct. Minor issues, but the meaning is clear.
Score 5: Fully accurate. Captures all meaning in a fluent, faithful way.

Reply with:
Score (1–5): 5

The


# 📊 Calcolo concordanza

In [None]:
df_base = pd.read_csv("outputs/prometheus_eval.csv")

In [50]:
from sklearn.metrics import cohen_kappa_score, classification_report, confusion_matrix

def evaluate_concordance(y_true, y_pred):
    print("== Valori unici ==")
    print("Umano:", sorted(set(y_true)))
    print("Modello:", sorted(set(y_pred)))
    
    if len(set(y_true)) < 2 or len(set(y_pred)) < 2:
        print("⚠️ Non abbastanza variabilità per calcolare Cohen's Kappa.")
        return
    
    print("\n== Cohen’s Kappa ==")
    print(f"{cohen_kappa_score(y_true, y_pred):.3f}")


print("MISTRAL")
evaluate_concordance(df_base["mistralHS"], df_base["score_a"])

print("NNLB")
evaluate_concordance(df_base["nnlbHS"], df_base["score_b"])


MISTRAL
== Valori unici ==
Umano: [2, 3, 4, 5]
Modello: [1, 3, 5]

== Cohen’s Kappa ==
0.137
NNLB
== Valori unici ==
Umano: [2, 3, 4, 5]
Modello: [1, 2, 4, 5]

== Cohen’s Kappa ==
0.052
