## Instalare de dependinte si setup de environment

In [None]:
%pip install datasets transformers peft accelerate bitsandbytes evaluate

Collecting bitsandbytes
  Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting evaluate
  Downloading evaluate-0.4.3-py3-none-any.whl.metadata (9.2 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.13.0->peft)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.13.0->peft)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.13.0->peft)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.13.0->peft)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=1.13.0->peft)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_

In [None]:
from datasets import load_dataset, DatasetDict, Dataset
import json
import evaluate
from tqdm import tqdm
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
import torch
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import numpy as np
import re
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from accelerate import infer_auto_device_map
from huggingface_hub import login

In [None]:
login(token="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")

In [None]:
!nvidia-smi

Sat Jun  7 11:16:35 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA L4                      Off |   00000000:00:03.0 Off |                    0 |
| N/A   45C    P8             17W /   72W |       3MiB /  23034MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

## Incarcarea dataset-urilor

In [None]:
def incarca_dataset(hf_repo_id: str, split: str = "train"):
    """
    Încarcă un dataset de pe Hugging Face Hub.

    Args:
        hf_repo_id (str): ID-ul dataset-ului pe Hugging Face, ex: "RKThirteen/ImaginiExamenAuto"
        split (str): Subsetul dorit (ex: "train", "test", etc.)

    Returns:
        Dataset: Obiectul Dataset încărcat
    """
    try:
        dataset = load_dataset(hf_repo_id, split=split)
        print(f"Dataset încărcat cu succes! Nr exemple: {len(dataset)} ")
        return dataset
    except Exception as e:
        print(f"Eroare la încărcarea datasetului: {e}")
        return None

### Pentru dataset local

In [None]:
def load_json(filepath):
    """
    Încarcă un fișier JSON și returnează conținutul ca listă sau dict.

    Args:
        filepath (str): Calea către fișierul .json

    Returns:
        list | dict: Obiectul JSON încărcat
    """
    with open(filepath, 'r', encoding='utf-8') as f:
        return json.load(f)


In [None]:
def concat_json_lists(*json_arrays):
    """
    Concatenează oricâte liste JSON (liste de dicționare).

    Args:
        *json_arrays: Liste JSON (ex: list[dict], list[dict], ...)

    Returns:
        list: O listă unificată de dicționare
    """
    merged = []
    for json_list in json_arrays:
        if not isinstance(json_list, list) or not all(isinstance(x, dict) for x in json_list):
            raise TypeError("Toate elementele trebuie să fie liste de dicționare JSON.")
        merged.extend(json_list)
    return merged


In [None]:
from datasets import Dataset

def json_to_dataset(json_list):
    """
    Transformă o listă de dicționare JSON într-un Hugging Face Dataset.

    Args:
        json_list (list): Lista JSON (listă de dicționare)

    Returns:
        datasets.Dataset: Obiect Dataset HF
    """
    if not isinstance(json_list, list) or not all(isinstance(x, dict) for x in json_list):
        raise ValueError("Inputul trebuie să fie o listă de dicționare.")
    return Dataset.from_list(json_list)


In [None]:
data_images = load_json("questions_with_images.json")
data_no_images = load_json("questions_without_images.json")

# Concatenează
merged = concat_json_lists(data_images,data_no_images)
print(merged)

# Creează dataset Hugging Face
auto_dataset_local = json_to_dataset(merged)
auto_dataset_local_images = json_to_dataset(data_images)
auto_dataset_local_no_images = json_to_dataset(data_no_images)

# Vizualizează primele 3 exemple
print(auto_dataset_local[:3])

[{'id': '0', 'question': 'Dacă ați selectat banda de circulație conform imaginii prezentate, vă este permis:', 'image_path': 'https://huggingface.co/datasets/RKThirteen/ImaginiExamenAuto/resolve/main/1.jpg', 'image_description': 'Imaginea prezintă o perspectivă din interiorul unui vehicul aflat într-o intersecție semaforizată. Semaforul verde permite deplasarea vehiculului, care este incadrat pe banda din dreapta, care are marcaj ce îi permite deplasarea înainte sau la dreapta ', 'answers': ['Să circulați înainte sau la dreapta', 'Să virați numai la dreapta', 'Să circulați numai înainte'], 'correct_answers': ['Să circulați înainte sau la dreapta'], 'explanation': 'În această situație vă apropiați de o intersecție în care este obligatoriu să se circule pe una dintre direcțiile înainte sau la dreapta, obligație impusă prin indicatorul de obligare „Înainte sau la dreapta” și prin marcajele prin săgeți pentru selectare pe benzi. Această semnalizare rutieră interzice efectuarea virajului că

In [None]:
# auto_dataset = incarca_dataset("RKThirteen/Auto", split="train")

In [None]:
# print(auto_dataset[0])

## Preprocesare pentru LLM text-only

In [None]:
def preprocess_llm_text_only(example, include_image_description=True):
    """
    Preprocesează o instanță de întrebare pentru fine-tuning LLM text-only.

    Args:
        example (dict): O întrebare din dataset.
        include_image_description (bool): Dacă se include descrierea imaginii în prompt.

    Returns:
        dict: Obiect cu 'prompt' și 'response' pregătite pentru LLM.
    """
    question = example.get("question", "").strip()
    raw_desc = example.get("image_description")
    image_desc = raw_desc.strip() if isinstance(raw_desc, str) else "fără descriere"
    answers = example.get("answers", [])
    correct = [c.strip().lower() for c in example.get("correct_answers", [])]
    explanation = example.get("explanation", "").strip()

    if len(answers) > 26:
        raise ValueError("Maximum number of answers exceeded (26)")

    option_letters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
    options = [f"{option_letters[i]}: {ans.upper()}" for i, ans in enumerate(answers)]
    options_str = "\n".join(options)

    prompt = f"Întrebare: {question}"
    if include_image_description and image_desc and image_desc.lower() != "fără descriere":
        prompt += f"\nDescriere imagine: {image_desc}"
    prompt += "\nAlege unul sau mai multe răspunsuri corecte:\n" + options_str

    response_letters = [
        option_letters[i]
        for i, ans in enumerate(answers)
        if ans.strip().lower() in correct
    ]

    if len(explanation) > 1000:
        explanation = explanation[:1000].rsplit('.', 1)[0] + "..."

    response = (
        f"Răspuns corect: {', '.join(response_letters)}\n\n"
        f"Explicație: {explanation}"
    )

    return {
        "prompt": prompt.strip(),
        "response": response
    }


In [None]:
text_only_prompts = auto_dataset_local.map(preprocess_llm_text_only)
print(text_only_prompts[0])

Map:   0%|          | 0/1208 [00:00<?, ? examples/s]

{'id': '0', 'question': 'Dacă ați selectat banda de circulație conform imaginii prezentate, vă este permis:', 'image_path': 'https://huggingface.co/datasets/RKThirteen/ImaginiExamenAuto/resolve/main/1.jpg', 'image_description': 'Imaginea prezintă o perspectivă din interiorul unui vehicul aflat într-o intersecție semaforizată. Semaforul verde permite deplasarea vehiculului, care este incadrat pe banda din dreapta, care are marcaj ce îi permite deplasarea înainte sau la dreapta ', 'answers': ['Să circulați înainte sau la dreapta', 'Să virați numai la dreapta', 'Să circulați numai înainte'], 'correct_answers': ['Să circulați înainte sau la dreapta'], 'explanation': 'În această situație vă apropiați de o intersecție în care este obligatoriu să se circule pe una dintre direcțiile înainte sau la dreapta, obligație impusă prin indicatorul de obligare „Înainte sau la dreapta” și prin marcajele prin săgeți pentru selectare pe benzi. Această semnalizare rutieră interzice efectuarea virajului căt

## Preprocesare pentru LLM multimodal

In [None]:
def preprocess_llm_multimodal(example, image_source_key="image_path", include_image_description=False):
    """
    Preprocesează o instanță pentru fine-tuning LLM multimodal.

    Args:
        example (dict): Întrebarea brută.
        image_source_key (str): Cheia folosită pentru imagine (ex: 'image_path').

    Returns:
        dict: Obiect cu 'image', 'text' (prompt) și 'response'
    """
    question = example.get("question", "").strip()
    image_url = example.get(image_source_key, None)
    raw_desc = example.get("image_description")
    image_desc = raw_desc.strip() if isinstance(raw_desc, str) else "fără descriere"
    answers = example.get("answers", [])
    correct = [c.strip().lower() for c in example.get("correct_answers", [])]
    explanation = example.get("explanation", "").strip()

    option_letters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
    options = [f"{option_letters[i]}: {ans.upper()}" for i, ans in enumerate(answers)]
    options_str = "\n".join(options)

    if image_url is None:
        context = "Nu este furnizată nicio imagine. Răspunde doar pe baza întrebării de mai jos."
    else:
        context = "Imaginea conține o situație rutieră. Răspunde pe baza acesteia și a întrebării de mai jos."

    prompt = f"{context}\nÎntrebare: {question}"
    if include_image_description and image_desc and image_desc.lower() != "fără descriere":
        prompt += f"\nDescriere imagine: {image_desc}"
    prompt += "\nAlege unul sau mai multe răspunsuri corecte:\n" + options_str

    response_letters = [
        option_letters[i]
        for i, ans in enumerate(answers)
        if ans.strip().lower() in correct
    ]

    if len(explanation) > 1000:
        explanation = explanation[:1000].rsplit('.', 1)[0] + "..."

    response = (
        f"Răspuns corect: {', '.join(response_letters)}\n\n"
        f"Explicație: {explanation}"
    )

    return {
        "image": image_url,
        "prompt": prompt.strip(),
        "response": response
    }

In [None]:
multimodal_prompts = auto_dataset_local.map(preprocess_llm_multimodal)
print(multimodal_prompts[0])

Map:   0%|          | 0/1208 [00:00<?, ? examples/s]

{'id': '0', 'question': 'Dacă ați selectat banda de circulație conform imaginii prezentate, vă este permis:', 'image_path': 'https://huggingface.co/datasets/RKThirteen/ImaginiExamenAuto/resolve/main/1.jpg', 'image_description': 'Imaginea prezintă o perspectivă din interiorul unui vehicul aflat într-o intersecție semaforizată. Semaforul verde permite deplasarea vehiculului, care este incadrat pe banda din dreapta, care are marcaj ce îi permite deplasarea înainte sau la dreapta ', 'answers': ['Să circulați înainte sau la dreapta', 'Să virați numai la dreapta', 'Să circulați numai înainte'], 'correct_answers': ['Să circulați înainte sau la dreapta'], 'explanation': 'În această situație vă apropiați de o intersecție în care este obligatoriu să se circule pe una dintre direcțiile înainte sau la dreapta, obligație impusă prin indicatorul de obligare „Înainte sau la dreapta” și prin marcajele prin săgeți pentru selectare pe benzi. Această semnalizare rutieră interzice efectuarea virajului căt

## Salvare in format jsonl

In [None]:
def proceseaza_si_salveaza(dataset, mode="text_only", output_path="output.jsonl"):
    preprocessed = []
    for example in tqdm(dataset):
        if mode == "text_only":
            processed = preprocess_llm_text_only(example)
        elif mode == "multimodal":
            processed = preprocess_llm_multimodal(example)
        else:
            raise ValueError("Mode invalid: trebuie 'text_only' sau 'multimodal'")
        preprocessed.append(processed)

    with open(output_path, "w", encoding="utf-8") as f:
        for row in preprocessed:
            json.dump(row, f, ensure_ascii=False)
            f.write("\n")
    print(f"✅ Salvat {len(preprocessed)} exemple în {output_path}")

In [None]:
proceseaza_si_salveaza(auto_dataset_local, mode="text_only", output_path="text_only.jsonl")
proceseaza_si_salveaza(auto_dataset_local, mode="multimodal", output_path="multimodal.jsonl")

100%|██████████| 1208/1208 [00:00<00:00, 11073.30it/s]


✅ Salvat 1208 exemple în text_only.jsonl


100%|██████████| 1208/1208 [00:00<00:00, 10927.21it/s]

✅ Salvat 1208 exemple în multimodal.jsonl





## Fine-tuning text-only LLM's

# Impartirea dataset-ului in train/test


In [None]:
# from dataset import load_dataset

# dataset_text_only = load_dataset("json", data_files="text_only.jsonl", split="train")
# split_dataset = dataset_text_only.train_test_split(test_size=0.2,seed=42)
# train_ds = split_dataset["train"]
# test_ds = split_dataset["test"]

In [None]:
def load_jsonl_as_list(filepath):
    with open(filepath, 'r', encoding='utf-8') as f:
        return [json.loads(line) for line in f]

data = load_jsonl_as_list("text_only.jsonl")
dataset_text_only = Dataset.from_list(data)

split_dataset = dataset_text_only.train_test_split(test_size=0.2, seed=42)
train_ds = split_dataset["train"]
test_ds = split_dataset["test"]


In [None]:
print(train_ds[0])
print(test_ds[0])

{'prompt': 'Întrebare: Unde veți parca vehiculul la întâlnirea acestui indicator?\nDescriere imagine: Imaginea prezintă un drum urban cu indicatorul dreptunghiular albastru, pe care scrie cu alb P și mai are sub P o săgeată albă, spre dreapta, ce indică zonă de parcare.\nAlege unul sau mai multe răspunsuri corecte:\nA: PE DIRECȚIA INDICATĂ, ÎN PARCAREA SPECIAL AMENAJATĂ\nB: PE TROTUAR, PERPENDICULAR PE ACESTA\nC: PE TROTUAR, ÎN LUNGUL ACESTUIA', 'response': 'Răspuns corect: A\n\nExplicație: Parcarea vehiculelor se efectuează doar în spațiile special amenajate în acest scop. Deci în situația din imagine veți parca autovehiculul în parcarea special amenajată, aceasta se găsește în direcția indicată de săgeată.'}
{'prompt': 'Întrebare: Cum procedezi la întâlnirea indicatorului pe un drum național european?\nDescriere imagine: Drum național european cu indicatorul pătrat albastru cu simbolul unui autoturism semnifică un drum destinat exclusiv autoturismelor.\nAlege unul sau mai multe răspu

### Fine-tuning pentru LLM-uri text-only


In [None]:
# def analyze_model(model_id="OpenLLM-Ro/RoGemma2-9b-Instruct"):
#     print(f"\n=== Analiză pentru modelul: {model_id} ===\n")

#     # Încarcă tokenizerul
#     tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
#     print("[✓] Tokenizer încărcat.")

#     # Încearcă să încarce modelul FP16 (pentru a evita probleme la început)
#     try:
#         model = AutoModelForCausalLM.from_pretrained(
#             model_id,
#             device_map="cpu",  # evită folosirea memoriei GPU
#             torch_dtype=torch.float16,
#             trust_remote_code=True
#         )
#         print("[✓] Modelul s-a încărcat cu succes în fp16.")
#     except Exception as e:
#         print(f"[✗] Eroare la încărcarea modelului: {e}")
#         return

#     # Afișează layerele care conțin "proj" (utile pentru LoRA)
#     print("\n=== Layer(e) relevante pentru LoRA (care conțin 'proj') ===")
#     for name, module in model.named_modules():
#         if "proj" in name or "query" in name or "value" in name:
#             print("  •", name)

#     # Verifică dacă se poate folosi LoRA (PEFT)
#     try:
#         print("\n=== Verific LoRA compatibility ===")
#         model = prepare_model_for_kbit_training(model)
#         print("[✓] Modelul este compatibil cu PEFT și LoRA (după pregătire).")
#     except Exception as e:
#         print(f"[✗] Modelul NU este compatibil cu PEFT direct: {e}")

#     # Test: încercare de inferare device_map automată (pentru quantizare + distribuit)
#     try:
#         device_map = infer_auto_device_map(model, no_split_module_classes=["DecoderLayer"], max_memory={"cpu": "10GiB"})
#         print("\n[✓] infer_auto_device_map a funcționat. Modelul poate fi împărțit.")
#     except Exception as e:
#         print(f"[!] Device map automată a eșuat: {e}")

#     print("\n=== Sfârșitul analizei ===")

# analyze_model("OpenLLM-Ro/RoGemma2-9b-Instruct")  # sau alt model

In [None]:
def load_model(model_id="microsoft/phi-2", use_lora=False, lora_r=8, lora_alpha=16):
    tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
    tokenizer.pad_token = tokenizer.eos_token

    # Încarcă modelul quantizat
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        device_map="auto",
        trust_remote_code=True,
        load_in_4bit=True,
        # attn_implementation="eager",  # recomandat pt. Gemma2
        offload_folder="./offload"
    )

    if use_lora:
        model = prepare_model_for_kbit_training(model)

        config = LoraConfig(
            r=lora_r,
            lora_alpha=lora_alpha,
            target_modules=[
                  "q_proj",
                  "v_proj",
              ],
            bias="none",
            task_type="CAUSAL_LM",
        )

        model = get_peft_model(model, config)

    return model, tokenizer

In [None]:
def finetune_llm(model, tokenizer, dataset, output_dir="finetuned", max_steps=200):
    def tokenize(example):
        prompt = example["prompt"] + "\nRăspuns:"
        full = prompt + " " + example["response"]
        tokens = tokenizer(full, truncation=True, padding="max_length", max_length=512)
        tokens["labels"] = tokens["input_ids"].copy()
        return tokens

    tokenized = dataset.map(tokenize, remove_columns=dataset.column_names)
    collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)

    args = TrainingArguments(
        output_dir=output_dir,
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        learning_rate=2e-4,
        logging_steps=10,
        save_steps=50,
        max_steps=max_steps,
        fp16=True,
        save_total_limit=1,
        report_to="none"
    )

    trainer = Trainer(
        model=model,
        tokenizer=tokenizer,
        args=args,
        train_dataset=tokenized,
        data_collator=collator,
    )

    print("Model dtype check:", next(model.parameters()).dtype)
    trainer.train()
    model.save_pretrained(output_dir)
    tokenizer.save_pretrained(output_dir)

## Fine-tuning multimodal

## Validare modele

In [None]:
import re
import csv
import os

def extract_choices_from_prompt(text):
    """
    Extract labeled choices A, B, C from the prompt like 'A:', 'B:', etc.
    """
    return set(re.findall(r"\b([ABC])\s*:", text.upper()))


# === Helper: Extract choices from a model or human response ===
def extract_choices_from_response(text):
    """
    Extract answer letters (A, B, C) from a response string.
    Looks after 'Răspuns:' but also supports general patterns.
    """
    text = text.upper()

    # Look specifically after 'RĂSPUNS:'
    match = re.search(r"RĂSPUNS(?:\s+CORECT)?\s*[:：]?\s*([ABC](?:[\s,]+[ABC])*)", text)
    if match:
        return set(re.findall(r"[ABC]", match.group(1)))
    return None

def evaluate_model(model, tokenizer, dataset, max_new_tokens=128, log_progress=30, verbose=False, output_csv_path="evaluare_output.csv"):
    model.eval()
    golds, preds = [], []
    exact_matches = 0

    file_exists = os.path.exists(output_csv_path)
    with open(output_csv_path, "a", encoding="utf-8", newline="") as f:
      writer = csv.DictWriter(f, fieldnames=["index", "prompt", "golds", "preds", "response"])
      if not file_exists:
        writer.writeheader()
      for i, ex in enumerate(tqdm(dataset, desc="Evaluare", unit="ex")):
          try:
              # Augment prompt with instruction
              prompt = (
                  ex["prompt"].strip()
                  + "Oferă DOAR litera sau literele răspunsului corect \n"
                  + "Răspuns:"
              )
              # print(ex["response"])
              # Extract gold choices from annotated response
              gold = extract_choices_from_response(ex["response"])

              # Tokenize prompt
              tokens = tokenizer(prompt, truncation=True, max_length=1024, return_tensors="pt")
              for k, v in tokens.items():
                # print(f"{k}: dtype={v.dtype}, shape={v.shape}")
                if v.dtype in (torch.float32, torch.float64):
                    tokens[k] = v.to(dtype=torch.float16, device=model.device)
                else:
                    tokens[k] = v.to(model.device)

              # Generate output
              with torch.no_grad():
                  output = model.generate(
                      **tokens,
                      max_new_tokens=max_new_tokens,
                      do_sample=False,
                      pad_token_id=tokenizer.pad_token_id
                  )

              decoded = tokenizer.decode(output[0], skip_special_tokens=True)
              pred = extract_choices_from_response(decoded)

              # Logging
              if verbose and (i % log_progress == 0 or i == len(dataset) - 1):
                  print("📘 Prompt:", prompt)
                  print("✅ Gold:", gold)
                  print("🧠 Pred:", pred)
                  print("📝 Decoded:", decoded)
                  print("-" * 60)

              # Store results
              if gold and pred:
                  golds.append(gold)
                  preds.append(pred)
                  if gold == pred:
                      exact_matches += 1
              writer.writerow({
                    "index": i,
                    "prompt": ex["prompt"],
                    "golds": ",".join(sorted(gold)) if gold else "",
                    "preds": ",".join(sorted(pred)) if pred else "",
                    "response": decoded
                })
              f.flush()

              del tokens, output
              torch.cuda.empty_cache()
          except Exception as e:
              print(f"[❌ EROARE] {e}")
              continue

    print(f"\n📝 CSV salvat la: {output_csv_path}")

    total = len(golds)
    accuracy = exact_matches / total if total else 0
    print(f"\n📊 Acuratețe totală (exact match): {accuracy:.2%}")
    return golds, preds, accuracy

In [None]:
def stringify_choices(choices):
    return " ".join(sorted(choices))

def plot_confusion(golds, preds, labels=None, title="Confusion Matrix", save_path=None):
    cm = confusion_matrix(golds, preds, labels=labels)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=labels)
    disp.plot(cmap="Blues", xticks_rotation=45)
    plt.title(title)
    if save_path:
        plt.savefig(save_path, dpi=300)
    plt.show()

def save_results(golds, preds, accuracy, path_csv="results.csv", path_img="confusion.png"):
    # Convert sets to sorted string labels like "A", "A B", etc.
    gold_strs = [stringify_choices(g) for g in golds]
    pred_strs = [stringify_choices(p) for p in preds]

    # Save to CSV
    df = pd.DataFrame({"Gold": gold_strs, "Pred": pred_strs})
    df.to_csv(path_csv, index=False)

    # Compute unique label set
    labels = sorted(set(gold_strs + pred_strs))
    plot_confusion(gold_strs, pred_strs, labels=labels, save_path=path_img)

def compute_accuracy_from_csv(csv_path, verbose=True):
    """
    Compute exact match accuracy from a CSV with 'Gold' and 'Pred' columns.
    Assumes labels are space-separated letters (e.g., 'A', 'A C', 'B C').
    """
    df = pd.read_csv(csv_path)

    # Safety check
    if 'golds' in df.columns and 'preds' in df.columns:
        df.rename(columns={'golds': 'Gold', 'preds': 'Pred'}, inplace=True)
    if 'Gold' not in df.columns or 'Pred' not in df.columns:
        raise ValueError("CSV must contain 'Gold' and 'Pred' columns.")

    def to_set(s):
        return set(str(s).strip().upper().split())

    golds = df['Gold'].map(to_set)
    preds = df['Pred'].map(to_set)

    total = len(df)
    correct = sum(g == p for g, p in zip(golds, preds))
    accuracy = correct / total if total > 0 else 0.0


    if verbose:
        print(f"Fisier:{csv_path}")
        print(f"✅ Total: {total}")
        print(f"✅ Correct (Exact Matches): {correct}")
        print(f"📊 Accuracy: {accuracy:.2%}")

    return accuracy


### Testarea modelului: zero-shot

In [None]:
# !rm -rf /root/.cache/huggingface
# !rm -rf /content/*model*
# !rm -rf /content/*tokenizer*
# !rm -rf ./offload
model_zero, tok_zero = load_model("OpenLLM-Ro/RoLlama3.1-8b-Instruct", use_lora=True)
# save_results(golds_0, preds_0, acc_0, "zero_results.csv", "zero_confusiont.png")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/57.6k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/683 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/975 [00:00<?, ?B/s]

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


model.safetensors.index.json:   0%|          | 0.00/24.2k [00:00<?, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/196 [00:00<?, ?B/s]

In [None]:
# def run_single_prompt(prompt, model, tokenizer, max_new_tokens=16):
#     model.eval()
#     device = next(model.parameters()).device  # detectează device-ul real (GPU / CPU / disk offload)
#     if device.type == "cpu":
#       print("⚠️ Atenție: modelul este pe CPU — inferența va fi foarte lentă.")
#     else:
#       print("✅ Modelul este pe GPU:", device)
#     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=1024)
#     inputs = {k: v.to(device) for k, v in inputs.items()}

#     with torch.no_grad():
#         output = model.generate(
#             **inputs,
#             max_new_tokens=max_new_tokens,
#             do_sample=False,
#             pad_token_id=tokenizer.pad_token_id
#         )

#     decoded = tokenizer.decode(output[0], skip_special_tokens=True)
#     print(decoded)
#     return decoded
# print(model_zero.hf_device_map)
# prompt = "Întrebare: Ce semnifică indicatorul STOP?\nA: Oprire\nB: Prioritate\nC: Pericol\nRăspuns:"
# run_single_prompt(prompt, model_zero, tok_zero)

In [None]:
import gc

gc.collect()
torch.cuda.empty_cache()

In [None]:
# # print(model_zero)
# golds_0, preds_0, acc_0 = evaluate_model(model_zero, tok_zero, test_ds, max_new_tokens=16, verbose = True)
# save_results(golds_0, preds_0, acc_0, "zero_results_OpenLLM-Ro_RoLlama3.1-8b-Instruct.csv", "zero_confusion_OpenLLM-Ro_RoLlama3.1-8b-Instruct.png")

### Testarea modelului: fine-tuning

In [None]:
# model_zero, tok_zero = load_model("OpenLLM-Ro/RoLlama3-8b-Instruct", use_lora=True)
finetune_llm(model_zero, tok_zero, train_ds, max_steps=200)
golds_ft, preds_ft, acc_ft = evaluate_model(model_zero, tok_zero, test_ds, verbose = True, max_new_tokens=200, output_csv_path="results_RoLlama3.1_finetune.csv")
# save_results(golds_ft, preds_ft, acc_ft, "finetune_results.csv", "finetune_confusion.png")

Map:   0%|          | 0/966 [00:00<?, ? examples/s]

  trainer = Trainer(
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


Model dtype check: torch.float32


  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)


Step,Training Loss
10,1.5029
20,1.2643
30,1.1533
40,1.1554
50,1.1302
60,1.0967
70,1.1043
80,1.0297
90,1.1269
100,1.0572


  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
  return fn(*args, **kwargs)
Evaluare:   0%|          | 0/242 [00:00<?, ?ex/s]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   0%|          | 1/242 [00:16<1:04:25, 16.04s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📘 Prompt: Întrebare: Cum procedezi la întâlnirea indicatorului pe un drum național european?
Descriere imagine: Drum național european cu indicatorul pătrat albastru cu simbolul unui autoturism semnifică un drum destinat exclusiv autoturismelor.
Alege unul sau mai multe răspunsuri corecte:
A: FOLOSEȘTI LUMINILE DE ÎNTÂLNIRE
B: VIREZI LA STÂNGA SAU LA DREAPTA ÎN PRIMA INTERSECȚIE
C: ÎNTORCI, DEOARECE URMEAZĂ UN SECTOR DE DRUM INTERZIS CIRCULAȚIEI AUTOVEHICULELORMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'A'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Cum procedezi la întâlnirea indicatorului pe un drum național european?
Descriere imagine: Drum național european cu indicatorul pătrat albastru cu simbolul unui autoturism semnifică un drum destinat exclusiv autoturismelor.
Alege unul sau mai multe răspunsuri corecte:
A: FOLOSEȘTI LUMINILE DE ÎNTÂLNIRE
B: VIREZI LA STÂNGA SAU LA DREAPTA ÎN PRIMA INTERSECȚIE
C: ÎNTORC

Evaluare:   1%|          | 2/242 [00:31<1:03:44, 15.94s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   1%|          | 3/242 [00:47<1:03:24, 15.92s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   2%|▏         | 4/242 [01:03<1:02:54, 15.86s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   2%|▏         | 5/242 [01:19<1:03:00, 15.95s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   2%|▏         | 6/242 [01:35<1:02:59, 16.02s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: Indicatorul din imagine vă avertizează că:
Descriere imagine: Imaginea prezintă un drum urban semnalizat cu indicatorul triunghiular cu margini roșii, cu două săgeți, cea din stânga cu capătul în jos, cealaltă cu capătul în sus, ce indică faptul că circulația se desfășoară în ambele sensuri.
Alege unul sau mai multe răspunsuri corecte:
A: AVEȚI PRIORITATE DE TRECERE FAȚĂ DE CIRCULAȚIA DIN SENS INVERS
B: TREBUIE SĂ ACORDAȚI PRIORITATE DE TRECERE AUTOVEHICULELOR CARE CIRCULĂ DIN SENS INVERS
C: INTRAȚI PE UN SECTOR DE DRUM PE CARE CIRCULAȚIA SE DESFĂȘOARĂ ÎN AMBELE SENSURIMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'C'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Indicatorul din imagine vă avertizează că:
Descriere imagine: Imaginea prezintă un drum urban semnalizat cu indicatorul triunghiular cu margini roșii, cu două săgeți, cea din stânga cu capătul în jos, cealaltă cu capătul în sus, ce indică

Evaluare:  13%|█▎        | 32/242 [08:31<56:00, 16.00s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  14%|█▎        | 33/242 [08:46<55:36, 15.97s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  14%|█▍        | 34/242 [09:03<55:31, 16.02s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  14%|█▍        | 35/242 [09:18<55:00, 15.94s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  15%|█▍        | 36/242 [09:34<54:36, 15.91s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more deta

📘 Prompt: Întrebare: Cum procedați în cazul în care aveți o defecţiune la sistemul de rulare pe autostradă?
Alege unul sau mai multe răspunsuri corecte:
A: PĂRĂSIȚI CAROSABILUL ÎN TIMP CE RULEAZĂ AUTOVEHICULUL, OPRIȚI PE BANDA DE URGENȚĂ ȘI ÎL SEMNALIZAȚI
B: APRINDEȚI LUMINILE DE POZIȚIE
C: APRINDEȚI PROIECTOARELEMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'A'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Cum procedați în cazul în care aveți o defecţiune la sistemul de rulare pe autostradă?
Alege unul sau mai multe răspunsuri corecte:
A: PĂRĂSIȚI CAROSABILUL ÎN TIMP CE RULEAZĂ AUTOVEHICULUL, OPRIȚI PE BANDA DE URGENȚĂ ȘI ÎL SEMNALIZAȚI
B: APRINDEȚI LUMINILE DE POZIȚIE
C: APRINDEȚI PROIECTOARELEMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns: Răspuns corect: A

Explicație: În cazul în care aveți o defecțiune la sistemul de rulare pe autostradă, trebuie

Evaluare:  26%|██▌       | 62/242 [16:28<47:33, 15.85s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  26%|██▌       | 63/242 [16:44<47:20, 15.87s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  26%|██▋       | 64/242 [17:00<47:08, 15.89s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  27%|██▋       | 65/242 [17:16<47:06, 15.97s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  27%|██▋       | 66/242 [17:32<46:43, 15.93s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more deta

📘 Prompt: Întrebare: Ce măsuri de prim ajutor se vor lua în cazul traumatismelor coloanei vertebrale, dacă accidentatul are căile respiratorii libere?
Alege unul sau mai multe răspunsuri corecte:
A: MUTAȚI ACCIDENTATUL PE SCAUNELE DIN SPATE
B: ÎNCERCAȚI SĂ ÎNTOARCEȚI ACCIDENTATUL, DACĂ SE AFLĂ ÎNTR-O POZIȚIE ARCUITĂ
C: NU MIȘCAȚI ACCIDENTATUL DIN POZIȚIA ÎN CARE L-AȚI GĂSIT PÂNĂ LA SOSIREA SERVICIILOR MOBILE DE URGENȚĂ, CU EXCEPȚIA CAZURILOR ÎN CARE EXISTĂ UN PERICOL DE FOC SAU DE ASFIXIE, ASIGURÂNDU-I DOAR FUNCȚIILE VITALEMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'C'}
🧠 Pred: {'C'}
📝 Decoded: Întrebare: Ce măsuri de prim ajutor se vor lua în cazul traumatismelor coloanei vertebrale, dacă accidentatul are căile respiratorii libere?
Alege unul sau mai multe răspunsuri corecte:
A: MUTAȚI ACCIDENTATUL PE SCAUNELE DIN SPATE
B: ÎNCERCAȚI SĂ ÎNTOARCEȚI ACCIDENTATUL, DACĂ SE AFLĂ ÎNTR-O POZIȚIE ARCUITĂ
C: NU MIȘ

Evaluare:  38%|███▊      | 92/242 [24:26<39:57, 15.99s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  38%|███▊      | 93/242 [24:42<39:34, 15.93s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  39%|███▉      | 94/242 [24:58<39:25, 15.98s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  39%|███▉      | 95/242 [25:14<39:13, 16.01s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  40%|███▉      | 96/242 [25:30<38:49, 15.95s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more deta

📘 Prompt: Întrebare: Cum procedați dacă vă aflați la volanul autoturismului?
Descriere imagine: Imaginea reprezintă o intersecție văzută de sus, în care sunt implicate trei vehicule: un autoturism roșu care vine de jos, un tramvai care vine din dreapta și un autobuz galben care vine de sus. Drumurile din stânga și din dreapta sunt semnalizate cu indicatoare triunghiulare cu margini roșii, 'Cedează trecerea'. Autoturismul dorește să vireze la stânga, tramvaiul circulă înainte, iar autobuzul circulă înainte.
Alege unul sau mai multe răspunsuri corecte:
A: ACORDAȚI PRIORITATE TRAMVAIULUI
B: ACORDAȚI PRIORITATE AUTOBUZULUI
C: ACORDAȚI PRIORITATE AMBELOR VEHICULE, FIIND DIN SERVICIUL DE TRANSPORT PUBLIC DE PERSOANEMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'B'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Cum procedați dacă vă aflați la volanul autoturismului?
Descriere imagine: Imaginea reprezintă o intersecție văzută 

Evaluare:  50%|█████     | 122/242 [32:23<31:52, 15.94s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  51%|█████     | 123/242 [32:39<31:32, 15.91s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  51%|█████     | 124/242 [32:55<31:19, 15.93s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  52%|█████▏    | 125/242 [33:11<31:00, 15.90s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  52%|█████▏    | 126/242 [33:27<30:40, 15.87s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: Care dintre autovehiculele din imagine au prioritate de trecere?
Descriere imagine: Imaginea prezintă un sens giratoriu cu mai mulți participanți la trafic, inclusiv un motociclist, un autocamion, un autoturism și un autobuz. Autocamionul și motocicleta se află deja în sensul giratoriu.
Alege unul sau mai multe răspunsuri corecte:
A: AUTOBUZUL ȘI MOTOCICLETA
B: MOTOCICLETA ȘI AUTOCAMIONUL
C: AUTOBUZUL ȘI AUTOTURISMULMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'B'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Care dintre autovehiculele din imagine au prioritate de trecere?
Descriere imagine: Imaginea prezintă un sens giratoriu cu mai mulți participanți la trafic, inclusiv un motociclist, un autocamion, un autoturism și un autobuz. Autocamionul și motocicleta se află deja în sensul giratoriu.
Alege unul sau mai multe răspunsuri corecte:
A: AUTOBUZUL ȘI MOTOCICLETA
B: MOTOCICLETA ȘI AUTOCAMIONUL
C:

Evaluare:  63%|██████▎   | 152/242 [40:21<23:47, 15.86s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  63%|██████▎   | 153/242 [40:37<23:33, 15.88s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  64%|██████▎   | 154/242 [40:53<23:17, 15.88s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  64%|██████▍   | 155/242 [41:08<23:00, 15.87s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  64%|██████▍   | 156/242 [41:24<22:45, 15.87s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: La imobilizarea cu atele, în cazul fracturilor, se va ține cont ca:
Alege unul sau mai multe răspunsuri corecte:
A: ATELA SĂ NU FIE RIGIDĂ
B: NU SUNT NECESARE CRITERII PENTRU IMOBILIZAREA FRACTURILOR CU ATELE
C: ATELA SĂ FIE SUFICIENT DE LUNGĂMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'C'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: La imobilizarea cu atele, în cazul fracturilor, se va ține cont ca:
Alege unul sau mai multe răspunsuri corecte:
A: ATELA SĂ NU FIE RIGIDĂ
B: NU SUNT NECESARE CRITERII PENTRU IMOBILIZAREA FRACTURILOR CU ATELE
C: ATELA SĂ FIE SUFICIENT DE LUNGĂMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns: Răspuns corect: A

Explicație: Atunci când se imobilizează o fractură cu atele, acestea trebuie să fie suficient de rigide pentru a preveni mișcarea părții fracturate, dar nu trebuie să fie prea rigide, deoarece a

Evaluare:  75%|███████▌  | 182/242 [48:19<15:58, 15.97s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  76%|███████▌  | 183/242 [48:35<15:38, 15.91s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  76%|███████▌  | 184/242 [48:51<15:23, 15.93s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  76%|███████▋  | 185/242 [49:07<15:10, 15.98s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  77%|███████▋  | 186/242 [49:23<14:54, 15.98s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: Dacă ați selectat banda de circulație conform imaginii prezentate, vă este permis:
Descriere imagine: Imaginea prezintă o perspectivă din interiorul unui vehicul aflat într-o intersecție semaforizată. Semaforul verde permite deplasarea vehiculului, care este incadrat pe banda din dreapta, care are marcaj ce îi permite deplasarea înainte sau la dreapta
Alege unul sau mai multe răspunsuri corecte:
A: SĂ CIRCULAȚI ÎNAINTE SAU LA DREAPTA
B: SĂ VIRAȚI NUMAI LA DREAPTA
C: SĂ CIRCULAȚI NUMAI ÎNAINTEMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'A'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Dacă ați selectat banda de circulație conform imaginii prezentate, vă este permis:
Descriere imagine: Imaginea prezintă o perspectivă din interiorul unui vehicul aflat într-o intersecție semaforizată. Semaforul verde permite deplasarea vehiculului, care este incadrat pe banda din dreapta, care are marcaj ce îi permi

Evaluare:  88%|████████▊ | 212/242 [56:18<08:00, 16.02s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  88%|████████▊ | 213/242 [56:34<07:43, 15.98s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  88%|████████▊ | 214/242 [56:50<07:27, 15.99s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  89%|████████▉ | 215/242 [57:06<07:11, 16.00s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  89%|████████▉ | 216/242 [57:22<06:56, 16.02s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: Retragerea permisului de conducere se dispune de către poliția rutieră în următoarele cazuri:
Alege unul sau mai multe răspunsuri corecte:
A: ATUNCI CÂND UNITATEA DE ASISTENȚĂ MEDICALĂ AUTORIZATĂ, ÎN URMA EXAMENULUI DE SPECIALITATE NECESAR STABILEȘTE CĂ PERSOANA CARE POSEDĂ PERMIS DE CONDUCERE ESTE APTĂ MEDICAL PENTRU A CONDUCE UN AUTOVEHICUL
B: ATUNCI CÂND VALABILITATEA ADMINISTRATIVĂ A PERMISULUI DE CONDUCERE A EXPIRAT
C: ÎN CAZUL ÎN CARE TITULARUL ACESTUIA NU A PUTUT FI SUPUS TESTĂRII ÎN VEDEREA STABILIRII CONCENTRAȚIEI DE ALCOOL PUR ÎN AERUL EXPIRAT, IAR ÎN URMA EXAMINĂRII MEDICALE S-AU CONSTATAT ELEMENTE CLINICE SPECIFICE CONSUMULUI RECENT DE BĂUTURI ALCOOLICEMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'C'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Retragerea permisului de conducere se dispune de către poliția rutieră în următoarele cazuri:
Alege unul sau mai multe răspunsuri corecte:
A:

Evaluare: 100%|██████████| 242/242 [1:04:17<00:00, 15.94s/ex]

📘 Prompt: Întrebare: Cum se penalizează pătrunderea într-o intersecție dirijată prin semafoare, dacă prin aceasta se produce blocarea circulației în intersecție?
Alege unul sau mai multe răspunsuri corecte:
A: CU AMENDĂ CONTRAVENȚIONALĂ ȘI APLICAREA PUNCTELOR DE PENALIZARE
B: CU SUSPENDAREA EXERCITĂRII DREPTULUI DE A CONDUCE AUTOVEHICULE PE O PERIOADĂ DE 30 DE ZILE
C: CU AMENDĂ CONTRAVENȚIONALĂMai întâi oferă litera sau literele răspunsului corect 
Apoi oferă o explicație succintă pe un rând nou. 
Răspuns:
✅ Gold: {'A'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Cum se penalizează pătrunderea într-o intersecție dirijată prin semafoare, dacă prin aceasta se produce blocarea circulației în intersecție?
Alege unul sau mai multe răspunsuri corecte:
A: CU AMENDĂ CONTRAVENȚIONALĂ ȘI APLICAREA PUNCTELOR DE PENALIZARE
B: CU SUSPENDAREA EXERCITĂRII DREPTULUI DE A CONDUCE AUTOVEHICULE PE O PERIOADĂ DE 30 DE ZILE
C: CU AMENDĂ CONTRAVENȚIONALĂMai întâi oferă litera sau literele răspunsului corect 
Apoi o




In [None]:
golds_ft, preds_ft, acc_ft = evaluate_model(model_zero, tok_zero, test_ds, verbose = True, max_new_tokens=10, output_csv_path="results_RoLlama3.1_finetune_test.csv")

Evaluare:   0%|          | 0/242 [00:00<?, ?ex/s]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   0%|          | 1/242 [00:01<05:27,  1.36s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📘 Prompt: Întrebare: Cum procedezi la întâlnirea indicatorului pe un drum național european?
Descriere imagine: Drum național european cu indicatorul pătrat albastru cu simbolul unui autoturism semnifică un drum destinat exclusiv autoturismelor.
Alege unul sau mai multe răspunsuri corecte:
A: FOLOSEȘTI LUMINILE DE ÎNTÂLNIRE
B: VIREZI LA STÂNGA SAU LA DREAPTA ÎN PRIMA INTERSECȚIE
C: ÎNTORCI, DEOARECE URMEAZĂ UN SECTOR DE DRUM INTERZIS CIRCULAȚIEI AUTOVEHICULELOROferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'A'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Cum procedezi la întâlnirea indicatorului pe un drum național european?
Descriere imagine: Drum național european cu indicatorul pătrat albastru cu simbolul unui autoturism semnifică un drum destinat exclusiv autoturismelor.
Alege unul sau mai multe răspunsuri corecte:
A: FOLOSEȘTI LUMINILE DE ÎNTÂLNIRE
B: VIREZI LA STÂNGA SAU LA DREAPTA ÎN PRIMA INTERSECȚIE
C: ÎNTORCI, DEOARECE URMEAZĂ UN SECTOR DE DRUM INTERZIS CIRCULAȚ

Evaluare:   1%|          | 2/242 [00:02<05:30,  1.38s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   1%|          | 3/242 [00:04<05:19,  1.34s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   2%|▏         | 4/242 [00:05<05:15,  1.33s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   2%|▏         | 5/242 [00:06<05:20,  1.35s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:   2%|▏         | 6/242 [00:08<05:35,  1.42s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📘 Prompt: Întrebare: Indicatorul din imagine vă avertizează că:
Descriere imagine: Imaginea prezintă un drum urban semnalizat cu indicatorul triunghiular cu margini roșii, cu două săgeți, cea din stânga cu capătul în jos, cealaltă cu capătul în sus, ce indică faptul că circulația se desfășoară în ambele sensuri.
Alege unul sau mai multe răspunsuri corecte:
A: AVEȚI PRIORITATE DE TRECERE FAȚĂ DE CIRCULAȚIA DIN SENS INVERS
B: TREBUIE SĂ ACORDAȚI PRIORITATE DE TRECERE AUTOVEHICULELOR CARE CIRCULĂ DIN SENS INVERS
C: INTRAȚI PE UN SECTOR DE DRUM PE CARE CIRCULAȚIA SE DESFĂȘOARĂ ÎN AMBELE SENSURIOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'C'}
🧠 Pred: {'B'}
📝 Decoded: Întrebare: Indicatorul din imagine vă avertizează că:
Descriere imagine: Imaginea prezintă un drum urban semnalizat cu indicatorul triunghiular cu margini roșii, cu două săgeți, cea din stânga cu capătul în jos, cealaltă cu capătul în sus, ce indică faptul că circulația se desfășoară în ambele sensuri.


Evaluare:  13%|█▎        | 32/242 [00:43<04:55,  1.41s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  14%|█▎        | 33/242 [00:45<04:48,  1.38s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  14%|█▍        | 34/242 [00:46<04:49,  1.39s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  14%|█▍        | 35/242 [00:48<04:43,  1.37s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  15%|█▍        | 36/242 [00:49<04:30,  1.31s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more deta

📘 Prompt: Întrebare: Cum procedați în cazul în care aveți o defecţiune la sistemul de rulare pe autostradă?
Alege unul sau mai multe răspunsuri corecte:
A: PĂRĂSIȚI CAROSABILUL ÎN TIMP CE RULEAZĂ AUTOVEHICULUL, OPRIȚI PE BANDA DE URGENȚĂ ȘI ÎL SEMNALIZAȚI
B: APRINDEȚI LUMINILE DE POZIȚIE
C: APRINDEȚI PROIECTOARELEOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'A'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Cum procedați în cazul în care aveți o defecţiune la sistemul de rulare pe autostradă?
Alege unul sau mai multe răspunsuri corecte:
A: PĂRĂSIȚI CAROSABILUL ÎN TIMP CE RULEAZĂ AUTOVEHICULUL, OPRIȚI PE BANDA DE URGENȚĂ ȘI ÎL SEMNALIZAȚI
B: APRINDEȚI LUMINILE DE POZIȚIE
C: APRINDEȚI PROIECTOARELEOferă DOAR litera sau literele răspunsului corect 
Răspuns: Răspuns corect: A

Exp
------------------------------------------------------------


Evaluare:  26%|██▌       | 62/242 [01:24<03:52,  1.29s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  26%|██▌       | 63/242 [01:25<03:55,  1.32s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  26%|██▋       | 64/242 [01:26<03:53,  1.31s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  27%|██▋       | 65/242 [01:28<03:58,  1.34s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  27%|██▋       | 66/242 [01:29<03:54,  1.33s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more deta

📘 Prompt: Întrebare: Ce măsuri de prim ajutor se vor lua în cazul traumatismelor coloanei vertebrale, dacă accidentatul are căile respiratorii libere?
Alege unul sau mai multe răspunsuri corecte:
A: MUTAȚI ACCIDENTATUL PE SCAUNELE DIN SPATE
B: ÎNCERCAȚI SĂ ÎNTOARCEȚI ACCIDENTATUL, DACĂ SE AFLĂ ÎNTR-O POZIȚIE ARCUITĂ
C: NU MIȘCAȚI ACCIDENTATUL DIN POZIȚIA ÎN CARE L-AȚI GĂSIT PÂNĂ LA SOSIREA SERVICIILOR MOBILE DE URGENȚĂ, CU EXCEPȚIA CAZURILOR ÎN CARE EXISTĂ UN PERICOL DE FOC SAU DE ASFIXIE, ASIGURÂNDU-I DOAR FUNCȚIILE VITALEOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'C'}
🧠 Pred: {'C'}
📝 Decoded: Întrebare: Ce măsuri de prim ajutor se vor lua în cazul traumatismelor coloanei vertebrale, dacă accidentatul are căile respiratorii libere?
Alege unul sau mai multe răspunsuri corecte:
A: MUTAȚI ACCIDENTATUL PE SCAUNELE DIN SPATE
B: ÎNCERCAȚI SĂ ÎNTOARCEȚI ACCIDENTATUL, DACĂ SE AFLĂ ÎNTR-O POZIȚIE ARCUITĂ
C: NU MIȘCAȚI ACCIDENTATUL DIN POZIȚIA ÎN CARE L-AȚI GĂSIT PÂNĂ 

Evaluare:  38%|███▊      | 92/242 [02:05<03:37,  1.45s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  38%|███▊      | 93/242 [02:06<03:32,  1.43s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  39%|███▉      | 94/242 [02:08<03:38,  1.48s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  39%|███▉      | 95/242 [02:09<03:33,  1.45s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  40%|███▉      | 96/242 [02:10<03:20,  1.38s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more deta

📘 Prompt: Întrebare: Cum procedați dacă vă aflați la volanul autoturismului?
Descriere imagine: Imaginea reprezintă o intersecție văzută de sus, în care sunt implicate trei vehicule: un autoturism roșu care vine de jos, un tramvai care vine din dreapta și un autobuz galben care vine de sus. Drumurile din stânga și din dreapta sunt semnalizate cu indicatoare triunghiulare cu margini roșii, 'Cedează trecerea'. Autoturismul dorește să vireze la stânga, tramvaiul circulă înainte, iar autobuzul circulă înainte.
Alege unul sau mai multe răspunsuri corecte:
A: ACORDAȚI PRIORITATE TRAMVAIULUI
B: ACORDAȚI PRIORITATE AUTOBUZULUI
C: ACORDAȚI PRIORITATE AMBELOR VEHICULE, FIIND DIN SERVICIUL DE TRANSPORT PUBLIC DE PERSOANEOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'B'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Cum procedați dacă vă aflați la volanul autoturismului?
Descriere imagine: Imaginea reprezintă o intersecție văzută de sus, în care sunt implicate trei vehicule: un autotu

Evaluare:  50%|█████     | 122/242 [02:45<02:42,  1.35s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  51%|█████     | 123/242 [02:46<02:35,  1.30s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  51%|█████     | 124/242 [02:48<02:37,  1.33s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  52%|█████▏    | 125/242 [02:49<02:30,  1.29s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  52%|█████▏    | 126/242 [02:50<02:29,  1.29s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: Care dintre autovehiculele din imagine au prioritate de trecere?
Descriere imagine: Imaginea prezintă un sens giratoriu cu mai mulți participanți la trafic, inclusiv un motociclist, un autocamion, un autoturism și un autobuz. Autocamionul și motocicleta se află deja în sensul giratoriu.
Alege unul sau mai multe răspunsuri corecte:
A: AUTOBUZUL ȘI MOTOCICLETA
B: MOTOCICLETA ȘI AUTOCAMIONUL
C: AUTOBUZUL ȘI AUTOTURISMULOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'B'}
🧠 Pred: {'C'}
📝 Decoded: Întrebare: Care dintre autovehiculele din imagine au prioritate de trecere?
Descriere imagine: Imaginea prezintă un sens giratoriu cu mai mulți participanți la trafic, inclusiv un motociclist, un autocamion, un autoturism și un autobuz. Autocamionul și motocicleta se află deja în sensul giratoriu.
Alege unul sau mai multe răspunsuri corecte:
A: AUTOBUZUL ȘI MOTOCICLETA
B: MOTOCICLETA ȘI AUTOCAMIONUL
C: AUTOBUZUL ȘI AUTOTURISMULOferă DOAR litera sau literel

Evaluare:  63%|██████▎   | 152/242 [03:25<01:59,  1.33s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  63%|██████▎   | 153/242 [03:26<01:59,  1.35s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  64%|██████▎   | 154/242 [03:28<01:57,  1.33s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  64%|██████▍   | 155/242 [03:29<01:55,  1.32s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  64%|██████▍   | 156/242 [03:30<01:53,  1.32s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: La imobilizarea cu atele, în cazul fracturilor, se va ține cont ca:
Alege unul sau mai multe răspunsuri corecte:
A: ATELA SĂ NU FIE RIGIDĂ
B: NU SUNT NECESARE CRITERII PENTRU IMOBILIZAREA FRACTURILOR CU ATELE
C: ATELA SĂ FIE SUFICIENT DE LUNGĂOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'C'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: La imobilizarea cu atele, în cazul fracturilor, se va ține cont ca:
Alege unul sau mai multe răspunsuri corecte:
A: ATELA SĂ NU FIE RIGIDĂ
B: NU SUNT NECESARE CRITERII PENTRU IMOBILIZAREA FRACTURILOR CU ATELE
C: ATELA SĂ FIE SUFICIENT DE LUNGĂOferă DOAR litera sau literele răspunsului corect 
Răspuns: Răspuns corect: A

Exp
------------------------------------------------------------


Evaluare:  75%|███████▌  | 182/242 [04:05<01:18,  1.32s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  76%|███████▌  | 183/242 [04:06<01:15,  1.28s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  76%|███████▌  | 184/242 [04:07<01:14,  1.29s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  76%|███████▋  | 185/242 [04:09<01:18,  1.37s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  77%|███████▋  | 186/242 [04:10<01:13,  1.32s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: Dacă ați selectat banda de circulație conform imaginii prezentate, vă este permis:
Descriere imagine: Imaginea prezintă o perspectivă din interiorul unui vehicul aflat într-o intersecție semaforizată. Semaforul verde permite deplasarea vehiculului, care este incadrat pe banda din dreapta, care are marcaj ce îi permite deplasarea înainte sau la dreapta
Alege unul sau mai multe răspunsuri corecte:
A: SĂ CIRCULAȚI ÎNAINTE SAU LA DREAPTA
B: SĂ VIRAȚI NUMAI LA DREAPTA
C: SĂ CIRCULAȚI NUMAI ÎNAINTEOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'A'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Dacă ați selectat banda de circulație conform imaginii prezentate, vă este permis:
Descriere imagine: Imaginea prezintă o perspectivă din interiorul unui vehicul aflat într-o intersecție semaforizată. Semaforul verde permite deplasarea vehiculului, care este incadrat pe banda din dreapta, care are marcaj ce îi permite deplasarea înainte sau la dreapta
Alege unul sau mai

Evaluare:  88%|████████▊ | 212/242 [04:45<00:43,  1.45s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  88%|████████▊ | 213/242 [04:47<00:40,  1.40s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  88%|████████▊ | 214/242 [04:48<00:38,  1.37s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  89%|████████▉ | 215/242 [04:49<00:36,  1.36s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Evaluare:  89%|████████▉ | 216/242 [04:51<00:35,  1.37s/ex]The following generation flags are not valid and may be ignored: ['temperature', 'top_p']. Set `TRANSFORMERS_VERBOSITY=info` for more

📘 Prompt: Întrebare: Retragerea permisului de conducere se dispune de către poliția rutieră în următoarele cazuri:
Alege unul sau mai multe răspunsuri corecte:
A: ATUNCI CÂND UNITATEA DE ASISTENȚĂ MEDICALĂ AUTORIZATĂ, ÎN URMA EXAMENULUI DE SPECIALITATE NECESAR STABILEȘTE CĂ PERSOANA CARE POSEDĂ PERMIS DE CONDUCERE ESTE APTĂ MEDICAL PENTRU A CONDUCE UN AUTOVEHICUL
B: ATUNCI CÂND VALABILITATEA ADMINISTRATIVĂ A PERMISULUI DE CONDUCERE A EXPIRAT
C: ÎN CAZUL ÎN CARE TITULARUL ACESTUIA NU A PUTUT FI SUPUS TESTĂRII ÎN VEDEREA STABILIRII CONCENTRAȚIEI DE ALCOOL PUR ÎN AERUL EXPIRAT, IAR ÎN URMA EXAMINĂRII MEDICALE S-AU CONSTATAT ELEMENTE CLINICE SPECIFICE CONSUMULUI RECENT DE BĂUTURI ALCOOLICEOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'C'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Retragerea permisului de conducere se dispune de către poliția rutieră în următoarele cazuri:
Alege unul sau mai multe răspunsuri corecte:
A: ATUNCI CÂND UNITATEA DE ASISTENȚĂ MEDICALĂ AUTORIZATĂ,

Evaluare: 100%|██████████| 242/242 [05:26<00:00,  1.35s/ex]

📘 Prompt: Întrebare: Cum se penalizează pătrunderea într-o intersecție dirijată prin semafoare, dacă prin aceasta se produce blocarea circulației în intersecție?
Alege unul sau mai multe răspunsuri corecte:
A: CU AMENDĂ CONTRAVENȚIONALĂ ȘI APLICAREA PUNCTELOR DE PENALIZARE
B: CU SUSPENDAREA EXERCITĂRII DREPTULUI DE A CONDUCE AUTOVEHICULE PE O PERIOADĂ DE 30 DE ZILE
C: CU AMENDĂ CONTRAVENȚIONALĂOferă DOAR litera sau literele răspunsului corect 
Răspuns:
✅ Gold: {'A'}
🧠 Pred: {'A'}
📝 Decoded: Întrebare: Cum se penalizează pătrunderea într-o intersecție dirijată prin semafoare, dacă prin aceasta se produce blocarea circulației în intersecție?
Alege unul sau mai multe răspunsuri corecte:
A: CU AMENDĂ CONTRAVENȚIONALĂ ȘI APLICAREA PUNCTELOR DE PENALIZARE
B: CU SUSPENDAREA EXERCITĂRII DREPTULUI DE A CONDUCE AUTOVEHICULE PE O PERIOADĂ DE 30 DE ZILE
C: CU AMENDĂ CONTRAVENȚIONALĂOferă DOAR litera sau literele răspunsului corect 
Răspuns: Răspuns corect: A

Exp
----------------------------------




In [None]:
# compute_accuracy_from_csv("zero_results.csv")
# compute_accuracy_from_csv("finetune_results.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'zero_results.csv'