<a href="https://colab.research.google.com/github/luasm17/LLM_as_a_judge/blob/main/prueba_2_selene.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Instalar dependencias
!pip install -q transformers accelerate

# Imports
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from google.colab import userdata

In [None]:
HF_TOKEN = userdata.get("HF_TOKEN")

assert HF_TOKEN is not None, "Non se atopou HF_TOKEN nos secrets de Colab"

In [None]:
# Selene-1-Mini-Llama-3.1-8B
# LLM-as-a-Judge binario para concordancia de n√∫mero en galego

# Cargar modelo e tokenizer
MODEL_ID = "AtlaAI/Selene-1-Mini-Llama-3.1-8B"

print("üîÑ Cargando tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(
    MODEL_ID,
    token=HF_TOKEN
)

print("üîÑ Cargando modelo (pode tardar uns minutos)...")
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    token=HF_TOKEN,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

model.eval()
print("‚úÖ Modelo cargado correctamente")

In [None]:
# Funci√≥n LLM-as-a-Judge (concordancia de n√∫mero)
def selene_judge_concordancia(oracion: str) -> str:
    prompt = f"""
You are an LLM-as-a-judge that will evaluate a grammatical error correction model in Galician.

Your task is to evaluate the output of the grammatical error correction (GEC) model
and decide whether the correction is ADEQUATE with respect to number agreement
(singular/plural between determiner, noun, adjective, or verb).

Return the answer EXACTLY in the following format, with no additional text:

output_modelo: "<evaluated sentence>"
etiqueta: <0 or 1>
explicacion: "<brief and precise explanation in Galician>"

Criteria:
- etiqueta = 1 ‚Üí the correction is NOT adequate (there is still a number agreement error)
- etiqueta = 0 ‚Üí the correction is adequate (there is no number agreement error)
- The explanation must justify only the number agreement

YOU MUST NOT, UNDER ANY CIRCUMSTANCES, CORRECT THE MODEL OUTPUT YOU HAVE TO EVALUATE. YOU MUST LIMIT YOURSELF EXCLUSIVELY TO DECIDING WHETHER IT CONTAINS A NUMBER AGREEMENT ERROR OR NOT.
YOU MUST NOT EVALUATE OTHER TYPES OF ERRORS.

Now evaluate the following output from a GEC model:

"<OUTPUT_MODELO>"

"{oracion}"
"""

    messages = [{"role": "user", "content": prompt}]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )

    inputs = tokenizer(text, return_tensors="pt").to(model.device)

    with torch.no_grad():
        output = model.generate(
            **inputs,
            max_new_tokens=256,
            temperature=0.0,
            do_sample=False,
            pad_token_id=tokenizer.eos_token_id
        )

    resposta = tokenizer.decode(
        output[0][inputs["input_ids"].shape[-1]:],
        skip_special_tokens=True
    )

    return resposta.strip()

In [None]:
# Probas cos meus exemplos
exemplos = [
    "As decisi√≥ns tomadas polo comit√© foron comunicadas aos responsables das distintas √°reas.",
    "O grupos de estudantes que participou no proxecto presentou os resultados finais onte pola tarde.",
    "As propostas que chegaron desde os concellos m√°is pequenos foi analizadas polo equipo t√©cnico.",
    "A maior√≠a das persoas entrevistadas manifestou a s√∫a opini√≥n durante a sesi√≥n p√∫blica.",
    "Os relatorios anuais sobre o impacto ambiental foi revisados exhaustivamente pola comisi√≥n de avaliaci√≥n.",
    "A valiosa colecci√≥n de poemas in√©ditos do autor galego publicouse recentemente baixo un prestixioso selo independente.",
    "O paquete de medidas econ√≥micas recentemente aprobado √© de aplicaci√≥n inmediata en todos os sectores da econom√≠a.",
    "As adversas condici√≥ns clim√°ticas dos √∫ltimos d√≠as obrigou a suspender completamente varias actividades programadas ao aire libre.",
    "A maior√≠a dos participantes no curso de formaci√≥n mostrou un grande interese en continuar con sesi√≥ns pr√°cticas adicionais.",
    "Os sabios consellos que me deches sobre a xesti√≥n do tempo foi moi √∫tiles para poder tomar unha decisi√≥n acertada.",
]

for i, frase in enumerate(exemplos, 1):
    print(f"\n===== EXEMPLO {i} =====")
    print(selene_judge_concordancia(frase))