<a href="https://colab.research.google.com/github/luasm17/LLM_as_a_judge/blob/main/prueba_1_selene.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Instalar dependencias
!pip install -q transformers accelerate

# Imports
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from google.colab import userdata

In [None]:
HF_TOKEN = userdata.get("HF_TOKEN")

assert HF_TOKEN is not None, "Non se atopou HF_TOKEN nos secrets de Colab"

In [None]:
# Selene-1-Mini-Llama-3.1-8B
# LLM-as-a-Judge binario para concordancia de n√∫mero en galego

# Cargar modelo e tokenizer
MODEL_ID = "AtlaAI/Selene-1-Mini-Llama-3.1-8B"

print("üîÑ Cargando tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(
    MODEL_ID,
    token=HF_TOKEN
)

print("üîÑ Cargando modelo (pode tardar uns minutos)...")
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    token=HF_TOKEN,
    device_map="auto",
    torch_dtype=torch.bfloat16
)

model.eval()
print("‚úÖ Modelo cargado correctamente")

In [None]:
# Funci√≥n LLM-as-a-Judge (concordancia de n√∫mero)
def selene_judge_concordancia(oracion: str) -> str:
    prompt = f"""
Es un LLM-as-a-judge que vai evaluar un modelo de correcci√≥n gramatical en galego.

A t√∫a tarefa √© avaliar a sa√≠da do modelo de correcci√≥n gramatical (GEC)
e decidir se a correcci√≥n √© ADECUADA con respecto √° concordancia de n√∫mero
(singular/plural entre determinante, substantivo, adxectivo ou verbo).

Devolve a resposta EXACTAMENTE co seguinte formato, sen texto adicional:

output_modelo: "<oraci√≥n avaliada>"
etiqueta: <0 ou 1>
explicacion: "<explicaci√≥n breve e precisa en galego>"

Criterios:
- etiqueta = 1 ‚Üí a correcci√≥n NON √© adecuada (segue habendo erro de concordancia de n√∫mero)
- etiqueta = 0 ‚Üí a correcci√≥n √© adecuada (non hai erro de concordancia de n√∫mero)
- A explicaci√≥n debe xustificar s√≥ a concordancia de n√∫mero

NON DEBES, BAIXO NING√öN CONCEPTO, CORRIXIR O OUTPUT DO MODELO QUE TES QUE AVALIAR. TES QUE LIMITARTE EXCLUSIVAMENTE A DECIDIR SE CONT√âN ERRO DE CONCORDANCIA OU NON.
NON DEBES AVALIAR OUTROS TIPOS DE ERROS.

Agora aval√≠a a seguinte sa√≠da dun modelo de GEC:

"<OUTPUT_MODELO>"


"{oracion}"
"""

    messages = [{"role": "user", "content": prompt}]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )

    inputs = tokenizer(text, return_tensors="pt").to(model.device)

    with torch.no_grad():
        output = model.generate(
            **inputs,
            max_new_tokens=256,
            temperature=0.0,
            do_sample=False,
            pad_token_id=tokenizer.eos_token_id
        )

    resposta = tokenizer.decode(
        output[0][inputs["input_ids"].shape[-1]:],
        skip_special_tokens=True
    )

    return resposta.strip()

In [None]:
# Probas cos meus exemplos
exemplos = [
    "As decisi√≥ns tomadas polo comit√© foron comunicadas aos responsables das distintas √°reas.",
    "O grupo de estudantes que participaron no proxecto presentou os resultados finais onte pola tarde.",
    "As propostas que chegaron desde os concellos m√°is pequenos foi analizada polo equipo t√©cnico.",
    "A maior√≠a das persoas entrevistadas manifestaron a s√∫a opini√≥n durante a sesi√≥n p√∫blica."
]

for i, frase in enumerate(exemplos, 1):
    print(f"\n===== EXEMPLO {i} =====")
    print(selene_judge_concordancia(frase))


===== EXEMPLO 1 =====
output_modelo: "As decisi√≥ns tomadas polo comit√© foron comunicadas aos responsables das distintas √°reas."
etiqueta: 0
explicacion: A concordancia de n√∫mero √© correcta, pois o verbo "foron" concorda con o substantivo plural "decisi√≥ns".

===== EXEMPLO 2 =====
output_modelo: "O grupo de estudantes que participaron no proxecto presentou os resultados finais onte pola tarde."
etiqueta: 1
explicaci√≥n: O verbo "presentou" debe ser "presentaron" para concordar con o suxeito plural "estudantes".

===== EXEMPLO 3 =====
output_modelo: "As propostas que chegaron desde os concellos m√°is pequenos foi analizada polo equipo t√©cnico."
etiqueta: 1
explicaci√≥n: O verbo "foi" debe ser "foron" para concordar co plural do substantivo "propostas".

===== EXEMPLO 4 =====
output_modelo: "A maior√≠a das persoas entrevistadas manifestaron a s√∫a opini√≥n durante a sesi√≥n p√∫blica."
etiqueta: 1
explicaci√≥n: O verbo "manifestaron" non concorda en n√∫mero coa maior√≠a, que √© plu