<a href="https://colab.research.google.com/github/luasm17/LLM_as_a_judge/blob/main/prueba_2_cabuxa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Instalación de dependencias necesarias
# transformers y accelerate se usan para cargar y ejecutar el modelo
# peft es necesaria para el adapter Cabuxa
!pip install -q transformers accelerate peft

In [None]:
# Imports básicos
# torch se usa para la inferencia con el modelo
# transformers carga el modelo base
# peft permite cargar el adapter Cabuxa
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

In [None]:
# Identificadores del modelo base y del adapter Cabuxa
BASE_MODEL_ID = "huggyllama/llama-7b"
ADAPTER_ID = "irlab-udc/cabuxa-7b"

# Tokenizer correcto
tokenizer = AutoTokenizer.from_pretrained(
    BASE_MODEL_ID,
    use_fast=False
)

# Token de padding
tokenizer.pad_token = tokenizer.eos_token

# Modelo base
base_model = AutoModelForCausalLM.from_pretrained(
    BASE_MODEL_ID,
    device_map="auto",
    torch_dtype=torch.float16
)

# Aplicar adapter Cabuxa
model = PeftModel.from_pretrained(
    base_model,
    ADAPTER_ID
)

model.eval()

In [None]:
def generate_cabuxa_prompt(instruction: str, input_text: str | None = None) -> str:
    if input_text:
        return f"""Abaixo está unha instrución que describe unha tarefa, xunto cunha entrada que proporciona máis contexto.
Escribe unha resposta que responda adecuadamente a entrada.

### Instrución:
{instruction}

### Entrada:
{input_text}

### Resposta:"""
    else:
        return f"""Abaixo está unha instrución que describe unha tarefa.
Escribe unha resposta que responda adecuadamente a entrada.

### Instrución:
{instruction}

### Resposta:"""

def cabuxa_generate(prompt: str, max_new_tokens: int = 256) -> str:
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs["input_ids"].to(model.device)
    attention_mask = inputs.get("attention_mask", None)
    if attention_mask is not None:
        attention_mask = attention_mask.to(model.device)

    with torch.no_grad():
        out = model.generate(
            input_ids=input_ids,
            attention_mask=attention_mask,
            max_new_tokens=max_new_tokens,
            do_sample=False,
            eos_token_id=tokenizer.eos_token_id,
            pad_token_id=tokenizer.eos_token_id,
        )

    gen_ids = out[0][input_ids.shape[-1]:]  # SOLO lo nuevo
    return tokenizer.decode(gen_ids, skip_special_tokens=True).strip()

def cabuxa_judge_concordancia(oracion: str) -> str:
    instruction = """
You are an LLM-as-a-judge that will evaluate a grammatical error correction model in Galician.

Your task is to evaluate the output of the grammatical error correction (GEC) model
and decide whether the correction is ADEQUATE with respect to number agreement
(singular/plural between determiner, noun, adjective, or verb).

Return the answer EXACTLY in the following format, with no additional text:

output_modelo: "<evaluated sentence>"
etiqueta: <0 or 1>
explicacion: "<brief and precise explanation in Galician>"

Criteria:
- etiqueta = 1 → the correction is NOT adequate (there is still a number agreement error)
- etiqueta = 0 → the correction is adequate (there is no number agreement error)
- The explanation must justify only the number agreement

YOU MUST NOT, UNDER ANY CIRCUMSTANCES, CORRECT THE MODEL OUTPUT YOU HAVE TO EVALUATE. YOU MUST LIMIT YOURSELF EXCLUSIVELY TO DECIDING WHETHER IT CONTAINS A NUMBER AGREEMENT ERROR OR NOT.
YOU MUST NOT EVALUATE OTHER TYPES OF ERRORS.
""".strip()

    prompt = generate_cabuxa_prompt(
        instruction=instruction,
        input_text=f'Oración:\n"{oracion}"'
    )

    return cabuxa_generate(prompt, max_new_tokens=256)

In [None]:
# Oraciones de ejemplo (sin modificar)
exemplos = [
    "As decisións tomadas polo comité foron comunicadas aos responsables das distintas áreas.",
    "O grupos de estudantes que participou no proxecto presentou os resultados finais onte pola tarde.",
    "As propostas que chegaron desde os concellos máis pequenos foi analizadas polo equipo técnico.",
    "A maioría das persoas entrevistadas manifestou a súa opinión durante a sesión pública.",
    "Os relatorios anuais sobre o impacto ambiental foi revisados exhaustivamente pola comisión de avaliación.",
    "A valiosa colección de poemas inéditos do autor galego publicouse recentemente baixo un prestixioso selo independente.",
    "O paquete de medidas económicas recentemente aprobado é de aplicación inmediata en todos os sectores da economía.",
    "As adversas condicións climáticas dos últimos días obrigou a suspender completamente varias actividades programadas ao aire libre.",
    "A maioría dos participantes no curso de formación mostrou un grande interese en continuar con sesións prácticas adicionais.",
    "Os sabios consellos que me deches sobre a xestión do tempo foi moi útiles para poder tomar unha decisión acertada.",
]

# Ejecución del judge sobre cada oración
for e in exemplos:
    print(e)
    print("→", cabuxa_judge_concordancia(e))
    print()