# LLM-Based Ticket Reply Evaluator
**Rauda AI ‚Äî Take-Home Assignment**

Eval√∫a respuestas de soporte al cliente usando Llama 3.3 70B v√≠a Groq API.
Para cada par (ticket, reply) el modelo devuelve:
- `content_score` + `content_explanation`
- `format_score` + `format_explanation`

**Escala:** 1 (muy malo) ‚Üí 5 (excelente)

## 1. Instalaci√≥n de dependencias

In [None]:
# Las dependencias est√°n en requirements.txt
# Consulta el README para instrucciones de instalaci√≥n con venv

## 2. Imports y configuraci√≥n

In [None]:
import os
import json
import logging
import pandas as pd

from groq import Groq
from dotenv import load_dotenv
from tenacity import (
    retry,
    stop_after_attempt,
    wait_exponential,
    retry_if_exception_type,
)

logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s [%(levelname)s] %(message)s",
)
logger = logging.getLogger(__name__)

# Cargamos la API key desde .env para no escribirla directamente en el c√≥digo.
# As√≠ evitamos exponer credenciales si el proyecto se sube a GitHub.
load_dotenv(override=False)

GROQ_API_KEY = os.getenv("GROQ_API_KEY")
if not GROQ_API_KEY:
    raise EnvironmentError(
        "No se encontr√≥ GROQ_API_KEY.\n"
        "Crea un archivo .env con: GROQ_API_KEY=gsk_..."
    )

# Configuraci√≥n centralizada: si hay que cambiar el modelo o los l√≠mites,
# se toca aqu√≠ y no hay que buscar por todo el c√≥digo.
MODEL       = "llama-3.3-70b-versatile"
TEMPERATURE = 0.1
MAX_RETRIES = 4
INPUT_FILE  = "../tickets.csv"
OUTPUT_FILE = "../tickets_evaluated.csv"

client = Groq(api_key=GROQ_API_KEY)
logger.info(f"‚úÖ Cliente Groq inicializado. Modelo: {MODEL}")

## 3. Prompt Engineering

El **System Prompt** define el rol del modelo y el formato de salida esperado.
El **User Prompt** aporta los datos concretos de cada fila.

Forzamos la respuesta en JSON para poder parsearla de forma fiable sin depender
de que el modelo use siempre el mismo formato de texto libre.

In [None]:
SYSTEM_PROMPT = """
You are an expert quality assurance analyst for a customer support team.
Your task is to evaluate AI-generated replies to customer support tickets.

You will receive a JSON object with two fields:
- "ticket": the original customer message
- "reply": the AI-generated response to evaluate

Evaluate the reply on TWO dimensions using a scale from 1 to 5:

CONTENT (relevance, correctness, completeness):
  5 - Fully addresses all aspects of the ticket; accurate and complete
  4 - Addresses the main issue; minor gaps or imprecisions
  3 - Partially addresses the ticket; some relevant information missing
  2 - Barely addresses the ticket; mostly off-topic or incorrect
  1 - Does not address the ticket at all; irrelevant or harmful

FORMAT (clarity, structure, grammar/spelling):
  5 - Perfectly clear, well-structured, error-free, professional tone
  4 - Clear and professional with minor formatting or grammar issues
  3 - Understandable but with noticeable clarity or grammar problems
  2 - Difficult to read; poor structure or significant grammar errors
  1 - Incomprehensible; severely malformatted or full of errors

CRITICAL INSTRUCTIONS:
- Respond with ONLY a valid JSON object. Nothing else.
- Do NOT use markdown code blocks.
- The JSON must contain EXACTLY these four fields:

{
  "content_score": <integer between 1 and 5>,
  "content_explanation": "<one or two sentences>",
  "format_score": <integer between 1 and 5>,
  "format_explanation": "<one or two sentences>"
}
"""


def build_user_prompt(ticket: str, reply: str) -> str:
    """
    Serializa ticket y reply como JSON para enviarlos al modelo.
    Usar json.dumps() en lugar de f-strings garantiza el escape correcto
    de comillas, saltos de l√≠nea y caracteres especiales.
    """
    return json.dumps({"ticket": ticket, "reply": reply}, ensure_ascii=False)


logger.info("System prompt y funci√≥n de user prompt definidos.")

## 4. Llamada a la API con reintentos autom√°ticos

Usamos `tenacity` para reintentar la llamada si la API falla por rate limit o
por un error temporal. El backoff exponencial hace que espere cada vez m√°s
entre reintentos, evitando saturar el servicio.

In [None]:
@retry(
    retry=retry_if_exception_type(Exception),
    stop=stop_after_attempt(MAX_RETRIES),
    wait=wait_exponential(multiplier=1, min=2, max=60),
    before_sleep=lambda retry_state: logger.warning(
        f"  ‚ö†Ô∏è Reintento {retry_state.attempt_number}/{MAX_RETRIES} "
        f"tras error: {retry_state.outcome.exception()}"
    ),
)
def call_llm_api(ticket: str, reply: str) -> dict:
    """
    Llama al LLM y devuelve un dict con los 4 campos de evaluaci√≥n.

    Args:
        ticket: Mensaje original del cliente.
        reply:  Respuesta del sistema de IA a evaluar.

    Returns:
        Dict con content_score, content_explanation, format_score, format_explanation.

    Raises:
        ValueError: Si la respuesta no cumple el schema esperado.
    """
    response = client.chat.completions.create(
        model=MODEL,
        temperature=TEMPERATURE,
        response_format={"type": "json_object"},
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user",   "content": build_user_prompt(ticket, reply)},
        ],
    )

    result = json.loads(response.choices[0].message.content.strip())

    # Verificamos que el modelo devolvi√≥ todos los campos que necesitamos
    required_fields = {
        "content_score", "content_explanation",
        "format_score",  "format_explanation",
    }
    missing = required_fields - result.keys()
    if missing:
        raise ValueError(f"Campos faltantes en la respuesta: {missing}")

    # Verificamos que los scores son enteros en el rango correcto
    for field in ("content_score", "format_score"):
        score = result[field]
        if not isinstance(score, int) or not (1 <= score <= 5):
            raise ValueError(f"Score inv√°lido en '{field}': {score!r}")

    return result


logger.info("Funci√≥n de llamada a API definida con retry autom√°tico.")

## 5. Evaluaci√≥n de todos los tickets

In [None]:
def evaluate_tickets(df: pd.DataFrame) -> pd.DataFrame:
    """
    Itera sobre el DataFrame y eval√∫a cada par (ticket, reply).
    Si una fila falla, registra el error y contin√∫a con las siguientes
    en lugar de detener todo el proceso.

    Args:
        df: DataFrame con columnas 'ticket' y 'reply'.

    Returns:
        DataFrame original con las 4 columnas de evaluaci√≥n a√±adidas.
    """
    results = []
    total = len(df)

    for idx, row in df.iterrows():
        logger.info(f"Evaluando fila {idx + 1}/{total}...")

        ticket = str(row.get("ticket", "")).strip()
        reply  = str(row.get("reply",  "")).strip()

        if not ticket or not reply:
            logger.warning(f"Fila {idx}: datos vac√≠os, se omite.")
            results.append({
                "content_score": None, "content_explanation": "Missing data",
                "format_score":  None, "format_explanation":  "Missing data",
            })
            continue

        try:
            evaluation = call_llm_api(ticket, reply)
            results.append(evaluation)
            logger.info(
                f"  ‚úì Content: {evaluation['content_score']}/5 | "
                f"Format: {evaluation['format_score']}/5"
            )
        except Exception as e:
            logger.error(f"  ‚úó Error permanente en fila {idx}: {e}")
            results.append({
                "content_score": None, "content_explanation": f"Error: {e}",
                "format_score":  None, "format_explanation":  f"Error: {e}",
            })

    return pd.concat([df.reset_index(drop=True), pd.DataFrame(results)], axis=1)


logger.info("Funci√≥n de evaluaci√≥n definida.")

## 6. Lectura y validaci√≥n del CSV de entrada

In [None]:
def load_and_validate_csv(filepath: str) -> pd.DataFrame:
    """
    Lee el CSV y comprueba que tiene las columnas necesarias antes de
    hacer ninguna llamada a la API.

    Args:
        filepath: Ruta al archivo CSV.

    Returns:
        DataFrame validado.

    Raises:
        FileNotFoundError: Si el archivo no existe.
        ValueError: Si faltan columnas obligatorias.
    """
    if not os.path.exists(filepath):
        raise FileNotFoundError(f"No se encontr√≥: {filepath}")

    df = pd.read_csv(filepath)
    logger.info(f"CSV cargado: {len(df)} filas | columnas: {list(df.columns)}")

    missing_cols = {"ticket", "reply"} - set(df.columns)
    if missing_cols:
        raise ValueError(f"Columnas faltantes en el CSV: {missing_cols}")

    empty_rows = df[["ticket", "reply"]].isnull().any(axis=1).sum()
    if empty_rows > 0:
        logger.warning(f"{empty_rows} filas con valores nulos ‚Äî se omitir√°n.")

    return df


df_input = load_and_validate_csv(INPUT_FILE)
df_input.head()

## 7. Evaluaci√≥n y escritura del resultado

In [None]:
df_evaluated = evaluate_tickets(df_input)

output_columns = [
    "ticket", "reply",
    "content_score", "content_explanation",
    "format_score",  "format_explanation",
]
df_output = df_evaluated[output_columns]

df_output.to_csv(OUTPUT_FILE, index=False, encoding="utf-8")
logger.info(f"‚úÖ Evaluaci√≥n completada. Resultado guardado en: {OUTPUT_FILE}")

df_output

## 8. Resumen de resultados

In [None]:
print("=" * 55)
print("          RESUMEN DE EVALUACI√ìN")
print("=" * 55)
print(f"Total de tickets procesados : {len(df_output)}")
print(f"Content Score ‚Äî Media: {df_output['content_score'].mean():.2f} "
      f"| Min: {df_output['content_score'].min()} "
      f"| Max: {df_output['content_score'].max()}")
print(f"Format Score  ‚Äî Media: {df_output['format_score'].mean():.2f} "
      f"| Min: {df_output['format_score'].min()} "
      f"| Max: {df_output['format_score'].max()}")
print(f"Filas con error             : {df_output['content_score'].isnull().sum()}")
print("=" * 55)

---
## üéØ Escalabilidad: qu√© har√≠a con 1 mill√≥n de tickets

### 1. Procesamiento concurrente con asyncio
La versi√≥n actual procesa un ticket cada vez. Con `asyncio` y llamadas concurrentes
controladas por un sem√°foro (`asyncio.Semaphore(50)`), el tiempo se reducir√≠a
de d√≠as a horas.

### 2. Arquitectura de cola con AWS SQS + Lambda
Para escala real: **S3** recibe el CSV ‚Üí **Lambda** publica cada fila en **SQS** ‚Üí
m√∫ltiples **Lambda workers** procesan en paralelo ‚Üí resultados en **DynamoDB**.
Ventajas: escalado autom√°tico, tolerancia a fallos con Dead Letter Queue,
coste pay-per-execution.

### 3. Control de costes y observabilidad
- Cach√© sem√°ntica (Redis) para tickets similares ya evaluados
- Modelo m√°s barato para el grueso, modelo premium solo para scores 2-3
- Alertas de presupuesto y logging de tokens consumidos por llamada