# Evaluación del Agente

## Objetivo
Este notebook establece un marco sistemático para evaluar el rendimiento y la eficacia de nuestro agente. Definiremos métricas, crearemos conjuntos de prueba y realizaremos evaluaciones para medir objetivamente la calidad de las respuestas y decisiones del agente.

En este notebook:
- Test técnicos 
- Definiremos métricas cuantitativas y cualitativas
- Construiremos conjuntos de prueba representativos
- Implementaremos metodologías de evaluación sistemática
- Analizaremos resultados para identificar fortalezas y debilidades

# Pruebas 

El sistema será evaluado en función de su precisión, rendimiento, capacidad para manejar errores, trazabilidad de ejecuciones, y la calidad de la interacción con los usuarios. Se llevarán a cabo pruebas técnicas, cognitivas y éticas para asegurar que cumpla con los requisitos de funcionalidad, eficiencia y seguridad. A continuación, se detallan los aspectos clave a medir en el proceso de evaluación.

## 🧪 Pruebas Técnicas

### 1. Pruebas de Robustez del Agente
Estas pruebas validan qué tan bien el agente maneja entradas inesperadas, errores y condiciones adversas:

- **Entrada malformada o incompleta**: El agente debe manejar consultas como `clma en Madird` o `divisas` sin pares definidos, sugiriendo corrección o solicitando aclaración.
  - _Ejemplo_: Si recibe `divisas`, debería responder: "¿Podrías especificar qué par de divisas deseas consultar? (Ej: USD/MXN)".
- **Pruebas de latencia**: Mide el tiempo de respuesta de cada componente (API externa y LLM).
  - _Herramientas_: `httpx`, `time.perf_counter()`.
- **Fallas de red simuladas**: Simula errores como timeouts o respuestas 500.
  - _Herramientas_: `responses`, `pytest-httpx`.

### 2. Pruebas de Rendimiento
Evalúan cuántas peticiones por segundo puede manejar el agente sin degradación:

- **Carga concurrente**: Simular múltiples usuarios accediendo simultáneamente.
  - _Herramientas_: `locust`, `artillery`, `asyncio` con `aiohttp`.
- **Pruebas de latencia**: Mide el tiempo de respuesta en condiciones normales y de carga.
  - _Herramientas_: `httpx`, `time.perf_counter()`.

### 3. Pruebas de Calidad y Seguridad del Código
Validan la estabilidad, seguridad y mantenibilidad del código base:

- **Cobertura de código**: Validar que los tests cubran rutas críticas del código.
  - _Herramientas_: `pytest-cov`.
- **Pruebas unitarias**: Validar funciones específicas.
  - _Herramientas_: `pytest`.
- **Verificación de tipos**: Validar que los tipos estén correctos.
  - _Herramientas_: `mypy`.
- **Seguridad de dependencias**: Verificar bibliotecas vulnerables.
  - _Herramientas_: `safety`, `bandit`, `pip-audit`.
- **Formato de código**: Asegurar estilo consistente.
  - _Herramientas_: `black`, `ruff`, `autopep8`.

### 4. Control de Dependencias

- Fijar versiones de dependencias para garantizar reproducibilidad.
  - _Archivos_: `requirements.txt`, `poetry.lock`.
- Escanear librerías por vulnerabilidades conocidas.
  - _Herramientas_: `pip-audit`, `safety`, `bandit`.

### 5. Validación de Formatos de Respuesta

- Validar que cada servicio (clima, divisas, noticias) devuelva campos requeridos.
  - _Herramientas_: `pydantic`, `cerberus`.

---

## 🧠 Pruebas Cognitivas

Estas pruebas verifican que las respuestas del agente sean útiles, claras y contextualmente relevantes.

### 1. Desambiguación y Contexto

- Validar que el agente entienda solicitudes múltiples o ambiguas.
  - _Ejemplo_: "¿Quiero saber el clima y las noticias?" → Responder ambos elementos.
- Evaluar si el contexto de preguntas anteriores se mantiene.

### 2. Consistencia

- Evaluar si diferentes formulaciones de la misma pregunta generan respuestas coherentes.
  - _Ejemplo_: "¿Va a llover en Oaxaca?" vs "¿Cómo está el clima en Oaxaca?"

### 3. Lenguaje y Tono

- Verificar que use un lenguaje comprensible y apropiado para el usuario.
- Mantener consistencia en idioma y tono conversacional.

### 4. Evaluación Automatizada

- Evaluar precisión y fundamentación de respuestas.
  - _Herramientas_: `LangSmith`, `Ragas`, `TruLens`.

---

## ⚖️ Pruebas Éticas

Estas pruebas buscan minimizar sesgos, errores y respuestas inapropiadas del agente.

### 1. Neutralidad

- Validar que el agente no se base en una sola fuente sesgada para noticias.
  - _Ejemplo_: "Fuente A opina X, pero Fuente B menciona Y".

### 2. Desinformación y Alucinaciones

- Verificar que el agente reconozca cuando no tiene información.
  - _Ejemplo_: "No tengo suficiente información para darte una respuesta certera."

---

## 🛡️ Pruebas de Seguridad

### 1. Control de Permisos

- Verificar que el agente tenga solo acceso mínimo necesario a recursos.
  - _Ejemplo_: API keys de solo lectura.

### 3. Defensa en Profundidad

- Uso combinado de sandboxing, validación de entradas y reducción de privilegios.
  - _Ejemplo_: acceso a archivos limitado a un directorio específico.

### 4. Casos Específicos

- Lectura y escritura de archivos fuera de scope.
- Modificación de bases de datos.
  - _Medidas_: Regex en nombres, credenciales limitadas, entornos aislados.

### 5. Protección Contra Abuso

- Verificación de cuenta (email/teléfono).
- Rate limiting por IP o usuario.
  - _Herramientas_: Middleware personalizado.
- Auditoría de uso del LLM.

### 6. Protección Contra Prompt Injection y Abusos por Prompts Maliciosos

- Diseñar prompts robustos y restringidos.
- Validar salidas con herramientas externas.
- Prevenir respuestas ofensivas, peligrosas o que puedan inducir al agente a actuar de forma inadecuada.
  - _Herramientas_: `PromptLayer`, `guardrails`, `Rebuff`, pruebas manuales.


# Plan de Evaluación para un Agente Especializado en Noticias, Clima y Divisas



### Evaluación Ad Hoc

Dado que este agente no busca resolver tareas abiertas o generalistas como en benchmarks tradicionales tipo **ARENA**, **MT-Bench** o **HELMeval**, **no se utilizarán frameworks clásicos de evaluación de LLMs**.  
El agente se especializa en tareas **determinísticas y orientadas a datos concretos**: entregar el **clima actual**, el **tipo de cambio de divisas**, y **resúmenes o titulares de noticias**.

Por ello, se justifica una **evaluación ad hoc**, enfocada en **tres dimensiones** operativas críticas:  
- Correcta invocación de herramientas,  
- Calidad del razonamiento paso a paso, y  
- Precisión de la respuesta final visible al usuario.

---

### Objetivo General

Evaluar el comportamiento del agente en tres niveles complementarios:

1. **Evaluación End-to-End**  
   Evalúa la respuesta completa generada por el agente ante una entrada del usuario. Se valida si entrega la información correcta, bien estructurada y con formato útil.

2. **Evaluación de Un Solo Paso (`One Step`)**  
   Examina si el agente eligió la herramienta adecuada (por ejemplo, consulta del clima o divisas) y si la llamada incluye los parámetros correctos.

3. **Evaluación de la Trayectoria (`Trajectory`)**  
   Revisa la secuencia de nodos o herramientas utilizadas por el agente. Se analiza si los pasos seguidos tienen coherencia con la tarea solicitada y si hay desviaciones innecesarias o errores de flujo.

---

###  Herramientas y Evaluadores

Se emplearán las siguientes herramientas para orquestar y aplicar las evaluaciones:

- **LangSmith**: Plataforma para trazabilidad y análisis de flujos, donde se visualizan las interacciones y trayectorias del agente, ayudando a verificar la secuencia de herramientas utilizadas y su consistencia con el flujo esperado.

- **Evaluadores personalizados**, según el tipo de prueba:
  - **Heurísticos**
  - **LLM-as-a-judge**
  - **Evaluadores humanos**

---

###  Dataset de Evaluación

Se construirá un **dataset de pares pregunta-respuesta**, bajo el siguiente esquema:

- **Entrada del usuario**: Cada entrada del dataset contiene una **pregunta/entrada** del usuario relacionada con el clima, las divisas o las noticias.
- **Respuesta esperada**: Cada entrada tiene una **respuesta correcta esperada** según la fuente de datos (por ejemplo, valores actualizados de divisas, condiciones meteorológicas actuales, titulares de noticias).
- **Evaluación de un paso**: Para evaluar un paso específico del agente, se incluirán respuestas relacionadas con la **herramienta utilizada** y los parámetros correctos. Esto permitirá verificar si el agente hizo la invocación correcta y con los valores adecuados.
- **Evaluación de la trayectoria**: Se incluirán listas específicas de las **herramientas correctas** y el **flujo de nodos esperado** para comparar la secuencia de acciones del agente. Este paso valida si el agente sigue el flujo correcto sin desviaciones innecesarias.

El dataset puede ser generado:
- **Manual**, con ejemplos redactados por humanos.
- **Sintético**, con ayuda de scripts o plantillas para cubrir variabilidad y volumen.

Este dataset se usará tanto para la evaluación de outputs finales como para validación intermedia de pasos o trayectorias.




##  Evaluación del Agente

### 1. **Evaluación de un Solo Paso**

- **Inputs**: Entrada del usuario + herramientas.
- **Output**: Respuesta generada por el LLM.
- **Evaluador**: Puntuación binaria (correcto/incorrecto) para la herramienta seleccionada y sus parámetros.

---

### 2. **Evaluación de la Respuesta Final**

- **Inputs**: Entrada del usuario + herramientas opcionales.
- **Output**: Respuesta final del agente.
- **Evaluador**: LLM-as-a-judge comparando con la respuesta esperada.

---

### 3. **Evaluación de la Trayectoria**

- **Inputs**: Entrada del usuario + herramientas predefinidas.
- **Output**: Secuencia de herramientas utilizadas.
- **Evaluador**: Comparación con la secuencia esperada de herramientas y puntuación binaria o por errores.

---

### **Puntuación y Métricas**

- **Un Solo Paso**: Puntuación binaria (correcto/incorrecto).
- **Respuesta Final**: Puntuación de 0 a 10 según calidad.
- **Trayectoria**: Puntuación binaria o métrica de errores en la secuencia.




## **Plan de Evaluación en Producción**

De acuerdo con el enfoque y la tecnología seleccionada para la productivización, se deben elegir herramientas adecuadas para trazabilidad y monitoreo. Independientemente de la solución, los puntos clave a medir son los siguientes:

### 1. **Rastreo de Ejecuciones**

- **Configurar trazabilidad**: Activar el rastreo de ejecuciones del agente para capturar todas las interacciones.
- **Métricas clave**: 
  - **Volumen de trazas**: Número de ejecuciones procesadas.
  - **Tasa de éxito/fracaso**: Evaluación del desempeño del agente.
  - **Latencia**: Tiempo de respuesta por ejecución.
  - **Conteo de tokens y costo**: Monitorear el consumo de recursos.

### 2. **Recopilación de Feedback**

- **Feedback explícito**: Implementar botones de "me gusta/no me gusta" o formularios para recolectar satisfacción directa de los usuarios.
- **Feedback implícito**: Monitorear patrones de uso como frecuencia de interacción o abandono.
- **Evaluación automática con LLM**: Usar evaluadores automáticos para detectar respuestas erróneas, alucinaciones o respuestas tóxicas.

### 3. **Monitoreo de Errores**

- **Identificación de errores**: Rastrear fallos y excepciones durante la ejecución del agente.
- **Ajustes**: Corregir los errores y realizar ajustes en tiempo real con base en los datos recolectados.

### 4. **Clasificación y Etiquetado**

- **Clasificación de respuestas**: Implementar un sistema para etiquetar las respuestas en función de su relevancia, tono, y posibles problemas (toxicidad, etc.).
- **Ajustes continuos**: Basar los ajustes en los resultados de la clasificación y el feedback para mejorar el rendimiento del agente.
