# Evaluaci√≥n del Agente

## Objetivo
Este notebook establece un marco sistem√°tico para evaluar el rendimiento y la eficacia de nuestro agente. Definiremos m√©tricas, crearemos conjuntos de prueba y realizaremos evaluaciones para medir objetivamente la calidad de las respuestas y decisiones del agente.

En este notebook:
- Test t√©cnicos 
- Definiremos m√©tricas cuantitativas y cualitativas
- Construiremos conjuntos de prueba representativos
- Implementaremos metodolog√≠as de evaluaci√≥n sistem√°tica
- Analizaremos resultados para identificar fortalezas y debilidades

# Pruebas 

El sistema ser√° evaluado en funci√≥n de su precisi√≥n, rendimiento, capacidad para manejar errores, trazabilidad de ejecuciones, y la calidad de la interacci√≥n con los usuarios. Se llevar√°n a cabo pruebas t√©cnicas, cognitivas y √©ticas para asegurar que cumpla con los requisitos de funcionalidad, eficiencia y seguridad. A continuaci√≥n, se detallan los aspectos clave a medir en el proceso de evaluaci√≥n.

## üß™ Pruebas T√©cnicas

### 1. Pruebas de Robustez del Agente
Estas pruebas validan qu√© tan bien el agente maneja entradas inesperadas, errores y condiciones adversas:

- **Entrada malformada o incompleta**: El agente debe manejar consultas como `clma en Madird` o `divisas` sin pares definidos, sugiriendo correcci√≥n o solicitando aclaraci√≥n.
  - _Ejemplo_: Si recibe `divisas`, deber√≠a responder: "¬øPodr√≠as especificar qu√© par de divisas deseas consultar? (Ej: USD/MXN)".
- **Pruebas de latencia**: Mide el tiempo de respuesta de cada componente (API externa y LLM).
  - _Herramientas_: `httpx`, `time.perf_counter()`.
- **Fallas de red simuladas**: Simula errores como timeouts o respuestas 500.
  - _Herramientas_: `responses`, `pytest-httpx`.

### 2. Pruebas de Rendimiento
Eval√∫an cu√°ntas peticiones por segundo puede manejar el agente sin degradaci√≥n:

- **Carga concurrente**: Simular m√∫ltiples usuarios accediendo simult√°neamente.
  - _Herramientas_: `locust`, `artillery`, `asyncio` con `aiohttp`.
- **Pruebas de latencia**: Mide el tiempo de respuesta en condiciones normales y de carga.
  - _Herramientas_: `httpx`, `time.perf_counter()`.

### 3. Pruebas de Calidad y Seguridad del C√≥digo
Validan la estabilidad, seguridad y mantenibilidad del c√≥digo base:

- **Cobertura de c√≥digo**: Validar que los tests cubran rutas cr√≠ticas del c√≥digo.
  - _Herramientas_: `pytest-cov`.
- **Pruebas unitarias**: Validar funciones espec√≠ficas.
  - _Herramientas_: `pytest`.
- **Verificaci√≥n de tipos**: Validar que los tipos est√©n correctos.
  - _Herramientas_: `mypy`.
- **Seguridad de dependencias**: Verificar bibliotecas vulnerables.
  - _Herramientas_: `safety`, `bandit`, `pip-audit`.
- **Formato de c√≥digo**: Asegurar estilo consistente.
  - _Herramientas_: `black`, `ruff`, `autopep8`.

### 4. Control de Dependencias

- Fijar versiones de dependencias para garantizar reproducibilidad.
  - _Archivos_: `requirements.txt`, `poetry.lock`.
- Escanear librer√≠as por vulnerabilidades conocidas.
  - _Herramientas_: `pip-audit`, `safety`, `bandit`.

### 5. Validaci√≥n de Formatos de Respuesta

- Validar que cada servicio (clima, divisas, noticias) devuelva campos requeridos.
  - _Herramientas_: `pydantic`, `cerberus`.

---

## üß† Pruebas Cognitivas

Estas pruebas verifican que las respuestas del agente sean √∫tiles, claras y contextualmente relevantes.

### 1. Desambiguaci√≥n y Contexto

- Validar que el agente entienda solicitudes m√∫ltiples o ambiguas.
  - _Ejemplo_: "¬øQuiero saber el clima y las noticias?" ‚Üí Responder ambos elementos.
- Evaluar si el contexto de preguntas anteriores se mantiene.

### 2. Consistencia

- Evaluar si diferentes formulaciones de la misma pregunta generan respuestas coherentes.
  - _Ejemplo_: "¬øVa a llover en Oaxaca?" vs "¬øC√≥mo est√° el clima en Oaxaca?"

### 3. Lenguaje y Tono

- Verificar que use un lenguaje comprensible y apropiado para el usuario.
- Mantener consistencia en idioma y tono conversacional.

### 4. Evaluaci√≥n Automatizada

- Evaluar precisi√≥n y fundamentaci√≥n de respuestas.
  - _Herramientas_: `LangSmith`, `Ragas`, `TruLens`.

---

## ‚öñÔ∏è Pruebas √âticas

Estas pruebas buscan minimizar sesgos, errores y respuestas inapropiadas del agente.

### 1. Neutralidad

- Validar que el agente no se base en una sola fuente sesgada para noticias.
  - _Ejemplo_: "Fuente A opina X, pero Fuente B menciona Y".

### 2. Desinformaci√≥n y Alucinaciones

- Verificar que el agente reconozca cuando no tiene informaci√≥n.
  - _Ejemplo_: "No tengo suficiente informaci√≥n para darte una respuesta certera."

---

## üõ°Ô∏è Pruebas de Seguridad

### 1. Control de Permisos

- Verificar que el agente tenga solo acceso m√≠nimo necesario a recursos.
  - _Ejemplo_: API keys de solo lectura.

### 3. Defensa en Profundidad

- Uso combinado de sandboxing, validaci√≥n de entradas y reducci√≥n de privilegios.
  - _Ejemplo_: acceso a archivos limitado a un directorio espec√≠fico.

### 4. Casos Espec√≠ficos

- Lectura y escritura de archivos fuera de scope.
- Modificaci√≥n de bases de datos.
  - _Medidas_: Regex en nombres, credenciales limitadas, entornos aislados.

### 5. Protecci√≥n Contra Abuso

- Verificaci√≥n de cuenta (email/tel√©fono).
- Rate limiting por IP o usuario.
  - _Herramientas_: Middleware personalizado.
- Auditor√≠a de uso del LLM.

### 6. Protecci√≥n Contra Prompt Injection y Abusos por Prompts Maliciosos

- Dise√±ar prompts robustos y restringidos.
- Validar salidas con herramientas externas.
- Prevenir respuestas ofensivas, peligrosas o que puedan inducir al agente a actuar de forma inadecuada.
  - _Herramientas_: `PromptLayer`, `guardrails`, `Rebuff`, pruebas manuales.


# Plan de Evaluaci√≥n para un Agente Especializado en Noticias, Clima y Divisas



### Evaluaci√≥n Ad Hoc

Dado que este agente no busca resolver tareas abiertas o generalistas como en benchmarks tradicionales tipo **ARENA**, **MT-Bench** o **HELMeval**, **no se utilizar√°n frameworks cl√°sicos de evaluaci√≥n de LLMs**.  
El agente se especializa en tareas **determin√≠sticas y orientadas a datos concretos**: entregar el **clima actual**, el **tipo de cambio de divisas**, y **res√∫menes o titulares de noticias**.

Por ello, se justifica una **evaluaci√≥n ad hoc**, enfocada en **tres dimensiones** operativas cr√≠ticas:  
- Correcta invocaci√≥n de herramientas,  
- Calidad del razonamiento paso a paso, y  
- Precisi√≥n de la respuesta final visible al usuario.

---

### Objetivo General

Evaluar el comportamiento del agente en tres niveles complementarios:

1. **Evaluaci√≥n End-to-End**  
   Eval√∫a la respuesta completa generada por el agente ante una entrada del usuario. Se valida si entrega la informaci√≥n correcta, bien estructurada y con formato √∫til.

2. **Evaluaci√≥n de Un Solo Paso (`One Step`)**  
   Examina si el agente eligi√≥ la herramienta adecuada (por ejemplo, consulta del clima o divisas) y si la llamada incluye los par√°metros correctos.

3. **Evaluaci√≥n de la Trayectoria (`Trajectory`)**  
   Revisa la secuencia de nodos o herramientas utilizadas por el agente. Se analiza si los pasos seguidos tienen coherencia con la tarea solicitada y si hay desviaciones innecesarias o errores de flujo.

---

###  Herramientas y Evaluadores

Se emplear√°n las siguientes herramientas para orquestar y aplicar las evaluaciones:

- **LangSmith**: Plataforma para trazabilidad y an√°lisis de flujos, donde se visualizan las interacciones y trayectorias del agente, ayudando a verificar la secuencia de herramientas utilizadas y su consistencia con el flujo esperado.

- **Evaluadores personalizados**, seg√∫n el tipo de prueba:
  - **Heur√≠sticos**
  - **LLM-as-a-judge**
  - **Evaluadores humanos**

---

###  Dataset de Evaluaci√≥n

Se construir√° un **dataset de pares pregunta-respuesta**, bajo el siguiente esquema:

- **Entrada del usuario**: Cada entrada del dataset contiene una **pregunta/entrada** del usuario relacionada con el clima, las divisas o las noticias.
- **Respuesta esperada**: Cada entrada tiene una **respuesta correcta esperada** seg√∫n la fuente de datos (por ejemplo, valores actualizados de divisas, condiciones meteorol√≥gicas actuales, titulares de noticias).
- **Evaluaci√≥n de un paso**: Para evaluar un paso espec√≠fico del agente, se incluir√°n respuestas relacionadas con la **herramienta utilizada** y los par√°metros correctos. Esto permitir√° verificar si el agente hizo la invocaci√≥n correcta y con los valores adecuados.
- **Evaluaci√≥n de la trayectoria**: Se incluir√°n listas espec√≠ficas de las **herramientas correctas** y el **flujo de nodos esperado** para comparar la secuencia de acciones del agente. Este paso valida si el agente sigue el flujo correcto sin desviaciones innecesarias.

El dataset puede ser generado:
- **Manual**, con ejemplos redactados por humanos.
- **Sint√©tico**, con ayuda de scripts o plantillas para cubrir variabilidad y volumen.

Este dataset se usar√° tanto para la evaluaci√≥n de outputs finales como para validaci√≥n intermedia de pasos o trayectorias.




##  Evaluaci√≥n del Agente

### 1. **Evaluaci√≥n de un Solo Paso**

- **Inputs**: Entrada del usuario + herramientas.
- **Output**: Respuesta generada por el LLM.
- **Evaluador**: Puntuaci√≥n binaria (correcto/incorrecto) para la herramienta seleccionada y sus par√°metros.

---

### 2. **Evaluaci√≥n de la Respuesta Final**

- **Inputs**: Entrada del usuario + herramientas opcionales.
- **Output**: Respuesta final del agente.
- **Evaluador**: LLM-as-a-judge comparando con la respuesta esperada.

---

### 3. **Evaluaci√≥n de la Trayectoria**

- **Inputs**: Entrada del usuario + herramientas predefinidas.
- **Output**: Secuencia de herramientas utilizadas.
- **Evaluador**: Comparaci√≥n con la secuencia esperada de herramientas y puntuaci√≥n binaria o por errores.

---

### **Puntuaci√≥n y M√©tricas**

- **Un Solo Paso**: Puntuaci√≥n binaria (correcto/incorrecto).
- **Respuesta Final**: Puntuaci√≥n de 0 a 10 seg√∫n calidad.
- **Trayectoria**: Puntuaci√≥n binaria o m√©trica de errores en la secuencia.




## **Plan de Evaluaci√≥n en Producci√≥n**

De acuerdo con el enfoque y la tecnolog√≠a seleccionada para la productivizaci√≥n, se deben elegir herramientas adecuadas para trazabilidad y monitoreo. Independientemente de la soluci√≥n, los puntos clave a medir son los siguientes:

### 1. **Rastreo de Ejecuciones**

- **Configurar trazabilidad**: Activar el rastreo de ejecuciones del agente para capturar todas las interacciones.
- **M√©tricas clave**: 
  - **Volumen de trazas**: N√∫mero de ejecuciones procesadas.
  - **Tasa de √©xito/fracaso**: Evaluaci√≥n del desempe√±o del agente.
  - **Latencia**: Tiempo de respuesta por ejecuci√≥n.
  - **Conteo de tokens y costo**: Monitorear el consumo de recursos.

### 2. **Recopilaci√≥n de Feedback**

- **Feedback expl√≠cito**: Implementar botones de "me gusta/no me gusta" o formularios para recolectar satisfacci√≥n directa de los usuarios.
- **Feedback impl√≠cito**: Monitorear patrones de uso como frecuencia de interacci√≥n o abandono.
- **Evaluaci√≥n autom√°tica con LLM**: Usar evaluadores autom√°ticos para detectar respuestas err√≥neas, alucinaciones o respuestas t√≥xicas.

### 3. **Monitoreo de Errores**

- **Identificaci√≥n de errores**: Rastrear fallos y excepciones durante la ejecuci√≥n del agente.
- **Ajustes**: Corregir los errores y realizar ajustes en tiempo real con base en los datos recolectados.

### 4. **Clasificaci√≥n y Etiquetado**

- **Clasificaci√≥n de respuestas**: Implementar un sistema para etiquetar las respuestas en funci√≥n de su relevancia, tono, y posibles problemas (toxicidad, etc.).
- **Ajustes continuos**: Basar los ajustes en los resultados de la clasificaci√≥n y el feedback para mejorar el rendimiento del agente.
