In [None]:
# Copyright 2024 Google LLC
#
# Licenciado bajo la Licencia Apache, Versión 2.0 (la "Licencia");
# no puedes usar este archivo excepto en cumplimiento con la Licencia.
# Puedes obtener una copia de la Licencia en
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# A menos que lo requiera la ley aplicable o se acuerde por escrito, el software
# distribuido bajo la Licencia se distribuye "TAL CUAL",
# SIN GARANTÍAS NI CONDICIONES DE NINGÚN TIPO, ya sean expresas o implícitas.
# Consulta la Licencia para conocer el lenguaje específico que rige los permisos y
# limitaciones bajo la Licencia.

# Evaluación de Agentes - Evaluar un agente LangGraph con Vertex AI Gen AI Evaluation

<table align="left">
  <td style="text-align: center">
    <a href="https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/evaluating_langgraph_agent.ipynb">
      <img width="32px" src="https://www.gstatic.com/pantheon/images/bigquery/welcome_page/colab-logo.svg" alt="Logo de Google Colaboratory"><br> Abrir en Colab
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://console.cloud.google.com/vertex-ai/colab/import/https:%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fevaluation%2Fevaluating_langgraph_agent.ipynb">
      <img width="32px" src="https://lh3.googleusercontent.com/JmcxdQi-qOpctIvWKgPtrzZdJJK-J3sWE1RsfjZNwshCFgE_9fULcNpuXYTilIR2hjwN" alt="Logo de Google Cloud Colab Enterprise"><br> Abrir en Colab Enterprise
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https://raw.githubusercontent.com/GoogleCloudPlatform/generative-ai/main/gemini/evaluation/evaluating_langgraph_agent.ipynb">
      <img src="https://www.gstatic.com/images/branding/gcpiconscolors/vertexai/v1/32px.svg" alt="Logo de Vertex AI"><br> Abrir en Vertex AI Workbench
    </a>
  </td>
  <td style="text-align: center">
    <a href="https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/evaluating_langgraph_agent.ipynb">
      <img width="32px" src="https://www.svgrepo.com/download/217753/github.svg" alt="Logo de GitHub"><br> Ver en GitHub
    </a>
  </td>
</table>

<div style="clear: both;"></div>

<b>Compartir en:</b>

<a href="https://www.linkedin.com/sharing/share-offsite/?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/evaluating_langgraph_agent.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/8/81/LinkedIn_icon.svg" alt="Logo de LinkedIn">
</a>

<a href="https://bsky.app/intent/compose?text=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/evaluating_langgraph_agent.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/7/7a/Bluesky_Logo.svg" alt="Logo de Bluesky">
</a>

<a href="https://twitter.com/intent/tweet?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/evaluating_langgraph_agent.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/5/5a/X_icon_2.svg" alt="Logo de X">
</a>

<a href="https://reddit.com/submit?url=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/evaluating_langgraph_agent.ipynb" target="_blank">
  <img width="20px" src="https://redditinc.com/hubfs/Reddit%20Inc/Brand/Reddit_Logo.png" alt="Logo de Reddit">
</a>

<a href="https://www.facebook.com/sharer/sharer.php?u=https%3A//github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/evaluation/evaluating_langgraph_agent.ipynb" target="_blank">
  <img width="20px" src="https://upload.wikimedia.org/wikipedia/commons/5/51/Facebook_f_logo_%282019%29.svg" alt="Logo de Facebook">
</a>

| | |
|-|-|
| Autores | [Ivan Nardini](https://github.com/inardini) [Naveksha Sood](https://github.com/navekshasood)|

## Resumen

Al igual que cualquier aplicación de IA generativa, los agentes de IA requieren una evaluación exhaustiva para garantizar que funcionen de manera confiable y efectiva. Esta evaluación debe realizarse tanto en tiempo real (en línea) como en grandes conjuntos de datos de casos de prueba (fuera de línea). Los desarrolladores que crean aplicaciones de agentes enfrentan un desafío significativo al evaluar su rendimiento. Tanto las evaluaciones subjetivas (retroalimentación humana) como las objetivas (métricas medibles) son esenciales para generar confianza en el comportamiento del agente.

Vertex AI Model Evaluation proporciona un conjunto de herramientas de métodos y métricas controladas por calidad y explicables para evaluar cualquier modelo o aplicación generativa, incluidos los agentes, y comparar los resultados de la evaluación con tu propio juicio, utilizando tus propios criterios de evaluación.

Este tutorial muestra cómo evaluar un agente LangGraph utilizando Vertex AI Gen AI Evaluation para la evaluación de agentes.

El tutorial utiliza los siguientes servicios y recursos de Google Cloud:

*  Vertex AI Gen AI Evaluation

Los pasos realizados incluyen:

* Construir un agente local utilizando LangGraph
* Preparar el conjunto de datos de evaluación del agente
* Evaluación del uso de una única herramienta
* Evaluación de trayectoria
* Evaluación de respuesta


## Empezar

### Instalar Vertex AI SDK y otros paquetes requeridos


In [None]:
%pip install --upgrade --user --quiet "google-cloud-aiplatform[evaluation]" \
    "langchain_google_vertexai" \
    "langgraph" \
    "cloudpickle==3.0.0" \
    "pydantic==2.7.4" \
    "requests"

### Reiniciar el entorno de ejecución

Para usar los paquetes recién instalados en este entorno de Jupyter, debes reiniciar el entorno de ejecución. Puedes hacerlo ejecutando la celda a continuación, que reinicia el kernel actual.

El reinicio puede tardar un minuto o más. Después de que se haya reiniciado, continúa con el siguiente paso.

In [None]:
import IPython

app = IPython.Application.instance()
app.kernel.do_shutdown(True)

<div class="alert alert-block alert-warning">
<b>⚠️ El kernel se va a reiniciar. En Colab o Colab Enterprise, es posible que veas un mensaje de error que dice "Tu sesión se ha bloqueado por una razón desconocida." Esto es esperado. Espera hasta que haya terminado antes de continuar con el siguiente paso. ⚠️</b>
</div>


### Autenticar tu entorno de notebook (solo Colab)

Si estás ejecutando este notebook en Google Colab, ejecuta la celda a continuación para autenticar tu entorno.

In [None]:
import sys

if "google.colab" in sys.modules:
    from google.colab import auth

    auth.authenticate_user()

### Configurar la información del proyecto de Google Cloud e inicializar Vertex AI SDK

Para comenzar a usar Vertex AI, debes tener un proyecto de Google Cloud existente y [habilitar la API de Vertex AI](https://console.cloud.google.com/flows/enableapi?apiid=aiplatform.googleapis.com).

Obtén más información sobre [cómo configurar un proyecto y un entorno de desarrollo](https://cloud.google.com/vertex-ai/docs/start/cloud-environment).

In [None]:
# Usa la variable de entorno si el usuario no proporciona el ID del proyecto.
import os

import vertexai

PROJECT_ID = "[your-project-id]"  # @param {type: "string", placeholder: "[your-project-id]", isTemplate: true}

if not PROJECT_ID or PROJECT_ID == "[your-project-id]":
    PROJECT_ID = str(os.environ.get("GOOGLE_CLOUD_PROJECT"))

LOCATION = os.environ.get("GOOGLE_CLOUD_REGION", "us-central1")

EXPERIMENT_NAME = "evaluate-langgraph-agent"  # @param {type:"string"}

vertexai.init(project=PROJECT_ID, location=LOCATION, experiment=EXPERIMENT_NAME)

## Importar bibliotecas

Importar bibliotecas del tutorial.

In [None]:
# General
import random
import string
from typing import Literal

from IPython.display import HTML, Markdown, display

# Evaluar agente
from google.cloud import aiplatform
from langchain.load import dump as langchain_load_dump

# Construir agente
from langchain_core.messages import BaseMessage, HumanMessage
from langchain_core.tools import tool
from langchain_google_vertexai import ChatVertexAI
from langgraph.graph import END, MessageGraph
from langgraph.prebuilt import ToolNode
import pandas as pd
import plotly.graph_objects as go
from vertexai.preview.evaluation import EvalTask
from vertexai.preview.evaluation.metrics import (
    PointwiseMetric,
    PointwiseMetricPromptTemplate,
    TrajectorySingleToolUse,
)

## Definir funciones auxiliares

Iniciar un conjunto de funciones auxiliares para imprimir los resultados del tutorial.

In [None]:
def get_id(length: int = 8) -> str:
    """Generar un uuid de una longitud especificada (por defecto=8)."""
    return "".join(random.choices(string.ascii_lowercase + string.digits, k=length))


def parse_messages_to_output_dictionary(messages: list[dict]) -> dict:
    """Analizar la respuesta y las llamadas a funciones de una lista de mensajes en el formato del constructor."""

    final_output = {
        "response": "No se encontró respuesta de IA en el historial de mensajes.",
        "predicted_trajectory": [],
    }

    # Procesar cada mensaje
    function_calls = []
    for message in messages:
        # Verificar si es un mensaje de herramienta que contiene la respuesta real
        if message.get("type") == "constructor" and "ToolMessage" in message.get(
            "id", []
        ):
            final_output["response"] = message["kwargs"]["content"]

        # Verificar si es un mensaje de IA para obtener llamadas a herramientas
        elif message.get("type") == "constructor" and "AIMessage" in message.get(
            "id", []
        ):
            tool_calls = message["kwargs"].get("tool_calls", [])
            for tool_call in tool_calls:
                if tool_call:
                    function_calls.append(
                        {
                            "tool_name": tool_call.get("name"),
                            "tool_input": tool_call.get("args"),
                        }
                    )

    final_output["predicted_trajectory"] = function_calls
    return final_output


def format_output_as_markdown(output: dict) -> str:
    """Convertir el diccionario de salida a una cadena de markdown formateada."""
    markdown = "### Respuesta de IA\n"
    markdown += f"{output['response']}\n\n"

    if output["predicted_trajectory"]:
        markdown += "### Llamadas a Funciones\n"
        for call in output["predicted_trajectory"]:
            markdown += f"- **Función**: `{call['tool_name']}`\n"
            markdown += "  - **Argumentos**:\n"
            for key, value in call["tool_input"].items():
                markdown += f"    - `{key}`: `{value}`\n"

    return markdown


def display_eval_report(eval_result: pd.DataFrame) -> None:
    """Mostrar los resultados de la evaluación."""
    metrics_df = pd.DataFrame.from_dict(eval_result.summary_metrics, orient="index").T
    display(Markdown("### Métricas Resumidas"))
    display(metrics_df)

    display(Markdown(f"### Métricas por Fila"))
    display(eval_result.metrics_table)


def display_drilldown(row: pd.Series) -> None:
    """Mostrar una vista detallada para los datos de trayectoria dentro de una fila."""

    style = "white-space: pre-wrap; width: 800px; overflow-x: auto;"

    if not (
        isinstance(row["predicted_trajectory"], list)
        and isinstance(row["reference_trajectory"], list)
    ):
        return

    for predicted_trajectory, reference_trajectory in zip(
        row["predicted_trajectory"], row["reference_trajectory"]
    ):
        display(
            HTML(
                f"<h3>Nombres de Herramientas:</h3><div style='{style}'>{predicted_trajectory['tool_name'], reference_trajectory['tool_name']}</div>"
            )
        )

        if not (
            isinstance(predicted_trajectory.get("tool_input"), dict)
            and isinstance(reference_trajectory.get("tool_input"), dict)
        ):
            continue

        for tool_input_key in predicted_trajectory["tool_input"]:
            print("Clave de Entrada de Herramienta: ", tool_input_key)

            if tool_input_key in reference_trajectory["tool_input"]:
                print(
                    "Valores de Herramienta: ",
                    predicted_trajectory["tool_input"][tool_input_key],
                    reference_trajectory["tool_input"][tool_input_key],
                )
            else:
                print(
                    "Valores de Herramienta: ",
                    predicted_trajectory["tool_input"][tool_input_key],
                    "N/A",
                )
        print("\n")
    display(HTML("<hr>"))


def display_dataframe_rows(
    df: pd.DataFrame,
    columns: list[str] | None = None,
    num_rows: int = 3,
    display_drilldown: bool = False,
) -> None:
    """Mostrar un subconjunto de filas de un DataFrame, opcionalmente incluyendo una vista detallada."""

    if columns:
        df = df[columns]

    base_style = "font-family: monospace; font-size: 14px; white-space: pre-wrap; width: auto; overflow-x: auto;"
    header_style = base_style + "font-weight: bold;"

    for _, row in df.head(num_rows).iterrows():
        for column in df.columns:
            display(
                HTML(
                    f"<span style='{header_style}'>{column.replace('_', ' ').title()}: </span>"
                )
            )
            display(HTML(f"<span style='{base_style}'>{row[column]}</span><br>"))

        display(HTML("<hr>"))

        if (
            display_drilldown
            and "predicted_trajectory" in df.columns
            and "reference_trajectory" in df.columns
        ):
            display_drilldown(row)


def plot_bar_plot(
    eval_result: pd.DataFrame, title: str, metrics: list[str] = None
) -> None:
    fig = go.Figure()
    data = []

    summary_metrics = eval_result.summary_metrics
    if metrics:
        summary_metrics = {
            k: summary_metrics[k]
            for k, v in summary_metrics.items()
            if any(selected_metric in k for selected_metric in metrics)
        }

    data.append(
        go.Bar(
            x=list(summary_metrics.keys()),
            y=list(summary_metrics.values()),
            name=title,
        )
    )

    fig = go.Figure(data=data)

    # Cambiar el modo de la barra
    fig.update_layout(barmode="group")
    fig.show()


def display_radar_plot(eval_results, title: str, metrics=None):
    """Graficar el gráfico de radar."""
    fig = go.Figure()
    summary_metrics = eval_results.summary_metrics
    if metrics:
        summary_metrics = {
            k: summary_metrics[k]
            for k, v in summary_metrics.items()
            if any(selected_metric in k for selected_metric in metrics)
        }

    min_val = min(summary_metrics.values())
    max_val = max(summary_metrics.values())

    fig.add_trace(
        go.Scatterpolar(
            r=list(summary_metrics.values()),
            theta=list(summary_metrics.keys()),
            fill="toself",
            name=title,
        )
    )
    fig.update_layout(
        title=title,
        polar=dict(radialaxis=dict(visible=True, range=[min_val, max_val])),
        showlegend=True,
    )
    fig.show()

## Construir agente LangGraph

Construye tu aplicación utilizando LangGraph, incluyendo el modelo Gemini, herramientas personalizadas que defines y un enrutador para controlar el flujo conversacional.

### Configurar herramientas

Para empezar, configura las herramientas que un agente de soporte al cliente necesita para hacer su trabajo.

In [None]:
@tool
def get_product_details(product_name: str):
    """Recopila detalles básicos sobre un producto."""
    details = {
        "smartphone": "Un smartphone de última generación con funciones avanzadas de cámara y procesamiento ultrarrápido.",
        "usb charger": "Un cargador usb súper rápido y ligero",
        "shoes": "Zapatillas de running de alto rendimiento diseñadas para comodidad, soporte y velocidad.",
        "headphones": "Auriculares inalámbricos con tecnología avanzada de cancelación de ruido para un audio inmersivo.",
        "speaker": "Un altavoz inteligente controlado por voz que reproduce música, establece alarmas y controla dispositivos domésticos inteligentes.",
    }
    return details.get(product_name, "Detalles del producto no encontrados.")


@tool
def get_product_price(product_name: str):
    """Recopila el precio de un producto."""
    details = {
        "smartphone": 500,
        "usb charger": 10,
        "shoes": 100,
        "headphones": 50,
        "speaker": 80,
    }
    return details.get(product_name, "Precio del producto no encontrado.")

### Definir enrutador

Configura un enrutador para dirigir el flujo de la conversación seleccionando la herramienta adecuada según la entrada del usuario o el estado de la interacción.


In [None]:
def router(
    state: list[BaseMessage],
) -> Literal["get_product_details", "get_product_price", "__end__"]:
    """Inicia la recuperación de detalles o precios del producto si el usuario lo solicita."""
    # Obtener las tool_calls del último mensaje en el historial de la conversación.
    tool_calls = state[-1].tool_calls

    # Si hay alguna tool_call
    if tool_calls:
        # Verificar el nombre de la función en la primera tool call
        function_name = tool_calls[0].get("name")
        if function_name == "get_product_price":
            return "get_product_price"
        else:
            return "get_product_details"
    else:
        # Terminar el flujo de la conversación.
        return "__end__"

### Configurar el modelo

Elige qué modelo de IA Gemini usará tu agente. Si tienes curiosidad sobre Gemini y sus diferentes capacidades, consulta [la documentación oficial](https://cloud.google.com/vertex-ai/generative-ai/docs/learn/models) para obtener más detalles.

In [None]:
llm = "gemini-1.5-pro"

### Montar el agente

El Vertex AI Gen AI Evaluation funciona directamente con agentes 'Queryable', y también te permite agregar tus propias funciones personalizadas con una estructura específica (firma).

En este caso, montas el agente utilizando una función personalizada. La función activa el agente para una entrada dada y analiza el resultado del agente para extraer la respuesta y las herramientas llamadas.

In [None]:
def agent_parsed_outcome(input):

    model = ChatVertexAI(model=llm)
    builder = MessageGraph()

    model_with_tools = model.bind_tools([get_product_details, get_product_price])
    builder.add_node("tools", model_with_tools)

    tool_node = ToolNode([get_product_details, get_product_price])
    builder.add_node("get_product_details", tool_node)
    builder.add_node("get_product_price", tool_node)
    builder.add_edge("get_product_details", END)
    builder.add_edge("get_product_price", END)

    builder.set_entry_point("tools")
    builder.add_conditional_edges("tools", router)

    app = builder.compile()
    chat_history = langchain_load_dump.dumpd(app.invoke(HumanMessage(input)))
    return parse_messages_to_output_dictionary(chat_history)

### Probar el agente

Consulta tu agente.

In [None]:
response = agent_parsed_outcome(input="Get product details for shoes")
display(Markdown(format_output_as_markdown(response)))

In [None]:
response = agent_parsed_outcome(input="Get product price for shoes")
display(Markdown(format_output_as_markdown(response)))

## Evaluar un agente LangGraph con Vertex AI Gen AI Evaluation

Cuando trabajas con agentes de IA, es importante realizar un seguimiento de su rendimiento y de qué tan bien están funcionando. Puedes ver esto de dos maneras principales: **monitoreo** y **observabilidad**.

El monitoreo se enfoca en qué tan bien tu agente está realizando tareas específicas:

* **Selección de una sola herramienta**: ¿El agente está eligiendo las herramientas adecuadas para el trabajo?

* **Selección de múltiples herramientas (o trayectoria)**: ¿El agente está tomando decisiones lógicas en el orden en que usa las herramientas?

* **Generación de respuestas**: ¿La salida del agente es buena y tiene sentido en función de las herramientas que utilizó?

La observabilidad se trata de comprender la salud general del agente:

* **Latencia**: ¿Cuánto tiempo tarda el agente en responder?

* **Tasa de fallos**: ¿Con qué frecuencia el agente no produce una respuesta?

El servicio Vertex AI Gen AI Evaluation te ayuda a evaluar todos estos aspectos tanto mientras estás prototipando el agente como después de desplegarlo en producción. Proporciona [criterios y métricas de evaluación preconstruidos](https://cloud.google.com/vertex-ai/generative-ai/docs/models/determine-eval) para que puedas ver exactamente cómo están funcionando tus agentes e identificar áreas de mejora.

### Preparar el conjunto de datos de evaluación del agente

Para evaluar tu agente de IA utilizando el servicio Vertex AI Gen AI Evaluation, necesitas un conjunto de datos específico dependiendo de qué aspectos deseas evaluar de tu agente.

Este conjunto de datos debe incluir los prompts dados al agente. También puede contener la respuesta ideal o esperada (ground truth) y la secuencia de llamadas a herramientas que el agente debería tomar (trayectoria de referencia) que representa la secuencia de herramientas que esperas que el agente llame para cada prompt dado.

> Opcionalmente, puedes proporcionar tanto las respuestas generadas como la trayectoria predicha (**escenario de Trae-Tu-Propio-Conjunto-de-Datos**).

A continuación tienes un ejemplo de conjunto de datos que podrías tener con un agente de soporte al cliente con el prompt del usuario y la trayectoria de referencia.

In [None]:
eval_data = {
    "prompt": [
        "Get price for smartphone",
        "Get product details and price for headphones",
        "Get details for usb charger",
        "Get product details and price for shoes",
        "Get product details for speaker?",
    ],
    "reference_trajectory": [
        [
            {
                "tool_name": "get_product_price",
                "tool_input": {"product_name": "smartphone"},
            }
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "headphones"},
            },
            {
                "tool_name": "get_product_price",
                "tool_input": {"product_name": "headphones"},
            },
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "usb charger"},
            }
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "shoes"},
            },
            {"tool_name": "get_product_price", "tool_input": {"product_name": "shoes"}},
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "speaker"},
            }
        ],
    ],
}

eval_sample_dataset = pd.DataFrame(eval_data)

Imprimir algunas muestras del conjunto de datos.

In [None]:
display_dataframe_rows(eval_sample_dataset, num_rows=3)

### Evaluación del uso de una única herramienta

Después de configurar tu agente de IA y el conjunto de datos de evaluación, comienzas evaluando si el agente está eligiendo la herramienta correcta para una tarea dada.


#### Configurar métricas de uso de una única herramienta

La métrica `trajectory_single_tool_use` en Vertex AI Gen AI Evaluation te da una forma rápida de evaluar si tu agente está usando la herramienta que esperas que use, sin importar el orden específico de las herramientas. Es una forma básica pero útil de comenzar a evaluar si se utilizó la herramienta correcta en algún momento durante el proceso del agente.

Para usar la métrica `trajectory_single_tool_use`, necesitas configurar qué herramienta debería haberse usado para una solicitud particular del usuario. Por ejemplo, si un usuario pide "enviar un correo electrónico", podrías esperar que el agente use una herramienta "send_email", y especificarías el nombre de esa herramienta al usar esta métrica.


In [None]:
single_tool_usage_metrics = [TrajectorySingleToolUse(tool_name="get_product_price")]

#### Ejecutar una tarea de evaluación

Para ejecutar la evaluación, inicias una `EvalTask` utilizando el conjunto de datos predefinido (`eval_sample_dataset`) y las métricas (`single_tool_usage_metrics` en este caso) dentro de un experimento. Luego, ejecutas la evaluación utilizando la función agent_parsed_outcome y asignas un identificador único a esta ejecución de evaluación específica, almacenando y visualizando los resultados de la evaluación.


In [None]:
EXPERIMENT_RUN = f"single-metric-eval-{get_id()}"

single_tool_call_eval_task = EvalTask(
    dataset=eval_sample_dataset,
    metrics=single_tool_usage_metrics,
    experiment=EXPERIMENT_NAME,
)

single_tool_call_eval_result = single_tool_call_eval_task.evaluate(
    runnable=agent_parsed_outcome, experiment_run_name=EXPERIMENT_RUN
)

display_eval_report(single_tool_call_eval_result)

#### Visualizar resultados de la evaluación

Usa algunas funciones auxiliares para visualizar una muestra del resultado de la evaluación.

In [None]:
display_dataframe_rows(single_tool_call_eval_result.metrics_table, num_rows=3)

### Evaluación de trayectoria

Después de evaluar la capacidad del agente para seleccionar la herramienta única más adecuada para una tarea dada, generalizas la evaluación analizando las elecciones de secuencia de herramientas con respecto a la entrada del usuario (trayectoria). Esto evalúa si el agente no solo elige las herramientas correctas, sino que también las utiliza en un orden racional y efectivo.

#### Configurar métricas de trayectoria

Para evaluar la trayectoria del agente, Vertex AI Gen AI Evaluation proporciona varias métricas basadas en la verdad fundamental:

* `trajectory_exact_match`: trayectorias idénticas (mismas acciones, mismo orden)

* `trajectory_in_order_match`: acciones de referencia presentes en la trayectoria predicha, en orden (se permiten extras)

* `trajectory_any_order_match`: todas las acciones de referencia presentes en la trayectoria predicha (el orden y los extras no importan).

* `trajectory_precision`: proporción de acciones predichas presentes en la referencia

* `trajectory_recall`: proporción de acciones de referencia presentes en la predicción.

Todas las métricas puntúan 0 o 1, excepto `trajectory_precision` y `trajectory_recall` que varían de 0 a 1.

In [None]:
trajectory_metrics = [
    "trajectory_exact_match",
    "trajectory_in_order_match",
    "trajectory_any_order_match",
    "trajectory_precision",
    "trajectory_recall",
]

#### Ejecutar una tarea de evaluación

Enviar una evaluación ejecutando el método `evaluate` de la nueva `EvalTask`.

In [None]:
EXPERIMENT_RUN = f"trajectory-{get_id()}"

trajectory_eval_task = EvalTask(
    dataset=eval_sample_dataset, metrics=trajectory_metrics, experiment=EXPERIMENT_NAME
)

trajectory_eval_result = trajectory_eval_task.evaluate(
    runnable=agent_parsed_outcome, experiment_run_name=EXPERIMENT_RUN
)

display_eval_report(trajectory_eval_result)

#### Visualizar resultados de la evaluación

Imprimir y visualizar una muestra de los resultados de la evaluación.

In [None]:
display_dataframe_rows(trajectory_eval_result.metrics_table, num_rows=3)

In [None]:
plot_bar_plot(
    trajectory_eval_result,
    title="Métricas de Trayectoria",
    metrics=[f"{metric}/mean" for metric in trajectory_metrics],
)

### Evaluar la respuesta final

Al igual que la evaluación de modelos, puedes evaluar la respuesta final del agente utilizando Vertex AI Gen AI Evaluation.

#### Configurar métricas de respuesta

Después de la inferencia del agente, Vertex AI Gen AI Evaluation proporciona varias métricas para evaluar las respuestas generadas. Puedes usar métricas basadas en cálculos para comparar la respuesta con una referencia (si es necesario) y usar métricas basadas en modelos existentes o personalizadas para determinar la calidad de la respuesta final.

Consulta la [documentación](https://cloud.google.com/vertex-ai/generative-ai/docs/models/determine-eval) para obtener más información.


In [None]:
response_metrics = ["safety", "coherence"]

#### Ejecutar una tarea de evaluación

Para evaluar las respuestas generadas por el agente, usa el método `evaluate` de la clase EvalTask.

In [None]:
EXPERIMENT_RUN = f"response-{get_id()}"

response_eval_task = EvalTask(
    dataset=eval_sample_dataset, metrics=response_metrics, experiment=EXPERIMENT_NAME
)

response_eval_result = response_eval_task.evaluate(
    runnable=agent_parsed_outcome, experiment_run_name=EXPERIMENT_RUN
)

display_eval_report(response_eval_result)

#### Visualizar resultados de la evaluación


Imprimir nueva muestra de resultados de la evaluación.

In [None]:
display_dataframe_rows(response_eval_result.metrics_table, num_rows=3)

### Evaluar la respuesta generada condicionada por la elección de herramientas

Cuando evalúas agentes de IA que interactúan con entornos, las métricas estándar de generación de texto como la coherencia pueden no ser suficientes. Esto se debe a que estas métricas se enfocan principalmente en la estructura del texto, mientras que las respuestas del agente deben evaluarse en función de su efectividad dentro del entorno.

En su lugar, usa métricas personalizadas que evalúan si la respuesta del agente sigue lógicamente de sus elecciones de herramientas como la que tienes en esta sección.

#### Definir una métrica personalizada

Según la [documentación](https://cloud.google.com/vertex-ai/generative-ai/docs/models/determine-eval#model-based-metrics), puedes definir una plantilla de prompt para evaluar si la respuesta de un agente de IA sigue lógicamente de sus acciones configurando criterios y un sistema de calificación para esta evaluación.

Define un `criteria` para establecer las pautas de evaluación y un `pointwise_rating_rubric` para proporcionar un sistema de puntuación (1 o 0). Luego usa un `PointwiseMetricPromptTemplate` para crear la plantilla utilizando estos componentes.


In [None]:
criteria = {
    "Follows trajectory": (
        "Evalúa si la respuesta del agente sigue lógicamente de la "
        "secuencia de acciones que tomó. Considera estos subpuntos:\n"
        "  - ¿La respuesta refleja la información recopilada durante la trayectoria?\n"
        "  - ¿La respuesta es consistente con los objetivos y restricciones de la tarea?\n"
        "  - ¿Hay saltos inesperados o ilógicos en el razonamiento?\n"
        "Proporciona ejemplos específicos de la trayectoria y la respuesta para respaldar tu evaluación."
    )
}

pointwise_rating_rubric = {
    "1": "Sigue la trayectoria",
    "0": "No sigue la trayectoria",
}

response_follows_trajectory_prompt_template = PointwiseMetricPromptTemplate(
    criteria=criteria,
    rating_rubric=pointwise_rating_rubric,
    input_variables=["prompt", "predicted_trajectory"],
)

Imprimir los datos del prompt de esta plantilla que contienen la información combinada de criterios y rúbrica lista para su uso en una evaluación.

In [None]:
print(response_follows_trajectory_prompt_template.prompt_data)

Después de definir la plantilla de prompt de evaluación, configura la métrica asociada para evaluar qué tan bien una respuesta sigue una trayectoria específica. El `PointwiseMetric` crea una métrica donde `response_follows_trajectory` es el nombre de la métrica y `response_follows_trajectory_prompt_template` proporciona instrucciones o contexto para la evaluación que configuraste antes.


In [None]:
response_follows_trajectory_metric = PointwiseMetric(
    metric="response_follows_trajectory",
    metric_prompt_template=response_follows_trajectory_prompt_template,
)

#### Configurar métricas de respuesta

Configurar nuevas métricas de evaluación de respuestas generadas incluyendo la métrica personalizada.


In [None]:
response_tool_metrics = [
    "trajectory_exact_match",
    "trajectory_in_order_match",
    "safety",
    response_follows_trajectory_metric,
]

#### Ejecutar una tarea de evaluación

Ejecutar una nueva evaluación del agente.

In [None]:
EXPERIMENT_RUN = f"response-over-tools-{get_id()}"

response_eval_tool_task = EvalTask(
    dataset=eval_sample_dataset,
    metrics=response_tool_metrics,
    experiment=EXPERIMENT_NAME,
)

response_eval_tool_result = response_eval_tool_task.evaluate(
    runnable=agent_parsed_outcome, experiment_run_name=EXPERIMENT_RUN
)

display_eval_report(response_eval_tool_result)

#### Visualizar resultados de la evaluación

Visualizar muestra de resultados de la evaluación.

In [None]:
display_dataframe_rows(response_eval_tool_result.metrics_table, num_rows=3)

## Bonus: Trae-Tu-Propio-Conjunto-de-Datos (BYOD) y evalúa un agente LangGraph utilizando Vertex AI Gen AI Evaluation

En escenarios de Trae-Tu-Propio-Conjunto-de-Datos (BYOD) [escenarios](https://cloud.google.com/vertex-ai/generative-ai/docs/models/evaluation-dataset), proporcionas tanto la trayectoria predicha como la respuesta generada por el agente.


### Trae tu propio conjunto de datos de evaluación

Define el conjunto de datos de evaluación con la trayectoria predicha y la respuesta generada.

In [None]:
byod_eval_data = {
    "prompt": [
        "Get price for smartphone",
        "Get product details and price for headphones",
        "Get details for usb charger",
        "Get product details and price for shoes",
        "Get product details for speaker?",
    ],
    "reference_trajectory": [
        [
            {
                "tool_name": "get_product_price",
                "tool_input": {"product_name": "smartphone"},
            }
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "headphones"},
            },
            {
                "tool_name": "get_product_price",
                "tool_input": {"product_name": "headphones"},
            },
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "usb charger"},
            }
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "shoes"},
            },
            {"tool_name": "get_product_price", "tool_input": {"product_name": "shoes"}},
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "speaker"},
            }
        ],
    ],
    "predicted_trajectory": [
        [
            {
                "tool_name": "get_product_price",
                "tool_input": {"product_name": "smartphone"},
            }
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "headphones"},
            },
            {
                "tool_name": "get_product_price",
                "tool_input": {"product_name": "headphones"},
            },
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "usb charger"},
            }
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "shoes"},
            },
            {"tool_name": "get_product_price", "tool_input": {"product_name": "shoes"}},
        ],
        [
            {
                "tool_name": "get_product_details",
                "tool_input": {"product_name": "speaker"},
            }
        ],
    ],
    "response": [
        500,
        50,
        "A super fast and light usb charger",
        100,
        "A voice-controlled smart speaker that plays music, sets alarms, and controls smart home devices.",
    ],
}

byod_eval_sample_dataset = pd.DataFrame(byod_eval_data)

### Ejecutar una tarea de evaluación

Ejecutar una nueva evaluación del agente utilizando tu propio conjunto de datos y la misma configuración de la última evaluación.

In [None]:
EXPERIMENT_RUN_NAME = f"response-over-tools-byod-{get_id()}"

byod_response_eval_tool_task = EvalTask(
    dataset=byod_eval_sample_dataset,
    metrics=response_tool_metrics,
    experiment=EXPERIMENT_NAME,
)

byod_response_eval_tool_result = byod_response_eval_tool_task.evaluate(
    experiment_run_name=EXPERIMENT_RUN_NAME
)

display_eval_report(byod_response_eval_tool_result)

#### Visualizar resultados de la evaluación

Visualizar muestra de resultados de la evaluación.

In [None]:
display_dataframe_rows(byod_response_eval_tool_result.metrics_table, num_rows=3)

In [None]:
display_radar_plot(
    byod_response_eval_tool_result,
    title="Métricas de evaluación del agente",
    metrics=[f"{metric}/mean" for metric in response_tool_metrics],
)

## Limpiar

In [None]:
delete_experiment = True

if delete_experiment:
    try:
        experiment = aiplatform.Experiment(EXPERIMENT_NAME)
        experiment.delete(delete_backing_tensorboard_runs=True)
    except Exception as e:
        print(e)