# Avalia√ß√£o de Agentes

Temos um assistente de email que usa um roteador para triagem de emails e ent√£o passa o email para o agente gerar uma resposta. Como podemos ter certeza de que funcionar√° bem em produ√ß√£o? √â por isso que os testes s√£o importantes: eles orientam nossas decis√µes sobre a arquitetura do agente com m√©tricas quantific√°veis como qualidade da resposta, uso de tokens, lat√™ncia ou precis√£o da triagem. O [LangSmith](https://docs.smith.langchain.com/) oferece duas maneiras principais de testar agentes.

![overview-img](img/overview_eval.png)

#### Carregar Vari√°veis de Ambiente

In [1]:
from dotenv import load_dotenv
load_dotenv("../.env")

True

## Como Executar Avalia√ß√µes

#### Pytest / Vitest

[Pytest](https://docs.pytest.org/en/stable/) e Vitest s√£o bem conhecidos por muitos desenvolvedores como ferramentas poderosas para escrever testes dentro dos ecossistemas Python e JavaScript. O LangSmith se integra com esses frameworks para permitir que voc√™ escreva e execute testes que registram resultados no LangSmith. Para este notebook, usaremos Pytest.
* Pytest √© uma √≥tima maneira de come√ßar para desenvolvedores que j√° est√£o familiarizados com o framework.
* Pytest √© √≥timo para avalia√ß√µes mais complexas, onde cada caso de teste do agente requer verifica√ß√µes espec√≠ficas e crit√©rios de sucesso que s√£o mais dif√≠ceis de generalizar.

#### Datasets do LangSmith

Voc√™ tamb√©m pode criar um dataset [no LangSmith](https://docs.smith.langchain.com/evaluation) e executar nosso assistente contra o dataset usando a API de avalia√ß√£o do LangSmith.
* Os datasets do LangSmith s√£o √≥timos para equipes que est√£o construindo colaborativamente sua su√≠te de testes.
* Voc√™ pode aproveitar traces de produ√ß√£o, filas de anota√ß√£o, gera√ß√£o de dados sint√©ticos, e mais, para adicionar exemplos a um dataset dourado sempre crescente.
* Os datasets do LangSmith s√£o √≥timos quando voc√™ pode definir avaliadores que podem ser aplicados a todos os casos de teste no dataset (ex. similaridade, precis√£o de correspond√™ncia exata, etc.)

## Casos de Teste

Os testes geralmente come√ßam com a defini√ß√£o dos casos de teste, o que pode ser um processo desafiador. Neste caso, vamos apenas definir um conjunto de emails de exemplo que queremos gerenciar junto com algumas coisas para testar. Voc√™ pode ver os casos de teste em `eval/email_dataset.py`, que cont√©m o seguinte:

1. **Emails de Entrada**: Uma cole√ß√£o de exemplos diversos de email
2. **Classifica√ß√µes Verdadeiras**: `Respond`, `Notify`, `Ignore`
3. **Chamadas de Ferramentas Esperadas**: Ferramentas chamadas para cada email que requer uma resposta
4. **Crit√©rios de Resposta**: O que torna uma boa resposta para emails que requerem respostas

Note que temos tanto:
- Testes "de integra√ß√£o" ponta a ponta (ex. Emails de Entrada -> Agente -> Sa√≠da Final vs Crit√©rios de Resposta)
- Testes para etapas espec√≠ficas em nosso fluxo de trabalho (ex. Emails de Entrada -> Agente -> Classifica√ß√£o vs Classifica√ß√£o Verdadeira)

In [2]:

%load_ext autoreload
%autoreload 2

from email_assistant.eval.email_dataset import email_inputs, expected_tool_calls, triage_outputs_list, response_criteria_list

test_case_ix = 0

print("Email Input:", email_inputs[test_case_ix])
print("Expected Triage Output:", triage_outputs_list[test_case_ix])
print("Expected Tool Calls:", expected_tool_calls[test_case_ix])
print("Response Criteria:", response_criteria_list[test_case_ix])

Email Input: {'author': 'Alice Smith <alice.smith@company.com>', 'to': 'Lance Martin <lance@company.com>', 'subject': 'Quick question about API documentation', 'email_thread': "Hi Lance,\n\nI was reviewing the API documentation for the new authentication service and noticed a few endpoints seem to be missing from the specs. Could you help clarify if this was intentional or if we should update the docs?\n\nSpecifically, I'm looking at:\n- /auth/refresh\n- /auth/validate\n\nThanks!\nAlice"}
Expected Triage Output: respond
Expected Tool Calls: ['write_email', 'done']
Response Criteria: 
‚Ä¢ Send email with write_email tool call to acknowledge the question and confirm it will be investigated  



## Exemplo com Pytest

Vamos ver como podemos escrever um teste para uma parte espec√≠fica do nosso fluxo de trabalho com Pytest. Testaremos se nosso `email_assistant` faz as chamadas de ferramentas corretas ao responder aos emails.

In [None]:
import pytest
from email_assistant.eval.email_dataset import email_inputs, expected_tool_calls
from email_assistant.utils import format_messages_string
from email_assistant.email_assistant import email_assistant
from email_assistant.utils import extract_tool_calls

from langsmith import testing as t

@pytest.mark.langsmith
@pytest.mark.parametrize(
    "email_input, expected_calls",
    [   # Pick some examples with e-mail reply expected
        (email_inputs[0],expected_tool_calls[0]),
        (email_inputs[3],expected_tool_calls[3]),
    ],
)
def test_email_dataset_tool_calls(email_input, expected_calls):
    """Test if email processing contains expected tool calls.

    This test confirms that all expected tools are called during email processing,
    but does not check the order of tool invocations or the number of invocations
    per tool. Additional checks for these aspects could be added if desired.
    """
    # Run the email assistant
    messages = [{"role": "user", "content": str(email_input)}]
    result = email_assistant.invoke({"messages": messages})

    # Extract tool calls from messages list
    extracted_tool_calls = extract_tool_calls(result['messages'])

    # Check if all expected tool calls are in the extracted ones
    missing_calls = [call for call in expected_calls if call.lower() not in extracted_tool_calls]

    t.log_outputs({
                "missing_calls": missing_calls,
                "extracted_tool_calls": extracted_tool_calls,
                "response": format_messages_string(result['messages'])
            })

    # Test passes if no expected calls are missing
    assert len(missing_calls) == 0

Voc√™ notar√° algumas coisas:
- Para [executar com Pytest e registrar resultados de teste no LangSmith](https://docs.smith.langchain.com/evaluation/how_to_guides/pytest), precisamos apenas adicionar o decorador `@pytest.mark.langsmith` √† nossa fun√ß√£o e coloc√°-la em um arquivo, como voc√™ v√™ em `notebooks/test_tools.py`. Isso registrar√° os resultados do teste no LangSmith.
- Segundo, podemos passar exemplos de dataset para a fun√ß√£o de teste como mostrado [aqui](https://docs.smith.langchain.com/evaluation/how_to_guides/pytest#parametrize-with-pytestmarkparametrize) via `@pytest.mark.parametrize`.

#### Executando Pytest
Podemos executar o teste da linha de comando. Definimos o c√≥digo acima em um arquivo python. Da raiz do projeto, execute:

`! LANGSMITH_TEST_SUITE='Email assistant: Test Tools For Interrupt'  pytest notebooks/test_tools.py`

#### Visualizando Resultado do Experimento

Podemos visualizar os resultados na interface do LangSmith. O `assert len(missing_calls) == 0` √© registrado na coluna `Pass` no LangSmith. Os `log_outputs` s√£o passados para a coluna `Outputs` e os argumentos da fun√ß√£o s√£o passados para a coluna `Inputs`. Cada entrada passada em `@pytest.mark.parametrize(` √© uma linha separada registrada no nome do projeto `LANGSMITH_TEST_SUITE` no LangSmith, que √© encontrado em `Datasets & Experiments`.

![Test Results](img/test_result.png)

## Exemplo de Datasets do LangSmith

![overview-img](img/eval_detail.png)

Vamos ver como podemos executar avalia√ß√µes com datasets do LangSmith. No exemplo anterior com Pytest, avaliamos a precis√£o de chamada de ferramenta do assistente de email. Agora, o dataset que vamos avaliar aqui √© especificamente para a etapa de triagem do assistente de email, classificando se um email requer uma resposta.

#### Defini√ß√£o do Dataset

Podemos [criar um dataset no LangSmith](https://docs.smith.langchain.com/evaluation/how_to_guides/manage_datasets_programmatically#create-a-dataset) com o SDK do LangSmith. O c√≥digo abaixo cria um dataset com os casos de teste no arquivo `eval/email_dataset.py`.

In [None]:
from langsmith import Client

from email_assistant.eval.email_dataset import examples_triage

# Initialize LangSmith client
client = Client()

# Dataset name
dataset_name = "E-mail Triage Evaluation"

# Create dataset if it doesn't exist
if not client.has_dataset(dataset_name=dataset_name):
    dataset = client.create_dataset(
        dataset_name=dataset_name,
        description="A dataset of e-mails and their triage decisions."
    )
    # Add examples to the dataset
    client.create_examples(dataset_id=dataset.id, examples=examples_triage)

#### Fun√ß√£o Alvo

O dataset tem a seguinte estrutura, com uma entrada de e-mail e uma classifica√ß√£o de triagem verdadeira para o e-mail como sa√≠da:

```
examples_triage = [
  {
      "inputs": {"email_input": email_input_1},
      "outputs": {"classification": triage_output_1},   # NOTA: Isso se torna reference_output no dataset criado
  }, ...
]
```

In [5]:
print("Dataset Example Input (inputs):", examples_triage[0]['inputs'])

Dataset Example Input (inputs): {'email_input': {'author': 'Alice Smith <alice.smith@company.com>', 'to': 'Lance Martin <lance@company.com>', 'subject': 'Quick question about API documentation', 'email_thread': "Hi Lance,\n\nI was reviewing the API documentation for the new authentication service and noticed a few endpoints seem to be missing from the specs. Could you help clarify if this was intentional or if we should update the docs?\n\nSpecifically, I'm looking at:\n- /auth/refresh\n- /auth/validate\n\nThanks!\nAlice"}}


In [6]:
print("Dataset Example Reference Output (reference_outputs):", examples_triage[0]['outputs'])

Dataset Example Reference Output (reference_outputs): {'classification': 'respond'}


Definimos uma fun√ß√£o que recebe as entradas do dataset e as passa para nosso assistente de email. A [API de avalia√ß√£o](https://docs.smith.langchain.com/evaluation) do LangSmith passa o dicion√°rio `inputs` para esta fun√ß√£o. Esta fun√ß√£o ent√£o retorna um dicion√°rio com a sa√≠da do agente. Como estamos avaliando a etapa de triagem, precisamos apenas retornar a decis√£o de classifica√ß√£o.

In [7]:
def target_email_assistant(inputs: dict) -> dict:
    """Process an email through the workflow-based email assistant."""
    response = email_assistant.nodes['triage_router'].invoke({"email_input": inputs["email_input"]})
    return {"classification_decision": response.update['classification_decision']}

#### Fun√ß√£o Avaliadora

Agora, criamos uma fun√ß√£o avaliadora. O que queremos avaliar? Temos sa√≠das de refer√™ncia em nosso dataset e sa√≠das do agente definidas nas fun√ß√µes acima.

* Sa√≠das de refer√™ncia: `"reference_outputs": {"classification": triage_output_1} ...`
* Sa√≠das do agente: `"outputs": {"classification_decision": agent_output_1} ...`

Queremos avaliar se a sa√≠da do agente corresponde √† sa√≠da de refer√™ncia. Ent√£o, simplesmente precisamos de uma fun√ß√£o avaliadora que compare as duas, onde `outputs` √© a sa√≠da do agente e `reference_outputs` √© a sa√≠da de refer√™ncia do dataset.

In [8]:
def classification_evaluator(outputs: dict, reference_outputs: dict) -> bool:
    """Check if the answer exactly matches the expected answer."""
    return outputs["classification_decision"].lower() == reference_outputs["classification"].lower()

### Executando Avalia√ß√£o

Agora, a pergunta √©: como essas coisas se conectam? A API de avalia√ß√£o cuida disso para n√≥s. Ela passa o dicion√°rio `inputs` do nosso dataset para a fun√ß√£o alvo. Ela passa o dicion√°rio `reference_outputs` do nosso dataset para a fun√ß√£o avaliadora. E ela passa os `outputs` do nosso agente para a fun√ß√£o avaliadora.

Note que isso √© similar ao que fizemos com Pytest: no Pytest, passamos as entradas e sa√≠das de refer√™ncia do exemplo do dataset para a fun√ß√£o de teste com `@pytest.mark.parametrize`.

In [None]:
# Set to true if you want to kick off evaluation
run_expt = True
if run_expt:
    experiment_results_workflow = client.evaluate(
        # Run agent
        target_email_assistant,
        # Dataset name
        data=dataset_name,
        # Evaluator
        evaluators=[classification_evaluator],
        # Name of the experiment
        experiment_prefix="E-mail assistant workflow",
        # Number of concurrent evaluations
        max_concurrency=2,
    )

View the evaluation results for experiment: 'E-mail assistant workflow-484e19ad' at:
https://smith.langchain.com/o/4fd66b18-e986-416b-9535-4f58f64dfdfa/datasets/53fec451-6ccd-4276-ab27-c69c45e93fc9/compare?selectedSessions=4479f261-b470-4477-82b8-03980099a65c




0it [00:00, ?it/s]

üîî Classification: NOTIFY - This email contains important information
üìß Classification: RESPOND - This email requires a response
üìß Classification: RESPOND - This email requires a response
üîî Classification: NOTIFY - This email contains important information
üîî Classification: NOTIFY - This email contains important information
üö´ Classification: IGNORE - This email can be safely ignored
üìß Classification: RESPOND - This email requires a response
üîî Classification: NOTIFY - This email contains important information
üîî Classification: NOTIFY - This email contains important information
üìß Classification: RESPOND - This email requires a response
üö´ Classification: IGNORE - This email can be safely ignored
üìß Classification: RESPOND - This email requires a response
üìß Classification: RESPOND - This email requires a response
üö´ Classification: IGNORE - This email can be safely ignored
üìß Classification: RESPOND - This email requires a response
üö´ Classificati

Podemos visualizar os resultados de ambos os experimentos na interface do LangSmith.

![Test Results](img/eval.png)

## Avalia√ß√£o LLM-como-Juiz

Mostramos testes unit√°rios para a etapa de triagem (usando evaluate()) e chamada de ferramenta (usando Pytest).

Vamos demonstrar como voc√™ poderia usar um LLM como juiz para avaliar a execu√ß√£o do nosso agente contra um conjunto de crit√©rios de sucesso.

![types](img/eval_types.png)

Primeiro, definimos um schema de sa√≠da estruturada para nosso avaliador LLM que cont√©m uma nota e justificativa para a nota.

In [None]:
from pydantic import BaseModel, Field
from langchain.chat_models import init_chat_model

class CriteriaGrade(BaseModel):
    """Pontuar a resposta contra crit√©rios espec√≠ficos."""
    justification: str = Field(description="A justificativa para a nota e pontua√ß√£o, incluindo exemplos espec√≠ficos da resposta.")
    grade: bool = Field(description="A resposta atende aos crit√©rios fornecidos?")

# Criar um LLM global para avalia√ß√£o para evitar recriar para cada teste
criteria_eval_llm = init_chat_model("gemini-2.5-flash", model_provider="google-genai")
criteria_eval_structured_llm = criteria_eval_llm.with_structured_output(CriteriaGrade)

In [None]:
email_input = email_inputs[0]
print("Email Input:", email_input)
success_criteria = response_criteria_list[0]
print("Success Criteria:", success_criteria)

Nosso Assistente de Email √© invocado com a entrada de email e a resposta √© formatada em uma string. Essas s√£o ent√£o passadas para o avaliador LLM para receber uma nota e justificativa para a nota.

In [None]:
response = email_assistant.invoke({"email_input": email_input})

In [None]:
from email_assistant.eval.prompts import RESPONSE_CRITERIA_SYSTEM_PROMPT

all_messages_str = format_messages_string(response['messages'])
eval_result = criteria_eval_structured_llm.invoke([
        {"role": "system",
            "content": RESPONSE_CRITERIA_SYSTEM_PROMPT},
        {"role": "user",
            "content": f"""\n\n Response criteria: {success_criteria} \n\n Assistant's response: \n\n {all_messages_str} \n\n Evaluate whether the assistant's response meets the criteria and provide justification for your evaluation."""}
    ])

eval_result

In [None]:
RESPONSE_CRITERIA_SYSTEM_PROMPT

Podemos ver que o avaliador LLM retorna um resultado de avalia√ß√£o com um schema correspondente ao nosso modelo base `CriteriaGrade`.

## Executando contra uma Su√≠te de Testes Maior
Agora que vimos como avaliar nosso agente usando Pytest e evaluate(), e vimos um exemplo de usar um LLM como juiz, podemos usar avalia√ß√µes sobre uma su√≠te de testes maior para ter uma melhor no√ß√£o de como nosso agente se comporta em uma variedade mais ampla de exemplos.

Let's run our email_assistant against a larger test suite.
```
! LANGSMITH_TEST_SUITE='Email assistant: Test Full Response Interrupt' LANGSMITH_EXPERIMENT='email_assistant' pytest tests/test_response.py --agent-module email_assistant
```

In `test_response.py`, you can see a few things. 

We pass our dataset examples into functions that will run pytest and log to our `LANGSMITH_TEST_SUITE`:

```
# Reference output key
@pytest.mark.langsmith(output_keys=["criteria"])
# Variable names and a list of tuples with the test cases
# Each test case is (email_input, email_name, criteria, expected_calls)
@pytest.mark.parametrize("email_input,email_name,criteria,expected_calls",create_response_test_cases())
def test_response_criteria_evaluation(email_input, email_name, criteria, expected_calls):
```

We use LLM-as-judge with a grading schema:
```
class CriteriaGrade(BaseModel):
    """Score the response against specific criteria."""
    grade: bool = Field(description="Does the response meet the provided criteria?")
    justification: str = Field(description="The justification for the grade and score, including specific examples from the response.")
```


We evaluate the agent response relative to the criteria:
```
    # Evaluate against criteria
    eval_result = criteria_eval_structured_llm.invoke([
        {"role": "system",
            "content": RESPONSE_CRITERIA_SYSTEM_PROMPT},
        {"role": "user",
            "content": f"""\n\n Response criteria: {criteria} \n\n Assistant's response: \n\n {all_messages_str} \n\n Evaluate whether the assistant's response meets the criteria and provide justification for your evaluation."""}
    ])
```

Agora vamos dar uma olhada neste experimento na interface do LangSmith e ver em que nosso agente foi bom, e o que poderia melhorar.

#### Obtendo Resultados

Tamb√©m podemos obter os resultados da avalia√ß√£o lendo o projeto de rastreamento associado ao nosso experimento. Isso √© √≥timo para criar visualiza√ß√µes customizadas do desempenho do nosso agente.

In [None]:
# TODO: Copy your experiment name here
experiment_name = "email_assistant:8286b3b8"
# Set this to load expt results
load_expt = False
if load_expt:
    email_assistant_experiment_results = client.read_project(project_name=experiment_name, include_stats=True)
    print("Latency p50:", email_assistant_experiment_results.latency_p50)
    print("Latency p99:", email_assistant_experiment_results.latency_p99)
    print("Token Usage:", email_assistant_experiment_results.total_tokens)
    print("Feedback Stats:", email_assistant_experiment_results.feedback_stats)