# Chapter 19: Evaluation and Monitoring

에이전트가 **자신의 성능을 체계적으로 평가하고**,  
**목표 달성 진행 상황을 추적하며**, **운영적 이상(anomaly)을 감지**할 수 있도록 하는  
평가 및 모니터링 패턴.

**에이전트의 효과성(effectiveness)**, **효율성(efficiency)**,  
그리고 **요구사항 준수(compliance)**를 지속적이고, 필요에 따라 외부적으로도 측정하는 데 초점을 둔다

다음이 포함된다:

- 성능을 정량·정성적으로 나타내는 **평가 지표(metric)** 정의  
- 에이전트가 행동을 개선할 수 있도록 하는 **피드백 루프(feedback loop)** 구축  
- 운영 환경에서 에이전트 성능이 기대치에 부합하는지를 보장하기 위한  
  **보고(reporting) 및 모니터링 시스템** 구현  

이러한 체계적인 평가·모니터링 메커니즘으로  
에이전트는 실제 환경에서 **일관되게 높은 품질로 목표를 달성**할 수 있다.

![image.png](attachment:image.png)

## Practical Applications & Use Cases  

### **실서비스 환경에서의 성능 추적(Performance Tracking in Live Systems)**  
  프로덕션 환경에 배포된 에이전트의 **정확도, 지연 시간(latency), 리소스 사용량** 등을 지속적으로 모니터링한다.  
  예: 고객 지원 챗봇의 **문의 해결률(resolution rate)**, **응답 시간(response time)** 추적.

### **에이전트 개선을 위한 A/B 테스트(A/B Testing for Agent Improvements)**  
  서로 다른 에이전트 버전 또는 전략을 **병렬로 비교**하여 최적의 접근 방식을 식별한다.  
  예: 물류 에이전트에 대해 서로 다른 두 가지 **플래닝 알고리즘**을 실험적으로 비교.

### **컴플라이언스 및 안전 감사(Compliance and Safety Audits)**  
  에이전트가 **윤리 지침, 규제 요구사항, 안전 기준**을 얼마나 준수하는지 시간에 따라 추적하는  
  **자동화된 감사 보고서(audit report)**를 생성한다.  
  이러한 보고서는 **휴먼 인 더 루프(human-in-the-loop)** 또는 다른 에이전트가 검증할 수 있으며,  
  **KPI를 산출**하거나 문제가 감지되면 **알림/경보(alert)**를 트리거할 수 있다.

### **엔터프라이즈 시스템에서의 거버넌스(Enterprise Systems)**  
  기업 시스템에서 Agentic AI를 거버넌스하기 위해서는 새로운 통제 수단인  
  **AI “계약(Contract)”**이 필요하다.  
  이 다이나믹한 합의서는 **AI에 위임된 작업에 대한 목표, 규칙, 통제 메커니즘**을 코드화(codify)한 것이다.

### **드리프트 감지(Drift Detection)**  
  에이전트 출력의 **관련성(relevance)** 또는 **정확도**를 시간에 따라 모니터링하고,  
  입력 데이터 분포 변화(컨셉 드리프트, concept drift)나 환경 변화로 인해  
  성능이 저하되는 지점을 감지한다.

### **에이전트 행동의 이상 탐지(Anomaly Detection in Agent Behavior)**  
  에이전트가 보이는 **비정상적이거나 예상치 못한 행동**을 탐지하여,  
  이것이 **오류, 악의적 공격(malicious attack), 원치 않는 emergent behavior**의 징후인지 판단한다.

### **학습 진행 평가(Learning Progress Assessment)**  
  학습 기능을 가진 에이전트의 경우,  
  특정 스킬에서의 **성장 곡선(learning curve)**,  
  **능력 향상 정도**,  
  서로 다른 작업 또는 데이터셋에 대한 **일반화(generalization) 능력**을 추적·평가한다.

AI 에이전트를 평가하기 위한 종합적인 평가 프레임워크를 구축하는 일은 매우 어렵고, 학문적 연구나 대규모 출판물에 비견될 정도로 복잡하다. 그 이유는 모델 성능, 사용자 인터랙션, 윤리적 고려사항, 사회적 영향 등 매우 다양한 요소들을 고려해야 하기 때문이다.  
그럼에도 불구하고 실제 구현 관점에서는 **에이전트의 효율적·효과적 운영에 필수적인 핵심 사용 사례에 초점을 좁혀 실용적인 형태로 접근할 수 있다.**

### Agent Response Assessment  
에이전트 응답 평가

가장 핵심적인 과정은 **에이전트가 생성한 출력(output)의 품질과 정확성을 평가**하는 것이다.  
이는 에이전트가 주어진 입력에 대해 **관련성 있고, 정확하며, 논리적이고, 편향되지 않은 정보**를 제공하는지를 판별하는 절차이다.

평가 지표로는 다음과 같은 요소들이 포함될 수 있다.

- 사실적 정확성(factual correctness)  
- 문장 유창성(fluency)  
- 문법적 정밀도(grammatical precision)  
- 사용자의 목적에 대한 적합성(intent alignment)

에이전트의 응답 평가에서는 보다 정교한 NLP 기반 기법이 필요하다.  

- **문자열 기반 유사도(String Similarity Measures)**  
  - Levenshtein Distance  
  - Jaccard Similarity  

- **키워드 기반 분석(Keyword Analysis)**  
  - 핵심 키워드가 포함되었는지 여부 평가  

- **의미적 유사도 평가(Semantic Similarity)**  
  - 임베딩 모델 기반 코사인 유사도(cosine similarity)  
  - paraphrase-friendly 평가 가능  

- **LLM-as-a-Judge 평가 방식**  
  - LLM이 응답의 정확성, 논리성, 유용성, 편향성 등을 직접 판정  
  - 미묘한 뉘앙스와 고급 reasoning 평가 가능  

- **RAG 환경 특화 메트릭**  
  - *Faithfulness* (출력이 원본 문서에 얼마나 충실한지)  
  - *Relevance* (질문과 얼마나 관련성이 높은지)

### Latency Monitoring  

에이전트의 행동(latent action) 또는 응답 속도는 많은 애플리케이션에서 **핵심 요소**이기 때문에  
Latency Monitoring(지연 시간 모니터링)은 매우 중요하다.  

지연 시간 모니터링은 에이전트가 **요청을 처리하고 출력 결과를 생성하는 데 걸리는 시간**을 측정하는 과정이며,  
특히 **실시간(real-time)** 또는 **인터랙티브 환경**에서는 지연 시간이 길어지는 것이  
사용자 경험과 에이전트의 전반적인 성능(efficiency & effectiveness)을 크게 저하시킬 수 있다.

단순히 콘솔에 latency 값을 출력하는 것만으로는 실제 운영 환경에서 충분하지 않다.  
지연 시간 데이터를 **지속적(persistent)** 으로 저장하여 분석, 경고(alert), SLA/SLO 관리 등에 활용할 수 있어야 한다.

권장되는 저장 옵션은 다음과 같다:

- **구조화 로그 파일(Structured Log Files)**  
  - 예: JSON 로그 파일

- **시계열(Time-Series) 데이터베이스**  
  - 예: InfluxDB, Prometheus

- **데이터 웨어하우스(Data Warehouses)**  
  - 예: Snowflake, BigQuery, PostgreSQL

- **Observability / 모니터링 플랫폼**  
  - 예: Datadog, Splunk, Grafana Cloud  

이러한 시스템에 지연 시간 데이터를 축적하면  
**병목 지점 분석, 성능 추세 파악, SLA 모니터링, 이상징후 탐지(Alerting)** 등의 고급 운영 관리가 가능해진다.

### Tracking Token Usage for LLM Interactions  
LLM 상호작용에서의 토큰 사용량 추적

LLM 기반 에이전트에서는 **토큰 사용량(token usage)** 을 추적하는 것이 매우 중요하다.  
이는 비용 관리와 리소스 최적화의 핵심 요소이며, 대부분의 LLM 과금 체계는  
**입력 토큰 + 출력 토큰**의 총량에 따라 비용이 산정되기 때문이다.

따라서 토큰 사용량을 효율적으로 관리하면 **운영 비용을 직접적으로 절감**할 수 있다.  
뿐만 아니라, 토큰 사용량을 지속적으로 모니터링하면 다음과 같은 개선 포인트를 식별하는 데 도움을 준다.

- **프롬프트 엔지니어링(prompt engineering) 개선**  
  - 불필요하게 긴 프롬프트를 줄일 수 있는지  
  - 시스템 메시지나 컨텍스트를 더 효율적으로 구성할 수 있는지  

- **응답 생성 프로세스 최적화**  
  - 출력이 지나치게 장황한지  
  - 동일한 목적을 더 적은 토큰으로 달성할 수 있는지  

효율적인 토큰 관리 전략은 LLM 기반 시스템의 **비용 효율성, 성능, 확장성**을 높여주며  
대규모 운영 환경에서는 필수적인 모니터링 항목이다.

### Custom Metric for "Helpfulness" using LLM-as-a-Judge  

AI 에이전트의 **“도움됨(Helpfulness)”** 과 같은 **주관적 품질(subjective quality)** 을 평가하는 일은  
일반적인 객관적 지표로는 충분히 다루기 어렵다.  
이러한 문제를 해결하기 위한 잠재적 접근 방식 중 하나가 **LLM-as-a-Judge** 기법이다.

이 방식은 **다른 에이전트의 응답을 평가하는 평가자(evaluator) 역할의 LLM** 을 활용하여,  
사전에 정의된 “helpfulness” 기준을 기반으로 에이전트 출력을 정성적으로 판단한다.  
LLM의 고급 언어 능력을 활용함으로써, 단순 키워드 매칭이나 규칙 기반(rule-based) 평가보다  
훨씬 **세밀하고 인간과 유사한 평가**를 제공할 수 있다는 장점이 있다.

이 기술은 여전히 발전 중이지만, 다음과 같은 이유로  
**정성적 평가(qualitative evaluation)의 자동화 및 확장(scale-out)** 에 매우 유망하다.

- LLM은 복잡한 맥락을 이해할 수 있으므로 정성적 기준을 정밀하게 적용할 수 있다.  
- 동일 기준을 대규모 데이터에 일관되게 적용할 수 있어 평가의 확장성이 높다.  
- 사람이 직접 모든 응답을 검토해야 하는 부담을 크게 줄일 수 있다. 

| 평가 방법(Evaluation Method) | 강점(Strengths) | 약점(Weaknesses) |
|-----------------------------|-------------------------------|-------------------------------------------------------------|
| **Human Evaluation** | 미묘한 행동, 맥락, 뉘앙스 등 **정교한 판단이 가능** | **확장성 낮음**, 비용 높음, 시간이 많이 소요됨. 평가가 **주관적**일 수 있음 |
| **LLM-as-a-Judge** | **일관성**, **효율성**, **확장성**이 뛰어남. 대량 평가 자동화 가능 | 중간 추론 과정이 생략될 수 있음. LLM 자체의 **한계** 및 **편향**에 영향을 받을 수 있음 |
| **Automated Metrics** | 매우 **효율적**, **확장 가능**, **객관적** | 모델의 전체 능력을 포착하는 데 제한적. **의미적 뉘앙스**를 반영하지 못할 수 있음 |

이 표는 AI 에이전트 평가를 위한 대표적 접근법을 비교한 것이다.  
각 방식은 서로 상호보완적이기 때문에, 실제 시스템에서는 여러 평가 방법을 **조합**하여 사용하는 것이 가장 효과적이다.

### Agents Trajectories  

일반 코드는 예측 가능한 pass/fail 결과를 내지만, 에이전트는 **확률적으로 작동**하기 때문에  
최종 출력뿐 아니라 **해결에 이르는 단계(trajectory)** 를 정성적으로 평가해야 한다.

멀티 에이전트 시스템들은 **계속 변화하는(flux)** 구조이기 때문에,  
**의사소통 효과성과 팀워크의 품질**을 측정하는 정교한 메트릭이 필요하다.  
또한 에이전트가 활동하는 **환경도 정적이지 않기 때문에**,  
테스트 케이스를 포함한 평가 기법 역시 시간에 따라 **적응적으로 변화**해야 한다.

궤적 평가는 의사결정의 질, 추론 과정, 전체적인 결과를 조사하는 것을 포함한다.  
프로토타입 이후 단계에서는 자동화된 평가가 특히 가치가 있다.  
Trajectory 및 도구 사용(tool use) 분석은 에이전트가 목표를 달성하기 위해 사용한  
단계들—예: 도구 선택, 전략, 작업 효율성—을 평가한다.

예를 들어, 고객의 제품 문의를 처리하는 에이전트의 이상적인 trajectory는 다음과 같을 수 있다:

1. 의도 파악(intent determination)  
2. 데이터베이스 검색 도구 사용  
3. 결과 검토(result review)  
4. 보고서 생성(report generation)

실제 에이전트의 행동은 이러한 **기대 궤적(ground truth trajectory)** 과 비교해  
오류나 비효율을 식별할 수 있다.

비교 방식에는 다음이 포함된다:

- **Exact match**: 완벽하게 동일해야 한다  
- **In-order match**: 필수 단계가 올바른 순서로만 등장하면 되며, 추가 단계는 허용  
- **Any-order match**: 필수 단계가 어떤 순서로든 등장하면 되며, 추가 단계는 허용  
- **Precision**: 예측된 행동이 얼마나 관련성 있게 선택되었는가  
- **Recall**: 필수 행동 중 얼마나 많이 수행했는가  
- **Single-tool use**: 특정 도구 사용 여부만 확인  

메트릭 선택은 에이전트의 요구사항에 따라 달라진다.  
고위험(high-stakes) 시나리오는 exact match가 필요할 수 있으며,  
더 유연한 환경에서는 in-order 또는 any-order 방식이 적합할 수 있다.

---

### Test Files vs Evalset Files  
AI 에이전트 평가 접근법

에이전트 평가에는 두 가지 주요 접근법이 있다: **test 파일**, **evalset 파일**.

---

#### 1. Test Files

- JSON 형식  
- 단일·단순 에이전트–모델 상호작용 혹은 세션을 나타냄  
- **단위 테스트(unit testing)** 에 적합  
- 빠른 실행과 단순한 세션 구조를 목표로 함  

각 test 파일은 하나의 세션(session)을 포함하며,  
그 세션 안에는 여러 **turn**이 존재한다.  
각 turn은 다음 정보를 담는다:

- 사용자 질의(user query)  
- 기대되는 도구 사용 궤적(tool use trajectory)  
- 중간 에이전트 응답(intermediate responses)  
- 최종 응답(final response)

예시:

사용자 요청:  
> “Turn off device 2 in the Bedroom.”

기대 도구 사용:

- `set_device_info` 호출  
  - `location: Bedroom`  
  - `device_id: device_2`  
  - `status: OFF`

기대 최종 응답:  
> “I have set the device 2 status to off.”

Test 파일은 폴더 단위로 구성할 수 있으며,  
`test_config.json` 파일을 통해 평가 기준을 정의할 수도 있다.

---

#### 2. Evalset Files

Evalset은 **여러 개의(interactions) 긴 세션**을 포함하는 데이터셋이다.  
이는 복잡한 멀티턴 대화 및 통합 테스트(integration test)에 적합하다.

Evalset 파일은 여러 개의 **eval**로 구성되며,  
각 eval은 하나의 세션에 대응한다.  
각 세션은 하나 이상의 turn을 포함하고 다음을 포함한다:

- 사용자 질의(user queries)  
- 기대 도구 호출(expected tool use)  
- 중간 응답(intermediate responses)  
- 참고용 최종 응답(reference final response)

예시 evalset 세션:

1. 사용자: “What can you do?”  
2. 사용자: “Roll a 10 sided dice twice and then check if 9 is a prime or not.”

기대 도구 호출:

- `roll_die` 두 번 호출 (10면체 주사위)  
- `check_prime` 한 번 호출  

기대 최종 응답:

- 두 번의 주사위 결과 요약  
- 9가 소수인지 여부 전달  

이처럼 evalset은 복잡한 대화 흐름, 도구 사용 시퀀스, 최종 응답 품질을 함께 평가할 수 있다.

### Multi-Agents: Evaluating Multi-Agent Systems  

복잡한 멀티 에이전트 AI 시스템을 평가하는 것은 팀 프로젝트를 평가하는 것과 매우 유사하다.  
여러 단계와 핸드오프(handoff)가 존재하기 때문에 복잡도가 높지만,  
바로 그 복잡성이 **장점**이 되어 각 단계에서 작업의 품질을 점검할 수 있다.  

각 개별 에이전트가 자신의 역할을 얼마나 잘 수행하는지 평가할 수 있을 뿐 아니라,  
시스템 전체가 하나의 팀처럼 **전체적으로 얼마나 잘 작동하는지**도 평가해야 한다.

이를 위해 다음과 같은 팀 역학(team dynamics)에 대한 핵심 질문을 던지고,  
구체적인 예시를 통해 이를 확인한다.

#### 에이전트들이 효과적으로 협력하고 있는가?  
예: ‘항공권 예약 에이전트(Flight-Booking Agent)’가 항공권을 확정한 후,  
정확한 날짜와 목적지를 **호텔 예약 에이전트(Hotel-Booking Agent)** 에게 제대로 전달하는가?  

협력이 실패하면, 호텔이 다른 주(week)에 예약되는 문제로 이어질 수 있다.

#### 계획을 잘 세우고, 그 계획을 따라 실행하는가?  
예: 계획이 “먼저 항공권 예약 → 그 다음 호텔 예약”이라면,  
‘호텔 에이전트’가 항공권 확정 전에 호텔을 예약하려고 한다면, 이는 **계획 이탈**이다.

또한 특정 에이전트가 **제자리에서 멈춰버리는(stuck)** 문제도 점검해야 한다.  
예: ‘렌터카 에이전트’가 “완벽한 차량”을 찾겠다고 무한히 검색만 하며 다음 단계로 넘어가지 못하는 경우.

#### 올바른 작업에 올바른 에이전트가 선택되고 있는가?  
예: 사용자가 여행 중 날씨를 묻는다면, 시스템은 **실시간 데이터**를 제공할 수 있는  
‘날씨 에이전트(Weather Agent)’를 사용해야 한다.

그런데 대신 ‘일반 지식 에이전트(General Knowledge Agent)’가  
“여름에는 보통 따뜻합니다.” 같은 일반적인 답변만 준다면,  
이는 **부적절한 도구 선택**이다.

#### 에이전트를 더 추가하면 실제로 성능이 개선되는가?  
예: 새로운 ‘레스토랑 예약 에이전트(Restaurant-Reservation Agent)’를 추가했을 때,  
전체 여행 계획 프로세스가 더 **효율적이고 나아지는가?**

아니면 새로운 에이전트가 기존 에이전트들과 충돌을 일으키거나  
흐름을 지연시켜 **시스템 확장성(scalability)** 에 문제가 생기는가?

--- 

멀티 에이전트 평가의 핵심은 다음 두 가지를 모두 점검하는 것이다:

1. **개별 에이전트의 역할 수행 능력**  
2. **전체 시스템의 협력·계획·확장성 관점에서의 성능**

이 두 가지가 균형 있게 작동해야 멀티 에이전트 시스템이 안정적으로 운영된다.

### From Agents to Advanced Contractors  

최근 연구(Agent Companion, Gulli et al.)에서는 단순한 AI 에이전트에서  
보다 고도화된 **“컨트랙터(Contractor)”** 로의 진화를 제안하고 있다.  
이는 기존의 확률적이고 때때로 신뢰하기 어려운 에이전트에서 벗어나,  
**복잡하고 고위험(high-stakes)** 환경에서도 동작할 수 있는  
보다 **결정적(deterministic)이며 책임성(accountable)** 있는 시스템으로의 전환을 의미한다

![image.png](attachment:image.png)

오늘날의 일반적인 AI 에이전트는 짧고 구체적이지 않은 지시를 기반으로 작동한다.  
이러한 방식은 간단한 데모에는 적합하지만, 실제 프로덕션에서는 **모호성(ambiguity)** 이 실패를 초래한다.  
컨트랙터 모델은 인간 세계의 법률 서비스 계약과 유사하게,  
사용자와 AI 간에 **명확하게 정의되고 상호 합의된 조건(formalized terms)** 을 기반으로 하는  
엄격하고 형식적인 관계를 확립함으로써 이 문제를 해결한다.

이 변화는 **네 가지 핵심 기둥(pillars)** 에 의해 뒷받침되며,  
이들은 이전의 자율 시스템이 처리하지 못했던 복잡한 작업을  
명확성, 신뢰성, 견고한 실행의 관점에서 가능하게 한다.

### 1. Formalized Contract (형식화된 계약)

형식화된 계약은 작업 전체에 대한 **단일 진실의 원천(single source of truth)** 역할을 하는  
정밀한 사양(specification)이다. 이는 단순한 프롬프트를 훨씬 초월한다.

예를 들어, 재무 분석 작업을 위한 계약은  
“지난 분기 판매량을 분석하라” 정도의 짧은 지시가 아니라,

> “Q1 2025 유럽 시장 판매 데이터를 기반으로  
>  5개의 특정 시각화를 포함한 20페이지 분량의 PDF 보고서를 작성하고  
>  Q1 2024와의 비교 분석, 공급망 교란 데이터를 활용한 리스크 평가를 포함할 것.”

과 같이 **명확한 산출물, 사양, 허용 가능한 데이터 소스, 작업 범위,  
예상 계산 비용, 완료 시간**까지 포함하는 방식이다.  
이로써 결과의 **객관적 검증 가능성**이 확보된다.

### 2. Dynamic Lifecycle of Negotiation and Feedback (협상 및 피드백의 동적 라이프사이클)

계약은 고정된 명령이 아니라 **대화의 시작점**이다.  
컨트랙터 에이전트는 초기 조건을 분석하여 **협상(negotiation)** 을 진행할 수 있다.

예:

계약에 에이전트가 접근할 수 없는 특정 데이터베이스 사용이 포함되어 있다면,

> “제시된 XYZ 데이터베이스에 접근할 수 없습니다.  
>  인증 정보를 제공해 주시거나, 대체 가능한 공공 데이터베이스 사용을 승인해 주세요.  
>  다만 데이터의 세분화 수준에 약간의 차이가 발생할 수 있습니다.”

와 같은 피드백을 제공할 수 있다.

이 단계는 **모호함을 해소하고 위험을 조기에 발견**하여,  
실행 이후의 비용 높은 실패를 방지하고  
최종 결과물이 사용자 의도와 완전히 부합하도록 한다.

### 3. Quality-Focused Iterative Execution (품질 중심의 반복 실행)

컨트랙터는 일반적인 “빠른 응답” 중심의 에이전트와 달리,  
**정확성(correctness)** 과 **품질(quality)** 을 최우선한다.  
이는 **자기 검증(self-validation)과 자기 교정(self-correction)** 원리에 기반한다.

예: 코드 생성 계약의 경우

- 한 번의 코드 생성으로 끝내지 않고  
- 여러 알고리즘 접근법을 생성하고  
- 각각을 컴파일 및 테스트하며  
- 성능, 보안, 가독성 등의 기준으로 점수를 매긴 뒤  
- **모든 검증 기준을 통과한 최종 버전만 제출**한다.

즉, “생성 → 검토 → 개선”의 내부 루프를 **계약의 요구사항을 충족할 때까지 반복**함으로써  
결과물에 대한 신뢰성을 확보한다.

### 4. Hierarchical Decomposition via Subcontracts (하위 계약 기반의 계층적 분해)

복잡한 작업에서는 메인 컨트랙터 에이전트가 **프로젝트 매니저**처럼 작동하며  
작업을 더 작고 관리 가능한 하위 작업으로 **체계적으로 분해**한다.

예:

주 계약:  
> “e-commerce 모바일 애플리케이션을 구축하라.”

컨트랙터는 이를 다음과 같은 **하위 계약(subcontracts)** 으로 분해할 수 있다:

- UI/UX 설계  
- 사용자 인증 모듈 개발  
- 제품 DB 스키마 생성  
- 결제 게이트웨이 통합  

각 하위 계약은 고유한 산출물과 사양을 가진 **독립적 계약**이며,  
특화된 다른 에이전트에게 배정될 수 있다.  

이러한 구조화된 분해는 매우 복잡한 프로젝트도  
**조직적이고 확장 가능한 방식**으로 해결할 수 있게 하며,  
AI를 단순 도구가 아닌 **신뢰 가능한 문제 해결 엔진**으로 변화시킨다.

### Conclusion: A New Paradigm of AI Contractors  
컨트랙터 프레임워크는 명세(formal specification), 협상, 검증 가능한 실행을  
AI의 핵심 논리에 직접 내장함으로써,  
AI 상호작용 방식을 근본적으로 재구성한다.

이 접근 방식은 AI를  
예측 불가능한 “도우미” 수준에서 벗어나,  
**감사(auditable) 가능한 정밀성과 책임성을 갖춘  
신뢰할 수 있는 시스템**으로 끌어올린다.

모호성과 신뢰성의 문제를 해결함으로써,  
이 모델은 **신뢰와 책임(accountability)** 이 가장 중요한  
미션 크리티컬 영역에서 AI를 안전하게 활용할 수 있는 길을 연다.

### At a Glance  

#### What
에이전트 기반 시스템과 LLM은 **복잡하고 동적인 환경**에서 운영되며, 시간이 지남에 따라 성능이 저하될 수 있다.  
에이전트는 **확률적·비결정적(non-deterministic)** 으로 동작하기 때문에,  
전통적인 소프트웨어 테스트만으로는 신뢰성을 보장하기 어렵다.

특히 **다중 에이전트 시스템(multi-agent systems)** 은 지속적으로 변하는 특성 때문에 평가가 더욱 어렵다.  
환경 역시 정적이지 않으므로, **적응형 테스트(adaptive testing)** 와  
개별 성능을 넘어 **협력적 성공(collaborative success)** 을 측정할 수 있는 정교한 메트릭이 필요하다.

배포 후에는 다음과 같은 문제가 발생할 수 있다:

- 데이터 드리프트(data drift)  
- 예기치 못한 에이전트 간 상호작용  
- 잘못된 도구 호출(tool calling 이상)  
- 의도된 목표에서의 이탈(goal deviation)

따라서 에이전트의 **효과성(effectiveness)**, **효율성(efficiency)**,  
**운영·안전 요구사항 준수(adherence)** 를 지속적으로 평가하는 것이 필수적이다.

#### Why
표준화된 평가 및 모니터링 프레임워크는  
지능형 에이전트의 지속적인 성능을 **체계적으로 측정하고 보장**할 수 있는 방법을 제공한다.

이 프레임워크는 다음을 포함한다:

- **정확도, 지연(latency), 리소스 사용량(예: LLM 토큰 소비)** 같은 명확한 메트릭 정의  
- **에이전트 trajectory 분석**을 통한 추론 과정(reasoning process) 평가  
- **LLM-as-a-Judge** 를 활용한 정성적·세밀한 평가  
- **피드백 루프(feedback loops)** 와 **보고 체계(reporting systems)** 구축  
- **A/B 테스트**, 성능 이상 탐지, 드리프트 식별  

이러한 요소들을 통해 에이전트는 지속적으로 개선되며,  
목표와 운영 기준에 안정적으로 정렬(aligned)된 상태를 유지할 수 있다.

#### Rule of thumb
다음과 같은 경우 이 패턴을 사용하라.

- **실서비스(Production) 환경**에서 에이전트를 운영하며  
  실시간 성능과 신뢰성이 매우 중요할 때  
- 에이전트 또는 모델의 **서로 다른 버전들을 체계적으로 비교**하여 개선을 이끌어야 할 때  
- **규제 환경, 고위험(high-stakes) 도메인**에서 컴플라이언스, 안전성, 윤리성 검증이 필요한 경우  
- 데이터 혹은 환경 변화로 인해 **에이전트 성능이 시간이 지남에 따라 저하(drift)** 될 수 있는 경우  
- 복잡한 에이전트 행동(trajectory), 도구 사용 단계,  
  혹은 helpfulness 같은 **주관적 품질 평가**가 필요한 경우  

이 패턴은 장기적인 운영 안정성, 품질 관리, 성능 최적화를 위한 필수 구성 요소다.

### Key Takeaways  

- 지능형 에이전트 평가란 단순한 전통적 테스트를 넘어,  
  **현실 환경에서의 효과성(effectiveness), 효율성(efficiency), 요구사항 준수(adherence)** 를  
  지속적으로 측정하는 과정이다.

- 에이전트 평가의 실제 활용 사례에는  
  **실서비스 성능 추적**, **A/B 테스트**, **컴플라이언스 감사**,  
  **드리프트 또는 이상 행동 탐지** 등이 포함된다.

- 기본적인 에이전트 평가는 응답 정확도(response accuracy)를 확인하는 것이지만,  
  실제 환경에서는 **지연 시간(latency) 모니터링**,  
  **LLM 기반 시스템의 토큰 사용량(token usage) 추적** 등  
  더 정교한 메트릭이 필요하다.

- **에이전트 trajectory(행동 경로)** 는 평가의 핵심 요소로,  
  실제 행동 시퀀스를 이상적인 ground-truth 경로와 비교해  
  오류와 비효율을 식별할 수 있다.

- 에이전트 평가는  
  **웹 기반 UI**(상호작용 평가 및 데이터셋 생성),  
  **pytest 프로그래매틱 실행**(CI/CD 통합),  
  **CLI 기반 자동 평가** 등 다양한 방식으로 수행될 수 있다.

- 복잡하고 고위험(high-stakes) 작업에서 AI의 신뢰성을 확보하려면  
  단순 프롬프트에서 벗어나,  
  **명확한 검증 가능 산출물과 범위를 정의하는 “계약(contract)” 기반 구조**로 전환해야 한다.  
  이러한 구조화된 합의는 에이전트가  
  **모호성을 협상하고, 스스로 작업을 검증하며**,  
  예측 불가능한 도구에서 **책임성과 신뢰성을 갖춘 시스템**으로 진화하도록 만든다.

### Conclusions  

AI 에이전트를 효과적으로 평가하려면 단순한 정확도 검사에서 벗어나,  
**동적인 환경에서 에이전트의 성능을 지속적이고 다면적으로 평가하는 체계**가 필요하다.  
이를 위해서는 지연 시간(latency), 리소스 사용량 같은 실질적 모니터링 지표는 물론,  
에이전트의 **의사결정 과정 전체를 드러내는 trajectory 분석**과 같은 정교한 평가 방식이 요구된다.

또한, helpfulness와 같은 **미묘하고 정성적인 품질 평가**를 위해  
LLM-as-a-Judge와 같은 혁신적 접근법이 필수 요소로 떠오르고 있다. 

#### 특히 멀티 에이전트 시스템의 경우 평가 난이도가 더 높아진다.
평가의 초점이 개별 에이전트 능력을 넘어서  
**협력의 성공 여부, 역할 수행의 조화, 팀 기반 문제 해결의 효과성**을 측정하는 방향으로 확장된다.

고위험(high-stakes) 환경에서 신뢰성을 확보하기 위해서는  
단순히 프롬프트 기반의 에이전트에서 벗어나,  
**명확하고 검증 가능한 조건(formal agreements)** 을 기반으로 운영되는  
고도화된 “컨트랙터(contractor)” 모델로의 전환이 진행되고 있다.  
컨트랙터 에이전트는 명시적이고 검증 가능한 요구사항을 준수하며,  
협상을 통해 모호성을 제거하고,  
작업을 세분화하고,  
스스로 결과를 검증함으로써  
높은 품질 기준을 충족할 수 있다.

이 구조적 접근 방식은 에이전트를 **예측 불가능한 도구에서 벗어나  
책임성과 신뢰성을 갖춘 시스템**으로 변화시키며,  
복잡하고 고위험 작업을 안정적으로 수행할 수 있게 한다.  

궁극적으로 이러한 진화는 **미션 크리티컬 분야에서 에이전틱 AI를 신뢰하고 배포하기 위한 핵심 조건**이며,  
앞으로의 AI 활용을 뒷받침하는 중요한 기반이 된다.