ref: https://deepeval.com/guides/guides-ai-agent-evaluation
- 오픈 소스 LLM 평가 프레임워크
- Pytest처럼 LLM 출력에 대해 손쉽게 유닛 테스트를 작성할 수 있음
- 연구적으로 뒷받침된 것을 포함해, 30개 이상의 LLM 기반 평가 지표를 바로 가져다 쓸 수 있음
- E2E(end-to-end)와 컴포넌트 레벨 평가를 모두 지원
- RAG, 에이전트, 챗봇 등 사실상 대부분의 LLM 활용 사례에 대한 평가 지원
- 최신 evolution 기법을 활용한 합성(synthetic) 데이터셋 생성 기능
- 지표(metric)를 간단히 커스터마이즈할 수 있고, 다양한 활용 케이스를 포괄

In [1]:
from dotenv import load_dotenv

load_dotenv()

True

In [None]:
import json
from openai import OpenAI
from deepeval.tracing import observe
from deepeval.dataset import Golden, EvaluationDataset

client = OpenAI()
tools = [
    {
        "type": "function",
        "function": {
            "name": "search_flights",
            "description": "Search for available flights between two cities",
            "parameters": {
                "type": "object",
                "properties": {
                    "origin": {"type": "string"},
                    "destination": {"type": "string"},
                    "date": {"type": "string"}
                },
                "required": ["origin", "destination", "date"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "book_flight",
            "description": "Book a specific flight by ID",
            "parameters": {
                "type": "object",
                "properties": {
                    "flight_id": {"type": "string"}
                },
                "required": ["flight_id"]
            }
        }
    }
]

@observe(type="tool")
def search_flights(origin, destination, date):
    # Simulated flight search
    return [{"id": "FL123", "price": 450}, {"id": "FL456", "price": 380}]

@observe(type="tool")
def book_flight(flight_id):
    # Simulated booking
    return {"confirmation": "CONF-789", "flight_id": flight_id}

@observe(type="llm")
def call_openai(messages):
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=messages,
        tools=tools
    )
    return response

@observe(type="agent")
def travel_agent(user_input):
    messages = [{"role": "user", "content": user_input}]

    # LLM reasons about which tool to call
    response = call_openai(messages)
    tool_call = response.choices[0].message.tool_calls[0]
    args = json.loads(tool_call.function.arguments)

    # Execute the tool
    flights = search_flights(args["origin"], args["destination"], args["date"])

    # LLM decides to book the cheapest
    cheapest = min(flights, key=lambda x: x["price"])
    messages.append({"role": "assistant", "content": f"Found flights. Booking cheapest: {cheapest['id']}"})

    booking = book_flight(cheapest["id"])

    return f"Booked flight {cheapest['id']} for ${cheapest['price']}. Confirmation: {booking['confirmation']}"