# 실험(Experiment) 평가 비교

LangSmith 에서 제공하는 Compare 기능을 활용하여 실험 결과를 쉽게 비교할 수 있습니다.

**참고**
- https://docs.smith.langchain.com/cookbook/tracing-examples/traceable#using-the-decorator

In [None]:
# 설치
# !pip install -qU langsmith langchain-teddynote

In [1]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

True

In [2]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install -qU langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("CH16-Evaluations")

LangSmith 추적을 시작합니다.
[프로젝트명]
CH16-Evaluations


## RAG 성능 테스트를 위한 함수 정의

테스트에 활용할 RAG 시스템을 생성하겠습니다.

In [3]:
from myrag import PDFRAG
from langchain_openai import ChatOpenAI


# 질문에 대한 답변하는 함수를 생성
def ask_question_with_llm(llm):
    # PDFRAG 객체 생성
    rag = PDFRAG(
        "data/SPRI_AI_Brief_2023년12월호_F.pdf",
        llm,
    )

    # 검색기(retriever) 생성
    retriever = rag.create_retriever()

    # 체인(chain) 생성
    rag_chain = rag.create_chain(retriever)

    def _ask_question(inputs: dict):
        context = retriever.invoke(inputs["question"])
        context = "\n".join([doc.page_content for doc in context])
        return {
            "question": inputs["question"],
            "context": context,
            "answer": rag_chain.invoke(inputs["question"]),
        }

    return _ask_question

In [4]:
from langchain_community.chat_models import ChatOllama

# Ollama 모델을 불러옵니다.
ollama = ChatOllama(model="EEVE-Korean-10.8B:latest")

# Ollama 모델 호출
ollama.invoke("안녕하세요?")

AIMessage(content='안녕하세요! 도움이 되고 존중하는 조수로서 여러분이 가진 질문에 최선을 다해 답변해 드리겠습니다. 정확하고 유용한 정보를 제공하며 안전하고 사회적 편견이 없도록 노력하겠습니다. 제가 제공할 수 있는 정보에 한계가 있을 수도 있지만, 항상 정직한 답변을 드리기 위해 노력할게요. 만약 질문이 말이 되지 않거나 해롭거나 비윤리적인 내용을 담고 있다면, 대신 왜 그런지에 대해 설명해 드릴 것입니다. \n\n시작해볼까요! 궁금한 점이 있거나 도와드릴 일이 있으면 언제든지 물어보세요. 최선을 다해 도와드리겠습니다. 😊', response_metadata={'model': 'EEVE-Korean-10.8B:latest', 'created_at': '2024-09-19T10:47:07.198627Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 19967110416, 'load_duration': 15875755666, 'prompt_eval_count': 50, 'prompt_eval_duration': 172501000, 'eval_count': 106, 'eval_duration': 3915680000}, id='run-6bb08ee1-77ff-4ab1-be72-5f72dd277964-0')

GPT-4o-mini 모델과 Ollama 모델을 활용하여 질문에 대한 답변을 생성하는 함수를 생성합니다.

In [5]:
gpt_chain = ask_question_with_llm(ChatOpenAI(model="gpt-4o-mini", temperature=0))
ollama_chain = ask_question_with_llm(ChatOllama(model="EEVE-Korean-10.8B:latest"))

GPT-4o-mini 모델과 Ollama 모델을 활용한 답변 평가를 진행합니다.

2개의 체인에 대하여 각각 진행합니다.

In [6]:
from langsmith.evaluation import evaluate, LangChainStringEvaluator

# qa 평가자 생성
cot_qa_evalulator = LangChainStringEvaluator(
    "cot_qa",
    config={"llm": ChatOpenAI(model="gpt-4o-mini", temperature=0)},
    prepare_data=lambda run, example: {
        "prediction": run.outputs["answer"],
        "reference": run.outputs["context"],
        "input": example.inputs["question"],
    },
)

dataset_name = "RAG_EVAL_DATASET"

# 평가 실행
experiment_results1 = evaluate(
    gpt_chain,
    data=dataset_name,
    evaluators=[cot_qa_evalulator],
    experiment_prefix="MODEL_COMPARE_EVAL",
    # 실험 메타데이터 지정
    metadata={
        "variant": "GPT-4o-mini 평가 (cot_qa)",
    },
)

# 평가 실행
experiment_results2 = evaluate(
    ollama_chain,
    data=dataset_name,
    evaluators=[cot_qa_evalulator],
    experiment_prefix="MODEL_COMPARE_EVAL",
    # 실험 메타데이터 지정
    metadata={
        "variant": "Ollama(EEVE-Korean-10.8B:latest) 평가 (cot_qa)",
    },
)

View the evaluation results for experiment: 'MODEL_COMPARE_EVAL-23908367' at:
https://smith.langchain.com/o/42ebd69b-2565-441c-b868-9709c2e20267/datasets/7be96c7d-41ca-4f3a-96da-7bf7c706e0a5/compare?selectedSessions=384e4d64-0af4-4874-86b9-66fd08943454




0it [00:00, ?it/s]

View the evaluation results for experiment: 'MODEL_COMPARE_EVAL-a4a9f9ff' at:
https://smith.langchain.com/o/42ebd69b-2565-441c-b868-9709c2e20267/datasets/7be96c7d-41ca-4f3a-96da-7bf7c706e0a5/compare?selectedSessions=4eb8208b-ba85-45e0-b923-eea88fff7684




0it [00:00, ?it/s]

결과를 검사하기 위해 비교 보기를 사용하십시오.

**비교 보기를 하는 방법**

![](./assets/eval-01.png)

![](./assets/eval-02.png)

1. Dataset 의 Experiment 탭에서 비교하고 싶은 실험을 선택합니다.
2. 하단의 "Compare" 버튼을 클릭합니다.
3. 비교 보기가 표시됩니다.