# 반복 평가

실험에 반복을 추가할 수 있습니다.

이는 평가를 여러 번 반복할 수 있게 하여 다음과 같은 경우에 유용합니다:

* 더 큰 평가 세트의 경우
* 가변적인 응답을 생성할 수 있는 체인의 경우
* 가변적인 점수를 생성할 수 있는 평가(예: `llm-as-judge`)의 경우

https://docs.smith.langchain.com/how_to_guides/evaluation/evaluate_llm_application#evaluate-on-a-dataset-with-repetitions

In [None]:
# 설치
# !pip install -qU langsmith langchain-teddynote

In [None]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

In [None]:
# LangSmith 추적을 설정합니다. https://smith.langchain.com
# !pip install -qU langchain-teddynote
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("CH16-Evaluations")

## RAG 성능 테스트를 위한 함수 정의

In [None]:
from myrag import PDFRAG


# 질문에 대한 답변하는 함수를 생성
def ask_question_with_llm(llm):
    # PDFRAG 객체 생성
    rag = PDFRAG(
        "data/SPRI_AI_Brief_2023년12월호_F.pdf",
        llm,
    )

    # 검색기(retriever) 생성
    retriever = rag.create_retriever()

    # 체인(chain) 생성
    rag_chain = rag.create_chain(retriever)

    def _ask_question(inputs: dict):
        # 질문에 대한 컨텍스트 검색
        context = retriever.invoke(inputs["question"])
        # 검색된 문서들을 하나의 문자열로 결합
        context = "\n".join([doc.page_content for doc in context])
        # 질문, 컨텍스트, 답변을 포함한 딕셔너리 반환
        return {
            "question": inputs["question"],
            "context": context,
            "answer": rag_chain.invoke(inputs["question"]),
        }

    return _ask_question

In [None]:
from langchain_openai import ChatOpenAI
from langchain_ollama import ChatOllama


gpt_chain = ask_question_with_llm(ChatOpenAI(model="gpt-4o-mini", temperature=1.0))

# Ollama 모델을 불러옵니다.
ollama_chain = ask_question_with_llm(
    ChatOllama(model="EEVE-Korean-10.8B:latest", temperature=1.0)
)

### GPT 모델을 활용한 RAG 에 대하여 반복 평가

In [None]:
from langsmith.evaluation import evaluate, LangChainStringEvaluator

# qa 평가자 생성
cot_qa_evalulator = LangChainStringEvaluator(
    "cot_qa",
    config={"llm": ChatOpenAI(model="gpt-4o-mini", temperature=0)},
    prepare_data=lambda run, example: {
        "prediction": run.outputs["answer"],
        "reference": run.outputs["context"],
        "input": example.inputs["question"],
    },
)

dataset_name = "RAG_EVAL_DATASET"

# 평가 실행
evaluate(
    gpt_chain,
    data=dataset_name,
    evaluators=[cot_qa_evalulator],
    experiment_prefix="REPEAT_EVAL",
    # 실험 메타데이터 지정
    metadata={
        "variant": "Repeat 평가를 수행합니다. GPT-4o-mini 모델 (cot_qa)",
    },
    num_repetitions=3,
)

![](./assets/output-12.png)

### Ollama 모델을 활용한 RAG 에 대하여 반복 평가

In [None]:
from langsmith.evaluation import evaluate, LangChainStringEvaluator

# qa 평가자 생성
cot_qa_evalulator = LangChainStringEvaluator(
    "cot_qa",
    config={"llm": ChatOpenAI(model="gpt-4o-mini", temperature=0)},
    prepare_data=lambda run, example: {
        "prediction": run.outputs["answer"],
        "reference": run.outputs["context"],
        "input": example.inputs["question"],
    },
)

dataset_name = "RAG_EVAL_DATASET"

# 평가 실행
evaluate(
    ollama_chain,
    data=dataset_name,
    evaluators=[cot_qa_evalulator],
    experiment_prefix="REPEAT_EVAL",
    # 실험 메타데이터 지정
    metadata={
        "variant": "Repeat 평가를 수행합니다. EEVE-Korean-10.8B 모델 (cot_qa)",
    },
    num_repetitions=3,
)

![](./assets/output-14.png)