### 📌 01. LLM 과 RAG 평가 방식, 평가 지표
- **RAG 평가 목표**: 검색된 문서 + LLM 응답 품질 측정
- 주요 평가 지표:
  - **Precision**: 검색된 문서 중 얼마나 관련 있는가
  - **Recall**: 실제 관련 문서 중 얼마나 검색되었는가
  - **Faithfulness**: 답변이 근거 문서에 충실한가
  - **Relevancy**: 답변이 질문과 얼마나 관련 있는가
- 👉 단순 정확도(Accuracy) 대신, 맥락 기반 평가 필요


### 📌 02. RAGAS 소개
- **RAGAS (RAG Assessment Suite)**: RAG 평가 전용 툴킷
- HuggingFace `datasets` 기반으로 작동
- 평가 지표:
  - `context_precision`
  - `context_recall`
  - `answer_relevancy`
  - `faithfulness`
- LLM 기반 자동 평가 지원 → 휴먼 평가 대체/보완


In [3]:
# #  RAGAS 소개
# # pip install ragas

# from datasets import Dataset
# from ragas.metrics import context_precision, context_recall, answer_relevancy, faithfulness

# # 간단한 테스트 데이터
# data = {
#     "question": ["고양이는 어디에서 많이 키우나?"],
#     "answer": ["고양이는 집에서 많이 키운다."],
#     "contexts": [["고양이는 귀엽다.", "강아지는 충성스럽다."]]
# }

# dataset = Dataset.from_dict(data)

# print(dataset)

### 📌 03. 합성 테스트 데이터셋 생성
- 실제 데이터 부족 → **합성 테스트셋(Synthetic Test Set)** 생성
- 방법:
  - 원문 문서 → LLM이 질문 생성
  - 질문에 대한 정답 생성
- 장점:
  - 자동화, 빠른 실험 가능
- 단점:
  - LLM이 만든 데이터 → 품질 검증 필요

In [4]:
# # 합성 테스트 데이터셋 생성 (Synthetic Dataset)
# # 예시: 질문-답변 쌍을 LLM으로 자동 생성

# from ragas.testset import TestsetGenerator

# generator = TestsetGenerator(llm=llm, embeddings=embeddings)
# docs = ["고양이는 귀엽다.", "강아지는 충성스럽다.", "호랑이는 멋지다."]

# # 문서 기반 synthetic dataset 생성
# testset = generator.generate_with_langchain_docs(docs, test_size=3)

# print(testset.to_pandas())

### 📌 04. RAGAS 평가 (Context Precision, Recall, Relevancy, Faithfulness)
- **Context Precision**: 검색된 문서 중 관련된 비율
- **Context Recall**: 관련 문서 중 검색된 비율
- **Answer Relevancy**: 답변이 질문에 적합한가
- **Faithfulness**: 답변이 문서에 충실한가
- 👉 네 지표를 종합적으로 활용해야 RAG 성능 평가 가능

In [6]:
# # RAGAS 를 활용한 평가
# from ragas import evaluate

# result = evaluate(
#     dataset,
#     metrics=[context_precision, context_recall, answer_relevancy, faithfulness],
#     llm=llm,
#     embeddings=embeddings
# )

# print(result)

### 📌 05. 테스트 데이터셋 번역/업로드 관리
- RAGAS는 영어 데이터셋에 최적화 → 한국어도 번역 후 평가 가능
- HuggingFace Dataset 포맷:
  - question
  - answer
  - contexts
- 관리 포인트:
  - 여러 언어 → 통일된 언어로 변환
  - HuggingFace Hub 업로드/공유 가능
- 👉 실제 운영 환경에서는 **다국어 평가 파이프라인** 구축 필요

In [7]:
# # 테스트 데이터셋 번역/업로드 관리
# # 예: 한국어 → 영어 번역 후 평가 가능

# from datasets import Dataset

# data = {
#     "question": ["한국의 수도는 어디인가?"],
#     "answer": ["서울은 한국의 수도이다."],
#     "contexts": [["서울은 대한민국의 수도이다.", "도쿄는 일본의 수도이다."]]
# }
# dataset = Dataset.from_dict(data)

# # 번역 (예시: LLM 이용)
# translation_prompt = "Translate this question to English: 한국의 수도는 어디인가?"
# print(llm.invoke(translation_prompt).content)

# ✅ 최종 정리
- **RAG 평가 지표**: Precision, Recall, Relevancy, Faithfulness
- **RAGAS**: 자동화된 RAG 평가 프레임워크
- **Synthetic Testset**: 문서 기반 자동 질문/답변 생성
- **평가 실행**: `ragas.evaluate` 사용
- **번역/업로드 관리**: 다국어 지원 위해 사전 번역 및 Dataset Hub 활용

👉 RAG 평가는 단순 정확도 → 맥락 기반 종합 지표로 넘어가는 중.  
