# RAG 평가를 위한 합성 데이터셋 생성


RAG(검색 증강 생성) 강화 파이프라인의 성능을 평가하는 것은 매우 중요합니다.
하지만 문서에서 수백 개의 QA(질문-답변-컨텍스트) 샘플을 수동으로 만드는 것은 시간이 많이 소요되고 노동 집약적입니다. 또한 사람이 생성한 질문은 철저한 평가에 필요한 복잡성 수준에 도달하는 데 어려움이 있을 수 있어, 결과적으로 평가의 품질에 영향을 미칠 수 있습니다.

### 참조
- [Testset Generation for RAG](https://docs.ragas.io/en/stable/getstarted/rag_testset_generation/)

---




## 0. 환경 설정

In [1]:
%load_ext autoreload
%autoreload 2

import sys, os

def add_python_path(module_path):
    if os.path.abspath(module_path) not in sys.path:
        sys.path.append(os.path.abspath(module_path))
        print(f"python path: {os.path.abspath(module_path)} is added")
    else:
        print(f"python path: {os.path.abspath(module_path)} already exists")
    print("sys.path: ", sys.path)


module_path = ".."
add_python_path(module_path)


from libs.generate_synthesis_data import (
    PDFLoader,split_text,add_meta_into_chunk,
    create_prompt,
    converse_with_bedrock_tools,
    parse_tool_use,
    generate_qa_dataset,
)

python path: /home/sagemaker-user/rag-evaluation-bedrock is added
sys.path:  ['/home/sagemaker-user/rag-evaluation-bedrock/notebook_kr', '/home/sagemaker-user/.conda/envs/regas_bedrock/lib/python310.zip', '/home/sagemaker-user/.conda/envs/regas_bedrock/lib/python3.10', '/home/sagemaker-user/.conda/envs/regas_bedrock/lib/python3.10/lib-dynload', '', '/home/sagemaker-user/.conda/envs/regas_bedrock/lib/python3.10/site-packages', '/home/sagemaker-user/rag-evaluation-bedrock']


## 1. 실습에 사용된 문서

- 파일 위치: ../data/241231-Sonnet-recipe.pdf
- 이 문서는 Claude Sonnet3.5 로 생성된 데이타를 pdf 파일로 생성 했습니다.


In [2]:
loader = PDFLoader("../data/241231-Sonnet-recipe.pdf", start_page=1, end_page=3)
docs = loader.load()
docs

{'page_content': '볶음요리로는 먼저 김치볶음밥이 있는데, 잘 익은 김치를 잘게 썰어 밥과 함께\n볶다가 마지막에 참기름을 둘러 고소한 향을 더합니다. 제육볶음은 돼지고기를 고\n추장 양념에 버무려 매콤달콤하게 볶아내며, 양파와 당근 등 채소를 함께 넣어\n영양을 높입니다. 낙지볶음은 신선한 낙지를 손질해 고추장 양념에 볶아 매콤하게\n만드는 요리입니다.\n양식으로는 크림파스타가 대표적인데, 생크림과 마늘, 양파를 볶아 소스를 만들고\n베이컨이나 새우를 더해 고소하게 완성합니다. 토마토파스타는 토마토소스에 마늘\n과 양파를 볶아 넣고 바질을 곁들여 상큼한 맛을 냅니다. 미트소스스파게티는 다\n진 쇠고기를 토마토소스와 함께 오래 끓여 깊은 맛을 만듭니다.\n일식에서는 돈카츠가 인기 있는 메뉴로, 돼지고기를 얇게 펴서 빵가루를 묻혀 바\n삭하게 튀겨내고 특제 소스를 곁들입니다. 카레라이스는 당근, 감자, 양파를 카\n레가루와 함께 끓여 걸쭉한 소스를 만들어 밥에 부어 먹습니다. 오야코동은 닭고\n기와 달걀을 간장 베이스의 달달한 육수에 조려 밥 위에 올립니다.\n중식으로는 마파두부가 있는데, 두부와 다진 고기를 매운 두반장 소스에 볶아 만\n듭니다. 깐풍기는 닭고기를 튀겨서 매콤달콤한 소스를 絡めて만드는 요리이고, 탕\n수육은 돼지고기를 튀겨서 새콤달콤한 소스를 부어 먹습니다.\n태국 요리로는 팟타이가 유명한데, 쌀국수를 새우와 함께 볶고 땅콩가루를 뿌려\n고소한 맛을 냅니다. 그린커리는 코코넛밀크와 향신료를 넣어 만든 커리에 닭고기\n와 가지를 넣어 끓입니다. 톰얌쿵은 새우와 버섯을 레몬그라스, 카피르라임 등의\n향신료와 함께 시큼매콤하게 끓이는 수프입니다.\n베트남 요리에서는 쌀국수인 포가 대표적인데, 소고기 육수에 쌀국수와 고기를 넣\n고 고수, 숙주나물을 곁들여 먹습니다. 반미는 바게트빵에 각종 채소와 고기를\n넣어 만드는 샌드위치이며, 분짜는 구운 돼지고기와 쌀국수를 느억맘 소스에 찍어\n먹는 요리입니다.\n이탈리아 요리로 더 들어가보면, 리

## 2.  문서를 Chunk 로 분리 및 메타 데이터 삽입

In [3]:
chunks = split_text(
                text = docs['page_content'], 
                chunk_size=512, 
                chunk_overlap=0)
print("length of chunks: ", len(chunks))
chunks[0]

length of chunks:  8


'볶음요리로는 먼저 김치볶음밥이 있는데, 잘 익은 김치를 잘게 썰어 밥과 함께\n볶다가 마지막에 참기름을 둘러 고소한 향을 더합니다. 제육볶음은 돼지고기를 고\n추장 양념에 버무려 매콤달콤하게 볶아내며, 양파와 당근 등 채소를 함께 넣어\n영양을 높입니다. 낙지볶음은 신선한 낙지를 손질해 고추장 양념에 볶아 매콤하게\n만드는 요리입니다.\n양식으로는 크림파스타가 대표적인데, 생크림과 마늘, 양파를 볶아 소스를 만들고\n베이컨이나 새우를 더해 고소하게 완성합니다. 토마토파스타는 토마토소스에 마늘\n과 양파를 볶아 넣고 바질을 곁들여 상큼한 맛을 냅니다. 미트소스스파게티는 다\n진 쇠고기를 토마토소스와 함께 오래 끓여 깊은 맛을 만듭니다.\n일식에서는 돈카츠가 인기 있는 메뉴로, 돼지고기를 얇게 펴서 빵가루를 묻혀 바\n삭하게 튀겨내고 특제 소스를 곁들입니다. 카레라이스는 당근, 감자, 양파를 카\n레가루와 함께 끓여 걸쭉한 소스를 만들어 밥에 부어 먹습니다. 오야코동은 닭고\n'

In [4]:
chunks_with_metadata = add_meta_into_chunk(chunks, docs)    
chunks_with_metadata[0]

{'content': '볶음요리로는 먼저 김치볶음밥이 있는데, 잘 익은 김치를 잘게 썰어 밥과 함께\n볶다가 마지막에 참기름을 둘러 고소한 향을 더합니다. 제육볶음은 돼지고기를 고\n추장 양념에 버무려 매콤달콤하게 볶아내며, 양파와 당근 등 채소를 함께 넣어\n영양을 높입니다. 낙지볶음은 신선한 낙지를 손질해 고추장 양념에 볶아 매콤하게\n만드는 요리입니다.\n양식으로는 크림파스타가 대표적인데, 생크림과 마늘, 양파를 볶아 소스를 만들고\n베이컨이나 새우를 더해 고소하게 완성합니다. 토마토파스타는 토마토소스에 마늘\n과 양파를 볶아 넣고 바질을 곁들여 상큼한 맛을 냅니다. 미트소스스파게티는 다\n진 쇠고기를 토마토소스와 함께 오래 끓여 깊은 맛을 만듭니다.\n일식에서는 돈카츠가 인기 있는 메뉴로, 돼지고기를 얇게 펴서 빵가루를 묻혀 바\n삭하게 튀겨내고 특제 소스를 곁들입니다. 카레라이스는 당근, 감자, 양파를 카\n레가루와 함께 끓여 걸쭉한 소스를 만들어 밥에 부어 먹습니다. 오야코동은 닭고\n',
 'metadata': {'chunk_id': 0, 'filename': '../data/241231-Sonnet-recipe.pdf'}}

## 3. Test Q&A Dataset Generation

### 3.1. Amazon Bedrock 사용위한 설정

In [5]:
import boto3
from botocore.config import Config

region = 'us-west-2'
retry_config = Config(
    region_name=region,
    retries={"max_attempts": 10, "mode": "standard"}
)
boto3_client = boto3.client("bedrock-runtime", region_name=region, config=retry_config)

### 3.2. 파라미터 설정 및 생성

In [6]:
model_id = "anthropic.claude-3-5-sonnet-20240620-v1:0"
num_of_generated_sample = 10
output_file="../data/sample_qa_dataset.jsonl"

In [7]:
%%time

generate_qa_dataset(
                    model_id = model_id, 
                    chunks = chunks_with_metadata, 
                    num_pairs = num_of_generated_sample, 
                    boto3_client = boto3_client,
                    output_file= output_file,
                    # verbose=True,
                    verbose=False,
)

{'question': '다양한 국가의 요리 중 유사한 조리 방식이나 재료를 사용하지만 문화적 특성에 따라 다르게 발전한 요리들을 비교해보세요. 특히 아시아와 서양 요리의 차이점과 유사점을 중심으로 설명해주세요.', 'ground_truth': '여러 국가의 요리들 중 유사한 조리 방식이나 재료를 사용하지만 문화적 특성에 따라 다르게 발전한 요리들을 많이 찾아볼 수 있습니다.\n\n1. 쌀 요리의 비교:\n   - 아시아: 리소토(이탈리아)와 볶음밥(중국, 한국 등)\n   - 리소토는 아르보리오 쌀을 사용하여 천천히 육수를 부어가며 크리미한 질감을 만들어내는 반면, 아시아의 볶음밥은 일반 쌀을 사용하여 빠르게 볶아 만듭니다.\n\n2. 면 요리의 비교:\n   - 아시아: 라멘(일본), 쌀국수(베트남 포), 우동(일본)\n   - 서양: 파스타(이탈리아)\n   - 아시아 면 요리는 주로 국물과 함께 먹는 반면, 이탈리아 파스타는 소스와 함께 먹는 경우가 많습니다.\n\n3. 커리 요리의 비교:\n   - 아시아: 그린커리(태국), 버터치킨(인도)\n   - 두 요리 모두 향신료를 사용하지만, 태국 커리는 코코넛 밀크를 베이스로 하고, 인도 커리는 요구르트나 크림을 사용하여 다른 풍미를 냅니다.\n\n4. 샌드위치 유형 요리의 비교:\n   - 아시아: 반미(베트남)\n   - 서양: 타코(멕시코), 샤워마(중동)\n   - 모두 빵이나 또르티야에 고기와 채소를 넣어 먹지만, 사용하는 향신료와 소스가 각 문화권에 따라 다릅니다.\n\n5. 튀김 요리의 비교:\n   - 아시아: 탕수육(중국), 깐풍기(중국)\n   - 서양: 팔라펠(중동)\n   - 아시아 튀김 요리는 주로 고기를 사용하고 달콤하거나 매운 소스를 곁들이는 반면, 팔라펠은 채식 단백질 소스인 후무스와 함께 먹습니다.\n\n이러한 비교를 통해 각 문화권의 요리가 비슷한 조리 기법이나 재료를 사용하더라도, 고유의 향신료, 소스, 식재료 조합을 통해 독특한 맛과 특징을 가지게 되었음을 알 수 있습니

[{'question': '다양한 국가의 요리 중 유사한 조리 방식이나 재료를 사용하지만 문화적 특성에 따라 다르게 발전한 요리들을 비교해보세요. 특히 아시아와 서양 요리의 차이점과 유사점을 중심으로 설명해주세요.',
  'ground_truth': '여러 국가의 요리들 중 유사한 조리 방식이나 재료를 사용하지만 문화적 특성에 따라 다르게 발전한 요리들을 많이 찾아볼 수 있습니다.\n\n1. 쌀 요리의 비교:\n   - 아시아: 리소토(이탈리아)와 볶음밥(중국, 한국 등)\n   - 리소토는 아르보리오 쌀을 사용하여 천천히 육수를 부어가며 크리미한 질감을 만들어내는 반면, 아시아의 볶음밥은 일반 쌀을 사용하여 빠르게 볶아 만듭니다.\n\n2. 면 요리의 비교:\n   - 아시아: 라멘(일본), 쌀국수(베트남 포), 우동(일본)\n   - 서양: 파스타(이탈리아)\n   - 아시아 면 요리는 주로 국물과 함께 먹는 반면, 이탈리아 파스타는 소스와 함께 먹는 경우가 많습니다.\n\n3. 커리 요리의 비교:\n   - 아시아: 그린커리(태국), 버터치킨(인도)\n   - 두 요리 모두 향신료를 사용하지만, 태국 커리는 코코넛 밀크를 베이스로 하고, 인도 커리는 요구르트나 크림을 사용하여 다른 풍미를 냅니다.\n\n4. 샌드위치 유형 요리의 비교:\n   - 아시아: 반미(베트남)\n   - 서양: 타코(멕시코), 샤워마(중동)\n   - 모두 빵이나 또르티야에 고기와 채소를 넣어 먹지만, 사용하는 향신료와 소스가 각 문화권에 따라 다릅니다.\n\n5. 튀김 요리의 비교:\n   - 아시아: 탕수육(중국), 깐풍기(중국)\n   - 서양: 팔라펠(중동)\n   - 아시아 튀김 요리는 주로 고기를 사용하고 달콤하거나 매운 소스를 곁들이는 반면, 팔라펠은 채식 단백질 소스인 후무스와 함께 먹습니다.\n\n이러한 비교를 통해 각 문화권의 요리가 비슷한 조리 기법이나 재료를 사용하더라도, 고유의 향신료, 소스, 식재료 조합을 통해 독특한 맛과 특징을 가지게 되었음을 알 수 