In [None]:
import textwrap
import chromadb
import numpy as np
import pandas as pd
import re

from chromadb import Documents, EmbeddingFunction, Embeddings

from google import genai

# PubMedQA 평가를 위한 라이브러리 추가
from datasets import load_dataset
from rouge_score import rouge_scorer

client = genai.Client(api_key='AIzaSyDNXwI-Zc3vyyPbQFKaJvJxtIXxW5r9Ltc')


for m in client.models.list():
  if 'embedContent' in m.supported_actions:
    print(m.name)

models/embedding-001
models/text-embedding-004
models/gemini-embedding-exp-03-07
models/gemini-embedding-exp


In [11]:
from google.genai import types

class GeminiEmbeddingFunction(EmbeddingFunction):
  def __call__(self, input: Documents) -> Embeddings:
    EMBEDDING_MODEL_ID = "models/embedding-001"
    title = "Custom query"
    response = client.models.embed_content(
        model=EMBEDDING_MODEL_ID,
        contents=input,
        config=types.EmbedContentConfig(
          task_type="retrieval_document",
          title=title
        )
    )
    # 모든 문서의 임베딩 벡터를 리스트로 반환
    return [e.values for e in response.embeddings]

In [12]:
import json
#chroma_client.delete_collection("my_collection")
def preprocess_metadata(metadata):
    new_metadata = {}
    for k, v in metadata.items():
        if isinstance(v, list):
            new_metadata[k] = ", ".join(map(str, v))  # 리스트를 문자열로 변환
        else:
            new_metadata[k] = v
    return new_metadata
def batch_add(collection, documents, metadatas, ids, batch_size=100):
    for i in range(0, len(documents), batch_size):
        batch_docs = documents[i:i+batch_size]
        batch_metas = metadatas[i:i+batch_size]
        batch_ids = ids[i:i+batch_size]
        collection.add(
            documents=batch_docs,
            metadatas=batch_metas,
            ids=batch_ids
        )
def create_chroma_db(json_data, name):
    import chromadb

    chroma_client = chromadb.Client()
    db = chroma_client.create_collection(
        name=name,
        embedding_function=GeminiEmbeddingFunction()
    )

    # JSON 데이터에서 텍스트, 메타데이터, id 추출
    documents = [item["text"] for item in json_data]
    metadatas = [preprocess_metadata(item["metadata"]) for item in json_data]
    ids = [str(i) for i in range(len(json_data))]
    
    batch_add(db, documents, metadatas, ids, batch_size=100)
   
    return db
with open('disease_rag_with_metadata.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
    
db = create_chroma_db(data, "my_collection")

  embedding_function=GeminiEmbeddingFunction()


In [13]:
sample_data = db.get(include=['documents', 'embeddings'])

df = pd.DataFrame({
    "IDs": sample_data['ids'][:3],
    "Documents": sample_data['documents'][:3],
    "Embeddings": [str(emb)[:50] + "..." for emb in sample_data['embeddings'][:3]]  # Truncate embeddings
})

print(df)

  IDs                                          Documents  \
0   0  증상: Fever, Fatigue, Difficulty Breathing이(가) 있...   
1   1  증상: Cough, Fatigue이(가) 있고, 나이: 25세, 성별: Female...   
2   2  증상: Cough, Fatigue이(가) 있고, 나이: 25세, 성별: Female...   

                                          Embeddings  
0  [ 2.24745572e-02 -7.10671246e-02 -3.98193412e-...  
1  [ 6.27511144e-02 -6.39859959e-02 -7.34391063e-...  
2  [ 5.98195456e-02 -6.23048060e-02 -7.82496259e-...  


In [14]:
def get_relevant_passage(query, db, n_results=5):
  results = db.query(query_texts=[query], n_results=n_results, include=['documents', 'metadatas'])
  passages = []
  for i in range(len(results['documents'][0])):
      doc = results['documents'][0][i]
      meta = results['metadatas'][0][i]
      
      passage_text = f"{doc} (나이: {meta.get('age', '정보 없음')}, 성별: {meta.get('gender', '정보 없음')}, 혈압: {meta.get('blood_pressure', '정보 없음')}, 콜레스테롤: {meta.get('cholesterol', '정보 없음')})"
      passages.append(passage_text)
  return passages
# Perform embedding search
passages = get_relevant_passage("Fever, Cough, Difficulty Breathing", db, 5)

# LLM 응답 자체 평가 함수 정의
def evaluate_response(user_query: str, llm_response: str, relevant_passages: list) -> dict: #
    """
    LLM의 답변을 자체적으로 평가하는 함수.
    주어진 프롬프트 지시사항을 얼마나 잘 따랐는지에 초점을 맞춥니다.
    """
    evaluation_results = {
        "score": 0,
        "criteria": {
            "overall_length_sufficient": False,
            "includes_greeting_and_symptom": False,
            "mentions_patient_profile_integrated": False,
            "mentions_disease_and_type": False,
            "includes_general_advice_list": False,
            "avoids_extreme_disease_direct_recommendation": True, # 변경된 로직으로 평가
            "avoids_direct_medical_advice": True,
            "uses_korean_for_english_terms": True,
            "matches_query_symptoms": False,
            "includes_closing_remark": False
        },
        "feedback": []
    }

    llm_response_lower = llm_response.lower()

    # 0. 답변 길이 충분성 확인
    word_count = len(llm_response.split())
    if word_count >= 100:
        evaluation_results["criteria"]["overall_length_sufficient"] = True
        evaluation_results["score"] += 2
    else:
        evaluation_results["feedback"].append(f"피드백: 답변 길이가 {word_count} 단어로 충분하지 않습니다 (최소 100단어 필요).")

    # 1. 시작 인사 및 증상 언급 확인
    if re.search(r'^(안녕하세요|환영합니다).*(기침|콧물|열|피로|불편)', llm_response, re.IGNORECASE | re.DOTALL):
        evaluation_results["criteria"]["includes_greeting_and_symptom"] = True
        evaluation_results["score"] += 1
    else:
        evaluation_results["feedback"].append("피드백: 답변이 시작 인사와 사용자 증상 언급으로 시작하지 않습니다.")

    # 2. 환자 프로필 정보 통합 여부 확인
    profile_keywords = ['나이:', '세', '성별:', '혈압:', '콜레스테롤:']
    if any(keyword in llm_response for keyword in profile_keywords) or \
       re.search(r'(\d+세\s*(남성|여성)|(Low|Normal|High)\s*혈압|Low|Normal|High)\s*콜레스테롤', llm_response, re.IGNORECASE):
        evaluation_results["criteria"]["mentions_patient_profile_integrated"] = True
        evaluation_results["score"] += 3
    else:
        evaluation_results["feedback"].append("피드백: 답변에 환자 프로필 정보(나이, 성별, 혈압, 콜레스테롤)가 자연스럽게 통합되지 않았습니다.")

    # 3. 질병 언급 및 일반적/심각성 구분
    mentioned_diseases = re.findall(r'\b([가-힣A-Za-z\s]+)\((Common Cold|Influenza|Asthma|Eczema|Migraine|Malaria)\)', llm_response) #
    if mentioned_diseases:
        evaluation_results["criteria"]["mentions_disease_and_type"] = True
        evaluation_results["score"] += 1
    else:
        evaluation_results["feedback"].append("피드백: 답변에 질병이 명확히 언급되지 않았거나, 일반적/심각성 구분이 부족합니다.")

    # 4. 일반적인 조언 목록 포함 여부
    if re.search(r'-\s*\*\*.+\*\*:', llm_response):
        evaluation_results["criteria"]["includes_general_advice_list"] = True
        evaluation_results["score"] += 2
    else:
        evaluation_results["feedback"].append("피드백: 답변에 일반적인 조언이 목록 형태로 충분히 포함되지 않았습니다.")

    # 5. 극단적이거나 심각한 질병 직접 추천 회피 여부 (로직 변경)
    extreme_diseases = ["Cancer", "Stroke", "Malaria", "Ebola Virus", "HIV/AIDS", "Tuberculosis", "Alzheimer's Disease", "Liver Cancer", "Kidney Cancer", "Pancreatic Cancer"] #
    mitigating_phrases = [
        r'드물게는', r'만약', r'다른', r'일\s*수도\s*있습니다', r'가능성\s*이\s*있습니다', r'관련이\s*있을\s*수\s*있습니다', r'고려해\s*볼\s*수\s*있습니다'
    ]
    
    for disease in extreme_diseases:
        # 질병 이름이 답변에 직접적으로 언급되었는지 확인
        disease_pattern = r'\b' + re.escape(disease) + r'\b'
        
        # 완화 표현 없이 질병이 바로 언급된 경우를 탐지
        # (완화 표현 뒤에 나오는 질병은 OK)
        if re.search(disease_pattern, llm_response, re.IGNORECASE):
            is_mitigated = False
            # 질병 주변 텍스트에서 완화 표현을 찾습니다.
            # 예: "드물게는 말라리아일 수도 있습니다."
            # Look for mitigating phrases *before* the disease in the sentence/phrase.
            # This is a heuristic and might not catch all nuances, but avoids PatternError.
            
            # Find all matches of the disease
            for match in re.finditer(disease_pattern, llm_response, re.IGNORECASE):
                start_index = match.start()
                # Check a window before the disease mention
                context_before = llm_response[max(0, start_index - 50):start_index] # 50자 앞까지 확인
                
                for mp in mitigating_phrases:
                    if re.search(mp, context_before, re.IGNORECASE):
                        is_mitigated = True
                        break
                if is_mitigated:
                    break # 이 질병 언급은 완화되었으니 다음 질병으로 넘어감

            if not is_mitigated:
                evaluation_results["criteria"]["avoids_extreme_disease_direct_recommendation"] = False
                evaluation_results["score"] -= 5
                evaluation_results["feedback"].append(f"주의: 답변에 '{disease}'와 같은 심각한 질병이 직접적으로 언급되었습니다 (완화 표현 없음).")
                # break # 한 번이라도 직접 언급되면 바로 감점 (선택)
                # 만약 모든 극단적 질병 언급을 확인하려면 이 break를 주석 처리
                # 현재는 첫 직접 언급에서 감점 후 다음 극단적 질병으로 넘어가는 방식

    # 6. 직접적인 의료 조언 회피 여부 (동일)
    forbidden_phrases = ["병원 방문", "전문가 상담", "의사와 상담", "진찰이 필요", "치료를 받아야", "약물 복용", "정확한 진단"]
    for phrase in forbidden_phrases:
        if phrase in llm_response:
            evaluation_results["criteria"]["avoids_direct_medical_advice"] = False
            evaluation_results["score"] -= 10
            evaluation_results["feedback"].append(f"심각: 금지된 의료 권고 문구 '{phrase}'가 포함되었습니다.")
            break

    # 7. 영어 단어 한글 뜻 제공 여부 (동일)
    english_terms_in_passage = re.findall(r'[A-Za-z]+(?=\()', " ".join(relevant_passages)) #
    for term in set(english_terms_in_passage):
        if not re.search(fr'\b{re.escape(term)}\b\([가-힣]+\)', llm_response):
            evaluation_results["criteria"]["uses_korean_for_english_terms"] = False
            evaluation_results["score"] -= 0.5
            evaluation_results["feedback"].append(f"피드백: 영어 단어 '{term}'에 대한 한글 뜻이 누락되었을 수 있습니다.")

    # 8. 쿼리 증상 매칭 확인 (동일)
    query_symptoms_list = []
    if "기침" in user_query: query_symptoms_list.append("기침")
    if "콧물" in user_query: query_symptoms_list.append("콧물")
    if "열" in user_query: query_symptoms_list.append("열")
    if "피로" in user_query: query_symptoms_list.append("피로")

    all_query_symptoms_mentioned = True
    for symptom in query_symptoms_list:
        if symptom not in llm_response:
            all_query_symptoms_mentioned = False
            evaluation_results["feedback"].append(f"피드백: 사용자 쿼리의 핵심 증상 '{symptom}'이 답변에 언급되지 않았습니다.")
            break

    if all_query_symptoms_mentioned:
        evaluation_results["criteria"]["matches_query_symptoms"] = True
        evaluation_results["score"] += 1

    # 9. 마무리 인사 포함 여부
    if re.search(r'(더 궁금한 점이 있으시면 언제든지 다시 질문해주세요\.|항상 건강하시길 바랍니다\.|궁금한 점이 있다면 언제든지 문의해주세요\.)', llm_response, re.DOTALL):
        evaluation_results["criteria"]["includes_closing_remark"] = True
        evaluation_results["score"] += 1
    else:
        evaluation_results["feedback"].append("피드백: 답변에 마무리 인사가 포함되지 않았습니다.")

    return evaluation_results

In [15]:
def make_prompt(query, relevant_passages):
  escaped = " ".join([p.replace("'", "").replace('"', "").replace("\n", " ") for p in relevant_passages])
  prompt = f"""
  당신은 사용자의 증상과 개인 프로필 정보를 기반으로 질병을 설명하고, **일상생활에서 할 수 있는 구체적이고 실용적인 조언을 상세하게 제공하는** 의료 상담 도우미입니다. 당신의 답변은 정보가 풍부하고 친절하며, **극단적이거나 심각한 질병을 직접적으로 진단하거나 추천하는 뉘앙스를 피해야 합니다.** 답변은 최소 100단어 이상으로 작성해 주세요.

  **단계별 지시사항:**
  1. 사용자 질문을 이해하고 핵심 증상(예: 기침, 콧물)을 정확하고 상세하게 파악하세요.
  2. 제공된 '관련 정보 (PASSAGE)'를 면밀히 검토하여 사용자 증상과 가장 밀접하게 일치하는 질병(들)을 식별하되, **데이터에 기반한 질병 연관성을 언급하되 불필요하게 심각성을 강조하지 마세요.**
  3. **여러 질병이 검색될 경우, 가장 일반적이거나 흔한 질환(예: 감기, 알레르기)을 우선적으로 상세히 설명하고, 그 다음으로 관련된 다른 질병들도 간략하게 제시하세요.**
  4. 나이, 성별, 혈압, 콜레스테롤 수치와 같은 환자 프로필 정보가 있다면, 이를 **답변의 서론 부분에 해당 질병이 특정 프로필의 환자에게서 관찰될 수 있는 '사례'로 자연스럽게 통합하여 설명의 깊이를 더하세요.** 질병 진단의 직접적인 근거로 오해되지 않도록 주의하세요.
  5. 답변은 정보가 풍부하고 명확하며 친절하게 작성하며, 다음 **상세 권장 출력 형식**을 따르되, **세부적인 구문은 모델의 자연스러운 생성에 맡기세요.**

  **상세 권장 출력 형식:**
  안녕하세요! [사용자 질문에서 파악된 증상]이(가) 있으시군요. 불편하시겠지만, 몇 가지 가능한 원인과 생활 속 대처법을 함께 알아보겠습니다.

  (선택적: 임상 데이터에 따르면, [관련 정보의 나이]세 [관련 정보의 성별] 환자 중 [관련 정보의 혈압] 혈압과 [관련 정보의 콜레스테롤] 콜레스테롤 수치를 가진 분들에게서 [해당 질병과 연결된 증상]이 관찰된 사례가 있습니다.) 이러한 증상들은 [관련 정보에서 찾은 가장 일반적이고 가능성 높은 질병]과 관련이 있을 수 있습니다.

  [질병에 대한 간략한 추가 설명 (2-3문장)]. 이 질병의 일반적인 경과나 특징에 대해 간략히 설명해 주세요.

  이럴 때는 다음과 같은 생활 습관 개선을 통해 증상 완화에 도움을 줄 수 있습니다:
  - **충분한 휴식:** 몸이 회복하는 데 필요한 시간을 주세요.
  - **수분 섭취:** 따뜻한 물, 차 등을 자주 마셔 목을 촉촉하게 유지하고 탈수를 예방하세요.
  - **실내 환경 관리:** 적절한 실내 습도를 유지하고 환기를 자주 해주세요.
  - **영양가 있는 음식 섭취:** 면역력 강화를 위해 비타민과 미네랄이 풍부한 음식을 드세요.
  - [추가적인 일반적인 조언 1 (예: 스트레스 관리, 가벼운 운동 등)]
  - [추가적인 일반적인 조언 2 (예: 마스크 착용, 손 씻기 등)]

  만약 [사용자 질문에서 파악된 증상] 외에 다른 불편한 증상이 있거나, 현재 증상이 나아지지 않고 오히려 심해진다면 [다른 관련 질병]일 수도 있습니다. (이때, 극단적인 질병은 가급적 언급하지 않거나, "드물게는 ~일 수도 있습니다"와 같이 조심스러운 표현을 사용하세요.)

  더 궁금한 점이 있으시면 언제든지 다시 질문해주세요. 항상 건강하시길 바랍니다.

  아래는 참고할 수 있는 임상 데이터입니다:
  - 사용자 질문 (QUESTION): \"{query}\"
  - 관련 정보 (PASSAGE): \"{escaped}\"

  **주의사항:**
  - 병원 방문 및 전문적인 상담을 직접적으로 권유하는 문구는 최종 답변에 포함하지 마세요.
  - PASSAGE에 영어 단어가 포함되어 있다면, 괄호 안에 한글 뜻을 함께 제공해 주세요.
  - **제공된 정보 내에서 '기침'과 '습진'의 연관성이 있더라도, '기침'이라는 증상에 더 일반적이고 흔한 질병(예: Common Cold, Influenza)이 있다면 이를 우선적으로 고려하여 답변하세요.**
  - **'말라리아'와 같이 심각한 질병은 사용자가 직접적으로 언급하지 않는 한, 일반적인 증상만으로는 추천하지 마세요.**

  ANSWER:
  """.format(query=query, relevant_passages=escaped)
  return prompt
# 예시 사용
query = "나이: 25세, 성별: Male, 혈압: Normal, 콜레스테롤: Normal, 증상 : 심각한 공부하기 싫음"
passages = get_relevant_passage(query, db, 5)
prompt = make_prompt(query, passages)

#print(prompt)

MODEL_ID = "gemini-2.0-flash"
answer = client.models.generate_content(
    model = MODEL_ID,
    contents = prompt
)
# 변경 시작: 'ANSWER:' 이후의 텍스트만 추출하고 앞뒤 공백 제거
final_answer = answer.text.split("ANSWER:")
if len(final_answer) > 1:
    final_answer = final_answer[1].strip()
else:
    final_answer = answer.text.strip()
   
#LLM 답변 자체 평가
evaluation_results = evaluate_response(query, final_answer, passages)
#결과 출력
# 6. 결과 출력
print("--- LLM 답변 ---")
print(final_answer)
print("\n--- 자체 평가 결과 ---")
print(f"총점: {evaluation_results['score']}점")
print("기준별 평가:")
for criterion, value in evaluation_results['criteria'].items():
    print(f"  - {criterion}: {value}")
if evaluation_results['feedback']:
    print("피드백:")
    for fb in evaluation_results['feedback']:
        print(f"  - {fb}")

--- LLM 답변 ---
안녕하세요! 심각한 공부하기 싫음 증상이 있으시군요. 학업에 집중하기 어려워 불편하시겠지만, 몇 가지 가능한 원인과 생활 속 대처법을 함께 알아보겠습니다.

현재 25세 남성분이시고 혈압과 콜레스테롤 수치가 정상인 점을 감안할 때, 심각한 공부하기 싫음은 일시적인 스트레스, 번아웃, 혹은 다른 심리적인 요인과 관련이 있을 수 있습니다. 물론, Fatigue (피로) 증상이 동반된다면 다른 원인일 수도 있지만, 우선은 이러한 가능성을 고려하여 접근해 보는 것이 좋겠습니다.

이럴 때는 다음과 같은 생활 습관 개선을 통해 증상 완화에 도움을 줄 수 있습니다:

*   **충분한 휴식:** 학업 스트레스와 피로를 해소하기 위해 충분한 수면을 취하고, 낮 시간에도 짧은 휴식을 통해 에너지를 충전하세요.
*   **균형 잡힌 식단:** 영양가 있는 음식을 섭취하여 신체 기능을 유지하고 활력을 높이세요. 특히 비타민과 미네랄이 풍부한 과일, 채소, 단백질을 충분히 섭취하는 것이 중요합니다.
*   **규칙적인 운동:** 가벼운 유산소 운동 (걷기, 조깅, 스트레칭 등)을 통해 스트레스를 해소하고 신체 활력을 증진시키세요. 운동은 뇌 기능을 활성화하여 학습 능률을 향상시키는 데에도 도움이 됩니다.
*   **취미 활동:** 학업 외에 즐거움을 느낄 수 있는 취미 활동을 통해 스트레스를 해소하고 삶의 균형을 맞추세요.
*   **학습 환경 개선:** 학습 공간을 정리정돈하고, 집중력을 높일 수 있는 환경을 조성하세요. 조용한 음악을 듣거나, 백색 소음을 활용하는 것도 도움이 될 수 있습니다.
*   **학습 방법 개선:** 학습 목표를 세분화하고, 계획적으로 학습하는 습관을 들이세요. 또한, 다양한 학습 방법 (예: 요약, 마인드맵, 토론 등)을 활용하여 학습에 대한 흥미를 높이세요.

만약 심각한 공부하기 싫음 외에 지속적인 피로감, 무기력감, 식욕 부진, 수면 장애 등의 증상이 동반된다면 다른 원인일 수도 있습니다. (이때, 극단적인 질병은 가

In [None]:
# ----------------------------------------------------------------------
# PubMedQA 평가를 위한 새로운 함수들 시작
# ----------------------------------------------------------------------
import time
# PubMedQA 질문에 대한 LLM 프롬프트 생성 함수
def make_prompt_for_pubmedqa(query, relevant_passages):
    # 검색된 관련 정보들을 하나의 문자열로 결합
    escaped_passages = " ".join([p.replace("'", "").replace('"', "").replace("\\n", " ") for p in relevant_passages])
    
    # PubMedQA 질문에 답변하도록 유도하는 프롬프트
    prompt = f"""
    당신은 의학적 질문에 대해 정확하고 간결하게 답변하는 의료 AI 도우미입니다.
    제공된 '참고 정보'를 바탕으로 '의학적 질문'에 대한 답변을 생성하세요.
    직접적인 의료 조언이나 진단은 제공하지 않으며, 사실적인 정보만을 기반으로 답변해야 합니다.

    **의학적 질문 (QUESTION):** \"{query}\"
    **참고 정보 (PASSAGE):** \"{escaped_passages}\"

    **주의사항:**
    - 질문에 직접적으로 관련된 정보만을 사용하여 답변을 구성하세요.
    - 답변은 간결하고 명확해야 합니다.
    - 만약 제공된 '참고 정보'만으로는 질문에 답변하기 어렵다면, 그렇게 명시하세요.

    ANSWER:
    """
    return prompt

# ROUGE 점수 계산을 위한 평가 함수
def evaluate_response_pubmedqa(llm_response: str, ground_truth_answer: str) -> dict:
    # ROUGE-1 (단일 단어), ROUGE-2 (두 단어 겹침), ROUGE-L (가장 긴 공통 부분 문자열)
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = scorer.score(ground_truth_answer, llm_response)
    
    # 점수 추출 및 반환
    return {
        'rouge1': scores['rouge1'].fmeasure,
        'rouge2': scores['rouge2'].fmeasure,
        'rougeL': scores['rougeL'].fmeasure,
    }

# ----------------------------------------------------------------------
# 메인 평가 실행
# ----------------------------------------------------------------------

# PubMedQA 데이터셋 로드
# 'pubmed_qa' 데이터셋의 'pqa_labeled' 구성을 로드합니다.
# 이 데이터셋은 질문, 정답, 그리고 근거 문단(context)을 포함합니다.
print("\nLoading PubMedQA dataset...")
pubmedqa_dataset = load_dataset("pubmed_qa", "pqa_labeled")
pubmedqa_test_data = pubmedqa_dataset['train'] 
print(f"PubMedQA test set loaded with {len(pubmedqa_test_data)} examples.")

# 평가 결과를 저장할 리스트
all_rouge_scores = []
example_evaluations = []

# 첫 N개 샘플에 대해서만 평가를 실행하여 시간 절약 (선택 사항)
# 전체 데이터셋에 대해 실행하려면 pubmedqa_test_data[:] 로 변경
num_samples_to_evaluate = 50 # 예시로 50개만 평가

print(f"\nEvaluating on {num_samples_to_evaluate} PubMedQA samples...")

for i, entry in enumerate(pubmedqa_test_data):
    if i >= num_samples_to_evaluate:
        break

    question = entry['question']
    ground_truth_answer = entry['long_answer'] # PubMedQA의 긴 정답 사용

    # ChromaDB에서 질문과 관련된 정보 검색 (기존 disease_rag_with_metadata.json 기반)
    relevant_passages = get_relevant_passage(question, db, n_results=5)

    # LLM 프롬프트 생성
    prompt = make_prompt_for_pubmedqa(question, relevant_passages)

    try:
        # Gemini 모델 호출
        MODEL_ID = "gemini-2.0-flash"
        response = client.models.generate_content(
            model=MODEL_ID,
            contents=prompt
        )
        
        # LLM 응답 추출 및 전처리
        llm_response = response.text.split("ANSWER:")
        if len(llm_response) > 1:
            llm_response = llm_response[1].strip()
        else:
            llm_response = response.text.strip()
        
        # LLM 응답 평가
        rouge_scores = evaluate_response_pubmedqa(llm_response, ground_truth_answer)
        all_rouge_scores.append(rouge_scores)

        # 예시 출력을 위해 몇 가지 샘플 저장
        if i < 5: # 처음 5개 샘플만 저장
            example_evaluations.append({
                'question': question,
                'ground_truth': ground_truth_answer,
                'llm_response': llm_response,
                'rouge_scores': rouge_scores
            })

    except Exception as e:
            # API 할당량 초과 오류일 경우 일정 시간 대기 후 재시도
            if "429 RESOURCE_EXHAUSTED" in str(e):
                retry_after_seconds = 35 # API 문서에서 권장하는 시간 또는 그 이상 (예: 30초 + 여유 5초)
                print(f"Quota exceeded. Retrying after {retry_after_seconds} seconds... (Sample {i})")
                time.sleep(retry_after_seconds)
                # 재시도를 위해 현재 샘플을 다시 처리하도록 인덱스 조정
                continue # 현재 샘플을 건너뛰고 다음 반복에서 다시 시도
            else:
                print(f"Error processing sample {i}: {e}")
                # 다른 유형의 오류는 빈 점수 추가 또는 건너뛰기
                all_rouge_scores.append({'rouge1': 0.0, 'rouge2': 0.0, 'rougeL': 0.0})

# 평균 ROUGE 점수 계산
if all_rouge_scores:
    avg_rouge1 = np.mean([s['rouge1'] for s in all_rouge_scores])
    avg_rouge2 = np.mean([s['rouge2'] for s in all_rouge_scores])
    avg_rougeL = np.mean([s['rougeL'] for s in all_rouge_scores])

    print("\n--- PubMedQA 평가 결과 (평균 ROUGE 점수) ---")
    print(f"평가 샘플 수: {len(all_rouge_scores)}")
    print(f"평균 ROUGE-1: {avg_rouge1:.4f}")
    print(f"평균 ROUGE-2: {avg_rouge2:.4f}")
    print(f"평균 ROUGE-L: {avg_rougeL:.4f}")
else:
    print("\nNo evaluation results to display.")

# 예시 평가 결과 출력
print("\n--- PubMedQA 평가 예시 ---")
for ex in example_evaluations:
    print(f"질문: {ex['question']}")
    print(f"정답 (Ground Truth): {ex['ground_truth']}")
    print(f"LLM 응답: {ex['llm_response']}")
    print(f"ROUGE 점수: {ex['rouge_scores']}")
    print("-" * 50)



Loading PubMedQA dataset...
PubMedQA test set loaded with 1000 examples.

Evaluating on 50 PubMedQA samples...
Error processing sample 14: 429 RESOURCE_EXHAUSTED. {'error': {'code': 429, 'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits.', 'status': 'RESOURCE_EXHAUSTED', 'details': [{'@type': 'type.googleapis.com/google.rpc.QuotaFailure', 'violations': [{'quotaMetric': 'generativelanguage.googleapis.com/generate_content_free_tier_requests', 'quotaId': 'GenerateRequestsPerMinutePerProjectPerModel-FreeTier', 'quotaDimensions': {'model': 'gemini-2.0-flash', 'location': 'global'}, 'quotaValue': '15'}]}, {'@type': 'type.googleapis.com/google.rpc.Help', 'links': [{'description': 'Learn more about Gemini API quotas', 'url': 'https://ai.google.dev/gemini-api/docs/rate-limits'}]}, {'@type': 'type.googleapis.com/google.rpc.RetryInfo', 'retryDelay': '33s'}]}}
Erro