In [1]:
import textwrap
import chromadb
import numpy as np
import pandas as pd
import re

from chromadb import Documents, EmbeddingFunction, Embeddings

from google import genai

# PubMedQA 평가를 위한 라이브러리 추가
from datasets import load_dataset
from rouge_score import rouge_scorer

client = genai.Client(api_key='AIzaSyDNXwI-Zc3vyyPbQFKaJvJxtIXxW5r9Ltc')


for m in client.models.list():
  if 'embedContent' in m.supported_actions:
    print(m.name)

  from .autonotebook import tqdm as notebook_tqdm


models/embedding-001
models/text-embedding-004
models/gemini-embedding-exp-03-07
models/gemini-embedding-exp


In [2]:
from google.genai import types

class GeminiEmbeddingFunction(EmbeddingFunction):
  def __call__(self, input: Documents) -> Embeddings:
    EMBEDDING_MODEL_ID = "models/text-embedding-004"
    title = "Custom query"
    response = client.models.embed_content(
        model=EMBEDDING_MODEL_ID,
        contents=input,
        config=types.EmbedContentConfig(
          task_type="retrieval_document",
          title=title
        )
    )
    # 모든 문서의 임베딩 벡터를 리스트로 반환
    return [e.values for e in response.embeddings]

In [3]:
import json
#chroma_client.delete_collection("my_collection")
def preprocess_metadata(metadata):
    new_metadata = {}
    for k, v in metadata.items():
        if isinstance(v, list):
            new_metadata[k] = ", ".join(map(str, v))  # 리스트를 문자열로 변환
        else:
            new_metadata[k] = v
    return new_metadata
def batch_add(collection, documents, metadatas, ids, batch_size=100):
    for i in range(0, len(documents), batch_size):
        batch_docs = documents[i:i+batch_size]
        batch_metas = metadatas[i:i+batch_size]
        batch_ids = ids[i:i+batch_size]
        collection.add(
            documents=batch_docs,
            metadatas=batch_metas,
            ids=batch_ids
        )
def create_chroma_db(json_data, name):
    import chromadb

    chroma_client = chromadb.Client()
    db = chroma_client.create_collection(
        name=name,
        embedding_function=GeminiEmbeddingFunction()
    )

    # JSON 데이터에서 텍스트, 메타데이터, id 추출
    documents = [item["text"] for item in json_data]
    metadatas = [preprocess_metadata(item["metadata"]) for item in json_data]
    ids = [str(i) for i in range(len(json_data))]
    
    batch_add(db, documents, metadatas, ids, batch_size=100)
   
    return db
with open('disease_rag_with_metadata.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
    
db = create_chroma_db(data, "my_collection")

# PubMedQA long_answer 임베딩을 위한 코드 추가
def create_pubmedqa_long_answer_embeddings(pubmedqa_dataset, collection_name="pubmedqa_long_answers"):
    chroma_client = chromadb.Client()
    
    # Check if collection already exists and delete it to start fresh
    try:
        chroma_client.delete_collection(collection_name)
        print(f"Existing collection '{collection_name}' deleted.")
    except Exception as e:
        print(f"No existing collection '{collection_name}' to delete or error during deletion: {e}")

    db_long_answers = chroma_client.create_collection(
        name=collection_name,
        embedding_function=GeminiEmbeddingFunction()
    )

    documents = []
    metadatas = []
    ids = []

    for i, entry in enumerate(pubmedqa_dataset['train']):
        question = entry['question']
        context = " ".join(entry['context']['contexts'])
        long_answer = entry['long_answer']
        final_decision = entry['final_decision']

        # Combine relevant information into a single document string for embedding
        document_text = f"Question: {question} Context: {context} Answer: {final_decision}"
        
        documents.append(document_text)
        metadatas.append({
            "question": question,
            "final_decision": final_decision,
            "context": context
        })
        ids.append(str(i))
    
    batch_add(db_long_answers, documents, metadatas, ids, batch_size=100)
    print(f"Successfully created and populated '{collection_name}' with {len(documents)} documents.")
    return db_long_answers

# PubMedQA 데이터셋 로드
pubmedqa_dataset = load_dataset("pubmed_qa", "pqa_labeled")

# long_answer 임베딩 및 Chroma DB 생성
db_pubmedqa_long_answers = create_pubmedqa_long_answer_embeddings(pubmedqa_dataset)

  embedding_function=GeminiEmbeddingFunction()


KeyboardInterrupt: 

In [None]:
sample_data = db.get(include=['documents', 'embeddings'])

df = pd.DataFrame({
    "IDs": sample_data['ids'][:3],
    "Documents": sample_data['documents'][:3],
    "Embeddings": [str(emb)[:50] + "..." for emb in sample_data['embeddings'][:3]]  # Truncate embeddings
})
print(df)

sample_long_answer_data = db_pubmedqa_long_answers.get(include=['documents', 'embeddings', 'metadatas'], limit=3)
df_long_answers = pd.DataFrame({
    "IDs": sample_long_answer_data['ids'],
    "Documents": sample_long_answer_data['documents'],
    "Metadatas": sample_long_answer_data['metadatas'],
    "Embeddings": [str(emb)[:50] + "..." for emb in sample_long_answer_data['embeddings']]
})
print("\n--- Sample PubMedQA Long Answer Embeddings ---")
print(df_long_answers)



  IDs                                          Documents  \
0   0  증상: Fever, Fatigue, Difficulty Breathing이(가) 있...   
1   1  증상: Cough, Fatigue이(가) 있고, 나이: 25세, 성별: Female...   
2   2  증상: Cough, Fatigue이(가) 있고, 나이: 25세, 성별: Female...   

                                          Embeddings  
0  [ 0.00477051  0.04616465 -0.06666899 -0.040444...  
1  [-3.57129462e-02  7.49278739e-02 -6.56882823e-...  
2  [-3.55055146e-02  4.89426367e-02 -6.10607862e-...  

--- Sample PubMedQA Long Answer Embeddings ---
  IDs                                          Documents  \
0   0  Question: Do mitochondria play a role in remod...   
1   1  Question: Landolt C and snellen e acuity: diff...   
2   2  Question: Syncope during bathing in infants, a...   

                                           Metadatas  \
0  {'context': 'Programmed cell death (PCD) is th...   
1  {'final_decision': 'no', 'context': 'Assessmen...   
2  {'question': 'Syncope during bathing in infant...   

                         

In [None]:
def get_relevant_passage(query, db, n_results=5):
  results = db.query(query_texts=[query], n_results=n_results, include=['documents', 'metadatas'])
  passages = []
  for i in range(len(results['documents'][0])):
      doc = results['documents'][0][i]
      meta = results['metadatas'][0][i]
      
      passage_text = f"{doc} (나이: {meta.get('age', '정보 없음')}, 성별: {meta.get('gender', '정보 없음')}, 혈압: {meta.get('blood_pressure', '정보 없음')}, 콜레스테롤: {meta.get('cholesterol', '정보 없음')})"
      passages.append(passage_text)
  return passages
# Perform embedding search
passages = get_relevant_passage("Fever, Cough, Difficulty Breathing", db, 5)


def get_relevant_passage_intelligent(query, db_general, db_medical_qa, n_results=5):
    """
    쿼리의 특성에 따라 적절한 ChromaDB 컬렉션에서 관련 구절을 가져옵니다.

    Args:
        query (str): 사용자 쿼리.
        db_general (chromadb.api.models.Collection.Collection): 일반 질병 정보가 담긴 ChromaDB 컬렉션.
        db_medical_qa (chromadb.api.models.Collection.Collection): PubMedQA long_answer가 담긴 ChromaDB 컬렉션.
        n_results (int): 가져올 결과의 최대 개수.

    Returns:
        list: 관련 구절(문서 및 메타데이터 포함)의 리스트.
    """
    
    # 쿼리 분석을 통해 어떤 DB를 사용할지 결정하는 로직 (예시)
    # 실제 환경에서는 더 정교한 분류 모델이나 키워드 분석이 필요할 수 있습니다.
    medical_keywords = ["medication", "treatment", "diagnosis", "clinical", "study", "trial", "gene", "protein", "cell", "molecule", "pubmed", "article", "research", "efficacy", "mechanism", "pathway", "therapy", "syndrome", "disorder"]
    
    # 쿼리에 의학 관련 키워드가 포함되어 있는지 확인
    is_medical_query = any(keyword in query.lower() for keyword in medical_keywords)
    
    # 쿼리에 나이, 성별, 혈압, 콜레스테롤, 증상과 같은 개인 프로필 정보가 명시적으로 포함되어 있는지 확인
    # 이는 'disease_rag_with_metadata.json' 데이터의 특성을 고려한 것입니다.
    is_profile_specific_query = bool(re.search(r'(나이|성별|혈압|콜레스테롤|증상):', query))

    selected_db = None
    passages = []

    if is_profile_specific_query:
        # 개인 프로필 정보가 명시적으로 포함된 경우, 일반 질병 DB를 우선적으로 사용
        print("Using general disease database (profile-specific query detected).")
        selected_db = db_general
    elif is_medical_query:
        # 의학 관련 키워드가 포함된 경우, PubMedQA DB를 사용
        print("Using PubMedQA medical QA database (medical keywords detected).")
        selected_db = db_medical_qa
    else:
        # 둘 다 아닌 경우 (일반적인 증상 쿼리 등), 일반 질병 DB를 기본으로 사용
        print("Using general disease database (default).")
        selected_db = db_general

    if selected_db:
        results = selected_db.query(query_texts=[query], n_results=n_results, include=['documents', 'metadatas'])
        
        for i in range(len(results['documents'][0])):
            doc = results['documents'][0][i]
            meta = results['metadatas'][0][i]
            
            # 선택된 DB에 따라 passage_text 형식을 조정
            if selected_db == db_general:
                passage_text = f"{doc} (나이: {meta.get('age', '정보 없음')}, 성별: {meta.get('gender', '정보 없음')}, 혈압: {meta.get('blood_pressure', '정보 없음')}, 콜레스테롤: {meta.get('cholesterol', '정보 없음')})"
            elif selected_db == db_medical_qa:
                # PubMedQA 데이터의 메타데이터 구조에 맞게 조정
                passage_text = f"Question: {meta.get('question', '정보 없음')} Context: {meta.get('context', '정보 없음')} Answer: {doc}"
            passages.append(passage_text)
    else:
        print("No suitable database found for the query.")

    return passages

# 예시 사용:
# 먼저, 위에서 정의한 db와 db_pubmedqa_long_answers가 생성되어 있어야 합니다.

# 일반 질병 쿼리 예시
query_general = "나이: 30세, 성별: Female, 증상: 기침, 콧물, 인후통"
passages_general = get_relevant_passage_intelligent(query_general, db, db_pubmedqa_long_answers, 5)
print("\n--- Passages for General Query ---")
for p in passages_general:
    print(p)

print("-" * 50)

# 의학 논문 쿼리 예시
query_medical = "Can tailored interventions increase mammography use among HMO women? A clinical study"
passages_medical = get_relevant_passage_intelligent(query_medical, db, db_pubmedqa_long_answers, 5)
print("\n--- Passages for Medical QA Query ---")
for p in passages_medical:
    print(p)

print("-" * 50)

# 일반적인 증상 쿼리 (기본적으로 일반 질병 DB 사용)
query_symptom = "Fever, Fatigue, Difficulty Breathing"
passages_symptom = get_relevant_passage_intelligent(query_symptom, db, db_pubmedqa_long_answers, 5)
print("\n--- Passages for Symptom Query ---")
for p in passages_symptom:
    print(p)

Using general disease database (profile-specific query detected).

--- Passages for General Query ---
증상: Fever이(가) 있고, 나이: 31세, 성별: Female, 혈압: Normal, 콜레스테롤: Normal인 환자의 경우 Migraine일 수 있습니다. (나이: 31, 성별: Female, 혈압: Normal, 콜레스테롤: Normal)
증상: Fever이(가) 있고, 나이: 25세, 성별: Female, 혈압: Normal, 콜레스테롤: Normal인 환자의 경우 Eczema일 수 있습니다. (나이: 25, 성별: Female, 혈압: Normal, 콜레스테롤: Normal)
증상: Fever, Cough, Difficulty Breathing이(가) 있고, 나이: 30세, 성별: Female, 혈압: Normal, 콜레스테롤: Normal인 환자의 경우 Asthma일 수 있습니다. (나이: 30, 성별: Female, 혈압: Normal, 콜레스테롤: Normal)
증상: Fever, Cough, Difficulty Breathing이(가) 있고, 나이: 30세, 성별: Female, 혈압: Normal, 콜레스테롤: Normal인 환자의 경우 Asthma일 수 있습니다. (나이: 30, 성별: Female, 혈압: Normal, 콜레스테롤: Normal)
증상: Fever, Difficulty Breathing이(가) 있고, 나이: 42세, 성별: Female, 혈압: Normal, 콜레스테롤: Normal인 환자의 경우 Liver Disease일 수 있습니다. (나이: 42, 성별: Female, 혈압: Normal, 콜레스테롤: Normal)
--------------------------------------------------
Using PubMedQA medical QA database (medical keywords detected).

--- Pass

In [None]:
def make_prompt(query, relevant_passages):
  escaped = " ".join([p.replace("'", "").replace('"', "").replace("\n", " ") for p in relevant_passages])
  prompt = f"""
  당신은 사용자의 증상과 개인 프로필 정보를 기반으로 질병을 설명하고, **일상생활에서 할 수 있는 구체적이고 실용적인 조언을 상세하게 제공하는** 의료 상담 도우미입니다. 당신의 답변은 정보가 풍부하고 친절하며, **극단적이거나 심각한 질병을 직접적으로 진단하거나 추천하는 뉘앙스를 피해야 합니다.** 답변은 최소 100단어 이상으로 작성해 주세요.

  **단계별 지시사항:**
  1. 사용자 질문을 이해하고 핵심 증상(예: 기침, 콧물)을 정확하고 상세하게 파악하세요.
  2. 제공된 '관련 정보 (PASSAGE)'를 면밀히 검토하여 사용자 증상과 가장 밀접하게 일치하는 질병(들)을 식별하되, **데이터에 기반한 질병 연관성을 언급하되 불필요하게 심각성을 강조하지 마세요.**
  3. **여러 질병이 검색될 경우, 가장 일반적이거나 흔한 질환(예: 감기, 알레르기)을 우선적으로 상세히 설명하고, 그 다음으로 관련된 다른 질병들도 간략하게 제시하세요.**
  4. 나이, 성별, 혈압, 콜레스테롤 수치와 같은 환자 프로필 정보가 있다면, 이를 **답변의 서론 부분에 해당 질병이 특정 프로필의 환자에게서 관찰될 수 있는 '사례'로 자연스럽게 통합하여 설명의 깊이를 더하세요.** 질병 진단의 직접적인 근거로 오해되지 않도록 주의하세요.
  5. 답변은 정보가 풍부하고 명확하며 친절하게 작성하며, 다음 **상세 권장 출력 형식**을 따르되, **세부적인 구문은 모델의 자연스러운 생성에 맡기세요.**

  **상세 권장 출력 형식:**
  안녕하세요! [사용자 질문에서 파악된 증상]이(가) 있으시군요. 불편하시겠지만, 몇 가지 가능한 원인과 생활 속 대처법을 함께 알아보겠습니다.

  (선택적: 임상 데이터에 따르면, [관련 정보의 나이]세 [관련 정보의 성별] 환자 중 [관련 정보의 혈압] 혈압과 [관련 정보의 콜레스테롤] 콜레스테롤 수치를 가진 분들에게서 [해당 질병과 연결된 증상]이 관찰된 사례가 있습니다.) 이러한 증상들은 [관련 정보에서 찾은 가장 일반적이고 가능성 높은 질병]과 관련이 있을 수 있습니다.

  [질병에 대한 간략한 추가 설명 (2-3문장)]. 이 질병의 일반적인 경과나 특징에 대해 간략히 설명해 주세요.

  이럴 때는 다음과 같은 생활 습관 개선을 통해 증상 완화에 도움을 줄 수 있습니다:
  - **충분한 휴식:** 몸이 회복하는 데 필요한 시간을 주세요.
  - **수분 섭취:** 따뜻한 물, 차 등을 자주 마셔 목을 촉촉하게 유지하고 탈수를 예방하세요.
  - **실내 환경 관리:** 적절한 실내 습도를 유지하고 환기를 자주 해주세요.
  - **영양가 있는 음식 섭취:** 면역력 강화를 위해 비타민과 미네랄이 풍부한 음식을 드세요.
  - [추가적인 일반적인 조언 1 (예: 스트레스 관리, 가벼운 운동 등)]
  - [추가적인 일반적인 조언 2 (예: 마스크 착용, 손 씻기 등)]

  만약 [사용자 질문에서 파악된 증상] 외에 다른 불편한 증상이 있거나, 현재 증상이 나아지지 않고 오히려 심해진다면 [다른 관련 질병]일 수도 있습니다. (이때, 극단적인 질병은 가급적 언급하지 않거나, "드물게는 ~일 수도 있습니다"와 같이 조심스러운 표현을 사용하세요.)

  더 궁금한 점이 있으시면 언제든지 다시 질문해주세요. 항상 건강하시길 바랍니다.

  아래는 참고할 수 있는 임상 데이터입니다:
  - 사용자 질문 (QUESTION): \"{query}\"
  - 관련 정보 (PASSAGE): \"{escaped}\"

  **주의사항:**
  - 병원 방문 및 전문적인 상담을 직접적으로 권유하는 문구는 최종 답변에 포함하지 마세요.
  - PASSAGE에 영어 단어가 포함되어 있다면, 괄호 안에 한글 뜻을 함께 제공해 주세요.
  - **제공된 정보 내에서 '기침'과 '습진'의 연관성이 있더라도, '기침'이라는 증상에 더 일반적이고 흔한 질병(예: Common Cold, Influenza)이 있다면 이를 우선적으로 고려하여 답변하세요.**
  - **'말라리아'와 같이 심각한 질병은 사용자가 직접적으로 언급하지 않는 한, 일반적인 증상만으로는 추천하지 마세요.**

  ANSWER:
  """.format(query=query, relevant_passages=escaped)
  return prompt
# 예시 사용
query = "나이: 25세, 성별: Male, 혈압: Normal, 콜레스테롤: Normal, 증상 : 심각한 공부하기 싫음"
passages = get_relevant_passage_intelligent(query_general, db, db_pubmedqa_long_answers, 5)
prompt = make_prompt(query, passages)

#print(prompt)

MODEL_ID = "gemini-2.0-flash"
answer = client.models.generate_content(
    model = MODEL_ID,
    contents = prompt
)
# 변경 시작: 'ANSWER:' 이후의 텍스트만 추출하고 앞뒤 공백 제거
final_answer = answer.text.split("ANSWER:")
if len(final_answer) > 1:
    final_answer = final_answer[1].strip()
else:
    final_answer = answer.text.strip()
   
# 6. 결과 출력
print("--- LLM 답변 ---")
print(final_answer)

Using general disease database (profile-specific query detected).
--- LLM 답변 ---
안녕하세요! 심각한 공부하기 싫음이 있으시군요. 학업에 대한 의욕이 저하되어 힘든 시간을 보내고 계시는 것 같아 안타깝습니다.

임상 데이터에 따르면 25세 남성분들에게서 비슷한 어려움을 겪는 사례가 종종 보고됩니다. 특히 정상 혈압과 콜레스테롤 수치를 유지하고 계신 분들에게서도 나타날 수 있는 현상입니다. 이러한 증상은 일시적인 무기력감이나 스트레스, 번아웃(Burnout)과 관련이 있을 수 있습니다.

번아웃은 장기간에 걸쳐 과도한 스트레스에 시달린 결과, 신체적, 정신적으로 극도의 피로감을 느끼는 상태를 말합니다. 단순히 공부가 싫은 감정을 넘어, 무기력감, 집중력 저하, 의욕 상실 등의 증상을 동반할 수 있습니다.

이럴 때는 다음과 같은 생활 습관 개선을 통해 어려움을 극복하는 데 도움을 줄 수 있습니다:

- **충분한 휴식:** 학업에서 잠시 벗어나 좋아하는 활동을 하거나 편안하게 휴식을 취하며 에너지를 재충전하세요.
- **균형 잡힌 식단:** 규칙적인 식사를 통해 몸에 필요한 영양소를 공급하고, 특히 뇌 기능에 도움이 되는 음식을 섭취하세요.
- **가벼운 운동:** 산책이나 스트레칭과 같은 가벼운 운동은 스트레스 해소와 기분 전환에 도움이 됩니다.
- **취미 활동:** 학업 외에 즐거움을 느낄 수 있는 취미 활동을 통해 스트레스를 해소하고 삶의 활력을 되찾으세요.
- **수면 환경 개선:** 규칙적인 수면 습관을 유지하고, 잠들기 전 스마트폰 사용을 줄이는 등 수면의 질을 높이기 위해 노력하세요.
- **긍정적인 마음 유지:** 자신을 격려하고 긍정적인 생각을 하도록 노력하며, 작은 성공에도 스스로를 칭찬해주세요.

만약 무기력감이 지속되거나 다른 불편한 증상이 동반된다면, 단순한 번아웃이 아닐 수 있습니다. 드물게는 다른 심리적인 어려움이 원인일 수도 있습니다.

더 궁금한 점이 있으시면 언제든지

In [None]:
import time
# 기존 make_prompt_for_pubmedqa 함수는 긴 답변을 유도하므로, 짧은 답변을 위한 새로운 프롬프트 함수가 필요합니다.
def make_short_answer_prompt_for_pubmedqa(query, relevant_passages):
    escaped_passages = " ".join([p.replace("'", "").replace('"', "").replace("\\n", " ") for p in relevant_passages])

    prompt = f"""
    당신은 의학적 질문에 대해 'Yes', 'No'로만 답변하는 의료 AI 도우미입니다.
    제공된 '참고 정보'를 바탕으로 '의학적 질문'에 대한 답변을 생성하세요.

    **다음 지침을 엄격히 따르세요:**
    1.  **'Yes'로 답변하는 경우:** '참고 정보'에 '의학적 질문'에 대한 직접적이고 명확한 긍정적 증거가 있을 경우에만 'Yes'라고 답변하세요.
    2.  **'No'로 답변하는 경우:** '참고 정보'에 '의학적 질문'에 대한 직접적이고 명확한 부정적 증거가 있거나, 질문의 내용이 '참고 정보'와 명백히 상반될 경우에만 'No'라고 답변하세요.
   
    다른 어떠한 설명도 추가하지 말고, 오직 하나의 단어('Yes', 'No')로만 답변해야 합니다.

    **의학적 질문 (QUESTION):** \"{query}\"
    **참고 정보 (PASSAGE):** \"{escaped_passages}\"

    ANSWER:
    """
    return prompt

# 평가 함수 변경: ROUGE 대신 정확도 측정
def evaluate_accuracy_pubmedqa(llm_response: str, ground_truth_decision: str) -> bool:
    # 모델의 응답을 정규화 (대소문자 무시, 공백 제거 등)
    normalized_llm_response = llm_response.strip().lower()
    normalized_ground_truth = ground_truth_decision.strip().lower()

    return normalized_llm_response == normalized_ground_truth

# ----------------------------------------------------------------------
# 메인 평가 실행 부분 수정
# ----------------------------------------------------------------------

print("\nLoading PubMedQA dataset...")
pubmedqa_dataset = load_dataset("pubmed_qa", "pqa_labeled")
print(pubmedqa_dataset.keys())
pubmedqa_test_data = pubmedqa_dataset['train']

print(f"PubMedQA test set loaded with {len(pubmedqa_test_data)} examples.")

all_accuracies = []
example_evaluations = []

num_samples_to_evaluate = 50

print(f"\nEvaluating on {num_samples_to_evaluate} PubMedQA samples for Accuracy...")

for i, entry in enumerate(pubmedqa_test_data):
    if i >= num_samples_to_evaluate:
        break

    question = entry['question']
    ground_truth_decision = entry['final_decision'] # 'long_answer' 대신 'final_decision' 사용

    relevant_passages = get_relevant_passage("Fever, Cough, Difficulty Breathing", db, 5)

    # 새로운 짧은 답변 프롬프트 사용
    prompt = make_short_answer_prompt_for_pubmedqa(question, relevant_passages)

    try:
        MODEL_ID = "gemini-2.0-flash"
        response = client.models.generate_content(
            model=MODEL_ID,
            contents=prompt
        )

        llm_response = response.text.split("ANSWER:")
        if len(llm_response) > 1:
            llm_response = llm_response[1].strip()
        else:
            llm_response = response.text.strip()

        # 정확도 평가
        is_correct = evaluate_accuracy_pubmedqa(llm_response, ground_truth_decision)
        all_accuracies.append(is_correct)

        if i < 5:
            example_evaluations.append({
                'question': question,
                'ground_truth_decision': ground_truth_decision,
                'llm_response': llm_response,
                'is_correct': is_correct
            })

    except Exception as e:
        if "429 RESOURCE_EXHAUSTED" in str(e):
            retry_after_seconds = 35
            print(f"Quota exceeded. Retrying after {retry_after_seconds} seconds... (Sample {i})")
            time.sleep(retry_after_seconds)
            continue
        else:
            print(f"Error processing sample {i}: {e}")
            all_accuracies.append(False) # 오류 발생 시 오답으로 처리

# 평균 정확도 계산
if all_accuracies:
    total_correct = sum(all_accuracies)
    accuracy = total_correct / len(all_accuracies)
    print("\n--- PubMedQA 평가 결과 (정확도) ---")
    print(f"평가 샘플 수: {len(all_accuracies)}")
    print(f"정확도: {accuracy:.4f}")
else:
    print("\nNo evaluation results to display.")

# 예시 평가 결과 출력
print("\n--- PubMedQA 평가 예시 (정확도) ---")
for ex in example_evaluations:
    print(f"질문: {ex['question']}")
    print(f"정답 (Ground Truth Decision): {ex['ground_truth_decision']}")
    print(f"LLM 응답: {ex['llm_response']}")
    print(f"정확도 일치 여부: {ex['is_correct']}")
    print("-" * 50)


Loading PubMedQA dataset...
dict_keys(['train'])
PubMedQA test set loaded with 1000 examples.

Evaluating on 50 PubMedQA samples for Accuracy...
Quota exceeded. Retrying after 35 seconds... (Sample 16)
Quota exceeded. Retrying after 35 seconds... (Sample 33)
Quota exceeded. Retrying after 35 seconds... (Sample 49)

--- PubMedQA 평가 결과 (정확도) ---
평가 샘플 수: 47
정확도: 0.2979

--- PubMedQA 평가 예시 (정확도) ---
질문: Do mitochondria play a role in remodelling lace plant leaves during programmed cell death?
정답 (Ground Truth Decision): yes
LLM 응답: No
정확도 일치 여부: False
--------------------------------------------------
질문: Landolt C and snellen e acuity: differences in strabismus amblyopia?
정답 (Ground Truth Decision): no
LLM 응답: No
정확도 일치 여부: True
--------------------------------------------------
질문: Syncope during bathing in infants, a pediatric form of water-induced urticaria?
정답 (Ground Truth Decision): yes
LLM 응답: No
정확도 일치 여부: False
--------------------------------------------------
질문: Are the long

In [None]:
import time
# 기존 make_prompt_for_pubmedqa 함수는 긴 답변을 유도하므로, 짧은 답변을 위한 새로운 프롬프트 함수가 필요합니다.
def make_short_answer_prompt_for_pubmedqa(query, relevant_passages):
    escaped_passages = " ".join([p.replace("'", "").replace('"', "").replace("\\n", " ") for p in relevant_passages])

    prompt = f"""
    당신은 의학적 질문에 대해 'Yes', 'No', 'Maybe'로만 답변하는 의료 AI 도우미입니다.
    제공된 '참고 정보'를 바탕으로 '의학적 질문'에 대한 답변을 생성하세요.

    **다음 지침을 엄격히 따르세요:**
    1.  **'Yes'로 답변하는 경우:** '참고 정보'에 '의학적 질문'에 대한 직접적이고 명확한 긍정적 증거가 있을 경우에 'Yes'라고 답변하세요.
    2.  **'No'로 답변하는 경우:** '참고 정보'에 '의학적 질문'에 대한 직접적이고 명확한 부정적 증거가 있거나, 질문의 내용이 '참고 정보'와 명백히 상반될 경우에 'No'라고 답변하세요.
    3.  **'No'로 답변하는 경우:** 둘중 아니면 Maybe로 답하시오
    다른 어떠한 설명도 추가하지 말고, 오직 하나의 단어('Yes', 'No', 'Maybe')로만 답변해야 합니다.

    **의학적 질문 (QUESTION):** \"{query}\"
    **참고 정보 (PASSAGE):** \"{escaped_passages}\"

    ANSWER:
    """
    return prompt

# 평가 함수 변경: ROUGE 대신 정확도 측정
def evaluate_accuracy_pubmedqa(llm_response: str, ground_truth_decision: str) -> bool:
    # 모델의 응답을 정규화 (대소문자 무시, 공백 제거 등)
    normalized_llm_response = llm_response.strip().lower()
    normalized_ground_truth = ground_truth_decision.strip().lower()

    return normalized_llm_response == normalized_ground_truth

# ----------------------------------------------------------------------
# 메인 평가 실행 부분 수정
# ----------------------------------------------------------------------

print("\nLoading PubMedQA dataset...")
pubmedqa_dataset = load_dataset("pubmed_qa", "pqa_labeled")
print(pubmedqa_dataset.keys())
pubmedqa_test_data = pubmedqa_dataset['train']

print(f"PubMedQA test set loaded with {len(pubmedqa_test_data)} examples.")

all_accuracies = []
example_evaluations = []

num_samples_to_evaluate = 50

print(f"\nEvaluating on {num_samples_to_evaluate} PubMedQA samples for Accuracy...")

for i, entry in enumerate(pubmedqa_test_data):
    if i >= num_samples_to_evaluate:
        break

    question = entry['question']
    ground_truth_decision = entry['final_decision'] # 'long_answer' 대신 'final_decision' 사용

    relevant_passages = get_relevant_passage_intelligent(query_general, db, db_pubmedqa_long_answers, 5)

    # 새로운 짧은 답변 프롬프트 사용
    prompt = make_short_answer_prompt_for_pubmedqa(question, relevant_passages)

    try:
        MODEL_ID = "gemini-2.0-flash"
        response = client.models.generate_content(
            model=MODEL_ID,
            contents=prompt
        )

        llm_response = response.text.split("ANSWER:")
        if len(llm_response) > 1:
            llm_response = llm_response[1].strip()
        else:
            llm_response = response.text.strip()

        # 정확도 평가
        is_correct = evaluate_accuracy_pubmedqa(llm_response, ground_truth_decision)
        all_accuracies.append(is_correct)

        if i < 5:
            example_evaluations.append({
                'question': question,
                'ground_truth_decision': ground_truth_decision,
                'llm_response': llm_response,
                'is_correct': is_correct
            })

    except Exception as e:
        if "429 RESOURCE_EXHAUSTED" in str(e):
            retry_after_seconds = 35
            print(f"Quota exceeded. Retrying after {retry_after_seconds} seconds... (Sample {i})")
            time.sleep(retry_after_seconds)
            continue
        else:
            print(f"Error processing sample {i}: {e}")
            all_accuracies.append(False) # 오류 발생 시 오답으로 처리

# 평균 정확도 계산
if all_accuracies:
    total_correct = sum(all_accuracies)
    accuracy = total_correct / len(all_accuracies)
    print("\n--- PubMedQA 평가 결과 (정확도) ---")
    print(f"평가 샘플 수: {len(all_accuracies)}")
    print(f"정확도: {accuracy:.4f}")
else:
    print("\nNo evaluation results to display.")

# 예시 평가 결과 출력
print("\n--- PubMedQA 평가 예시 (정확도) ---")
for ex in example_evaluations:
    print(f"질문: {ex['question']}")
    print(f"정답 (Ground Truth Decision): {ex['ground_truth_decision']}")
    print(f"LLM 응답: {ex['llm_response']}")
    print(f"정확도 일치 여부: {ex['is_correct']}")
    print("-" * 50)


Loading PubMedQA dataset...
dict_keys(['train'])
PubMedQA test set loaded with 1000 examples.

Evaluating on 50 PubMedQA samples for Accuracy...


NameError: name 'get_relevant_passage_intelligent' is not defined