In [None]:
import logging
import json
from google import genai
from pydantic import BaseModel
from typing import List, Any, Tuple, Callable
import google.api_core.exceptions as google_exceptions
from franchise_service import GeminiFranchiseService
from config import Settings

logger = logging.getLogger(__name__)

settings = Settings(DEVICE="cuda")

try:
    # API 키는 환경 변수 또는 설정 파일에서 가져오도록 가정
    # 예: os.environ.get("GEMINI_API_KEY")
    rag_service = GeminiFranchiseService(settings.GEMINI_API_KEY)  # 실제 환경에서는 API 키 제공

    logger.info("GeminiFranchiseService 초기화 완료")
except Exception as e:
    logger.error(f"서비스 초기화 실패: {str(e)}")

    

2025-05-18 16:42:02,455 - franchise_service - INFO - 238개 QA 쌍 로드 완료
2025-05-18 16:42:02,456 - franchise_service - INFO - 로컬 임베딩 모델 로드 중: ./stal-v1
2025-05-18 16:42:02,456 - sentence_transformers.SentenceTransformer - INFO - Load pretrained SentenceTransformer: ./stal-v1


2025-05-18 16:42:03,333 - franchise_service - INFO - 로컬 임베딩 모델 로드 성공
2025-05-18 16:42:03,334 - franchise_service - INFO - 벡터 스토어 로드 시도: /home/sm7540/project/franchise/vector_db/franchise
2025-05-18 16:42:03,337 - franchise_service - INFO - 벡터 스토어 로드 완료: /home/sm7540/project/franchise/vector_db/franchise, 문서 수: 55
2025-05-18 16:42:03,338 - __main__ - INFO - GeminiFranchiseService 초기화 완료


In [5]:
!export GEMINI_API_KEY=AIzaSyAgPaXsKKIzBJL4XrHDEm4OWdrj0o4M9G4

In [7]:
import os
print("GEMINI_API_KEY:", os.getenv("GEMINI_API_KEY"))

GEMINI_API_KEY: None


In [None]:




    # # 질문에 답변 생성
    # try:
    #     answer = service.answer_question(query)
    #     logger.info(f"질문: {query}\n답변: {answer}")
    # except Exception as e:
    #     logger.error(f"답변 생성 실패: {str(e)}")
        

    # # 테스트 데이터 처리 (선택적)
    # try:
    #     test_results = service.process_test_data_for_test()
    #     logger.info(f"테스트 데이터 처리 완료, 결과 수: {len(test_results)}")
    #     for i, result in enumerate(test_results, 1):
    #         logger.info(f"테스트 결과 {i}:\n질문: {result['question']}\n답변: {result['answer']}")
    # except Exception as e:
    #     logger.error(f"테스트 데이터 처리 실패: {str(e)}")


2025-05-18 16:29:50,027 - franchise_service - INFO - 238개 QA 쌍 로드 완료
2025-05-18 16:29:50,027 - franchise_service - INFO - 로컬 임베딩 모델 로드 중: ./stal-v1
2025-05-18 16:29:50,028 - sentence_transformers.SentenceTransformer - INFO - Load pretrained SentenceTransformer: ./stal-v1
2025-05-18 16:29:51,011 - franchise_service - INFO - 로컬 임베딩 모델 로드 성공
2025-05-18 16:29:51,012 - franchise_service - INFO - 벡터 스토어 로드 시도: /home/sm7540/project/franchise/vector_db/franchise
2025-05-18 16:29:51,015 - franchise_service - INFO - 벡터 스토어 로드 완료: /home/sm7540/project/franchise/vector_db/franchise, 문서 수: 55
2025-05-18 16:29:51,015 - __main__ - INFO - GeminiFranchiseService 초기화 완료
2025-05-18 16:29:51,026 - __main__ - INFO - 컨텍스트 검색 성공:



{'105725953827499750108_0': Document(id='1dd6d6fe-f799-47da-9e17-765a8c3824b0', metadata={'ID': '105725953827499750108', 'brand': '비지팅엔젤스요양시설', 'company': '(주)비지팅엔젤스코리아', 'file_name': '1057257501.json', 'source': '105725953827499750108_0', 'sub_topic': '1. 가맹본부의 일반 정보', 'topic': 'Ⅰ. 가맹본부의 일반 현황', 'year': 2024}, page_content='가맹본부: (주)비지팅엔젤스코리아\n 목차: 1. 가맹본부의 일반 정보\n당사의 회사설립 및 사업자등록에 관한 사항은 다음과 같습니다.<table><tr><td>상호</td><td>영업표지</td><td>주  소</td></tr><tr><td>(주)비지팅엔젤스코리아</td><td>비지팅엔젤스주야간보호외 2개</td><td>서울시 *** **** *** *********</td></tr><tr><td>법인 설립등기일</td><td>사업자등록일</td><td>대표자</td><td>대표전화번호</td><td>대표팩스번호</td></tr><tr><td>2007.11.27.</td><td>2007.11.27.</td><td>김한수</td><td>1544-3183</td><td>02-6499-2170</td></tr><tr><td>법인등록번호</td><td>110111-3794173</td><td>사업자등록번호</td><td>220-87-58015</td></tr></table>\n\n')}


In [None]:


client = genai.Client(api_key=settings.GEMINI_API_KEY)


# Pydantic 모델 정의: 리랭킹 결과 스키마
class RerankedDocument(BaseModel):
    doc_id: str
    relevance_score: float

def build_document_text(doc: Any, index: int):
    """문서의 메타데이터와 내용을 처리 predatory하여 헤더, 전체 텍스트, doc_id 반환"""
    metadata = doc.metadata
    doc_id = metadata.get("source", f"missing_id_{index}")  # doc_id 누락 시 대체값
    brand = metadata.get("brand", "")
    company = metadata.get("company", "")
    topic = metadata.get("topic", "")
    sub_topic = metadata.get("sub_topic", "")
    year = metadata.get("year", "")
    metadata_header = f"[{company} | {brand} | {year}년 | {topic} - {sub_topic}]"
    doc_text = doc.page_content.strip()
    full_text = f"{metadata_header}\n{doc_text}"
    return metadata_header, full_text, doc_id

def rerank_docs(
    query: str,
    results: List[Any],
    build_doc_text_callback: Callable
) -> List[Any]:
    """검색된 문서를 Gemini 모델로 리랭킹 (doc_id 기준)"""
    try:
        # 1) doc_id_map 생성: build_doc_text_callback 으로 얻은 doc_id → 원본 doc 객체
        doc_id_map = {
            build_doc_text_callback(doc, i)[2]: doc
            for i, doc in enumerate(results)
        }

        # 2) docs_payload 구성
        docs_payload = []
        for i, doc in enumerate(results):
            try:
                _, full_text, doc_id = build_doc_text_callback(doc, i)
                docs_payload.append({
                    "doc_id": doc_id,
                    "content": full_text
                })
            except Exception as e:
                logger.error(f"문서 {i} 처리 중 콜백 에러: {str(e)}")
                continue

        # 3) 프롬프트 생성 및 API 호출
        prompt = (
            "당신은 문서의 관련성을 평가하는 전문가입니다. "
            "주어진 질문과 문서 목록을 보고, 각 문서가 질문에 얼마나 관련 있는지 0.0에서 1.0 사이의 점수로 평가하세요. "
            "결과는 JSON 형식으로 반환하며, 각 문서의 doc_id와 관련성 점수를 포함해야 합니다. "
            "doc_id는 제공된 값을 정확히 반환해야 하며, 수정하거나 누락시키지 마세요.\n\n"
            f"질문: {query}\n\n"
            "문서 목록:\n"
            f"{json.dumps(docs_payload, ensure_ascii=False, indent=2)}\n"
        )
        response = client.models.generate_content(
            model="gemini-2.0-flash",
            contents=prompt,
            config={
                "response_mime_type": "application/json",
                "response_schema": list[RerankedDocument]
            }
        )

        # 4) JSON 파싱
        reranked_results = json.loads(response.text)

        # 5) doc_id_map 을 이용해 정렬된 리스트 재구성
        reranked_docs = []
        for result in sorted(reranked_results, key=lambda x: x['relevance_score'], reverse=True):
            doc_id = result['doc_id']
            if doc_id in doc_id_map:
                reranked_docs.append(doc_id_map[doc_id])
            else:
                logger.warning(f"doc_id {doc_id}가 원본 문서에 없음, 무시됨")

        return reranked_docs

    except Exception as e:
        print(f"리랭킹 실패: {str(e)}")
        return results

    

# 테스트 질문
query = "(주)비지팅엔젤스코리아의 상호는 무엇인가요?"

# 컨텍스트 검색
try:
    context = rag_service.chroma_vectorstore.similarity_search(
                query=query, 
                k=10
            )
    
    result = rerank_docs(query,context,build_document_text)
    
    print(result)

except Exception as e:
    logger.error(f"컨텍스트 검색 실패: {str(e)}")



2025-05-18 17:04:53,537 - google_genai.models - INFO - AFC is enabled with max remote calls: 10.


2025-05-18 17:04:57,130 - httpx - INFO - HTTP Request: POST https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent "HTTP/1.1 200 OK"
2025-05-18 17:04:57,132 - google_genai.models - INFO - AFC remote call 1 is done.


[Document(id='1dd6d6fe-f799-47da-9e17-765a8c3824b0', metadata={'ID': '105725953827499750108', 'brand': '비지팅엔젤스요양시설', 'company': '(주)비지팅엔젤스코리아', 'file_name': '1057257501.json', 'source': '105725953827499750108_0', 'sub_topic': '1. 가맹본부의 일반 정보', 'topic': 'Ⅰ. 가맹본부의 일반 현황', 'year': 2024}, page_content='가맹본부: (주)비지팅엔젤스코리아\n 목차: 1. 가맹본부의 일반 정보\n당사의 회사설립 및 사업자등록에 관한 사항은 다음과 같습니다.<table><tr><td>상호</td><td>영업표지</td><td>주  소</td></tr><tr><td>(주)비지팅엔젤스코리아</td><td>비지팅엔젤스주야간보호외 2개</td><td>서울시 *** **** *** *********</td></tr><tr><td>법인 설립등기일</td><td>사업자등록일</td><td>대표자</td><td>대표전화번호</td><td>대표팩스번호</td></tr><tr><td>2007.11.27.</td><td>2007.11.27.</td><td>김한수</td><td>1544-3183</td><td>02-6499-2170</td></tr><tr><td>법인등록번호</td><td>110111-3794173</td><td>사업자등록번호</td><td>220-87-58015</td></tr></table>\n\n'), Document(id='cb57535a-e542-4e45-9f82-ba54248ef251', metadata={'ID': '105725286957223750108', 'brand': '비지팅엔젤스요양시설', 'company': '(주)비지팅엔젤스코리아', 'file_name': '1057257501.json', 'source': '10572528695722

In [24]:
result

[Document(id='1dd6d6fe-f799-47da-9e17-765a8c3824b0', metadata={'ID': '105725953827499750108', 'brand': '비지팅엔젤스요양시설', 'company': '(주)비지팅엔젤스코리아', 'file_name': '1057257501.json', 'source': '105725953827499750108_0', 'sub_topic': '1. 가맹본부의 일반 정보', 'topic': 'Ⅰ. 가맹본부의 일반 현황', 'year': 2024}, page_content='가맹본부: (주)비지팅엔젤스코리아\n 목차: 1. 가맹본부의 일반 정보\n당사의 회사설립 및 사업자등록에 관한 사항은 다음과 같습니다.<table><tr><td>상호</td><td>영업표지</td><td>주  소</td></tr><tr><td>(주)비지팅엔젤스코리아</td><td>비지팅엔젤스주야간보호외 2개</td><td>서울시 *** **** *** *********</td></tr><tr><td>법인 설립등기일</td><td>사업자등록일</td><td>대표자</td><td>대표전화번호</td><td>대표팩스번호</td></tr><tr><td>2007.11.27.</td><td>2007.11.27.</td><td>김한수</td><td>1544-3183</td><td>02-6499-2170</td></tr><tr><td>법인등록번호</td><td>110111-3794173</td><td>사업자등록번호</td><td>220-87-58015</td></tr></table>\n\n'),
 Document(id='cb57535a-e542-4e45-9f82-ba54248ef251', metadata={'ID': '105725286957223750108', 'brand': '비지팅엔젤스요양시설', 'company': '(주)비지팅엔젤스코리아', 'file_name': '1057257501.json', 'source': '1057252869572