In [2]:
import os
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
from dotenv import load_dotenv

# 🔹 환경변수 로드
load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
print("🔑 OpenAI API Key:", OPENAI_API_KEY)


# 🔹 PDF → 벡터스토어 저장 함수
def load_and_store_pdf(file_path, persist_dir="vector_store"):
    loader = PyPDFLoader(file_path)
    docs = loader.load()

    splitter = RecursiveCharacterTextSplitter(chunk_size = 200, 
                                              chunk_overlap = 20
                                              )                      # ⬅️ Token 문제 방지
    split_docs = splitter.split_documents(docs)

    embedding = OpenAIEmbeddings(openai_api_key=OPENAI_API_KEY, 
                                 model="text-embedding-3-small"
                                 )
    vectordb = Chroma.from_documents(split_docs, 
                                     embedding, 
                                     persist_directory=persist_dir
                                     )
    vectordb.persist()
    print("✅ 벡터스토어 저장 완료")
    return vectordb

# 🔹 RAG QA 체인 반환 함수
def get_rag_chain(persist_dir="vector_store"):
    embedding = OpenAIEmbeddings(openai_api_key = OPENAI_API_KEY, 
                                 model = "text-embedding-3-small"
                                 )
    vectordb = Chroma(persist_directory = persist_dir, 
                      embedding_function = embedding
                      )
    retriever = vectordb.as_retriever(search_kwargs={"k": 5})  # 검색 개수 제한

    llm = ChatOpenAI(model_name = "gpt-3.5-turbo", 
                     temperature=0.2, 
                     openai_api_key=OPENAI_API_KEY)
    
    chain = RetrievalQA.from_chain_type(llm=llm,
                                        retriever=retriever,
                                        return_source_documents=False  # ⬅️ token 초과 방지
                                        )
    return chain

# 🔹 질의응답 비교 함수
def compare_llm_vs_rag(query, rag_chain):
    # 기본 LLM 응답 (문서 검색 안 쓰고 순수 GPT만)
    llm = ChatOpenAI(model_name="gpt-3.5-turbo", 
                     temperature=0.2, 
                     openai_api_key=OPENAI_API_KEY
                     )
    llm_response = llm.predict(query)

    # RAG 응답 (문서 기반 검색)
    rag_response = rag_chain.run(query)

    return {
        "LLM 응답 (기본)": llm_response,
        "RAG 응답 (문서 기반)": rag_response
    }

# 🔹 테스트 예제 실행
if __name__ == "__main__":
    pdf_path = "KB 실버암 간편건강보험Plus.pdf"

    # 최초 실행 시: 벡터스토어 저장
    load_and_store_pdf(pdf_path)

    # RAG 체인 생성
    rag = get_rag_chain()

    # 예제 질의
    # question = "고지의무를 위반한 경우 보험사는 어떤 조치를 취할 수 있나요?"
    # question = "이 보험에서 유사암은 어떤 종류가 포함되며, 일반암과 어떤 차이가 있나요?"  # <--- 별로
    # question = "70세 이상 가입자의 보장 범위는 다른 연령대와 차이가 있나요?"               # <--- 별로
    question = "진단금 지급 대상 암 중 조직검사 없이 진단이 가능한 암이 있나요?"


    result = compare_llm_vs_rag(question, rag)

    # 결과 출력
    for k, v in result.items():
        print(f"\n🔸 {k}:\n{v}")

🔑 OpenAI API Key: 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
✅ 벡터스토어 저장 완료

🔸 LLM 응답 (기본):
네, 일부 암은 조직검사 없이도 진단이 가능합니다. 예를 들어, 갑상선암의 경우 초음파 및 혈액검사를 통해 진단할 수 있고, 만성 림프구성 백혈병의 경우 혈액검사로 진단할 수 있습니다. 또한 유방암의 경우 마취나 조직검사 없이도 유방 초음파나 유방 촬영을 통해 초기 진단이 가능합니다. 하지만 대부분의 암은 조직검사를 통해 정확한 진단을 받아야 합니다. 따라서 암 의심 증상이 있을 경우 즉시 전문의를 방문하여 정확한 진단을 받는 것이 중요합니다.

🔸 RAG 응답 (문서 기반):
병리학적 진단이 가능하지 않을 때에는 피보험자가 "신재진단암Ⅱ"로 진단 또는 치료를 받고 있음을 증명할 만한 문서화된 기록 또는 증거가 필요합니다. 따라서 조직검사 없이 진단이 가능한 암에 대해서는 정확한 답변을 제공할 수 없습니다.
