### 라이브러리

In [1]:
import os
import shutil
from dotenv import load_dotenv

from langchain.document_loaders import PyPDFLoader
from langchain.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain_anthropic import ChatAnthropic
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain import hub

### API 설정

In [2]:
# 🔐 API 키 불러오기
load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
ANTHROPIC_API_KEY = os.getenv("ANTHROPIC_API_KEY")

### PDF 로드 / 임베딩 / DB생성

In [None]:
# 📁 카테고리별 PDF 파일 경로
category_pdf_map = {"cancer"  : "KB 실버암 간편건강보험Plus.pdf",
                    "medical" : "KB개인실손의료비보험.pdf",
                    "accident": "KB개인상해보험.pdf",
                    "fire"    : "KB아파트화재보험.pdf",
                    }

# 💾 벡터스토어 저장 루트
VECTOR_ROOT = "vectorstores"

# 📑 텍스트 분할기
text_splitter = RecursiveCharacterTextSplitter(chunk_size    = 200, 
                                               chunk_overlap = 20,
                                               )

# 🧠 OpenAI 임베딩
embedding = OpenAIEmbeddings(model="text-embedding-3-small", 
                             openai_api_key=OPENAI_API_KEY,
                             )

# ✅ (최초 1회 실행) PDF → 벡터스토어 생성 및 저장
def build_vectorstores():
    for category, pdf_path in category_pdf_map.items():
        print(f"[+] Building vectorstore for category: {category}")
        loader = PyPDFLoader(pdf_path)
        pages = loader.load_and_split()
        docs = text_splitter.split_documents(pages)

        vectorstore_path = os.path.join(VECTOR_ROOT, category)
        if os.path.exists(vectorstore_path):
            shutil.rmtree(vectorstore_path)
        vectorstore = FAISS.from_documents(docs, embedding=embedding)
        vectorstore.save_local(vectorstore_path)

# 🧠 카테고리별 키워드 기반 매핑
category_keywords = {
    "cancer": [
        "암", "유사암", "특정암", "전이암", "재진단암", "갑상선암", "폐암", "간암", "췌장암",
        "소화기관암", "혈액암", "생식기암", "항암", "항암치료", "방사선치료", "항암방사선",
        "항암약물", "표적항암", "호르몬약물", "CAR-T", "진단비", "암진단비", "암사망"
    ],
    "medical": [
        "실손", "의료비", "입원", "통원", "진료비", "검사비", "수술", "응급실", "치료",
        "자기부담금", "보험금 한도", "진단서", "의무기록", "보상종목", "다수보험", "연대책임"
    ],
    "accident": [
        "상해", "재해", "사고", "교통사고", "골절", "화상", "후유장해", "사고사망",
        "입원비", "수술비", "상해사망", "상해특약"
    ],
    "fire": [
        "화재", "폭발", "붕괴", "누수", "도난", "배상책임", "재산", "가재도구",
        "복구", "손해", "피해", "주택", "화재보험", "화재사고"
    ]
}

# 📌 질문 → 카테고리 매핑 함수
def classify_question(question):
    for category, keywords in category_keywords.items():
        if any(keyword in question for keyword in keywords):
            return category
    return "cancer"  # 기본 fallback


  embedding = OpenAIEmbeddings(model="text-embedding-3-small",


### 모델

In [4]:
# 💬 LLM 및 RAG 설정
llm = ChatAnthropic(model = "claude-opus-4-20250514", 
                    temperature = 0, 
                    max_tokens = 1024, 
                    api_key = ANTHROPIC_API_KEY,
                    )
prompt = hub.pull("rlm/rag-prompt")
llm_only_chain = llm | StrOutputParser()

# 📣 질문 → 응답 생성 함수
def answer_question(question):
    category = classify_question(question)
    vectorstore_path = os.path.join(VECTOR_ROOT, category)
    print(f"\n[📂 선택된 카테고리: {category}]")

    # 벡터스토어 로드 및 Retriever 생성
    vectorstore = FAISS.load_local(vectorstore_path,
                                   embeddings = embedding,
                                   allow_dangerous_deserialization = True  # 추가
                                   )
    
    retriever = vectorstore.as_retriever()

    # RAG 체인 생성
    rag_chain = (
        {"context": retriever, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

    # 출력
    print("🧾 질문:", question)
    print("\n💬 [LLM 단독 응답]:")
    print(llm_only_chain.invoke(question))
    print("\n📚 [RAG 기반 응답]:")
    print(rag_chain.invoke(question))



### 벡터스토어 생성

In [None]:
# ✅ 최초 실행 시만 벡터스토어 생성
build_vectorstores()

### 실행

In [7]:
# 📌 실행 예시
if __name__ == "__main__":
    # ✅ 최초 실행 시만 벡터스토어 생성
    # build_vectorstores()

    # 질문 예시
    question = "유사암진단비iii 를 청구하려고 하는데 갑상선암은 어떤 검사를 통해 진단받아야돼?" 
    answer_question(question)

[+] Building vectorstore for category: cancer
[+] Building vectorstore for category: medical
[+] Building vectorstore for category: accident
[+] Building vectorstore for category: fire

[📂 선택된 카테고리: cancer]
🧾 질문: 유사암진단비iii 를 청구하려고 하는데 갑상선암은 어떤 검사를 통해 진단받아야돼?

💬 [LLM 단독 응답]:
유사암진단비III 청구를 위한 갑상선암 진단 검사에 대해 안내드리겠습니다.

## 필수 진단 검사

### 1. **조직병리검사 (필수)**
- **세침흡인검사(FNA)**: 가장 기본적인 검사
- **중심부 바늘생검(CNB)**: 세침검사로 불충분한 경우
- **수술 후 조직검사**: 최종 확진

### 2. **영상검사**
- **갑상선 초음파**: 결절 발견 및 평가
- **CT 또는 MRI**: 병기 결정시 필요
- **PET-CT**: 전이 여부 확인시

## 보험금 청구시 필요서류

1. **진단서** (갑상선암 병명 명시)
2. **조직병리검사 결과지** (필수)
3. **영상검사 결과지**
4. **수술확인서** (수술한 경우)

## 중요 확인사항

⚠️ **보험약관 확인 필수**
- 갑상선암의 보장 범위 (일반암/유사암 분류)
- 진단확정의 정의
- 면책기간 및 감액기간

💡 **Tip**: 보험사마다 요구하는 서류가 다를 수 있으니, 청구 전 보험사에 필요서류를 확인하시기 바랍니다.

추가로 궁금하신 사항이 있으시면 말씀해 주세요.

📚 [RAG 기반 응답]:
갑상선암 진단확정은 병리 또는 진단검사의학의 전문의 자격증을 가진 자에 의해 내려져야 합니다. 진단은 조직(fixed tissue)검사, 미세바늘흡인검사(fine needle aspiration), 또는 혈액(hemic system)검사에 대한 현미경 소견을 기초로 해야 합니다. 진단확정 시점은 이러한