In [None]:
import os
import numpy as np
import pandas as pd
# import matplotlib.pyplot as plt

from sentence_transformers import SentenceTransformer

from langchain_community.document_loaders import PyPDFLoader # 1.로드
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter # 2.청크
from langchain.embeddings import HuggingFaceEmbeddings # 3. 임베딩 모델
from langchain.vectorstores import FAISS # 3. 벡터 저장
from langchain.retrievers import BM25Retriever, EnsembleRetriever # 4. 검색 기법
from langchain_ollama import ChatOllama
from langchain.prompts import ChatPromptTemplate

from transformers import pipeline

from langchain import hub
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

# 1. 문서 로드 및 청크 분할
loader = PyPDFLoader("한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf")
documents = loader.load()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=30
)
chunks = text_splitter.split_documents(documents)
chunks = chunks[11:]  # 불필요한 청크 제외 (예: 목차)

# 각 청크에 ID 부여
for i, chunk in enumerate(chunks):
    chunk.metadata['doc_id'] = i

# 2. HuggingFace 임베딩 및 FAISS 생성
embedding = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")
vectorstore = FAISS.from_documents(documents=chunks, embedding=embedding)

# 3. 키워드 검색을 위한 BM25 생성
bm25_retriever = BM25Retriever.from_documents(chunks)
bm25_retriever.k = 3

# 4. 의미 검색 + 키워드 검색 (앙상블)
top_k = 3
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": top_k})
ensemble_retrievers = [retriever, bm25_retriever]
ensemble_retriever = EnsembleRetriever(retrievers=ensemble_retrievers, weights=[0.7, 0.3])

# 5. LLM 초기화 및 RAG 체인 구성
llm = ChatOllama(model="llama3.1", temperature=0.8, num_predict=300)

retrieval_qa_chat_prompt = ChatPromptTemplate.from_template("""
다음 컨텍스트를 바탕으로 질문에 답변해주세요. 컨텍스트에 관련 정보가 없다면,
"주어진 정보로는 답변할 수 없습니다."라고 말씀해 주세요.

컨텍스트: {context}

질문: {input}

답변:
""")

combine_docs_chain = create_stuff_documents_chain(llm, retrieval_qa_chat_prompt)
rag_chain = create_retrieval_chain(ensemble_retriever, combine_docs_chain)

  from tqdm.autonotebook import tqdm, trange
  embedding = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")


In [8]:
import os
import numpy as np
import pandas as pd
# import matplotlib.pyplot as plt

from sentence_transformers import SentenceTransformer

from langchain_community.document_loaders import PyPDFLoader # 1.로드
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter # 2.청크
from langchain.embeddings import HuggingFaceEmbeddings # 3. 임베딩 모델
from langchain.vectorstores import FAISS # 3. 벡터 저장
from langchain.retrievers import BM25Retriever, EnsembleRetriever # 4. 검색 기법
from langchain_ollama import ChatOllama
from langchain.prompts import ChatPromptTemplate

from transformers import pipeline

from langchain import hub
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

# 1. 문서 로드 및 청크 분할
loader = PyPDFLoader("한화 손해보험.pdf")
documents = loader.load()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=30
)
chunks = text_splitter.split_documents(documents)
chunks = chunks[11:]  # 불필요한 청크 제외 (예: 목차)

# 각 청크에 ID 부여
for i, chunk in enumerate(chunks):
    chunk.metadata['doc_id'] = i

# 2. HuggingFace 임베딩 및 FAISS 생성
embedding = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")
vectorstore = FAISS.from_documents(documents=chunks, embedding=embedding)

# 3. 키워드 검색을 위한 BM25 생성
bm25_retriever = BM25Retriever.from_documents(chunks)
bm25_retriever.k = 3

# 4. 의미 검색 + 키워드 검색 (앙상블)
top_k = 3
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": top_k})
ensemble_retrievers = [retriever, bm25_retriever]
ensemble_retriever = EnsembleRetriever(retrievers=ensemble_retrievers, weights=[0.7, 0.3])

# 5. LLM 초기화 및 RAG 체인 구성
llm = ChatOllama(model="llama3.1", temperature=0.8, num_predict=300)

retrieval_qa_chat_prompt1 = ChatPromptTemplate.from_template("""
다음 컨텍스트를 바탕으로 질문에 답변해주세요. 컨텍스트에 관련 정보가 없다면,
"주어진 정보로는 답변할 수 없습니다."라고 말씀해 주세요.

컨텍스트: {context}

질문: {input}

답변:
""")

combine_docs_chain1 = create_stuff_documents_chain(llm, retrieval_qa_chat_prompt1)
rag_chain1 = create_retrieval_chain(ensemble_retriever, combine_docs_chain1)

In [9]:
import os
import numpy as np
import pandas as pd
# import matplotlib.pyplot as plt

from sentence_transformers import SentenceTransformer

from langchain_community.document_loaders import PyPDFLoader # 1.로드
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter # 2.청크
from langchain.embeddings import HuggingFaceEmbeddings # 3. 임베딩 모델
from langchain.vectorstores import FAISS # 3. 벡터 저장
from langchain.retrievers import BM25Retriever, EnsembleRetriever # 4. 검색 기법
from langchain_ollama import ChatOllama
from langchain.prompts import ChatPromptTemplate

from transformers import pipeline

from langchain import hub
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

# 1. 문서 로드 및 청크 분할
loader = PyPDFLoader("한화 개인용 자동차보험.pdf")
documents = loader.load()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=30
)
chunks = text_splitter.split_documents(documents)
chunks = chunks[11:]  # 불필요한 청크 제외 (예: 목차)

# 각 청크에 ID 부여
for i, chunk in enumerate(chunks):
    chunk.metadata['doc_id'] = i

# 2. HuggingFace 임베딩 및 FAISS 생성
embedding = HuggingFaceEmbeddings(model_name="BAAI/bge-m3")
vectorstore = FAISS.from_documents(documents=chunks, embedding=embedding)

# 3. 키워드 검색을 위한 BM25 생성
bm25_retriever = BM25Retriever.from_documents(chunks)
bm25_retriever.k = 3

# 4. 의미 검색 + 키워드 검색 (앙상블)
top_k = 3
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": top_k})
ensemble_retrievers = [retriever, bm25_retriever]
ensemble_retriever = EnsembleRetriever(retrievers=ensemble_retrievers, weights=[0.7, 0.3])

# 5. LLM 초기화 및 RAG 체인 구성
llm = ChatOllama(model="llama3.1", temperature=0.8, num_predict=300)

retrieval_qa_chat_prompt2 = ChatPromptTemplate.from_template("""
다음 컨텍스트를 바탕으로 질문에 답변해주세요. 컨텍스트에 관련 정보가 없다면,
"주어진 정보로는 답변할 수 없습니다."라고 말씀해 주세요.

컨텍스트: {context}

질문: {input}

답변:
""")

combine_docs_chain2 = create_stuff_documents_chain(llm, retrieval_qa_chat_prompt2)
rag_chain2 = create_retrieval_chain(ensemble_retriever, combine_docs_chain2)

# gradio 연결 시작

In [2]:
import gradio as gr

# 질문 제출 처리
def submit_question(question, chat_history):
    try:
        print(f"질문: {question}")  # 디버깅

        # RAG 체인 실행
        print("rag_chain 호출 전")
        result = rag_chain.invoke({"input": question})  # .invoke() 호출
        print(f"rag_chain 호출 결과: {result}")

        # 답변 및 컨텍스트 추출
        context_docs = result.get("context", [])  # Document 객체 리스트
        answer = result.get("answer", "답변을 생성할 수 없습니다.")

        # 하이라이트 데이터 생성
        highlight_parts = []
        for doc in context_docs:
            page_text = doc.page_content  # 페이지의 전체 텍스트
            source = doc.metadata.get("source", "알 수 없음")  # 문서 이름
            page = doc.metadata.get("page", "알 수 없음")  # 페이지 번호

            # 하이라이트 처리
            if answer in page_text:  # 답변이 페이지 텍스트에 포함된 경우
                highlight_parts.append((f"출처: {source}, 페이지: {page}\n\n{page_text}", answer))
            else:
                highlight_parts.append((f"출처: {source}, 페이지: {page}\n\n{page_text}", ""))

        # 대화 기록 업데이트
        chat_history.append((question, answer))
        return chat_history, "", highlight_parts

    except Exception as e:
        # 구체적인 에러 메시지 출력
        import traceback
        traceback.print_exc()  # 전체 에러 스택 추적 로그 출력
        print(f"오류 발생: {e}")  # 터미널에 오류 메시지 출력
        return chat_history, "오류 발생: 자세한 내용은 서버 로그를 확인하세요.", []


# Gradio UI 구성
with gr.Blocks() as iface:
    gr.Markdown("# 보험 문서 챗봇\n보험 문서에 대해 물어보면 답하는 챗봇입니다.")

    # PDF 버튼 및 챗봇 UI
    with gr.Row():
        cancer_btn = gr.Button("생명보험")
        life_btn = gr.Button("손해보험")
        car_btn = gr.Button("자동차보험")
        glossary_btn = gr.Button("용어사전")

    chatbot = gr.Chatbot()
    msg = gr.Textbox(placeholder="뭐든지 물어보세요.", label="챗 입력")
    highlighted_text = gr.HighlightedText(label="문서 하이라이트", show_legend=True)

    # 버튼 행
    with gr.Row():
        submit_btn = gr.Button("보내기")
        clear_btn = gr.Button("전체 채팅 삭제 💫")

    # 버튼 클릭 이벤트 설정
    def update_chatbot_with_message(chat_history, sender, message):
        chat_history.append((sender, message))  # 지정된 발신자와 메시지 추가
        return chat_history

    # PDF 버튼 클릭 이벤트
    cancer_btn.click(
        lambda chat_history: update_chatbot_with_message(chat_history, "생명보험", "생명보험 관련 정보를 물어보세요."),
        inputs=chatbot,
        outputs=chatbot
    )
    life_btn.click(
        lambda chat_history: update_chatbot_with_message(chat_history, "손해보험", "손해보험 관련 정보를 물어보세요."),
        inputs=chatbot,
        outputs=chatbot
    )
    car_btn.click(
        lambda chat_history: update_chatbot_with_message(chat_history, "자동차보험", "자동차보험 관련 정보를 물어보세요."),
        inputs=chatbot,
        outputs=chatbot
    )
    glossary_btn.click(
        lambda chat_history: update_chatbot_with_message(
            chat_history,
            "용어사전",
            (
                "용어사전에 대한 정보는 다음 링크를 참조하세요:\n"
                "- [보험 용어사전 1](https://www.hwgeneralins.com/lounge/dic/index.do)\n"
                "- [보험 용어사전 2](https://m.blog.naver.com/blogfsc/220149083103)"
            )
        ),
        inputs=chatbot,
        outputs=chatbot
    )

    # 버튼 이벤트 연결
    submit_btn.click(
        submit_question, 
        inputs=[msg, chatbot], 
        outputs=[chatbot, msg, highlighted_text]
    )
    clear_btn.click(lambda: ([], ""), None, chatbot)  # 전체 대화 기록 삭제

iface.launch(share=True, debug=True)



* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://0ff63379b0306d8b6a.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


질문: 보험금 지급이 제한될 수 있는 경우는 뭐가 있어?
rag_chain 호출 전
Keyboard interruption in main thread... closing server.
Killing tunnel 127.0.0.1:7860 <> https://0ff63379b0306d8b6a.gradio.live




rag_chain 호출 결과: {'input': '보험금 지급이 제한될 수 있는 경우는 뭐가 있어?', 'context': [Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 473, 'doc_id': 1678}, page_content='을 지급합니다 .  \n【할증위험률】  \n피보험자의  건강상태가  회사가  정한 기준에  적합하지  않은 경우 일반위험률보다  높게 적용되\n는 위험률  \n \n2. 보험금감액법   \n계약일로부터  회사가  정하는  삭감기간 (削減期間 ) 내에 피보험자에게  재해 이외의  원인으로  해당계\n약의 삭감대상  보험금  지급사유가  발생한  경우에는  해당계약의  규정에도  불구하고  계약할 때 정\n한 삭감기간  및 보험금지급비율 에 따라 다음과  같이 보험금을  지급합니다 . 삭감기간이  경과한  이'), Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 156, 'doc_id': 513}, page_content='157 / 532 ⑤ 보험수익 자와 회사가  제2-3조(보험금의  지급사유 )에 대해 합의하지  못할 때는 보험수익자와  회사가  \n함께 제3자를 정하고  그 제3자의 의견에  따를 수 있습니다 . 제3자는 의료법  제3조(의료기관 )에 규정한  \n종합병원  소속 전문의  중에서  정하며 , 보험금  지급 사유 판정에  드는 의료비용은  회사가  전액 부담합니\n다. \n \n제 2-6 조 장해지급률에  관한 세부규정  \n이 특약은  해당사항이  없습니다 . \n \n제 2-7 조 보험금을  지급하지  않는 사유 \n회사는  다음 중 어느 한 가지로  보험금  지급사유가  발생한  때에는  보험금을  지급하지  않습니다 . \n1. 피보험자가  

# 작동 잘됨

In [3]:
import gradio as gr
def submit_question(question, chat_history):
    try:
        print(f"질문: {question}")  # 디버깅

        # RAG 체인 실행
        result = rag_chain.invoke({"input": question})  # .invoke() 사용
        print(f"RAG 체인 결과: {result}")  # 디버깅

        # context는 Document 객체들의 리스트입니다.
        context_docs = result.get("context", [])
        answer = result.get("answer", "답변을 생성할 수 없습니다.")

        # 하이라이트 데이터를 생성할 리스트
        highlight_parts = []

        # 각 Document에서 페이지 내용과 메타데이터를 확인
        for doc in context_docs:
            page_text = doc.page_content
            source = doc.metadata.get("source", "알 수 없음")
            page = doc.metadata.get("page", "알 수 없음")

            # 답변에 해당하는 부분 하이라이트
            if answer in page_text:
                highlight_parts.append((page_text, answer))  # 답변 부분 하이라이트
            else:
                highlight_parts.append((page_text, ""))  # 하이라이트 없음

        # 대화 기록에 답변 추가
        chat_history.append((question, answer))
        return chat_history, "", highlight_parts

    except Exception as e:
        print(f"오류 발생: {e}")  # 디버깅
        import traceback
        traceback.print_exc()
        return chat_history, f"오류 발생: {e}", []

# Gradio UI 구성
with gr.Blocks() as iface:
    gr.Markdown("# 보험 문서 챗봇\n보험 문서에 대해 물어보면 답하는 챗봇입니다.")

    # 챗봇 UI 및 입력 필드
    chatbot = gr.Chatbot()
    msg = gr.Textbox(placeholder="질문을 입력하세요.", label="질문 입력")
    highlighted_text = gr.HighlightedText(label="관련 문서 하이라이트", show_legend=True)

    # 버튼 구성
    with gr.Row():
        submit_btn = gr.Button("보내기")
        clear_btn = gr.Button("전체 채팅 삭제 💫")

    # 버튼 이벤트 연결
    submit_btn.click(
        submit_question, 
        inputs=[msg, chatbot], 
        outputs=[chatbot, msg, highlighted_text]
    )
    clear_btn.click(lambda: ([], ""), None, chatbot)  # 전체 대화 기록 삭제

iface.launch(share=True, debug=True)



* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://d0781122cfd1808751.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


질문: 보험금 지급이 제한될 수 있는 경우는 뭐가 있어?
RAG 체인 결과: {'input': '보험금 지급이 제한될 수 있는 경우는 뭐가 있어?', 'context': [Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 473, 'doc_id': 1678}, page_content='을 지급합니다 .  \n【할증위험률】  \n피보험자의  건강상태가  회사가  정한 기준에  적합하지  않은 경우 일반위험률보다  높게 적용되\n는 위험률  \n \n2. 보험금감액법   \n계약일로부터  회사가  정하는  삭감기간 (削減期間 ) 내에 피보험자에게  재해 이외의  원인으로  해당계\n약의 삭감대상  보험금  지급사유가  발생한  경우에는  해당계약의  규정에도  불구하고  계약할 때 정\n한 삭감기간  및 보험금지급비율 에 따라 다음과  같이 보험금을  지급합니다 . 삭감기간이  경과한  이'), Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 156, 'doc_id': 513}, page_content='157 / 532 ⑤ 보험수익 자와 회사가  제2-3조(보험금의  지급사유 )에 대해 합의하지  못할 때는 보험수익자와  회사가  \n함께 제3자를 정하고  그 제3자의 의견에  따를 수 있습니다 . 제3자는 의료법  제3조(의료기관 )에 규정한  \n종합병원  소속 전문의  중에서  정하며 , 보험금  지급 사유 판정에  드는 의료비용은  회사가  전액 부담합니\n다. \n \n제 2-6 조 장해지급률에  관한 세부규정  \n이 특약은  해당사항이  없습니다 . \n \n제 2-7 조 보험금을  지급하지  않는 사유 \n회사는  다음 중 어느 한 가지로  보험금  지급사유가  발생한  때에는  보험금을 



In [4]:
import gradio as gr

def submit_question(question, chat_history):
    try:
        print(f"질문: {question}")  # 디버깅

        # RAG 체인 실행
        result = rag_chain.invoke({"input": question})  # .invoke() 사용
        print(f"RAG 체인 결과: {result}")  # 디버깅

        # context는 Document 객체들의 리스트입니다.
        context_docs = result.get("context", [])  # RAG 체인에서 반환된 문서들
        answer = result.get("answer", "답변을 생성할 수 없습니다.")

        # 하이라이트 데이터를 저장할 리스트
        highlight_parts = []

        # 각 Document에서 페이지 내용과 메타데이터를 확인
        for doc in context_docs:
            page_text = doc.page_content  # 페이지의 전체 텍스트
            source = doc.metadata.get("source", "알 수 없음")  # 문서 이름
            page = doc.metadata.get("page", "알 수 없음")  # 페이지 번호

            # 답변이 포함된 부분만 하이라이트
            if answer in page_text:
                highlight_parts.append(
                    (f"출처: {source}, 페이지: {page}\n\n{page_text}", answer)
                )
            else:
                highlight_parts.append(
                    (f"출처: {source}, 페이지: {page}\n\n{page_text}", "")
                )

        # 대화 기록에 질문과 답변 추가
        chat_history.append((question, answer))
        return chat_history, "", highlight_parts

    except Exception as e:
        print(f"오류 발생: {e}")  # 디버깅
        import traceback
        traceback.print_exc()
        return chat_history, f"오류 발생: {e}", []

# Gradio UI 구성
with gr.Blocks() as iface:
    gr.Markdown("# 보험 문서 챗봇\n보험 문서에 대해 물어보면 답하는 챗봇입니다.")

    # 챗봇 UI 및 입력 필드
    chatbot = gr.Chatbot()
    msg = gr.Textbox(placeholder="질문을 입력하세요.", label="질문 입력")
    highlighted_text = gr.HighlightedText(label="관련 문서 하이라이트", show_legend=True)

    # 버튼 구성
    with gr.Row():
        submit_btn = gr.Button("보내기")
        clear_btn = gr.Button("전체 채팅 삭제 💫")

    # 버튼 이벤트 연결
    submit_btn.click(
        submit_question, 
        inputs=[msg, chatbot], 
        outputs=[chatbot, msg, highlighted_text]
    )
    clear_btn.click(lambda: ([], ""), None, chatbot)  # 전체 대화 기록 삭제

iface.launch(share=True, debug=True)



* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://4840b69a4fd01729d8.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


질문: 보험금 지급이 제한될 수 있는 경우는 뭐가 있어?
RAG 체인 결과: {'input': '보험금 지급이 제한될 수 있는 경우는 뭐가 있어?', 'context': [Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 473, 'doc_id': 1678}, page_content='을 지급합니다 .  \n【할증위험률】  \n피보험자의  건강상태가  회사가  정한 기준에  적합하지  않은 경우 일반위험률보다  높게 적용되\n는 위험률  \n \n2. 보험금감액법   \n계약일로부터  회사가  정하는  삭감기간 (削減期間 ) 내에 피보험자에게  재해 이외의  원인으로  해당계\n약의 삭감대상  보험금  지급사유가  발생한  경우에는  해당계약의  규정에도  불구하고  계약할 때 정\n한 삭감기간  및 보험금지급비율 에 따라 다음과  같이 보험금을  지급합니다 . 삭감기간이  경과한  이'), Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 156, 'doc_id': 513}, page_content='157 / 532 ⑤ 보험수익 자와 회사가  제2-3조(보험금의  지급사유 )에 대해 합의하지  못할 때는 보험수익자와  회사가  \n함께 제3자를 정하고  그 제3자의 의견에  따를 수 있습니다 . 제3자는 의료법  제3조(의료기관 )에 규정한  \n종합병원  소속 전문의  중에서  정하며 , 보험금  지급 사유 판정에  드는 의료비용은  회사가  전액 부담합니\n다. \n \n제 2-6 조 장해지급률에  관한 세부규정  \n이 특약은  해당사항이  없습니다 . \n \n제 2-7 조 보험금을  지급하지  않는 사유 \n회사는  다음 중 어느 한 가지로  보험금  지급사유가  발생한  때에는  보험금을 



In [5]:
import gradio as gr

def submit_question(question, chat_history):
    try:
        print(f"질문: {question}")  # 디버깅

        # RAG 체인 실행
        result = rag_chain.invoke({"input": question})  # .invoke() 사용
        print(f"RAG 체인 결과: {result}")  # 디버깅

        # RAG 체인에서 top_k 문서 추출
        context_docs = result.get("context", [])  # Document 객체 리스트
        answer = result.get("answer", "답변을 생성할 수 없습니다.")

        # 하이라이트 데이터를 저장할 리스트
        highlight_parts = []

        # 각 Document에서 상위 3개의 문서 정보와 내용을 하이라이트
        for doc in context_docs[:top_k]:  # 상위 top_k 문서만 처리
            page_text = doc.page_content  # 문서 내용
            source = doc.metadata.get("source", "알 수 없음")  # 문서 이름
            page = doc.metadata.get("page", "알 수 없음")  # 페이지 번호

            # 하이라이트 부분 생성
            highlight_parts.append(
                (f"출처: {source}, 페이지: {page}\n\n{page_text}", "")  # 전체 페이지를 표시
            )

        # 대화 기록에 질문과 답변 추가
        chat_history.append((question, answer))
        return chat_history, "", highlight_parts

    except Exception as e:
        print(f"오류 발생: {e}")  # 디버깅
        import traceback
        traceback.print_exc()
        return chat_history, f"오류 발생: {e}", []

# Gradio UI 구성
with gr.Blocks() as iface:
    gr.Markdown("# 보험 문서 챗봇\n보험 문서에 대해 물어보면 답하는 챗봇입니다.")

    # 챗봇 UI 및 입력 필드
    chatbot = gr.Chatbot()
    msg = gr.Textbox(placeholder="질문을 입력하세요.", label="질문 입력")
    highlighted_text = gr.HighlightedText(label="관련 문서 하이라이트", show_legend=True)

    # 버튼 구성
    with gr.Row():
        submit_btn = gr.Button("보내기")
        clear_btn = gr.Button("전체 채팅 삭제 💫")

    # 버튼 이벤트 연결
    submit_btn.click(
        submit_question, 
        inputs=[msg, chatbot], 
        outputs=[chatbot, msg, highlighted_text]
    )
    clear_btn.click(lambda: ([], ""), None, chatbot)  # 전체 대화 기록 삭제

iface.launch(share=True, debug=True)



* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://8b2d76661936e650b6.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


질문: 보험금 지급이 제한될 수 있는 경우는 뭐가 있어?
RAG 체인 결과: {'input': '보험금 지급이 제한될 수 있는 경우는 뭐가 있어?', 'context': [Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 473, 'doc_id': 1678}, page_content='을 지급합니다 .  \n【할증위험률】  \n피보험자의  건강상태가  회사가  정한 기준에  적합하지  않은 경우 일반위험률보다  높게 적용되\n는 위험률  \n \n2. 보험금감액법   \n계약일로부터  회사가  정하는  삭감기간 (削減期間 ) 내에 피보험자에게  재해 이외의  원인으로  해당계\n약의 삭감대상  보험금  지급사유가  발생한  경우에는  해당계약의  규정에도  불구하고  계약할 때 정\n한 삭감기간  및 보험금지급비율 에 따라 다음과  같이 보험금을  지급합니다 . 삭감기간이  경과한  이'), Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 156, 'doc_id': 513}, page_content='157 / 532 ⑤ 보험수익 자와 회사가  제2-3조(보험금의  지급사유 )에 대해 합의하지  못할 때는 보험수익자와  회사가  \n함께 제3자를 정하고  그 제3자의 의견에  따를 수 있습니다 . 제3자는 의료법  제3조(의료기관 )에 규정한  \n종합병원  소속 전문의  중에서  정하며 , 보험금  지급 사유 판정에  드는 의료비용은  회사가  전액 부담합니\n다. \n \n제 2-6 조 장해지급률에  관한 세부규정  \n이 특약은  해당사항이  없습니다 . \n \n제 2-7 조 보험금을  지급하지  않는 사유 \n회사는  다음 중 어느 한 가지로  보험금  지급사유가  발생한  때에는  보험금을 



In [6]:
import gradio as gr

def submit_question(question, chat_history):
    try:
        print(f"질문: {question}")  # 디버깅

        # RAG 체인 실행
        result = rag_chain.invoke({"input": question})  # .invoke() 사용
        print(f"RAG 체인 결과: {result}")  # 디버깅

        # RAG 체인에서 top_k 문서 추출
        context_docs = result.get("context", [])  # Document 객체 리스트
        answer = result.get("answer", "답변을 생성할 수 없습니다.")

        # 하이라이트 데이터를 저장할 리스트
        highlight_parts = []

        # 각 Document에서 상위 3개의 문서 정보와 내용을 하이라이트
        for doc in context_docs[:top_k]:  # 상위 top_k 문서만 처리
            page_text = doc.page_content  # 문서 내용
            source = doc.metadata.get("source", "알 수 없음")  # 문서 이름
            page = doc.metadata.get("page", "알 수 없음")  # 페이지 번호

            # 하이라이트 부분 생성
            highlight_parts.append(
                (f"출처: {source}, 페이지: {page}\n\n{page_text}", "")  # 전체 페이지를 표시
            )

        # 대화 기록에 질문과 답변 추가
        chat_history.append((question, answer))
        return chat_history, "", highlight_parts

    except Exception as e:
        print(f"오류 발생: {e}")  # 디버깅
        import traceback
        traceback.print_exc()
        return chat_history, f"오류 발생: {e}", []


# Gradio UI 구성
with gr.Blocks() as iface:
    # 제목 및 설명
    gr.Markdown("# 보험 문서 챗봇\n보험 문서에 대해 물어보면 답하는 챗봇입니다.")

    # PDF 버튼 및 챗봇 UI
    with gr.Row():
        cancer_btn = gr.Button("생명보험")
        life_btn = gr.Button("손해보험")
        car_btn = gr.Button("자동차보험")
        glossary_btn = gr.Button("용어사전")

    chatbot = gr.Chatbot()
    msg = gr.Textbox(placeholder="뭐든지 물어보세요.", label="챗 입력")
    highlighted_text = gr.HighlightedText(label="문서 하이라이트", show_legend=True)

    # 버튼 행
    with gr.Row():
        submit_btn = gr.Button("보내기")
        retry_btn = gr.Button("다시보내기 ↩")
        undo_btn = gr.Button("이전 채팅 삭제 ❌")
        clear_btn = gr.Button("전체 채팅 삭제 💫")

    # 버튼 클릭 이벤트 설정
    def update_chatbot_with_message(chat_history, sender, message):
        chat_history.append((sender, message))  # 지정된 발신자와 메시지 추가
        return chat_history

    cancer_btn.click(
        lambda chat_history: update_chatbot_with_message(chat_history, "생명보험", "생명보험 관련 정보를 물어보세요."),
        inputs=chatbot,
        outputs=chatbot
    )
    life_btn.click(
        lambda chat_history: update_chatbot_with_message(chat_history, "손해보험", "손해보험 관련 정보를 물어보세요."),
        inputs=chatbot,
        outputs=chatbot
    )
    car_btn.click(
        lambda chat_history: update_chatbot_with_message(chat_history, "자동차보험", "자동차보험 관련 정보를 물어보세요."),
        inputs=chatbot,
        outputs=chatbot
    )
    glossary_btn.click(
        lambda chat_history: update_chatbot_with_message(
            chat_history,
            "용어사전",
            (
                "용어사전에 대한 정보는 다음 링크를 참조하세요:\n"
                "- [보험 용어사전 1](https://www.hwgeneralins.com/lounge/dic/index.do)\n"
                "- [보험 용어사전 2](https://m.blog.naver.com/blogfsc/220149083103)"
            )
        ),
        inputs=chatbot,
        outputs=chatbot
    )

    # 질문 제출 처리
    submit_btn.click(
        submit_question, 
        inputs=[msg, chatbot], 
        outputs=[chatbot, msg, highlighted_text]
    )
    
    # 다시 보내기 버튼
    retry_btn.click(lambda chat_history: chat_history, [chatbot], chatbot)

    # 이전 채팅 삭제 버튼
    undo_btn.click(lambda chat_history: chat_history[:-1] if chat_history else chat_history, [chatbot], chatbot)

    # 전체 채팅 삭제 버튼
    clear_btn.click(lambda: ([], ""), None, chatbot)  # 전체 대화 기록 삭제

iface.launch(share=True, debug=True)



* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://ea374fbac16fe27be0.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


질문: 보험금 지급이 제한될 수 있는 경우는 뭐가 있어?
RAG 체인 결과: {'input': '보험금 지급이 제한될 수 있는 경우는 뭐가 있어?', 'context': [Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 473, 'doc_id': 1678}, page_content='을 지급합니다 .  \n【할증위험률】  \n피보험자의  건강상태가  회사가  정한 기준에  적합하지  않은 경우 일반위험률보다  높게 적용되\n는 위험률  \n \n2. 보험금감액법   \n계약일로부터  회사가  정하는  삭감기간 (削減期間 ) 내에 피보험자에게  재해 이외의  원인으로  해당계\n약의 삭감대상  보험금  지급사유가  발생한  경우에는  해당계약의  규정에도  불구하고  계약할 때 정\n한 삭감기간  및 보험금지급비율 에 따라 다음과  같이 보험금을  지급합니다 . 삭감기간이  경과한  이'), Document(metadata={'source': '한화생명 간편가입 시그니처 암보험(갱신형) 무배당_2055-001_002_약관_20220601_(2).pdf', 'page': 156, 'doc_id': 513}, page_content='157 / 532 ⑤ 보험수익 자와 회사가  제2-3조(보험금의  지급사유 )에 대해 합의하지  못할 때는 보험수익자와  회사가  \n함께 제3자를 정하고  그 제3자의 의견에  따를 수 있습니다 . 제3자는 의료법  제3조(의료기관 )에 규정한  \n종합병원  소속 전문의  중에서  정하며 , 보험금  지급 사유 판정에  드는 의료비용은  회사가  전액 부담합니\n다. \n \n제 2-6 조 장해지급률에  관한 세부규정  \n이 특약은  해당사항이  없습니다 . \n \n제 2-7 조 보험금을  지급하지  않는 사유 \n회사는  다음 중 어느 한 가지로  보험금  지급사유가  발생한  때에는  보험금을 



In [10]:
import gradio as gr

# 보험 종류별 RAG 체인 정의 (생성된 RAG 체인 설정)
rag_chain_cancer = rag_chain  # 생명보험 RAG 체인
rag_chain_life = rag_chain1  # 손해보험 RAG 체인
rag_chain_car = rag_chain2  # 자동차보험 RAG 체인

# 선택된 RAG 체인을 저장할 변수
selected_chain = {"current": None}

def set_rag_chain(chain_type):
    """선택된 RAG 체인을 설정하는 함수"""
    if chain_type == "생명보험":
        selected_chain["current"] = rag_chain_cancer
    elif chain_type == "손해보험":
        selected_chain["current"] = rag_chain_life
    elif chain_type == "자동차보험":
        selected_chain["current"] = rag_chain_car

def submit_question(question, chat_history):
    try:
        print(f"질문: {question}")  # 디버깅

        # 선택된 RAG 체인이 없으면 에러 반환
        if selected_chain["current"] is None:
            return chat_history, "먼저 보험 종류를 선택하세요.", []

        # 선택된 RAG 체인 실행
        result = selected_chain["current"].invoke({"input": question})  # .invoke() 사용
        print(f"RAG 체인 결과: {result}")  # 디버깅

        # RAG 체인에서 top_k 문서 추출
        context_docs = result.get("context", [])  # Document 객체 리스트
        answer = result.get("answer", "답변을 생성할 수 없습니다.")

        # 하이라이트 데이터를 저장할 리스트
        highlight_parts = []

        # 각 Document에서 상위 3개의 문서 정보와 내용을 하이라이트
        for doc in context_docs[:top_k]:  # 상위 top_k 문서만 처리
            page_text = doc.page_content  # 문서 내용
            source = doc.metadata.get("source", "알 수 없음")  # 문서 이름
            page = doc.metadata.get("page", "알 수 없음")  # 페이지 번호

            # 하이라이트 부분 생성
            highlight_parts.append(
                (f"출처: {source}, 페이지: {page}\n\n{page_text}", "")  # 전체 페이지를 표시
            )

        # 대화 기록에 질문과 답변 추가
        chat_history.append((question, answer))
        return chat_history, "", highlight_parts

    except Exception as e:
        print(f"오류 발생: {e}")  # 디버깅
        import traceback
        traceback.print_exc()
        return chat_history, f"오류 발생: {e}", []


# Gradio UI 구성
with gr.Blocks() as iface:
    # 제목 및 설명
    gr.Markdown("# 보험 문서 챗봇\n보험 문서에 대해 물어보면 답하는 챗봇입니다.")

    # PDF 버튼 및 챗봇 UI
    with gr.Row():
        cancer_btn = gr.Button("생명보험")
        life_btn = gr.Button("손해보험")
        car_btn = gr.Button("자동차보험")
        glossary_btn = gr.Button("용어사전")

    chatbot = gr.Chatbot()
    msg = gr.Textbox(placeholder="뭐든지 물어보세요.", label="챗 입력")
    highlighted_text = gr.HighlightedText(label="문서 하이라이트", show_legend=True)

    # 버튼 행
    with gr.Row():
        submit_btn = gr.Button("보내기")
        retry_btn = gr.Button("다시보내기 ↩")
        undo_btn = gr.Button("이전 채팅 삭제 ❌")
        clear_btn = gr.Button("전체 채팅 삭제 💫")

    # 버튼 클릭 이벤트 설정
    def update_chatbot_with_message(chat_history, sender, message):
        chat_history.append((sender, message))  # 지정된 발신자와 메시지 추가
        return chat_history

    # 보험 선택 버튼 설정
    cancer_btn.click(
        lambda chat_history: (
            update_chatbot_with_message(chat_history, "생명보험", "생명보험 관련 정보를 물어보세요."),
            set_rag_chain("생명보험"),
        )[0],
        inputs=chatbot,
        outputs=chatbot,
    )
    life_btn.click(
        lambda chat_history: (
            update_chatbot_with_message(chat_history, "손해보험", "손해보험 관련 정보를 물어보세요."),
            set_rag_chain("손해보험"),
        )[0],
        inputs=chatbot,
        outputs=chatbot,
    )
    car_btn.click(
        lambda chat_history: (
            update_chatbot_with_message(chat_history, "자동차보험", "자동차보험 관련 정보를 물어보세요."),
            set_rag_chain("자동차보험"),
        )[0],
        inputs=chatbot,
        outputs=chatbot,
    )
    glossary_btn.click(
        lambda chat_history: update_chatbot_with_message(
            chat_history,
            "용어사전",
            (
                "용어사전에 대한 정보는 다음 링크를 참조하세요:\n"
                "- [보험 용어사전 1](https://www.hwgeneralins.com/lounge/dic/index.do)\n"
                "- [보험 용어사전 2](https://m.blog.naver.com/blogfsc/220149083103)"
            )
        ),
        inputs=chatbot,
        outputs=chatbot,
    )

    # 질문 제출 처리
    submit_btn.click(
        submit_question, 
        inputs=[msg, chatbot], 
        outputs=[chatbot, msg, highlighted_text]
    )
    
    # 다시 보내기 버튼
    retry_btn.click(lambda chat_history: chat_history, [chatbot], chatbot)

    # 이전 채팅 삭제 버튼
    undo_btn.click(lambda chat_history: chat_history[:-1] if chat_history else chat_history, [chatbot], chatbot)

    # 전체 채팅 삭제 버튼
    clear_btn.click(lambda: ([], ""), None, chatbot)  # 전체 대화 기록 삭제

iface.launch(share=True, debug=True)



* Running on local URL:  http://127.0.0.1:7860
* Running on public URL: https://be501f138813184367.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


질문: 한쪽 눈이 시력이 0.1 이하로 되는 경우의 장애 등급은 무엇인가요?
RAG 체인 결과: {'input': '한쪽 눈이 시력이 0.1 이하로 되는 경우의 장애 등급은 무엇인가요?', 'context': [Document(metadata={'source': '한화 개인용 자동차보험.pdf', 'page': 124, 'doc_id': 614}, page_content='2. 두 눈의 시력이 각각 0.02 이하로 된 사람\n3. 두 팔을 손목관절 이상의 부위에서 잃은 사람\n4. 두 다리를 발목관절 이상의 부위에서 잃은 사람\n5. 신경계통의 기능 또는 정신기능에 뚜렷한 장애가 남아 수 시로 \n보호를 받아야 하는 사람\n6. 흉복부 장기의 기능에 뚜렷한 장애가 남아 수시로 보호를 받아\n야 하는 사람\n3급1억\n2천\n만원1. 한쪽 눈이 실명되고 다른 쪽 눈의 시력이 0.06 이하로 된 사람\n2. 말하는 기능이나 음식물을 씹는 기능을 완전히 잃은 사람\n3. 신경계통의 기능 또는 정신기능에 뚜렷한 장애가 남아 일생 동\n안 노무에 종사할 수 없는 사람\n4. 흉복부 장기의 기능에 뚜렷한 장애가 남아 일생 동안 노무에 종\n사할 수 없는 사람\n5. 두 손의 손가락을 모두 잃은 사람'), Document(metadata={'source': '한화 개인용 자동차보험.pdf', 'page': 54, 'doc_id': 261}, page_content='6) 한 눈의 교정시력이 0.6 이하로 된 때  5\n7) 한 눈의 안구에 뚜렷한 조절기능장애나 뚜렷한 운동장애를 남긴 때 10\n8) 한 눈의 시야가 좁아지거나(정상시야의 60%이하) 반맹증 또는 시야\n협착을 남긴 때5\n9) 한 눈의 눈꺼풀에 뚜렷한 결손이 남은 때 15\n10) 한 눈의 눈꺼풀에 뚜렷한 운동장애를 남긴 때 10\n2. 귀(耳)의 장애\n1) 두 귀의 청력을 완전히 잃었을 때    80'), Document(metadata={'source': '한화 개인용 자동차보험.pdf', 'page'

Traceback (most recent call last):
  File "/home/jonghai/.local/lib/python3.10/site-packages/gradio/queueing.py", line 624, in process_events
    response = await route_utils.call_process_api(
  File "/home/jonghai/.local/lib/python3.10/site-packages/gradio/route_utils.py", line 323, in call_process_api
    output = await app.get_blocks().process_api(
  File "/home/jonghai/.local/lib/python3.10/site-packages/gradio/blocks.py", line 2028, in process_api
    data = await self.postprocess_data(block_fn, result["prediction"], state)
  File "/home/jonghai/.local/lib/python3.10/site-packages/gradio/blocks.py", line 1834, in postprocess_data
    prediction_value = block.postprocess(prediction_value)
  File "/home/jonghai/.local/lib/python3.10/site-packages/gradio/components/chatbot.py", line 529, in postprocess
    self._check_format(value, "tuples")
  File "/home/jonghai/.local/lib/python3.10/site-packages/gradio/components/chatbot.py", line 328, in _check_format
    raise Error(
gradio.exce

질문: 한쪽 눈이 시력이 0.1 이하로 되는 경우의 장애 등급은 무엇인가요?
RAG 체인 결과: {'input': '한쪽 눈이 시력이 0.1 이하로 되는 경우의 장애 등급은 무엇인가요?', 'context': [Document(metadata={'source': '한화 개인용 자동차보험.pdf', 'page': 124, 'doc_id': 614}, page_content='2. 두 눈의 시력이 각각 0.02 이하로 된 사람\n3. 두 팔을 손목관절 이상의 부위에서 잃은 사람\n4. 두 다리를 발목관절 이상의 부위에서 잃은 사람\n5. 신경계통의 기능 또는 정신기능에 뚜렷한 장애가 남아 수 시로 \n보호를 받아야 하는 사람\n6. 흉복부 장기의 기능에 뚜렷한 장애가 남아 수시로 보호를 받아\n야 하는 사람\n3급1억\n2천\n만원1. 한쪽 눈이 실명되고 다른 쪽 눈의 시력이 0.06 이하로 된 사람\n2. 말하는 기능이나 음식물을 씹는 기능을 완전히 잃은 사람\n3. 신경계통의 기능 또는 정신기능에 뚜렷한 장애가 남아 일생 동\n안 노무에 종사할 수 없는 사람\n4. 흉복부 장기의 기능에 뚜렷한 장애가 남아 일생 동안 노무에 종\n사할 수 없는 사람\n5. 두 손의 손가락을 모두 잃은 사람'), Document(metadata={'source': '한화 개인용 자동차보험.pdf', 'page': 54, 'doc_id': 261}, page_content='6) 한 눈의 교정시력이 0.6 이하로 된 때  5\n7) 한 눈의 안구에 뚜렷한 조절기능장애나 뚜렷한 운동장애를 남긴 때 10\n8) 한 눈의 시야가 좁아지거나(정상시야의 60%이하) 반맹증 또는 시야\n협착을 남긴 때5\n9) 한 눈의 눈꺼풀에 뚜렷한 결손이 남은 때 15\n10) 한 눈의 눈꺼풀에 뚜렷한 운동장애를 남긴 때 10\n2. 귀(耳)의 장애\n1) 두 귀의 청력을 완전히 잃었을 때    80'), Document(metadata={'source': '한화 개인용 자동차보험.pdf', 'page'

