## 환경설정

### env 파일 생성

In [1]:
from dotenv import load_dotenv

# .env 파일을 만들고, OpenAI api key 를 붙여넣기합니다.
# OPENAI_API_KEY=sk-

# 토큰 정보로드
load_dotenv()

True

### 벡터스토어 세팅

In [2]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_openai import OpenAIEmbeddings

# See docker command above to launch a postgres instance with pgvector enabled.
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection=f"postgresql+psycopg2://rag_note:rag_note@localhost:5433/rag_note"
collection_name = "my_db"

vector_store = PGVector(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

## PDF 기반 질의 응답(Question-Answering)Permalink

### 데이터 로드

In [None]:
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드
loader = PyPDFLoader("../data/[일반보험]_KB개인상해보험_보험약관.pdf")
document = loader.load()
document[0].page_content[:200] # 내용 추출

### 데이터 분할

In [None]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
texts = text_splitter.split_documents(document)

### 벡터 스토어에 저장

In [None]:
vector_store.add_documents(texts)

## Fusion

### RRF 함수 정의

In [9]:
from langchain.load import dumps, loads

def reciprocal_rank_fusion(results: list[list], k=60):
    """ Reciprocal_rank_fusion that takes multiple lists of ranked documents 
        and an optional parameter k used in the RRF formula """
    
    # Initialize a dictionary to hold fused scores for each unique document
    fused_scores = {}

    # Iterate through each list of ranked documents
    for docs in results:
        # Iterate through each document in the list, with its rank (position in the list)
        for rank, doc in enumerate(docs):
            # Convert the document to a string format to use as a key (assumes documents can be serialized to JSON)
            doc_str = dumps(doc)
            # If the document is not yet in the fused_scores dictionary, add it with an initial score of 0
            if doc_str not in fused_scores:
                fused_scores[doc_str] = 0
            # Retrieve the current score of the document, if any
            previous_score = fused_scores[doc_str]
            # Update the score of the document using the RRF formula: 1 / (rank + k)
            fused_scores[doc_str] += 1 / (rank + k)

    # Sort the documents based on their fused scores in descending order to get the final reranked results
    reranked_results = [
        (loads(doc), score)
        for doc, score in sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)
    ]

    # Return the reranked results as a list of tuples, each containing the document and its fused score
    return reranked_results

### 프롬프트를 이용한 질문 생성

In [12]:
from langchain.prompts import ChatPromptTemplate

# RAG-Fusion: Related
template = """You are a helpful assistant that generates multiple search queries based on a single input query. \n
Generate multiple search queries related to: {question} \n
Output (3 queries):"""
prompt_rag_fusion = ChatPromptTemplate.from_template(template)

In [13]:
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

generate_queries = (
    prompt_rag_fusion 
    | llm
    | StrOutputParser() 
    | (lambda x: x.split("\n"))
)

In [14]:
question = '보험금의 지급사유'
generate_queries.invoke({"question": question})

['1. "보험금 지급사유의 종류와 예시"',
 '2. "보험금 지급 거절 사유 및 대응 방법"',
 '3. "보험금 지급 절차 및 필요 서류"']

In [15]:
retriever = vector_store.as_retriever()
retrieval_chain_rag_fusion = generate_queries | retriever.map()
docs = retrieval_chain_rag_fusion.invoke({"question": question})
docs

[[Document(id='13e178ec-e372-4dd0-ae38-92de6aa4e79c', metadata={'page': 12, 'source': '../data/[일반보험]_KB개인상해보험_보험약관.pdf'}, page_content='- 2 - 4. 기간과 날짜 관련 용어\n가. 보험기간 : 계약에 따라 보장을 받는 기간을 말합니다 .\n나. 영업일 : 회사가 영업점에서 정상적으로 영업하는 날을 말하며 , 토요일 , ‘관공서의 공휴\n일에 관한 규정’에 따른 공휴일과 근로자의 날을 제외합니다 .\n제2관 보험금의 지급\n제3조(보험금의 지급사유 )\n회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정한 보\n험금을 지급합니다 .\n 1. 보험기간 중에 상해의 직접결과로써 사망한 경우(질병으로 인한 사망은 제외합니다 ): 사\n망보험금\n 2. 보험기간 중 상해로 장해분류표 (<별표1> 참조)에서 정한 각 장해지급률에 해당하는 장해\n상태가 되었을 때: 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하\n여 산출한 금액)\n제4조(보험금 지급에 관한 세부규정 ) \n① 제3조(보험금의 지급사유 ) 제1호 ‘사망’에는 보험기간에 다음 어느 하나의 사유가 발생한 \n경우를 포함합니다 .\n 1. 실종선고를 받은 경우: 법원에서 인정한 실종기간이 끝나는 때에 사망한 것으로 봅니다 .\n 2. 관공서에서 수해, 화재나 그 밖의 재난을 조사하고 사망한 것으로 통보하는 경우: 가족관\n계등록부에 기재된 사망연월일을 기준으로 합니다 .\n② 「호스피스 ·완화의료 및 임종과정에 있는 환자의 연명의료 결정에 관한 법률」에 따른 연명\n의료중단등결정 및 그 이행으로 피보험자가 사망하는 경우 연명의료중단등결정 및 그 이행\n은 제3조(보험금의 지급사유 ) 제1호 ‘사망’의 원인 및 ‘사망보험금 ’ 지급에 영향을 미치지 \n않습니다 .\n③ 제3조(보험금의 지급사유 ) 제2호에서 장해지급률이 상해 발생일부터 180일 이내에 확

In [16]:
from operator import itemgetter
from langchain_core.runnables import RunnablePassthrough

# Prompt
template = '''Answer the question based only on the following context:
{context}

Question: {question}
'''

prompt = ChatPromptTemplate.from_template(template)

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

final_rag_chain = (
    {'context': retrieval_chain_rag_fusion, 'question': RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

final_rag_chain.invoke(question)

'보험금의 지급사유는 다음과 같습니다:\n\n1. 보험기간 중에 상해의 직접결과로써 사망한 경우(질병으로 인한 사망은 제외합니다): 사망보험금\n2. 보험기간 중 상해로 장해분류표에서 정한 각 장해지급률에 해당하는 장해상태가 되었을 때: 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하여 산출한 금액)\n\n또한, 보험금 지급에 관한 세부규정에서는 다음과 같은 사항들이 포함됩니다:\n\n- 제3조 제1호 ‘사망’에는 보험기간에 다음 어느 하나의 사유가 발생한 경우를 포함합니다:\n  1. 실종선고를 받은 경우: 법원에서 인정한 실종기간이 끝나는 때에 사망한 것으로 봅니다.\n  2. 관공서에서 수해, 화재나 그 밖의 재난을 조사하고 사망한 것으로 통보하는 경우: 가족관계등록부에 기재된 사망연월일을 기준으로 합니다.\n- 「호스피스 ·완화의료 및 임종과정에 있는 환자의 연명의료 결정에 관한 법률」에 따른 연명의료중단등결정 및 그 이행으로 피보험자가 사망하는 경우 연명의료중단등결정 및 그 이행은 제3조(보험금의 지급사유) 제1호 ‘사망’의 원인 및 ‘사망보험금’ 지급에 영향을 미치지 않습니다.\n\n이 외에도 보험금 지급에 관한 세부규정에서는 장해지급률의 결정, 후유장해에 대한 보험금 지급, 보험수익자와 회사 간의 합의 불발 시 제3자의 의견에 따를 수 있는 절차, 다른 상해로 인한 후유장해 발생 시의 보험금 지급 방법 등에 대한 규정이 포함되어 있습니다.'

### RRF 를 적용해 Rerank

In [17]:
retriever = vector_store.as_retriever()
retrieval_chain_rag_fusion = generate_queries | retriever.map() | reciprocal_rank_fusion
docs = retrieval_chain_rag_fusion.invoke({"question": question})
docs

[(Document(id='13e178ec-e372-4dd0-ae38-92de6aa4e79c', metadata={'page': 12, 'source': '../data/[일반보험]_KB개인상해보험_보험약관.pdf'}, page_content='- 2 - 4. 기간과 날짜 관련 용어\n가. 보험기간 : 계약에 따라 보장을 받는 기간을 말합니다 .\n나. 영업일 : 회사가 영업점에서 정상적으로 영업하는 날을 말하며 , 토요일 , ‘관공서의 공휴\n일에 관한 규정’에 따른 공휴일과 근로자의 날을 제외합니다 .\n제2관 보험금의 지급\n제3조(보험금의 지급사유 )\n회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정한 보\n험금을 지급합니다 .\n 1. 보험기간 중에 상해의 직접결과로써 사망한 경우(질병으로 인한 사망은 제외합니다 ): 사\n망보험금\n 2. 보험기간 중 상해로 장해분류표 (<별표1> 참조)에서 정한 각 장해지급률에 해당하는 장해\n상태가 되었을 때: 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하\n여 산출한 금액)\n제4조(보험금 지급에 관한 세부규정 ) \n① 제3조(보험금의 지급사유 ) 제1호 ‘사망’에는 보험기간에 다음 어느 하나의 사유가 발생한 \n경우를 포함합니다 .\n 1. 실종선고를 받은 경우: 법원에서 인정한 실종기간이 끝나는 때에 사망한 것으로 봅니다 .\n 2. 관공서에서 수해, 화재나 그 밖의 재난을 조사하고 사망한 것으로 통보하는 경우: 가족관\n계등록부에 기재된 사망연월일을 기준으로 합니다 .\n② 「호스피스 ·완화의료 및 임종과정에 있는 환자의 연명의료 결정에 관한 법률」에 따른 연명\n의료중단등결정 및 그 이행으로 피보험자가 사망하는 경우 연명의료중단등결정 및 그 이행\n은 제3조(보험금의 지급사유 ) 제1호 ‘사망’의 원인 및 ‘사망보험금 ’ 지급에 영향을 미치지 \n않습니다 .\n③ 제3조(보험금의 지급사유 ) 제2호에서 장해지급률이 상해 발생일부터 180일 이내에 확

### LangChain 생성 및 실행

In [18]:
from operator import itemgetter
from langchain_core.runnables import RunnablePassthrough

# Prompt
template = '''Answer the question based only on the following context:
{context}

Question: {question}
'''

prompt = ChatPromptTemplate.from_template(template)

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

final_rag_chain = (
    {'context': retrieval_chain_rag_fusion, 'question': RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

final_rag_chain.invoke(question)

'보험금의 지급사유는 다음과 같습니다:\n\n1. 보험기간 중에 상해의 직접결과로써 사망한 경우(질병으로 인한 사망은 제외합니다): 사망보험금\n2. 보험기간 중 상해로 장해분류표에서 정한 각 장해지급률에 해당하는 장해상태가 되었을 때: 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하여 산출한 금액)'