## 환경설정

### env 파일 생성

In [12]:
from dotenv import load_dotenv

# .env 파일을 만들고, OpenAI api key 를 붙여넣기합니다.
# OPENAI_API_KEY=sk-

# 토큰 정보로드
load_dotenv()

True

### 벡터스토어 세팅

In [13]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_openai import OpenAIEmbeddings

# See docker command above to launch a postgres instance with pgvector enabled.
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection=f"postgresql+psycopg2://rag_note:rag_note@localhost:5433/rag_note"
collection_name = "my_db"

vector_store = PGVector(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

## PDF 기반 질의 응답(Question-Answering)Permalink

### 데이터 로드

In [14]:
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드
loader = PyPDFLoader("../data/[일반보험]_KB개인상해보험_보험약관.pdf")
document = loader.load()
document[0].page_content[:200] # 내용 추출

'KB개인상해보험'

### 데이터 분할

In [15]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
texts = text_splitter.split_documents(document)

### 벡터 스토어에 저장

In [16]:
vector_store.add_documents(texts)

['07c839af-b45c-4994-95c9-f808b0a4d2c3',
 'a4667014-51e8-4dce-aedf-b739eb27ec14',
 '2703f8d2-12a1-4c6f-9b3a-ff77ea8599a4',
 '365ee4ec-d30d-4743-bea4-dfdcff48b0aa',
 '17ca8af4-e0dc-4ab2-ab12-5825c4f36859',
 '20273a8f-1b93-431d-bf4e-400cc5145c4e',
 '642c16ef-a094-4fd6-a004-4ffb4c9a7286',
 'b8a750c6-efa0-4713-b4cf-ad587b7f9211',
 '75f11aea-270b-4250-8d71-af72604718e0',
 '9b5c951d-2a6b-419c-a064-0343a03d9350',
 'b9976e4b-4ef9-410b-a694-32b03105f5e9',
 '6766d71f-05ff-4d23-8ef9-3fbfb8f05ee8',
 '13e178ec-e372-4dd0-ae38-92de6aa4e79c',
 'a10a022a-015c-4c84-866d-1c27ce90a41a',
 '1d7f192c-4261-4fee-9563-e05dbbcb178e',
 'b6dda37a-797d-4a56-ae8b-318f1fdb33b7',
 '78fe432e-99ee-4068-bcd5-8804e22e1ad9',
 '3af700ff-7b1c-4c67-888e-a94eba7aec59',
 '53f0d9b2-7ab3-43bf-8ad4-1871e5f2b67d',
 '47bdf0d3-8a17-49cd-beee-7c8232e20028',
 '70a3049c-066a-4875-892e-6fecb2301a33',
 '690543d1-53c8-41ff-8267-7f55fb1117b9',
 '3886e0c3-4b50-4648-994b-6918f536b0d6',
 '0a656fd1-127d-498e-a947-7e191b78e410',
 '16b2a028-8f07-

## Multi-Query

### Multi-query 생성 및 문서 검색

MultiQueryRetriever 클래스를 사용해 주어진 질문과 연관된 추가 쿼리를 여러 개 생성하고,  
각각의 쿼리를 이용해 문서를 검색합니다.  
(MultiQueryRetriever 클래스를 사용하지 않고 프롬프트를 이용해 쿼리를 생성할 수도 있습니다.  
참고 : https://wikidocs.net/234109)  

In [17]:
# 멀티 쿼리 생성
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

question = '보험금의 지급사유'

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

# MultiQueryRetriever 설정
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vector_store.as_retriever(), llm=llm
)

# Set logging for the queries
import logging

# 생성되는 multi-query 확인
logging.basicConfig()
logging.getLogger('langchain.retrievers.multi_query').setLevel(logging.INFO)

# query 에 대해 Multi-query 문서 검색 (질문과 관련 있는 문서 검색)
relevant_docs = retriever_from_llm.get_relevant_documents(query=question)
relevant_docs

INFO:langchain.retrievers.multi_query:Generated queries: ['1. 보험금 지급을 결정하는 기준은 무엇인가요?', '2. 어떤 상황에서 보험금을 받을 수 있나요?', '3. 보험금 지급 조건에는 어떤 것들이 포함되나요?']


[Document(id='1d7f192c-4261-4fee-9563-e05dbbcb178e', metadata={'page': 14, 'source': '../data/[일반보험]_KB개인상해보험_보험약관.pdf'}, page_content='- 4 - 4. 기타 보험수익자가 보험금의 수령에 필요하여 제출하는 서류(사망보험금 지급시 피보험\n자의 법정상속인이 아닌자가 청구하는 경우 법정상속인의 확인서 )\n② 제1항 제2호의 사고증명서는 의료법 제3조(의료기관 )에서 규정한 국내의 병원이나 의원 또\n는 국외의 의료관련법에서 정한 의료기관에서 발급한 것이어야 합니다 .\n제8조(보험금의 지급절차 ) \n① 회사는 제7조(보험금의 청구)에서 정한 서류를 접수한 때에는 접수증을 드리고 휴대전화 문\n자메시지 또는 전자우편 등으로도 송부하며 , 그 서류를 접수한 날부터 3영업일 이내에 보\n험금을 지급합니다 .\n② 회사가 보험금 지급사유를 조사․확인하기 위해 필요한 기간이 제1항의 지급기일을 초과할 \n것이 명백히 예상되는 경우에는 그 구체적인 사유와 지급예정일 및 보험금 가지급제도 (회사\n가 추정하는 보험금의 50% 이내를 지급)에 대하여 피보험자 또는 보험수익자에게 즉시 통\n지합니다 . 다만, 지급예정일은 다음 각 호의 어느 하나에 해당하는 경우를 제외하고는 제7\n조(보험금의 청구)에서 정한 서류를 접수한 날부터 30영업일 이내에서 정합니다 .\n 1. 소송제기\n 2. 분쟁조정 신청\n【분쟁조정 신청】\n분쟁조정 신청은 이 약관의 「분쟁의 조정」조항에 따르며 분쟁조정 신청 대상기관은 금융\n감독원의 금융분쟁조정위원회를 말합니다 .\n 3. 수사기관의 조사 \n 4. 해외에서 발생한 보험사고에 대한 조사\n 5. 제6항에 따른 회사의 조사요청에 대한 동의 거부 등 계약자 , 피보험자 또는 보험수익자\n의 책임있는 사유로 보험금 지급사유의 조사와 확인이 지연되는 경우\n 6. 제4조(보험금 지급에 관한 세부규정 ) 제6항에 따라 보험금 지급사유에 대해 제3

get_relevant_documents 대신 invoke 를 이용할 수도 있습니다.

In [18]:
relevant_docs = retriever_from_llm.invoke(question)
# 문서 검색
relevant_docs

INFO:langchain.retrievers.multi_query:Generated queries: ['1. 보험금 지급을 결정하는 기준은 무엇인가요?', '2. 어떤 상황에서 보험금을 받을 수 있나요?', '3. 보험금 지급 조건에는 어떤 것들이 포함되나요?']


[Document(id='1d7f192c-4261-4fee-9563-e05dbbcb178e', metadata={'page': 14, 'source': '../data/[일반보험]_KB개인상해보험_보험약관.pdf'}, page_content='- 4 - 4. 기타 보험수익자가 보험금의 수령에 필요하여 제출하는 서류(사망보험금 지급시 피보험\n자의 법정상속인이 아닌자가 청구하는 경우 법정상속인의 확인서 )\n② 제1항 제2호의 사고증명서는 의료법 제3조(의료기관 )에서 규정한 국내의 병원이나 의원 또\n는 국외의 의료관련법에서 정한 의료기관에서 발급한 것이어야 합니다 .\n제8조(보험금의 지급절차 ) \n① 회사는 제7조(보험금의 청구)에서 정한 서류를 접수한 때에는 접수증을 드리고 휴대전화 문\n자메시지 또는 전자우편 등으로도 송부하며 , 그 서류를 접수한 날부터 3영업일 이내에 보\n험금을 지급합니다 .\n② 회사가 보험금 지급사유를 조사․확인하기 위해 필요한 기간이 제1항의 지급기일을 초과할 \n것이 명백히 예상되는 경우에는 그 구체적인 사유와 지급예정일 및 보험금 가지급제도 (회사\n가 추정하는 보험금의 50% 이내를 지급)에 대하여 피보험자 또는 보험수익자에게 즉시 통\n지합니다 . 다만, 지급예정일은 다음 각 호의 어느 하나에 해당하는 경우를 제외하고는 제7\n조(보험금의 청구)에서 정한 서류를 접수한 날부터 30영업일 이내에서 정합니다 .\n 1. 소송제기\n 2. 분쟁조정 신청\n【분쟁조정 신청】\n분쟁조정 신청은 이 약관의 「분쟁의 조정」조항에 따르며 분쟁조정 신청 대상기관은 금융\n감독원의 금융분쟁조정위원회를 말합니다 .\n 3. 수사기관의 조사 \n 4. 해외에서 발생한 보험사고에 대한 조사\n 5. 제6항에 따른 회사의 조사요청에 대한 동의 거부 등 계약자 , 피보험자 또는 보험수익자\n의 책임있는 사유로 보험금 지급사유의 조사와 확인이 지연되는 경우\n 6. 제4조(보험금 지급에 관한 세부규정 ) 제6항에 따라 보험금 지급사유에 대해 제3

### LangChain 을 이용한 Multi-Query 답변 생성

In [19]:
from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain.schema.runnable import RunnablePassthrough
from langchain.retrievers.multi_query import MultiQueryRetriever


# Prompt
template = '''Answer the question based only on the following context:
{context}

Question: {question}
'''

prompt = ChatPromptTemplate.from_template(template)


question = '보험금의 지급사유'

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vector_store.as_retriever(), llm=llm
)


# 각각의 문서를 하나의 문자열로 join 합니다.
def format_docs(docs):
    return '\n\n'.join([d.page_content for d in docs])


#  LangChain 을 생성합니다.
# retriever_from_llm 을 이용해 얻은 문서들을 context 로 하는 LangChain 을 생성해 최종 답변을 얻습니다.
chain = (
    {'context': retriever_from_llm | format_docs, 'question': RunnablePassthrough()}
    | ChatPromptTemplate.from_template(template)
    | llm
    | StrOutputParser()
)

# Run
response = chain.invoke(question)
response

INFO:langchain.retrievers.multi_query:Generated queries: ['1. 보험금 지급을 결정하는 기준은 무엇인가요?', '2. 어떤 상황에서 보험금을 받을 수 있나요?', '3. 보험금 지급 조건에는 어떤 것들이 포함되나요?']


'보험금의 지급사유는 다음과 같습니다:\n\n1. 보험기간 중에 상해의 직접결과로써 사망한 경우: 사망보험금\n2. 보험기간 중 상해로 장해분류표에서 정한 각 장해지급률에 해당하는 장해상태가 되었을 때: 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하여 산출한 금액)\n3. 항공기탑승중 상해위험 특별약관에 따라, 보험기간 중에 급격하고도 우연한 외래의 항공기 사고로 발생한 상해의 직접결과로써 사망한 경우 또는 제1호의 상해로 장해분류표에서 정한 각 장해지급률에 해당하는 장해상태가 되었을 때 보험수익자에게 약정한 보험금을 지급합니다.\n\n이 외에도 보험금 지급사유에는 특정 질병으로 인한 사망, 장해 상태, 연명의료중단등결정 및 그 이행으로 인한 사망 등이 포함될 수 있으며, 보험 약관에 따라 다양한 사유가 명시되어 있습니다.'