## 환경설정

In [None]:
from dotenv import load_dotenv

# .env 파일을 만들고, OpenAI api key 를 붙여넣기합니다.
# OPENAI_API_KEY=sk-

# 토큰 정보로드
load_dotenv()

## 벡터스토어 세팅

In [13]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_openai import OpenAIEmbeddings

# See docker command above to launch a postgres instance with pgvector enabled.
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection=f"postgresql+psycopg2://rag_note:rag_note@localhost:5433/rag_note"
collection_name = "my_db"

vector_store = PGVector(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

## PDF 기반 질의 응답(Question-Answering)Permalink

### 데이터 로드

In [14]:
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드
loader = PyPDFLoader("../data/[일반보험]_KB개인상해보험_보험약관.pdf")
document = loader.load()
document[0].page_content[:200] # 내용 추출

'KB개인상해보험'

### 데이터 분할

In [15]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
texts = text_splitter.split_documents(document)

### 벡터 스토어에 저장

In [16]:
vector_store.add_documents(texts)

['71666e67-f285-4bf6-abff-acf090316c41',
 '83c39ad2-f1b6-4a8a-a554-0b59fe0212d6',
 'bfbc1b9f-7a9d-458f-bfb8-918683dfe5cd',
 'ead50a5c-9e48-42cd-8632-8b6920ce6946',
 '8743593f-065a-4cd8-8396-49e8f53c1bfb',
 'e41ab4a6-8f40-447c-82cf-7ea43b109c0a',
 'd4f3b0f4-98f9-4e2e-9b6e-b7d131ca2134',
 'f744336f-63d9-4102-9b26-ba5feb3dd81c',
 '0778827c-fb73-4906-935e-6dd3ba25a78c',
 '5dcd9ebf-da0b-4953-b457-89f0c423ca86',
 '1623e577-a08a-4183-bfae-a0613a2e4150',
 '531b0b15-83d3-40f7-93e1-8e4023039c99',
 'cb50dd4a-ed10-4aa6-8efb-d2a31cda2034',
 '9d76ddac-4cca-4f1c-b9bb-539186d18af5',
 'eac8577c-d0e1-44a7-82d1-8572bd409335',
 'edbcb9d0-f5a5-4dd1-8144-855c51d83109',
 '3c23715f-025d-4dcf-b1d2-8dcdeb6c4a53',
 '7a4a3e19-66cc-4060-9a7e-29bce7fed2ea',
 '58062d4f-4120-4b95-ab06-732224050609',
 '13762cca-28f9-4b9d-9e8b-1b2e9c5020f1',
 '46dc2cab-ffa7-4e59-af1c-7a5ce05d30db',
 '9e33e16a-d17c-4a11-9c4d-f688ea5ea374',
 '96c57e0f-75ab-4224-bf93-f6d9c157104c',
 'd7253afb-755d-481f-92fc-c4a93c1d99bb',
 '9f234557-f2f6-

### 검색

In [17]:
vector_store.similarity_search(query="보험금의 지급사유",k=3)

[Document(id='9d76ddac-4cca-4f1c-b9bb-539186d18af5', metadata={'page': 13, 'source': '../data/[일반보험]_KB개인상해보험_보험약관.pdf'}, page_content='- 3 -의하거나 또는 그 이전에 발생한 후유장해를 포함합니다 ), 후유장해보험금이 지급되지 않았\n던 피보험자에게 그 신체의 동일 부위에 또다시 제8항에 규정하는 후유장해상태가 발생하\n였을 경우에는 직전까지의 후유장해에 대한 후유장해보험금이 지급된 것으로 보고 최종 후\n유장해 상태에 해당되는 후유장해보험금에서 이를 차감하여 지급합니다 .\n【사 례】\n이 계약의 보장개시전의 원인에 의하거나 또는 그 이전에 발생한 장해로 후유장해보험금\n의 지급사유가 되지 않았던 장해 :\n보험가입 전 한 팔의 손목관절에 심한 장해(지급률 20%)가 있었던 피보험자가 보험가입 \n후 상해로 그 손목관절에 기능을 완전히 잃은 경우(지급률 30%)에는 보험가입 후 발생한 \n상해로 인한 장해지급률 30%에서 보험가입 전 발생한 장해지급률 20%를 차감한 10%에 \n해당하는 후유장해보험금을 지급\n⑩ 회사가 지급하여야 할 하나의 상해로 인한 후유장해보험금은 보험가입금액을 한도로 합니다 .\n제5조(보험금을 지급하지 않는 사유) \n① 회사는 다음 중 어느 한가지로 보험금 지급사유가 발생한 때에는 보험금을 지급하지 않습\n니다.\n 1. 피보험자가 고의로 자신을 해친 경우. 다만, 피보험자가 심신상실 등으로 자유로운 의사\n결정을 할 수 없는 상태에서 자신을 해친 경우에는 보험금을 지급합니다 .\n 2. 보험수익자가 고의로 피보험자를 해친 경우. 다만, 그 보험수익자가 보험금의 일부 보험\n수익자인 경우에는 다른 보험수익자에 대한 보험금은 지급합니다 .\n 3. 계약자가 고의로 피보험자를 해친 경우\n 4. 피보험자의 임신, 출산(제왕절개를 포함합니다 ), 산후기 . 그러나 , 회사가 보장하는 보험금 \n지급사유와 보장개시일부터 2년이 지

In [18]:
retriever = vector_store.as_retriever(
    search_type="mmr",
    # search_kwargs={"k": 3, "fetch_k": 2, "lambda_mult": 0.5},
    search_kwargs={"k": 10, "fetch_k": 3, "lambda_mult": 0.5},
)
retriever.invoke("보험금의 지급사유")

[Document(id='9d76ddac-4cca-4f1c-b9bb-539186d18af5', metadata={'page': 13, 'source': '../data/[일반보험]_KB개인상해보험_보험약관.pdf'}, page_content='- 3 -의하거나 또는 그 이전에 발생한 후유장해를 포함합니다 ), 후유장해보험금이 지급되지 않았\n던 피보험자에게 그 신체의 동일 부위에 또다시 제8항에 규정하는 후유장해상태가 발생하\n였을 경우에는 직전까지의 후유장해에 대한 후유장해보험금이 지급된 것으로 보고 최종 후\n유장해 상태에 해당되는 후유장해보험금에서 이를 차감하여 지급합니다 .\n【사 례】\n이 계약의 보장개시전의 원인에 의하거나 또는 그 이전에 발생한 장해로 후유장해보험금\n의 지급사유가 되지 않았던 장해 :\n보험가입 전 한 팔의 손목관절에 심한 장해(지급률 20%)가 있었던 피보험자가 보험가입 \n후 상해로 그 손목관절에 기능을 완전히 잃은 경우(지급률 30%)에는 보험가입 후 발생한 \n상해로 인한 장해지급률 30%에서 보험가입 전 발생한 장해지급률 20%를 차감한 10%에 \n해당하는 후유장해보험금을 지급\n⑩ 회사가 지급하여야 할 하나의 상해로 인한 후유장해보험금은 보험가입금액을 한도로 합니다 .\n제5조(보험금을 지급하지 않는 사유) \n① 회사는 다음 중 어느 한가지로 보험금 지급사유가 발생한 때에는 보험금을 지급하지 않습\n니다.\n 1. 피보험자가 고의로 자신을 해친 경우. 다만, 피보험자가 심신상실 등으로 자유로운 의사\n결정을 할 수 없는 상태에서 자신을 해친 경우에는 보험금을 지급합니다 .\n 2. 보험수익자가 고의로 피보험자를 해친 경우. 다만, 그 보험수익자가 보험금의 일부 보험\n수익자인 경우에는 다른 보험수익자에 대한 보험금은 지급합니다 .\n 3. 계약자가 고의로 피보험자를 해친 경우\n 4. 피보험자의 임신, 출산(제왕절개를 포함합니다 ), 산후기 . 그러나 , 회사가 보장하는 보험금 \n지급사유와 보장개시일부터 2년이 지

### LLM 정의

In [19]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

### 프롬프트 템플릿

In [65]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.messages import SystemMessage

system_prompt = SystemMessage(content=
        """당신은 전문 상담원입니다. 아래 지침에 따라 사용자의 질문에 답변을 제공하세요.
        ---------------------
        1. 주어진 정보만 활용하여 답변을 제공하세요. 주어진 정보로 답변을 할 수 없는 경우, 정중하게 답변을 제공할 수 없다고 설명합니다.
        2. 답변은 정제된 형식과 문어체로 작성하며, 친절하고 자세한 내용을 제공합니다.
        ---------------------
        """
)

template = (
        "Below is the context information.\n"
        "---------------------\n"
        "{context}"
        "\n---------------------\n"
        "Given the context information, provide a most relevant chunk to {query}."
        "If there is no title that matches, output '해당정보 존재하지 않음'."
        "Do not include the title on your final output."
)

prompt = ChatPromptTemplate.from_messages([system_prompt, template])

### Langchain 생성

In [66]:
def format_docs(docs):
    return "\n\n".join([d.page_content for d in docs])

chain = (
        {"context": retriever | format_docs, "query": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

### 테스트

In [67]:
chain.invoke("보험금의 지급사유")

'회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정한 보험금을 지급합니다 .\n 1. 보험기간 중에 상해의 직접결과로써 사망한 경우(질병으로 인한 사망은 제외합니다 ): 사망보험금\n 2. 보험기간 중 상해로 장해분류표 (<별표1> 참조)에서 정한 각 장해지급률에 해당하는 장해상태가 되었을 때: 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하여 산출한 금액)'

---

### 함수로 변경

In [68]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

def format_docs(docs):
    return "\n\n".join([d.page_content for d in docs])

def extract(retriever, system, prompt, llm, text_query):
    chain = (
            {"context": retriever | format_docs, "query": RunnablePassthrough()}
            | ChatPromptTemplate.from_messages([system, template])
            | llm
            | StrOutputParser()
        )
    output = chain.invoke(text_query)

    return output

### 테스트

In [69]:
query = "보험금의 지급사유"
extract(retriever, system_prompt, prompt, llm, query)

'회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정한 보험금을 지급합니다 .\n 1. 보험기간 중에 상해의 직접결과로써 사망한 경우(질병으로 인한 사망은 제외합니다 ): 사망보험금\n 2. 보험기간 중 상해로 장해분류표 (<별표1> 참조)에서 정한 각 장해지급률에 해당하는 장해상태가 되었을 때: 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하여 산출한 금액)'

In [70]:
query = "오늘 점심메뉴 추천"
extract(retriever, system_prompt, prompt, llm, query)

'해당정보 존재하지 않음'