## 환경설정

### env 파일 세팅

In [13]:
from dotenv import load_dotenv

# .env 파일을 만들고, OpenAI api key 를 붙여넣기합니다.
# OPENAI_API_KEY=sk-

# 토큰 정보로드
load_dotenv()

True

## PDF 기반 질의 응답(Question-Answering)Permalink

### 데이터 로드

In [14]:
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드
loader = PyPDFLoader("../data/[일반보험]_KB개인상해보험_보험약관.pdf")
document = loader.load()
document[0].page_content[:200] # 내용 추출

'KB개인상해보험'

### 데이터 분할

In [15]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
texts = text_splitter.split_documents(document)

## Vector Store

### 벡터스토어 세팅

#### Embedding : OpenAI

In [16]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_openai import OpenAIEmbeddings

# See docker command above to launch a postgres instance with pgvector enabled.
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection=f"postgresql+psycopg2://rag_note:rag_note@localhost:5433/rag_note"

embedding_name = "text-embedding-3-large"
# embedding_name = "text-embedding-ada-002"

vector_store = PGVector(
    embeddings=OpenAIEmbeddings(model=embedding_name),
    collection_name=embedding_name,
    connection=connection,
    use_jsonb=True,
)

#### Embedding : HuggingFace

In [17]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_openai import OpenAIEmbeddings

from langchain_huggingface import HuggingFaceEmbeddings

# See docker command above to launch a postgres instance with pgvector enabled.
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection=f"postgresql+psycopg2://rag_note:rag_note@localhost:5433/rag_note"

# 모델 이름
embedding_name = "intfloat/multilingual-e5-small"
# embedding_name = "kakaobank/kf-deberta-base"

vector_store = PGVector(
    embeddings=HuggingFaceEmbeddings(model_name=embedding_name),
    collection_name=embedding_name,
    connection=connection,
    use_jsonb=True,
)

No sentence-transformers model found with name kakaobank/kf-deberta-base. Creating a new one with mean pooling.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


### 벡터 스토어에 저장

In [18]:
vector_store.add_documents(texts)

['a150a566-51a4-457e-acd2-3abddbb480d5',
 'f04fabe5-4a58-4232-8e4e-f8593f7c408e',
 'a5f286c0-48a9-4629-aa4b-9dafd8cd550e',
 '33352de8-fda0-4629-a99b-797f41d4e4d7',
 '4664c716-1b62-468a-a8a1-bb183c0f1a8c',
 'b785b007-870a-4835-886d-0e767558e810',
 '6bb4def6-36e2-41d5-b8b8-f85ee6535e3c',
 'cbee3186-a3e2-48c3-b341-311729f0acbf',
 'a30c5d21-5cf1-47db-ac24-38a58788bdf9',
 '3451d792-9a0f-4415-9f41-a3bf3ddf1b48',
 'ce10328b-9607-48fc-8f7a-68b133ec7eb8',
 'aaef1aa8-4ba5-4651-b95e-8ef0f94d222b',
 '28043640-2d42-46f2-84a1-e0e9a27f78e7',
 'df922962-5d16-4da6-a44d-6a8ebf2f8a8f',
 '8d1adc20-e08d-4a9f-9fed-a5f694b0388a',
 'b3012b9a-09e5-4c0e-9a64-de61ce45f7b9',
 'bc6d20c4-922d-4b77-8999-97c73f19a7f9',
 'd882805b-ef5e-461f-b8b1-4190c03528ff',
 'ca1d6f8d-330c-480b-bff1-3075f43e7acb',
 'f9e11f91-2c07-474c-b51f-45ff3cbd0151',
 '787ac72c-835d-4a6c-8601-68d179bde24a',
 'e9a0164c-cfe9-4d30-81fd-f101d90d274d',
 'f2b88264-652e-485f-ba9f-099baee58e99',
 'e58bc56a-025c-4108-aef9-f455a1ba99f4',
 'd9667f91-5d5c-

## Retriever

In [19]:
vector_store.similarity_search(query="보험금의 지급사유")

[Document(id='c6c0092d-2e1d-48bc-a979-dc45b9f51dc0', metadata={'page': 50, 'source': '../data/[일반보험]_KB개인상해보험_보험약관.pdf'}, page_content='- 40 -(  )상해 (  )%미만 후유장해 특별약관\n제1조(보험금의 지급사유 ) \n회사는 피보험자가 보험기간 중 ( )특약 제( )조(보험금의 지급사유 )에 정한 상해의 직접결과로\n써 장해분류표 ([별표1] 참조. 이하 같습니다 )에서 정한 장해지급률이 (  )% 미만에 해당하는 \n장해상태가 되었을 때에는 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하\n여 산출한 금액)을 보험수익자에게 지급하여 드립니다 .\n제2조(준용규정 )\n이 특별약관에 정하지 않은 사항은 보통약관 또는 해당 특별약관을 따릅니다 .'),
 Document(id='8d1adc20-e08d-4a9f-9fed-a5f694b0388a', metadata={'page': 14, 'source': '../data/[일반보험]_KB개인상해보험_보험약관.pdf'}, page_content='- 4 - 4. 기타 보험수익자가 보험금의 수령에 필요하여 제출하는 서류(사망보험금 지급시 피보험\n자의 법정상속인이 아닌자가 청구하는 경우 법정상속인의 확인서 )\n② 제1항 제2호의 사고증명서는 의료법 제3조(의료기관 )에서 규정한 국내의 병원이나 의원 또\n는 국외의 의료관련법에서 정한 의료기관에서 발급한 것이어야 합니다 .\n제8조(보험금의 지급절차 ) \n① 회사는 제7조(보험금의 청구)에서 정한 서류를 접수한 때에는 접수증을 드리고 휴대전화 문\n자메시지 또는 전자우편 등으로도 송부하며 , 그 서류를 접수한 날부터 3영업일 이내에 보\n험금을 지급합니다 .\n② 회사가 보험금 지급사유를 조사․확인하기 위해 필요한 기간이 제1항의 지급기일을 초과할 \n것이 명백히 예상되는 경우에는 그 구체적인 사유와 지급예정일 및 보험금 가지급제도 (회사

## Langchain

In [20]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

In [21]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.messages import SystemMessage

system_prompt = SystemMessage(content=
        """당신은 전문 상담원입니다. 아래 지침에 따라 사용자의 질문에 답변을 제공하세요.
        ---------------------
        1. 주어진 정보만 활용하여 답변을 제공하세요. 주어진 정보로 답변을 할 수 없는 경우, 정중하게 답변을 제공할 수 없다고 설명합니다.
        2. 답변은 정제된 형식과 문어체로 작성하며, 친절하고 자세한 내용을 제공합니다.
        ---------------------
        """
)

template = (
        "Below is the context information.\n"
        "---------------------\n"
        "{context}"
        "\n---------------------\n"
        "Given the context information, provide a most relevant chunk to {query}."
        "If there is no title that matches, output '해당정보 존재하지 않음'."
        "Do not include the title on your final output."
)

prompt = ChatPromptTemplate.from_messages([system_prompt, template])

In [22]:
retriever = vector_store.as_retriever()

In [23]:
chain = (
        {"context": retriever, "query": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

In [24]:
chain.invoke("보험금의 지급사유")

'회사는 피보험자가 보험기간 중 ( )특약 제( )조(보험금의 지급사유 )에 정한 상해의 직접결과로\n써 장해분류표 ([별표1] 참조. 이하 같습니다 )에서 정한 장해지급률이 (  )% 미만에 해당하는 \n장해상태가 되었을 때에는 후유장해보험금 (장해분류표에서 정한 지급률을 보험가입금액에 곱하\n여 산출한 금액)을 보험수익자에게 지급하여 드립니다 .'