## 환경설정

In [2]:
from dotenv import load_dotenv

# .env 파일을 만들고, OpenAI api key 를 붙여넣기합니다.
# OPENAI_API_KEY=sk-

# 토큰 정보로드
load_dotenv()

True

## 벡터스토어 세팅

In [3]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_openai import OpenAIEmbeddings

# See docker command above to launch a postgres instance with pgvector enabled.
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection=f"postgresql+psycopg2://rag_note:rag_note@localhost:5433/rag_note"
collection_name = "my_db"

vector_store = PGVector(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

## PDF 기반 질의 응답(Question-Answering)Permalink

### 데이터 로드

In [None]:
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드
loader = PyPDFLoader("../data/[일반보험]_KB개인상해보험_보험약관.pdf")
document = loader.load()
document[0].page_content[:200] # 내용 추출

### 데이터 분할

In [4]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
texts = text_splitter.split_documents(document)

### 벡터 스토어에 저장

#### 1. vector store 메소드 사용

In [None]:
vector_store.add_documents(texts)

#### 2. Document object 의 metadata 컬럼에 문서 정보 추가

In [None]:
for text in texts:
    text.metadata['product'] = "KB개인상해보험"
    text.metadata['info'] = "보험약관"

# 위 for 문을 List Comprehension 으로 다음과 같이 한 줄로 쓸 수 있다!
# [text.metadata.update({'product': "KB개인상해보험", 'info': "보험약관"}) for text in texts]

vector_store.add_documents(texts)

#### 3. Document object 의 metadata 컬럼에 문서 정보 추가 (클래스 오버라이딩 이용)

In [5]:
from langchain_community.vectorstores.pgvector import PGVector
from langchain_openai import OpenAIEmbeddings
from langchain_core.documents import Document
from sqlalchemy import text
from typing import Any
from overrides import overrides

class OverridingPGVector(PGVector):

    @overrides
    def __post_init__(self):
        super().__post_init__()

    def _add_documents(self, documents: list[Document], **kwargs: Any) -> list[str]:
        for doc in documents:
            doc.metadata['product'] = "KB개인상해보험"
            doc.metadata['info'] = "보험약관"

        # 위 for 문을 List Comprehension 으로 다음과 같이 한 줄로 쓸 수 있다!
        # [text.metadata.update({'product': "KB개인상해보험", 'info': "보험약관"}) for text in texts]
 
        return self.add_documents(documents, **kwargs)

In [6]:
_vector_store = OverridingPGVector(
    # embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    embedding_function=OpenAIEmbeddings(model="text-embedding-3-large"),
    collection_name=collection_name,
    # connection=connection,
    connection_string=connection,
    use_jsonb=True,
)

In [None]:
_vector_store._add_documents(texts)

### 검색

In [None]:
vector_store.similarity_search(query="보험금의 지급사유",k=3)

In [None]:
retriever = vector_store.as_retriever(
    search_type="mmr",
    # search_kwargs={"k": 3, "fetch_k": 2, "lambda_mult": 0.5},
    search_kwargs={"k": 10, "fetch_k": 3, "lambda_mult": 0.5},
)
retriever.invoke("보험금의 지급사유")

### LLM 정의

In [19]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

### 프롬프트 템플릿

In [65]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.messages import SystemMessage

system_prompt = SystemMessage(content=
        """당신은 전문 상담원입니다. 아래 지침에 따라 사용자의 질문에 답변을 제공하세요.
        ---------------------
        1. 주어진 정보만 활용하여 답변을 제공하세요. 주어진 정보로 답변을 할 수 없는 경우, 정중하게 답변을 제공할 수 없다고 설명합니다.
        2. 답변은 정제된 형식과 문어체로 작성하며, 친절하고 자세한 내용을 제공합니다.
        ---------------------
        """
)

template = (
        "Below is the context information.\n"
        "---------------------\n"
        "{context}"
        "\n---------------------\n"
        "Given the context information, provide a most relevant chunk to {query}."
        "If there is no title that matches, output '해당정보 존재하지 않음'."
        "Do not include the title on your final output."
)

prompt = ChatPromptTemplate.from_messages([system_prompt, template])

### Langchain 생성

In [66]:
def format_docs(docs):
    return "\n\n".join([d.page_content for d in docs])

chain = (
        {"context": retriever | format_docs, "query": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

### 테스트

In [None]:
chain.invoke("보험금의 지급사유")

---

### 함수로 변경

In [68]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

def format_docs(docs):
    return "\n\n".join([d.page_content for d in docs])

def extract(retriever, system, prompt, llm, text_query):
    chain = (
            {"context": retriever | format_docs, "query": RunnablePassthrough()}
            | ChatPromptTemplate.from_messages([system, template])
            | llm
            | StrOutputParser()
        )
    output = chain.invoke(text_query)

    return output

### 테스트

In [None]:
query = "보험금의 지급사유"
extract(retriever, system_prompt, prompt, llm, query)

In [None]:
query = "오늘 점심메뉴 추천"
extract(retriever, system_prompt, prompt, llm, query)