## 환경설정

### env 파일 세팅

In [1]:
from dotenv import load_dotenv

# .env 파일을 만들고, OpenAI api key 를 붙여넣기합니다.
# OPENAI_API_KEY=sk-

# 토큰 정보로드
load_dotenv()

True

### 벡터스토어 세팅

In [2]:
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from langchain_openai import OpenAIEmbeddings

# See docker command above to launch a postgres instance with pgvector enabled.
# connection = f"postgresql+psycopg2://user:password@host:5432/name",
connection=f"postgresql+psycopg2://rag_note:rag_note@localhost:5433/rag_note"
collection_name = "my_db"

vector_store = PGVector(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-large"),
    collection_name=collection_name,
    connection=connection,
    use_jsonb=True,
)

## LangChain 구축

### LLM 정의

In [3]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4-0125-preview", temperature=0)

### 프롬프트 템플릿

In [4]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.messages import SystemMessage

system_prompt = SystemMessage(content=
        """당신은 전문 상담원입니다. 아래 지침에 따라 사용자의 질문에 답변을 제공하세요.
        ---------------------
        1. 주어진 정보만 활용하여 답변을 제공하세요. 주어진 정보로 답변을 할 수 없는 경우, 정중하게 답변을 제공할 수 없다고 설명합니다.
        2. 답변은 정제된 형식과 문어체로 작성하며, 친절하고 자세한 내용을 제공합니다.
        ---------------------
        """
)

template = (
        "Below is the context information.\n"
        "---------------------\n"
        "{context}"
        "\n---------------------\n"
        "Given the context information, provide a most relevant chunk to {query}."
        "If there is no title that matches, output '해당정보 존재하지 않음'."
        "Do not include the title on your final output."
)

prompt = ChatPromptTemplate.from_messages([system_prompt, template])

### 검색기(Retriever) 설정

In [5]:
retriever = vector_store.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 10, "fetch_k": 3, "lambda_mult": 0.5},
)

### Langchain 생성

In [6]:
chain = (
        {"context": retriever, "query": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )

## RAGAS : 1 Sample Test

### Set 1 test set

In [7]:
from datasets import Dataset

questions = ["보험금의 지급사유"]
ground_truths = ["회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정한 보험금을 지급합니다. 1. 보험기간 중에 상해의 직접결과로써 사망한 경우(질병으로 인한 사망은 제외합니다): 사망보험금 2. 보험기간 중 상해로 장해분류표(<별표1> 참조)에서 정한 각 장해지급률에 해당하는 장해상태가 되었을 때: 후유장해보험금(장해분류표에서 정한 지급률을 보험가입금액에 곱하여 산출한 금액)"]

  from .autonotebook import tqdm as notebook_tqdm


### Dataset 생성

In [8]:
answers = []
contexts = []

# Inference
for query in questions:
  answers.append(chain.invoke(query))
  contexts.append([docs.page_content for docs in retriever.get_relevant_documents(query)])

# To dict
data = {
  "user_input": questions,
  "response": answers,
  "retrieved_contexts": contexts,
  "reference": ground_truths
}

# Convert dict to dataset
dataset = Dataset.from_dict(data)

  contexts.append([docs.page_content for docs in retriever.get_relevant_documents(query)])


### score 계산 (평가)

In [9]:
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
)

result = evaluate(
    dataset = dataset, 
    metrics=[
        context_precision,
        context_recall,
        faithfulness,
        answer_relevancy,
    ],
)

# score 출력
print(result)
# DataFrame 생성
df = result.to_pandas()
df



Evaluating: 100%|██████████| 4/4 [00:10<00:00,  2.63s/it]


{'context_precision': 1.0000, 'context_recall': 1.0000, 'faithfulness': 1.0000, 'answer_relevancy': 0.8192}


Unnamed: 0,user_input,retrieved_contexts,response,reference,context_precision,context_recall,faithfulness,answer_relevancy
0,보험금의 지급사유,"[- 3 -의하거나 또는 그 이전에 발생한 후유장해를 포함합니다 ), 후유장해보험금...",회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정...,회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정...,1.0,1.0,1.0,0.819197


## RAGAS : N Sample Test

### Load .xlsx test set

In [12]:
import pandas as pd

# .xlsx 파일 경로 지정
file_path = 'input.xlsx'

# .xlsx 파일을 읽어서 DataFrame으로 저장
data = pd.read_excel(file_path)

# 첫 번째 행의 'question'과 'ground_truths' 열 데이터를 리스트로 저장
questions = data['questions'].tolist()
ground_truths = data['ground_truths'].tolist()

# question과 ground_truths를 새로운 DataFrame으로 결합
result = pd.DataFrame({
    'questions': questions,
    'ground_truths': ground_truths
})

result

# # 만약 왼쪽 정렬로 데이터를 보고 싶다면 아래 코드 이용
# # DataFrame의 각 열을 왼쪽 정렬로 스타일링
# result_styled = result.style.set_properties(**{'text-align': 'left'})

# # 결과 출력 (Jupyter 노트북 환경에서 스타일이 반영됨)
# result_styled

Unnamed: 0,questions,ground_truths
0,보험금의 지급사유,회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정...
1,보험료 할증이란 무엇인가요?,"일반적인 경우보다 위험이 높은 피보험자가 가입하기 위한 방법의 하나로, 보험가입 후..."
2,보험금 지급 제한사유는 무엇인가요?,제5조(보험금을 지급하지 않는 사유)\n① 회사는 다음 중 어느 한가지로 보험금 지...
3,보험 계약은 언제 취소할 수 있나요?,계약자가 청약을 할 때에 보험약관과 계약자 보관용 청약서를 전달받지 못하였거나 약관...
4,해지된 보험은 언제 부활되나요?,보험료 납입연체로 보험계약이 해지되었으나 해지환급금을 받지 않은 경우 보험계약자는 ...
5,업무중 상해위험 특별약관의 경우 보험금의 지급사유는 어떻게 되나요?,회사는 피보험자에게 다음 사항 중 어느 한 가지의 경우에 해당되는 사유가 발생한 때...
6,KB개인상해보험에 가입한 후에 재해로 인해 골절이 되었는데 보험금 청구가 가능한가요?,"네, 피보험자가 보험기간 중에 상해의 직접결과로써 골절로 진단확정시 보험증권에 기재..."
7,화상수술위로금특약이란 어떤 특약인가요?,회사는 이 특별약관에 따라 피보험자가 보험기간중 급격하고도 우연한 외래의 사고로 인...
8,보험가액이란 무엇인가요?,재산보험에 있어 피보험 이익을 금전으로 평가한 금액으로 보험의 목적에 발생할 수 있...
9,계약 소멸은 언제 되나요?,5. 계약의 소멸\n1) 신체보장 관련\n피보험자의 사망 등으로 인하여 보험금 지급...


### Dataset 생성

In [14]:
from tqdm import tqdm

answers = []
contexts = []

# Inference
for query in tqdm(questions):
  answers.append(chain.invoke(query))
  contexts.append([docs.page_content for docs in retriever.get_relevant_documents(query)])

# To dict
data = {
  "user_input": questions,
  "response": answers,
  "retrieved_contexts": contexts,
  "reference": ground_truths
}

# Convert dict to dataset
dataset = Dataset.from_dict(data)

100%|██████████| 13/13 [02:08<00:00,  9.89s/it]


### score 계산 (평가) & output 저장

In [15]:
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
)

result = evaluate(
    dataset = dataset, 
    metrics=[
        context_precision,
        context_recall,
        faithfulness,
        answer_relevancy,
    ],
)

# score 출력
print(result)
# DataFrame 생성
df = result.to_pandas()
df.to_excel('output.xlsx', index=False)
df

Evaluating: 100%|██████████| 52/52 [00:54<00:00,  1.04s/it]


{'context_precision': 0.9167, 'context_recall': 0.9231, 'faithfulness': 0.6484, 'answer_relevancy': 0.5656}


Unnamed: 0,user_input,retrieved_contexts,response,reference,context_precision,context_recall,faithfulness,answer_relevancy
0,보험금의 지급사유,"[- 3 -의하거나 또는 그 이전에 발생한 후유장해를 포함합니다 ), 후유장해보험금...",회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정...,회사는 피보험자에게 다음 중 어느 하나의 사유가 발생한 경우에는 보험수익자에게 약정...,1.0,1.0,1.0,0.819197
1,보험료 할증이란 무엇인가요?,[보험용어 해설\n보험용어 용어 해설\n보험약관보험계약에 관하여 보험계약자와 보험회...,해당정보 존재하지 않음,"일반적인 경우보다 위험이 높은 피보험자가 가입하기 위한 방법의 하나로, 보험가입 후...",1.0,1.0,0.0,0.0
2,보험금 지급 제한사유는 무엇인가요?,"[- 3 -의하거나 또는 그 이전에 발생한 후유장해를 포함합니다 ), 후유장해보험금...",회사는 다음 중 어느 한가지로 보험금 지급사유가 발생한 때에는 보험금을 지급하지 않...,제5조(보험금을 지급하지 않는 사유)\n① 회사는 다음 중 어느 한가지로 보험금 지...,1.0,1.0,0.928571,0.818572
3,보험 계약은 언제 취소할 수 있나요?,[주요내용 요약서\n1. 자필서명\n계약자와 피보험자가 자필서명을 하지 않으신 경우...,계약자가 청약을 할 때에 보험약관과 계약자 보관용 청약서를 전달받지 못하였거나 약관...,계약자가 청약을 할 때에 보험약관과 계약자 보관용 청약서를 전달받지 못하였거나 약관...,1.0,1.0,1.0,0.84805
4,해지된 보험은 언제 부활되나요?,[- 2 - 4. 기간과 날짜 관련 용어\n가. 보험기간 : 계약에 따라 보장을 받...,해당정보 존재하지 않음,보험료 납입연체로 보험계약이 해지되었으나 해지환급금을 받지 않은 경우 보험계약자는 ...,1.0,1.0,0.0,0.0
5,업무중 상해위험 특별약관의 경우 보험금의 지급사유는 어떻게 되나요?,[- 44 -업무외 상해위험 특별약관\n제1조(보험금의 지급사유 )\n회사는 피보험...,회사는 피보험자에게 다음 사항 중 어느 한 가지의 경우에 해당되는 사유가 발생한 때...,회사는 피보험자에게 다음 사항 중 어느 한 가지의 경우에 해당되는 사유가 발생한 때...,1.0,1.0,1.0,0.843545
6,KB개인상해보험에 가입한 후에 재해로 인해 골절이 되었는데 보험금 청구가 가능한가요?,"[KB개인상해보험, 제31조(회사의 파산선고와 해지) ················...",해당정보 존재하지 않음,"네, 피보험자가 보험기간 중에 상해의 직접결과로써 골절로 진단확정시 보험증권에 기재...",0.583333,1.0,0.0,0.0
7,화상수술위로금특약이란 어떤 특약인가요?,[- 74 -화상수술위로금 특별약관\n제1조(보험금의 지급사유 )\n회사는 이 특별...,화상수술위로금 특별약관\n제1조(보험금의 지급사유 )\n회사는 이 특별약관에 따라 ...,회사는 이 특별약관에 따라 피보험자가 보험기간중 급격하고도 우연한 외래의 사고로 인...,1.0,1.0,1.0,0.759593
8,보험가액이란 무엇인가요?,"[KB개인상해보험, - 12 -【보험나이 계산 예시】\n 생년월일 : 1988년 1...",해당정보 존재하지 않음,재산보험에 있어 피보험 이익을 금전으로 평가한 금액으로 보험의 목적에 발생할 수 있...,0.333333,0.0,0.0,0.0
9,계약 소멸은 언제 되나요?,[- 14 -제6관 계약의 해지 및 보험료의 환급 등\n제29조(계약자의 임의해지 ...,1) 신체보장 관련\n 피보험자의 사망 등으로 인하여 보험금 지급사유가 더 이상...,5. 계약의 소멸\n1) 신체보장 관련\n피보험자의 사망 등으로 인하여 보험금 지급...,1.0,1.0,0.5,0.773892
