In [None]:
import os
from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_postgres import PGVector
from langchain.prompts import PromptTemplate
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from dotenv import load_dotenv
from langchain.retrievers import EnsembleRetriever

load_dotenv()

connection_string = "postgresql+psycopg2://play:123@192.168.0.22:5432/team3"
embedding = OpenAIEmbeddings()

# 1. 보험사 리스트 (collection_names) 정의
collection_names = ['DB', 'samsung', 'hanwha', "현대해상", "test", "meritzfire"] 

# 2. 각 컬렉션별로 retriever 생성
retrievers = []
for name in collection_names:
    vectorstore = PGVector(
        embeddings=embedding,
        collection_name=name,
        connection=connection_string,
        use_jsonb=True)
    retrievers.append(vectorstore.as_retriever(search_kwargs={'k': 2}))

# 3. 모든 retriever를 하나로 묶기
combined_retriever = EnsembleRetriever(retrievers=retrievers)

# 4. LLM 모델 설정
llm = ChatOpenAI(
    model="gpt-4o-mini",  # 또는 "gpt-3.5-turbo"
    temperature=0.1,
    max_tokens=1500
)

prompt = ChatPromptTemplate.from_template(template)

# 6. 문서 포맷팅 함수 (출처 포함)
def format_docs(docs):
    formatted_docs = []
    # 소스 파일 경로를 기반으로 고유한 문서 ID를 할당하기 위한 딕셔너리
    source_map = {}
    doc_counter = 1

    for doc in docs:
        # 메타데이터에서 원본 파일 경로를 가져옴
        source = doc.metadata.get("source", "알 수 없는 출처")
        # 메타데이터에서 페이지 번호를 가져옴 (보통 0부터 시작하므로 +1)
        page_number = doc.metadata.get("page", "알 수 없는 페이지")
        if isinstance(page_number, int):
            page_number += 1
        
        # 새로운 소스 파일이면 고유한 문서 ID를 할당
        if source not in source_map:
            source_map[source] = doc_counter
            doc_counter += 1
            
        doc_id = source_map[source]
        
        # 형식에 맞게 문서 정보와 내용을 포맷팅
        formatted_docs.append(f"[문서 {doc_id} - {os.path.basename(source)}, 페이지 {page_number}]\n{doc.page_content}\n")
    
    return "\n".join(formatted_docs)

In [None]:
# prompt
template_dw = """
당신은 여러 보험사의 상품을 비교 분석하여 사용자에게 가장 쉽고 친절하게 정보를 전달하는 보험 전문가 챗봇입니다.

다음 지시사항을 철저히 따라 사용자의 질문에 한국어로 답변하세요.

답변의 서식:
마크다운(Markdown)을 사용하여 답변을 구조화하세요.
주요 정보는 볼드체로 강조하세요.
여러 회사를 비교하는 경우, 반드시 마크다운 표를 활용하여 항목별로 정리하세요.
서류나 항목을 나열할 때는 체크리스트(- 또는 * 또는 숫자 목록)를 사용하세요.

답변의 내용:
전문 용어는 피하고, 누구나 이해할 수 있도록 쉽고 자세하게 설명하세요.
답변은 질문에 대한 직접적인 내용만을 포함하며, 불필요한 서론이나 결론은 제외하세요.
제시된 '컨텍스트' 내의 정보만 사용하세요. 컨텍스트에 없는 내용은 절대로 지어내지 마세요.
사용자의 상황(사고 유형, 과실 비율, 연령 등)을 고려해서 답변해주세요.
비교할때는 차이점을 명확하게 구체적으로 설명하세요.
추천 시에는 그 이유(보장 범위, 특화 옵션, 지급 조건 등)를 구체적으로 설명하세요.

출처 표기:
답변에 사용된 모든 정보는 마지막에 출처(파일명/페이지)를 명확히 명시하세요.
출처는 항상 괄호(()) 안에 (출처: 파일명, 페이지 p.N) 형식으로 표시하세요.

마지막에는 항상 더 물어볼 내용이 있는지 물어보면서 대화를 더 길게하도록 유도해

[질문]
{question}

[컨텍스트]
{context}
"""

prompt_dowon = ChatPromptTemplate.from_template(template_dw)

rag_chain_dw = (
    {
        "context": combined_retriever | format_docs,
        "question": RunnablePassthrough()
    }
    | prompt_dowon
    | llm
    | StrOutputParser()
)

In [27]:
import pandas as pd
from ragas import evaluate
from ragas.metrics import (
    AnswerRelevancy,      # 답변 관련성
    Faithfulness,        # 답변 충실도 (hallucination 방지)
    ContextRelevance,    # 검색된 문서 관련성
    ContextRecall,       # 검색된 문서 재현율
    ContextPrecision     # 검색된 문서 정밀도
)
from datasets import Dataset

# 1. 평가용 데이터셋 생성
def create_evaluation_dataset():
    
    # 평가용 질문-답변-컨텍스트 데이터 (각 리스트 길이를 맞춰줌)
    eval_data = {
        "question": ["""
                     DB손해보험 운전자보험은 중도에 해지하면 해약환급금을 얼마나 받을 수 있나요?
                     """ #위의 질문 활용
        ],
        "answer": ["""
                   DB손해보험 운전자보험의 **해약환급금**에 대한 정보는 다음과 같습니다:
                   **해약환급금 지급 여부**: DB손해보험의 운전자보험은 중도 해지 시 **해약환급금이 없습니다**.
                   **해약환급금 산정 방식**:
                   해약환급금은 납입한 보험료에서 계약 체결 및 유지 관리에 소요되는 경비와 경과된 기간의 위험 보장에 사용된 보험료를 차감하여 지급됩니다.
                   따라서, 중도 해지 시에는 **납입한 보험료보다 적거나 아예 지급되지 않을 수 있습니다**.
                   ### 요약
                   | 항목               | 내용                                   |
                   |------------------|--------------------------------------|
                   | 해약환급금 지급 여부 | **없음**                               |
                   | 해약환급금 산정 방식 | 납입한 보험료에서 경비 및 위험 보장 차감 |
                   이와 같은 조건을 고려할 때, DB손해보험 운전자보험은 중도 해지 시 해약환급금이 없으므로, 장기적으로 유지할 계획이 아니라면 신중하게 결정해야 합니다.
                   더 궁금한 점이 있으신가요?
                   """
                   ],
        
        "contexts": [
            [
                """
                계약자가 보험계약을 중도에 해지할 경우 보험회사는 해약환급금을 지급합니다.
                ① 해약환급금은 납입한 보험료 보다 적거나 없을 수도 있습니다.
                *해약환급금: 납입한 보험료에서 계약체결·유지관리 등에 소요되는 경비 및 경과된 기간의 위험 보장에 사용된 보험료를 차감하여 지급
                ② 납입기간 중 보험계약을 해지할 경우 해약환급금이 없습니다. (해약환급금 미지급형)
                ③ 납입기간 중 보험계약을 해지할 경우 표준형 보다 해약환급금이 적습니다. (해약환급금 저지급형)
                """
            ],
        ],
        "ground_truth": [
            """
            DB손해보험 운전자보험을 중도에 해지하면 해약환급금은 납입한 보험료 보다 적거나 없을 수도 있습니다.
            구체적인 계산 방식이나 금액에 대한 정보가 포함되어 있지 않습니다. 따라서 정확한 해약환급금은 가입하신 보험의 약관이나 실제 납입 금액, 해지 시점 등을 확인해야만 알 수 있습니다.
            """
            ]
    }
    
    return Dataset.from_dict(eval_data)

# 2. 평가 결과 분석
def analyze_evaluation_results(result):
    """RAGAS 평가 결과 분석 및 출력"""
    
    print("=== RAG 성능 평가 결과 ===")
    
    try:
        df = result.to_pandas()
        print("평가 결과:")
        print(df)
        
        print("\n=== 메트릭별 평균 점수 ===")
        numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
        for col in numeric_columns:
            avg_score = df[col].mean()
            print(f"{col}: {avg_score:.3f}")
            
    except Exception as e:
        print(f"결과 분석 중 오류: {e}")
        print("결과 객체 타입:", type(result))
        print("결과 내용:", result)


# 실행 코드
if __name__ == "__main__":
    try:
        # 1. 평가 데이터셋 생성
        dataset = create_evaluation_dataset()
        
        # 2. RAGAS 평가 실행
        result = evaluate(
            dataset=dataset,
            metrics=[
                Faithfulness(),
                AnswerRelevancy(),
                ContextRelevance(),
                ContextRecall(),
                ContextPrecision()
            ]
        )
        
        # 3. 평가 결과 분석 및 출력
        analyze_evaluation_results(result)
        
    except Exception as e:
        print(f"평가 중 오류 발생: {e}")

Evaluating: 100%|██████████| 5/5 [00:08<00:00,  1.77s/it]


=== RAG 성능 평가 결과 ===
평가 결과:
                                          user_input  \
0  \n                     DB손해보험 운전자보험은 중도에 해지하면 ...   

                                  retrieved_contexts  \
0  [\n                계약자가 보험계약을 중도에 해지할 경우 보험회사는...   

                                            response  \
0  \n                   DB손해보험 운전자보험의 **해약환급금**에 ...   

                                           reference  faithfulness  \
0  \n            DB손해보험 운전자보험을 중도에 해지하면 해약환급금은 납입...      0.857143   

   answer_relevancy  nv_context_relevance  context_recall  context_precision  
0               0.0                   1.0        0.333333                1.0  

=== 메트릭별 평균 점수 ===
faithfulness: 0.857
answer_relevancy: 0.000
nv_context_relevance: 1.000
context_recall: 0.333
context_precision: 1.000
