In [None]:
# LangChain 업데이트
# !pip install -r https://raw.githubusercontent.com/teddylee777/langchain-kr/main/requirements.txt

In [162]:
# !pip install -U langchain langchain-openai

In [160]:
# !pip install langchain-teddynote

In [2]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

In [None]:
# API 키 확인
import os

print(f"[API KEY]\n{os.environ['OPENAI_API_KEY']}")


In [None]:
# API 키 확인
import os

print(f"[LANGCHAIN_API_KEY]\n{os.environ['LANGCHAIN_API_KEY']}")


In [10]:
# import os

# os.environ["LANGCHAIN_TRACING_V2"] = "true"
# os.environ["LANGCHAIN_PROJECT"] = "RAG_TUTORIAL_02"

In [5]:
from langchain_teddynote import logging

# 프로젝트 이름을 입력합니다.
logging.langsmith("RAG_TUTORIAL_02")

LangSmith 추적을 시작합니다.
[프로젝트명]
RAG_TUTORIAL_02


In [6]:
import bs4
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma, FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain.chains import create_sql_query_chain
from langchain_community.utilities import SQLDatabase

from langchain_experimental.text_splitter import SemanticChunker
from PyPDF2 import PdfReader

USER_AGENT environment variable not set, consider setting it to identify your requests.


### 실제 코드 기입

In [7]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings
from PyPDF2 import PdfReader

# PDF 파일을 읽어 텍스트를 추출하는 함수
def extract_text_from_pdf(file_path):
    pdf_reader = PdfReader(file_path)
    text = ""
    for page in pdf_reader.pages:
        text += page.extract_text()
    return text

In [8]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever

In [10]:
# PostgreSQL 데이터베이스에 연결합니다.
# URI 형식: postgresql://username:password@host:port/database

# .env 파일 로드
load_dotenv()

# URI 생성
db_uri = f"postgresql://{os.getenv('DB_USERNAME')}:{os.getenv('DB_PASSWORD')}@{os.getenv('DB_HOST')}:{os.getenv('DB_PORT')}/{os.getenv('DB_NAME')}"
db = SQLDatabase.from_uri(db_uri)

# 데이터베이스의 정보를 출력합니다.
print(db.dialect)

# 사용 가능한 테이블 이름들을 출력합니다.
print(db.get_usable_table_names())

postgresql
['call_histories', 'chatbot', 'claim_types', 'claims', 'compensation_processes', 'compensation_types', 'conversation_contents', 'document_statuses', 'inbound_callbots', 'insurers', 'managers', 'outbound_callbots', 'phone_models', 'positions', 'progresses', 'repairment_cash', 'replacement_devices', 'required_documents', 'satisfactions', 'users', 'vouchers']


In [11]:
# 단계 1: 문서 로드(Load Documents)
# 문서를 로드하고, 청크로 나누고, 인덱싱합니다.
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드. 파일의 경로 입력
file_path = "data/202009_5.이동통신단말기분실보험_약관_7.pdf"
loader = PyPDFLoader(file_path=file_path)

In [12]:
# 단계 2: 문서 분할(Split Documents)
# 페이지 별 문서 로드
docs = loader.load()

# SemanticChunker 설정
semantic_text_splitter = SemanticChunker(
    OpenAIEmbeddings(), add_start_index=True
)

# SemanticChunker를 사용하여 텍스트 스플릿
split_docs = semantic_text_splitter.split_documents(docs)

In [13]:
split_docs

[Document(metadata={'source': 'data/202009_5.이동통신단말기분실보험_약관_7.pdf', 'page': 0, 'start_index': 0}, page_content='이동통신단말기  분실보험'),
 Document(metadata={'source': 'data/202009_5.이동통신단말기분실보험_약관_7.pdf', 'page': 1, 'start_index': 0}, page_content='- 2 -가입자 유의사항\n주요내용 요약서\n보험용어 해설\n이동통신단말기 분실보험 보통약관\n제1관 목적 및 용어의 정의····················································································································· 1\n제1조(목적) ·································································································································· 1\n제2조(용어의 정의) ···················································································································· 1\n제2관 보험금의 지급································································································································· 2\n제3조(보상하는 손해) ················································································································ 2\n제4조(보상하지 않는 손해) ·······

In [14]:
# 단계 3, 4: 임베딩 & 벡터스토어 생성(Create Vectorstore)
# 벡터스토어를 생성합니다.
vectorstore = FAISS.from_documents(documents=split_docs, embedding=OpenAIEmbeddings())

In [15]:
# 단계 5: 리트리버 생성(Create Retriever)
# 사용자의 질문(query) 에 부합하는 문서를 검색합니다.

# 유사도 높은 K 개의 문서를 검색합니다.
k = 3

# (Sparse) bm25 retriever and (Dense) faiss retriever 를 초기화 합니다.
bm25_retriever = BM25Retriever.from_documents(split_docs)
bm25_retriever.k = k

faiss_vectorstore = FAISS.from_documents(split_docs, OpenAIEmbeddings())
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": k})

# initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)


In [16]:
def pretty_print(docs):
    for i, doc in enumerate(docs):
        print(f"[{i+1}] {doc.page_content}")

In [17]:
sample_query = "보험 약관에 대한 설명"
print(f"[Query]\n{sample_query}\n")
relevant_docs = bm25_retriever.get_relevant_documents(sample_query)
print("[BM25 Retriever]")
pretty_print(relevant_docs)
print("===" * 20)
relevant_docs = faiss_retriever.get_relevant_documents(sample_query)
print("[FAISS Retriever]")
pretty_print(relevant_docs)
print("===" * 20)
relevant_docs = ensemble_retriever.get_relevant_documents(sample_query)
print("[Ensemble Retriever]")
pretty_print(relevant_docs)


[Query]
보험 약관에 대한 설명

[BM25 Retriever]
[1] 1. 계약 관련 용어
가. 계약자 : 회사와 계약을 체결하고 보험료를 납입할 의무를 지는 사람을 말합니다 . 나. 피보험자 : 보험사고로 인하여 손해를 입은 사람(법인인 경우에는 그 이사 또는 법인의 
업무를 집행하는 그 밖의 기관)을 말합니다 . 다. 보험증권 : 계약의 성립과 그 내용을 증명하기 위하여 회사가 계약자에게 드리는 증서
를 말합니다 . 라. 보험의 목적: 이 약관에 따라 보험에 가입한 물건으로 보험증권에 명시된 피보험자 소
유의 이동통신단말기 (이하 “보험목적물 ”이라 합니다 )를 말합니다 . 단, 아래의 물건은 
보험목적물에 포함되지 않습니다 . (ⅰ) 밀수품이나 불법적인 운송 또는 거래과정에 있는 물건
 (ⅱ) 데이터의 복구, 교체, 검색에 소요되는 비용이나 해당 이동통신단말기 기본사양이 아
닌 프로그램
 (ⅲ) 고정 장착방식의 여부를 불문하고 자동차에 부착하기 위해 고안된 장비나 , 중고단말
기, 기타 제조시 제품에 장착되지 않은 부속품 및 액세서리
 (ⅳ) 장식용 덮개, USIM(Universal Subscriber Identity Module), 제품 본체와 분리되어 
사용되는 충전기나 USB케이블 등 보험목적물로 명시되지 않은 부품
 (ⅴ) 수리, 교체의 목적으로 “지정보험센터 ”나 “지정보험센터 ”가 지정한 자를 제외한 타
인에게 위탁한 물건
 (ⅵ) 합법성 여부를 불문하고 이동통신회사의 통화요금을 포함한 제반 요금 및 수수료
 2. 보상 관련 용어
가.
[2] 1. 자필서명
계약자와 피보험자가 자필서명을 하지 않으신 경우에는 보장을 받지 못할 수 있습니다 . 다만, 
전화를 이용하여 가입할 때 일정요건이 충족되면 자필서명을 생략할 수 있으며 , 인터넷을 이용
한 사이버몰에서는 전자서명으로 대체할 수 있습니다 . 2. 청약철회
계약자는 보험증권을 받은 날부터 15일 이내에 그 청약을 철회할 수 있고, 이 경우 납입한 보
험료를 돌려 드립니다 . 다만, 진단

  relevant_docs = bm25_retriever.get_relevant_documents(sample_query)


[FAISS Retriever]
[1] ② 회사는 약관의 뜻이 명백하지 않은 경우에는 계약자에게 유리하게 해석합니다 . ③ 회사는 보상하지 않는 손해 등 계약자나 피보험자에게 불리하거나 부담을 주는 내용은 확
대하여 해석하지 않습니다 . 제39조(회사가 제작한 보험안내자료의 효력) 
보험설계사 등이 모집과정에서 사용한 회사 제작의 보험안내자료의 내용이 약관의 내용과 다
른 경우에는 계약자에게 유리한 내용으로 계약이 성립된 것으로 봅니다 . 【보험안내자료 】
계약의 청약을 권유하기 위해 만든 서류 등을 말합니다 . 제40조(회사의 손해배상책임 ) 
① 회사는 계약과 관련하여 임직원 , 보험설계사 및 대리점의 책임있는 사유로 인하여 계약자 
및 피보험자에게 발생된 손해에 대하여 관계 법령 등에 따라 손해배상의 책임을 집니다 . ② 회사는 보험금 지급 거절 및 지연지급의 사유가 없음을 알았거나 알 수 있었음에도 불구하
고 소를 제기하여 계약자 또는 피보험자에게 손해를 가한 경우에는 그에 따른 손해를 배상
할 책임을 집니다 . ③ 회사가 보험금 지급여부 및 지급금액에 관하여 현저하게 공정을 잃은 합의로 계약자 또는 
피보험자에게 손해를 가한 경우에도 회사는 제2항에 따라 손해를 배상할 책임을 집니다 . 제41조(개인정보보호 ) 
① 회사는 이 계약과 관련된 개인정보를 이 계약의 체결, 유지, 보험금 지급 등을 위하여 「개
인정보 보호법 」,「신용정보의 이용 및 보호에 관한 법률」등 관계 법령에 정한 경우를 제
외하고 계약자 또는 피보험자의 동의없이 수집, 이용, 조회 또는 제공하지 않습니다 . 다만, 
회사는 이 계약의 체결, 유지, 보험금 지급 등을 위하여 위 관계 법령에 따라 계약자 및 피
보험자의 동의를 받아 다른 보험회사 및 보험관련단체 등에 개인정보를 제공할 수 있습니다 . ② 회사는 계약과 관련된 개인정보를 안전하게 관리하여야 합니다 . 제42조(준거법 ) 
이 계약은 대한민국 법에 따라 규율되고 해석되며 , 약관에서 정하지 않은 사항은 상법, 민법 
등 

In [27]:
# 단계 6: 프롬프트 생성
from langchain_core.prompts import PromptTemplate

# 개인정보 필터링용 프롬프트 설정
personally_filter_prompt = PromptTemplate.from_template(
    """
    Given a user question, determine if the question requests personally identifiable information (PII),
    such as names, addresses, phone numbers, email addresses, or other sensitive information.
    
    If the question is asking for information about "all users" or "specific other users", respond with "RESTRICTED".
    If the question is asking about the user's own information (e.g., "my information", "details about me"),
    respond with "ALLOW".

    Question: {question}
    """
)

# 질문 필터링용 프롬프트 설정
filter_prompt = PromptTemplate.from_template(
    """
    Given a user question, determine if it requires a database SQL query or if it can be answered 
    using only the provided document context (vector store). If it needs database access, respond 
    with 'DB_REQUIRED'. Otherwise, respond with 'VECTOR_ONLY'.
    
    Question: {question}
    """
)

# SQL 쿼리 체인을 위한 프롬프트 설정
sql_prompt = PromptTemplate.from_template(
    """
    Given a user question, create a syntactically correct {dialect} SQL query using only the provided `user_pn` 
    to ensure they can only access their own information. Do not allow queries that would retrieve data about 
    other users. Include only the executable SQL query in the output, without additional formatting or labels.

    SQL Query Format:
    SELECT *
    FROM "User" AS u
    JOIN "Phone_Model" AS p ON u.model_idx = p.model_idx
    WHERE u.user_pn = {user_pn} LIMIT {top_k};

    Only use the following tables:
    {table_info}

    Question: {input}
    """
).partial(dialect="postgresql")

answer_prompt = PromptTemplate.from_template(
    """Given the following user question, corresponding SQL query, and SQL result, answer the user question.

    Question: {question}
    SQL Query: {query}
    SQL Result: {result}
    Answer: """
)

In [25]:

# 단계 7: 언어모델 생성(Create LLM)
# 모델(LLM) 을 생성합니다.
llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)


In [26]:
# 단계 5: 리트리버 생성(Create Retriever)
# 사용자의 질문(query) 에 부합하는 문서를 검색합니다.

# 유사도 높은 K 개의 문서를 검색합니다.
k = 5

# (Sparse) bm25 retriever and (Dense) faiss retriever 를 초기화 합니다.
bm25_retriever = BM25Retriever.from_documents(split_docs)
bm25_retriever.k = k

faiss_vectorstore = FAISS.from_documents(split_docs, OpenAIEmbeddings())
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": k})

# initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)


In [30]:
from langchain_community.tools.sql_database.tool import QuerySQLDataBaseTool
from operator import itemgetter

# DB 검색을 위한 체인 생성 함수
def create_db_chain(question, user_pn):
    # 도구
    execute_query = QuerySQLDataBaseTool(db=db)

    # SQL 쿼리 생성 체인
    write_query = create_sql_query_chain(llm, db, sql_prompt)

    answer = answer_prompt | llm | StrOutputParser()

    # 생성한 쿼리를 실행하고 결과를 출력하기 위한 체인을 생성합니다.
    db_chain = (
        RunnablePassthrough.assign(query=write_query).assign(
            result=itemgetter("query") | execute_query
        )
        | answer
    )

    return db_chain.invoke({"question": question, "user_pn": user_pn})

# 벡터 스토어 검색을 위한 체인 생성 함수
def create_vector_chain(question):
    # 프롬프트를 생성합니다.
    prompt = hub.pull("rlm/rag-prompt")

    # 모델(LLM) 을 생성합니다.
    llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

    def format_docs(docs):
        # 검색한 문서 결과를 하나의 문단으로 합쳐줍니다.
        return "\n\n".join(doc.page_content for doc in docs)

    # 단계 8: 체인 생성(Create Chain)
    rag_chain = (
        {"context": ensemble_retriever | format_docs, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )
    
    return rag_chain.invoke(question)  # 딕셔너리로 전달

In [33]:
# 메인 함수: 질문을 필터링하고 적합한 체인을 실행
def answer_question(question, user_pn):
    # 질문 필터링
    # 질문이 개인정보와 관련된 경우 필터링
    # personally_filter_response = llm(personally_filter_prompt.format({"question": question}))

    personally_chain_filter_response = (
        {"question": RunnablePassthrough()}
        | personally_filter_prompt
        | llm
        | StrOutputParser()
    )

    personally_filter_response = personally_chain_filter_response.invoke({"question": question})

    if personally_filter_response == "RESTRICTED":
        # print("This question contains restricted content and cannot be answered.")
        return "개인정보 보호를위해 답변이 불가능한 질문입니다."
    elif user_pn == "":
        return "개인정보 확인을 위해 로그인이 필요한 질문입니다."
    else:
        # 답변을 허용하고 다음 단계로 진행
        pass

    
    chain_filter_response = (
        {"question": RunnablePassthrough()}
        | filter_prompt
        | llm
        | StrOutputParser()
    )

    filter_response = chain_filter_response.invoke({"question": question})
    print('filter_response', filter_response)
    
    if "DB_REQUIRED" in filter_response:  # 필터 결과 확인 방식 수정
        # DB 검색 체인 실행
        print("DB 검색 체인 실행을 통한 답변")
        response = create_db_chain(question, user_pn)
    else:
        # 벡터 스토어 검색 체인 실행
        print("벡터 스토어 검색 체인 실행을 통한 답변")
        response = create_vector_chain(question)
    
    return response

In [34]:
# 실행 예시
question = "Tom Woo라는 고객의 폰 기종이 뭐야?"
user_pn = "010-2345-6789"
response = answer_question(question, user_pn)

# 결과 출력
print(f"Question: {question}")
print(f"Response:\n{response}")

Question: Tom Woo라는 고객의 폰 기종이 뭐야?
Response:
개인정보 보호를위해 답변이 불가능한 질문입니다.


In [36]:
# 실행 예시
question = "가입할때 등록한 내 폰 기종이 뭐야?"
user_pn = "010-2345-6789"
response = answer_question(question, user_pn)

# 결과 출력
print(f"Question: {question}")
print(f"Response:\n{response}")

filter_response DB_REQUIRED
DB 검색 체인 실행을 통한 답변
Question: 가입할때 등록한 내 폰 기종이 뭐야?
Response:
당신이 가입할 때 등록한 폰 기종은 iPhone 13입니다.


In [37]:
# 실행 예시
question = "가입할때 등록한 내 폰 기종이 뭐야?"
user_pn = ""
response = answer_question(question, user_pn)

# 결과 출력
print(f"Question: {question}")
print(f"Response:\n{response}")

Question: 가입할때 등록한 내 폰 기종이 뭐야?
Response:
개인정보 확인을 위해 로그인이 필요한 질문입니다.


In [35]:
# 실행 예시
question = "핸드폰의 액정이 조금 파손되었어. 보상 받을 수 있어?"
user_pn = "010-1234-5678"
response = answer_question(question, user_pn)

# 결과 출력
print(f"Question: {question}")
print(f"Response:\n{response}")


filter_response VECTOR_ONLY
벡터 스토어 검색 체인 실행을 통한 답변


  prompt = loads(json.dumps(prompt_object.manifest))


Question: 핸드폰의 액정이 조금 파손되었어. 보상 받을 수 있어?
Response:
핸드폰의 액정이 파손되었다면, 중고단말기 보상 특별약관에 따라 보상을 받을 수 있습니다. 그러나 보상 여부는 파손의 원인과 보험 약관에 따라 달라질 수 있으므로, 구체적인 상황을 확인해야 합니다. 추가적인 정보가 필요하다면 보험사에 문의하는 것이 좋습니다.
