### 참고문서 
테디 랭체인 - https://wikidocs.net/234009

### 성능 향상을 위한 기본 전략
- 리트리버 단계 성능
반복적인 *인덱싱 파라미터 튜닝을 하고 리트리버(검색) 성능을 테스트 하여 리트리버 단계의 성능 향상

- 답변 생성 단계 성능
프롬프트 엔지니어링을 통해 1차적인 성능 향상, 여유가 있다면 질문의 주제를 먼저 판별한뒤 카테고리별로 다른 프롬프트를 통해 최적화된 답변 제공. 


*인덱싱 : 데이터 불러오고 스플릿, 임베딩, 스토어 적재 까지의 과정

### 추가적인 챗봇 기능
- sql 쿼리 참조를 통해 데이터 얻고 답변
ex ) 내 보험 만료까지 얼마나 남았어?, 내 문의 처리결과 요약해줘.

- 내용 기억하는 챗봇
ex ) 보험 내용 알려줘. -> 이전 내용 영어로 번역해줘.

### PDF 청킹 전략
- 앞 부분 목차는 날리기: 목차가 영향을 주는 것을 확인.

### 패키지 설치

In [1]:
# !python3 -m pip install --upgrade pip

Python


In [None]:
# # LangChain 업데이트
# !pip install -r https://raw.githubusercontent.com/teddylee777/langchain-kr/main/requirements.txt

In [None]:
# !pip install langchain_community

In [None]:
# !pip install --upgrade langchain_openai

In [4]:
# !pip install pypdf

In [5]:
# !pip install python-dotenv

In [6]:
# !pip install langchain-teddynote

In [7]:
# # 최신 버전으로 업데이트합니다.
# !pip install -U langchain langchain_experimental -q

In [8]:
# !pip install PyPDF2

In [9]:
# !pip install faiss-cpu

In [10]:
# !pip install chromadb

In [None]:
# !pip install beautifulsoup4

In [None]:
# !pip install pypdf

### 임시 코드

- OpenAI API Key : https://wikidocs.net/233342
- LangSmith 추적 설정 : https://wikidocs.net/250954  

In [16]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

In [None]:
# API 키 확인
import os

print(f"[API KEY]\n{os.environ['OPENAI_API_KEY']}")


In [13]:
import os

# 디버깅을 위한 프로젝트명을 기입합니다.
os.environ["LANGCHAIN_PROJECT"] = "RAG TUTORIAL"

# tracing 을 위해서는 아래 코드의 주석을 해제하고 실행합니다.
os.environ["LANGCHAIN_TRACING_V2"] = "true"

In [26]:
import bs4
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma, FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings


### 단계 1: 문서 로드(Load Documents)

In [None]:
# PDF
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드. 파일의 경로 입력
loader = PyPDFLoader("./data/202009_5.이동통신단말기분실보험_약관_7.pdf")

# 페이지 별 문서 로드
docs = loader.load()
print(f"문서의 수: {len(docs)}")

# 10번째 페이지의 내용 출력
print(f"\n[페이지내용]\n{docs[10].page_content[:500]}")
print(f"\n[metadata]\n{docs[10].metadata}\n")


pdf 문서 모두다 불러오는 경우

In [None]:
# from langchain_community.document_loaders import DirectoryLoader

# loader = DirectoryLoader(".", glob="data/*.pdf")
# docs = loader.load()

# print(f"문서의 수: {len(docs)}\n")
# print("[메타데이터]\n")
# print(docs[0].metadata)
# print("\n========= [앞부분] 미리보기 =========\n")
# print(docs[0].page_content[2500:3000])


### 단계 2: 문서 분할(Split Documents)

In [None]:
!pip install PyPDF2

In [30]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings
from PyPDF2 import PdfReader

# PDF 파일을 읽어 텍스트를 추출하는 함수
def extract_text_from_pdf(file_path):
    pdf_reader = PdfReader(file_path)
    text = ""
    for page in pdf_reader.pages:
        text += page.extract_text()
    return text

# SemanticChunker 설정
semantic_text_splitter = SemanticChunker(
    OpenAIEmbeddings(), add_start_index=True
)

In [None]:
# PDF 파일에서 텍스트 추출
file_path = './data/202009_5.이동통신단말기분실보험_약관_7.pdf'  # PDF 파일 경로
text = extract_text_from_pdf(file_path)
text[:200]

In [None]:
# SemanticChunker를 사용하여 텍스트 스플릿
chunks = semantic_text_splitter.split_text(text)

# 결과 출력
for i, chunk in enumerate(chunks):
    print(f"Chunk {i + 1}: {chunk}")

### 3 단계: 임베딩

In [None]:
# PDF
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드. 파일의 경로 입력
loader = PyPDFLoader("./data/202009_5.이동통신단말기분실보험_약관_7.pdf")

# 페이지 별 문서 로드
docs = loader.load()
print(f"문서의 수: {len(docs)}")

# 10번째 페이지의 내용 출력
print(f"\n[페이지내용]\n{docs[10].page_content[:500]}")
print(f"\n[metadata]\n{docs[10].metadata}\n")


In [None]:
# SemanticChunker를 사용하여 텍스트 스플릿
splits = semantic_text_splitter.split_documents(docs)

# 결과 출력
for i, chunk in enumerate(splits):
    print(f"Chunk {i + 1}: {chunk}")

### 임베딩 모델 고려해서 임베딩 처리
기본 값은 text-embeding-ada-002 입니다.  
MODEL	ROUGH PAGES PER DOLLAR	EXAMPLE PERFORMANCE ON MTEB EVAL
text-embedding-3-small	62,500	62.3%
text-embedding-3-large	9,615	64.6%
text-embedding-ada-002	12,500	61.0%


In [36]:
from langchain_community.vectorstores import FAISS
from langchain_openai.embeddings import OpenAIEmbeddings

# 단계 3: 임베딩 & 벡터스토어 생성(Create Vectorstore)
# 벡터스토어를 생성합니다.
vectorstore = FAISS.from_documents(
    documents=splits, embedding=OpenAIEmbeddings())


### 4단계: 벡터스토어 생성(Create Vectorstore)

In [37]:
from langchain_community.vectorstores import FAISS

# FAISS DB 적용
vectorstore = FAISS.from_documents(
    documents=splits, embedding=OpenAIEmbeddings())


In [38]:
from langchain_community.vectorstores import Chroma

# Chroma DB 적용
chroma_vectorstore = Chroma.from_documents(documents=splits, embedding=OpenAIEmbeddings())


### 5단계: Retriever 생성

In [None]:
query = "이 보험에서 보상하지 않는 손해는 뭐야?"

retriever = vectorstore.as_retriever(search_type="similarity")
search_result = retriever.get_relevant_documents(query)
print(search_result)


In [None]:
search_result

- score_threshold : 유사도 몇 이상

In [None]:
query = "이 보험에서 보상하지 않는 손해는 뭐야?"


retriever = vectorstore.as_retriever(
    search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.8}
)
search_result = retriever.get_relevant_documents(query)
print(search_result)


- maximum marginal search result : 문서 몇개 반환

In [None]:
query = "이 보험에서 보상하지 않는 손해는 뭐야?"

retriever = vectorstore.as_retriever(search_type="mmr", search_kwargs={"k": 2})
search_result = retriever.get_relevant_documents(query)
print(search_result)


### 다양한 쿼리 생성


In [None]:
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

query = "이 보험에서 보상하지 않는 손해는 뭐야?"

llm = ChatOpenAI(temperature=0, model="gpt-4o-mini")

retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectorstore.as_retriever(), llm=llm
)


In [44]:
# Set logging for the queries
import logging

logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)


In [None]:
unique_docs = retriever_from_llm.get_relevant_documents(query=query)
len(unique_docs)


### Ensemble Retriever

In [46]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings


In [47]:
def pretty_print(docs):
    for i, doc in enumerate(docs):
        print(f"[{i+1}] {doc.page_content}")


In [48]:

# BM25 리트리버 설정
bm25_retriever = BM25Retriever.from_texts([split.page_content for split in splits])
bm25_retriever.k = 2


In [49]:

# FAISS 벡터스토어 및 리트리버 설정
faiss_vectorstore = FAISS.from_documents(splits, OpenAIEmbeddings())
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})


In [53]:

# 앙상블 리트리버 생성
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)


In [None]:
sample_query = "보험 약관에 대한 설명"
print(f"[Query]\n{sample_query}\n")
relevant_docs = bm25_retriever.get_relevant_documents(sample_query)
print("[BM25 Retriever]")
pretty_print(relevant_docs)
print("===" * 20)
relevant_docs = faiss_retriever.get_relevant_documents(sample_query)
print("[FAISS Retriever]")
pretty_print(relevant_docs)
print("===" * 20)
relevant_docs = ensemble_retriever.get_relevant_documents(sample_query)
print("[Ensemble Retriever]")
pretty_print(relevant_docs)


In [None]:
# 예시 쿼리로 검색 테스트
query = "보험 약관에 대한 설명"
results = ensemble_retriever.get_relevant_documents(query)
for i, result in enumerate(results):
    print(f"Result {i + 1}: {result}")

In [None]:
relevant_docs = ensemble_retriever.get_relevant_documents(query)
print("[Ensemble Retriever]")
pretty_print(relevant_docs)

### 6단계: 프롬프트 생성(Create Prompt)

프롬프트 엔지니어링은 주어진 데이터(context)를 토대로 우리가 원하는 결과를 도출할 때 중요한 역할을 합니다.

[TIP1]

만약, retriever 에서 도출한 결과에서 중요한 정보가 누락된다면 retriever 의 로직을 수정해야 합니다.
만약, retriever 에서 도출한 결과가 많은 정보를 포함하고 있지만, llm 이 그 중에서 중요한 정보를 찾지 못한거나 원하는 형태로 출력하지 않는다면 프롬프트를 수정해야 합니다.  

[TIP2]

LangSmith 의 hub 에는 검증된 프롬프트가 많이 업로드 되어 있습니다.
검증된 프롬프트를 활용하거나 약간 수정한다면 비용과 시간을 절약할 수 있습니다.

https://smith.langchain.com/hub/search?q=rag

In [56]:
from langchain import hub

In [None]:
prompt = hub.pull("rlm/rag-prompt")
prompt


### 7단계: 언어모델 생성(Create LLM)

In [58]:
from langchain_openai import ChatOpenAI

model = ChatOpenAI(temperature=0, model="gpt-4o-mini")

In [None]:
from langchain.callbacks import get_openai_callback

with get_openai_callback() as cb:
    result = model.invoke("대한민국의 수도는 어디인가요?")
print(cb)


### RAG 템플릿 실험

In [60]:
# 단계 1: 문서 로드(Load Documents)
# 문서를 로드하고, 청크로 나누고, 인덱싱합니다.
from langchain.document_loaders import PyPDFLoader

# PDF 파일 로드. 파일의 경로 입력
file_path = "data/202009_5.이동통신단말기분실보험_약관_7.pdf"
loader = PyPDFLoader(file_path=file_path)


# 단계 2: 문서 분할(Split Documents)
# 페이지 별 문서 로드
docs = loader.load()

# SemanticChunker 설정
semantic_text_splitter = SemanticChunker(
    OpenAIEmbeddings(), add_start_index=True
)

# SemanticChunker를 사용하여 텍스트 스플릿
split_docs = semantic_text_splitter.split_documents(docs)


# 단계 3, 4: 임베딩 & 벡터스토어 생성(Create Vectorstore)
# 벡터스토어를 생성합니다.
vectorstore = FAISS.from_documents(documents=split_docs, embedding=OpenAIEmbeddings())

# 단계 5: 리트리버 생성(Create Retriever)
# 사용자의 질문(query) 에 부합하는 문서를 검색합니다.

# 유사도 높은 K 개의 문서를 검색합니다.
k = 3

# (Sparse) bm25 retriever and (Dense) faiss retriever 를 초기화 합니다.
bm25_retriever = BM25Retriever.from_documents(split_docs)
bm25_retriever.k = k

faiss_vectorstore = FAISS.from_documents(split_docs, OpenAIEmbeddings())
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": k})

# initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)

# 단계 6: 프롬프트 생성(Create Prompt)
# 프롬프트를 생성합니다.
prompt = hub.pull("rlm/rag-prompt")

# 단계 7: 언어모델 생성(Create LLM)
# 모델(LLM) 을 생성합니다.
llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)


def format_docs(docs):
    # 검색한 문서 결과를 하나의 문단으로 합쳐줍니다.
    return "\n\n".join(doc.page_content for doc in docs)


# 단계 8: 체인 생성(Create Chain)
rag_chain = (
    {"context": ensemble_retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)



In [None]:
# 단계 8: 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력합니다.
question = "보상을 받을 수 없는 경우는 언제인가요?"
response = rag_chain.invoke(question)


# 결과 출력
print(f"PDF Path: {file_path}")
print(f"문서의 수: {len(docs)}")
print("===" * 20)
print(f"[HUMAN]\n{question}\n")
print(f"[AI]\n{response}")

In [None]:
# 단계 8: 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력합니다.
question = "액정이 일부 파손되었어요. 보상 받을 수 있나요?"
response = rag_chain.invoke(question)


# 결과 출력
print(f"PDF Path: {file_path}")
print(f"문서의 수: {len(docs)}")
print("===" * 20)
print(f"[HUMAN]\n{question}\n")
print(f"[AI]\n{response}")

In [None]:
# 단계 8: 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력합니다.
question = "식당에서 밥을 먹고 있는데 누가 제 핸드폰을 들고 도망쳤어요. 보상 받을 수 있나요?"
response = rag_chain.invoke(question)


# 결과 출력
print(f"PDF Path: {file_path}")
print(f"문서의 수: {len(docs)}")
print("===" * 20)
print(f"[HUMAN]\n{question}\n")
print(f"[AI]\n{response}")

In [None]:
# 단계 8: 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력합니다.
question = "특약사항 안에 어떤 보장내용있어?"
response = rag_chain.invoke(question)


# 결과 출력
print(f"PDF Path: {file_path}")
print(f"문서의 수: {len(docs)}")
print("===" * 20)
print(f"[HUMAN]\n{question}\n")
print(f"[AI]\n{response}")

### SQL

다른 데이터베이스의 URI 형식  
- MySQL: mysql+pymysql://username:password@host:port/database 
- SQL Server: mssql+pyodbc://username:password@host:port/database?driver=ODBC+Driver+17+for+SQL+Server  
- Oracle: oracle+cx_oracle://username:password@host:port/database 

환경에 맞춰 URI 수정하기  
위의 형식 중 해당 데이터베이스에 맞는 URI를 사용하되, 사용자명(username), 비밀번호(password), 호스트 주소(host), 포트(port), 데이터베이스 이름(database)을 알맞게 수정하세요. 

또한, 사용하는 데이터베이스에 따라 필요한 파이썬 패키지를 추가로 설치해야 할 수 있습니다: 

- PostgreSQL: psycopg2
- MySQL: pymysql
- SQL Server: pyodbc
- Oracle: cx_Oracle

In [None]:
!pip install psycopg2

In [None]:
!pip install --upgrade langchain langchain_community

In [None]:
from langchain_openai import ChatOpenAI
from langchain.chains import create_sql_query_chain
from langchain_community.utilities import SQLDatabase

# PostgreSQL 데이터베이스에 연결합니다.
# URI 형식: postgresql://username:password@host:port/database
# db = SQLDatabase.from_uri("postgresql://testuser:tldl13503tldnfa@172.104.100.7:5432/testdb")
db = SQLDatabase.from_uri("postgresql://phone:password@192.168.0.24:5432/phone_care")

# 데이터베이스의 정보를 출력합니다.
print(db.dialect)

# 사용 가능한 테이블 이름들을 출력합니다.
print(db.get_usable_table_names())


In [68]:
# model 은 gpt-3.5-turbo 를 지정
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# LLM 과 DB 를 매개변수로 입력하여 chain 을 생성합니다.
chain = create_sql_query_chain(llm, db)

### 동작하는 코드 메모

In [276]:
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate.from_template(
    """Given an input question, create a syntactically correct {dialect} query to run, then look at the results of the query and return the answer. Unless the user specifies a specific number of examples he wishes to obtain, always limit your query to at most {top_k} results. Only include the executable SQL query in your output, without additional formatting or labels.

Use the following format:

SQL Query to run:
SELECT * FROM table_name WHERE condition LIMIT n;

Only use the following tables:
{table_info}

Here is the description of the columns in the tables:
`cust`: customer name
`prod`: product name
`trans`: transaction date

Question: {input}"""
).partial(dialect=db.dialect)

# model 은 gpt-3.5-turbo 를 지정
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# LLM 과 DB 를 매개변수로 입력하여 chain 을 생성합니다.
chain = create_sql_query_chain(llm, db, prompt)


In [373]:
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate.from_template(
    """Given an input question, first create a syntactically correct {dialect} query to run, then look at the results of the query and return the answer. Unless the user specifies in his question a specific number of examples he wishes to obtain, always limit your query to at most {top_k} results. You can order the results by a relevant column to return the most interesting examples in the database.
Use the following format:

Question: "Question here"
SQLQuery: "SQL Query to run"
SQLResult: "Result of the SQLQuery"
Answer: "Final answer here"

Only use the following tables:
{table_info}

Here is the description of the columns in the tables:
`username`: customer name
`email`: customer email
`model_idx`: customer's phone name

Question: {input}"""
).partial(dialect=db.dialect)

# model 은 gpt-3.5-turbo 를 지정
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)

# LLM 과 DB 를 매개변수로 입력하여 chain 을 생성합니다.
chain = create_sql_query_chain(llm, db, prompt)


In [694]:
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate.from_template(
"""
당신은 유저로부터 질문을 받아 sql 을 검색해주는 직군입니다. 
주어진 입력 질문에 따라, 필수 SQL 구문의 {user_pn} 값만 수정해서 {dialect} SQL 쿼리를 완성하세요.
내용이 바뀌어선 안됩니다.
user_pn의 값은 입력받은 {user_pn} 값만 사용하세요.
DB 는 postgresql 입니다.

항상 쿼리 결과를 최대 {top_k} 개로 제한하세요.

추가적인 서식이나 라벨 없이 이론상으로 실행 가능한 SQL 쿼리만 출력에 포함하세요.

다음 테이블만 사용하세요:
{table_info}

사전 SQL 구문:
SELECT *
FROM "User" AS u
JOIN "Phone_Model" AS p ON u.model_idx = p.model_idx

필수이자 바꿀 SQL 구문:
WHERE u.user_pn = {user_pn};



다음 형식을 사용하세요:
테이블에 있는 컬럼의 설명은 다음과 같습니다:
`username`: 고객 이름
`email`: 고객 이메일
`model_name`: 고객의 휴대폰 모델명, 휴대폰 기종

질문: {input}
"""
).partial(dialect=db.dialect)



# 모델 지정
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)

# chain 생성
chain = create_sql_query_chain(llm, db, prompt)


In [None]:
# chain 을 실행하고 결과를 출력합니다.
generated_sql_query = chain.invoke({"question": "내 폰 기종이 뭐야", "user_pn": "010-4567-8901"})

# 생성된 쿼리를 출력합니다.
print(generated_sql_query.__repr__())


In [696]:
from langchain_community.tools.sql_database.tool import QuerySQLDataBaseTool

# 생성한 쿼리를 실행하기 위한 도구를 생성합니다.
execute_query = QuerySQLDataBaseTool(db=db)


In [None]:
execute_query.invoke({"query": generated_sql_query})

In [698]:
from langchain_community.tools.sql_database.tool import QuerySQLDataBaseTool

# 도구
execute_query = QuerySQLDataBaseTool(db=db)

# SQL 쿼리 생성 체인
write_query = create_sql_query_chain(llm, db, prompt)

# 생성한 쿼리를 실행하기 위한 체인을 생성합니다.
chain = write_query | execute_query


In [699]:
# 실행 결과 확인
a = chain.invoke({"question": "김철수란 이름의 고객의 이메일을 조회하세요", "user_pn": "010-4567-8901"})


In [700]:
a

''

In [701]:
# 실행 결과 확인
b = chain.invoke({"question": "김철수 폰 기종이 뭐야?", "user_pn": "010-4567-8901"})


In [702]:
b

"[('아이폰 SE',)]"