In [15]:
import os
from dotenv import load_dotenv
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")

if not openai_api_key:
    raise ValueError("openai api 키가 없습니다. 한번더 확인 부탁드립니다.")

os.environ['OPENAI_API_KEY'] = openai_api_key

In [3]:
import bs4
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

#### INDEXING ####

# Load Documents
loader = WebBaseLoader(
    web_paths=("https://news.naver.com/section/101",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("sa_text", "sa_item _SECTION_HEADLINE")
        )
    ),
)
docs = loader.load()

# Split
# text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=20)
# splits = text_splitter.split_documents(docs)

#이점: from_tiktoken_encoder 메서드는 텍스트를 분할할 때 tiktoken 인코더를 사용하여 텍스트를 토큰으로 변환한 다음 분할합니다. 이 방법은 특히 OpenAI 모델과 같은 토큰 기반 언어 모델에서 텍스트를 처리할 때 유용합니다. 
# 토큰 단위로 정확한 분할을 가능하게 하므로, 텍스트가 모델의 입력 토큰 제한에 맞도록 더 정밀하게 분할할 수 있습니다.
# 적용 상황: 이 방법은 모델이 토큰 수를 기준으로 텍스트를 처리해야 할 때(예: GPT 모델) 유리합니다. 특히 텍스트가 다양한 언어를 포함하거나 복잡한 구문을 가질 때 유용합니다.
# Split
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=300, 
    chunk_overlap=50)
splits = text_splitter.split_documents(docs)

# Embed
vectorstore = Chroma.from_documents(documents=splits, 
                                    embedding=OpenAIEmbeddings())

# retriever = vectorstore.as_retriever(search_kwargs={"k": 1})

# MMR 알고리즘이 고려할 문서 수를 더 많이 가져옵니다.
# 그러나 최종적으로 상위 5개 문서만 반환합니다
retriever = vectorstore.as_retriever(
    search_type="mmr", # MMR 알고리즘을 사용하여 검색
    search_kwargs={'k':1,'fetch_k':4} # 상위 1개의 문서를 반환하지만, 고려할 문서는 4개로 설정
)

#### RETRIEVAL and GENERATION ####

# Prompt
# prompt = hub.pull("rlm/rag-prompt")

prompt = hub.pull("sungwoo/ragbasic")

# LLM
# llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

# Post-processing
def format_docs(docs):
    formatted = "\n\n".join(doc.page_content for doc in docs)
    # print("Retrieved Context:\n", formatted)
    return formatted

# Chain
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# Question
# rag_chain.invoke("What is Task Decomposition?")
rag_chain.invoke("국채 관련한 정보를 알려줘")

'국채에 대한 구체적인 정보는 검색 결과에 포함되어 있지 않습니다. 한국토지신탁의 회사채 발행에 대한 내용이 언급되었지만, 국채와는 관련이 없습니다. 추가적인 정보가 필요하다면 다른 출처를 참고하시기 바랍니다.'

## 벡터DB에서 어떤 컨텐스트를 가져오는지 확인해보기

In [2]:
docs = retriever.get_relevant_documents("국채 관련한 정보를 알려줘")
docs

  warn_deprecated(


[Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content="신탁업계 자본력 1위인 한국토지신탁(034830)이 6개월 만의 공모 회사채 발행에서 목표액 모집에 성공하며, 분위기 반전에 성공했다. 20일 금융투자업계에 따르면 한국토지신탁(A-)은 회사채 2년물 300억원, 3\n\n\n이데일리\n\n27분전\n\n\n\n\n\n\n\n\n'서울서 당첨돼 집 산다? 꿈깨라'…청약통장 깬다\n\n정부가 청약통장 가입자를 위해 금리 인상, 세액 공제 확대 같은 혜택을 늘리고 있지만 청약통장 가입자는 1년 새 34만명이나 줄었습니다. 특히 주택청약종합저축 1순위 가입자는 1년 만에 47만 명이나 줄어들었습니다.")]

In [4]:
# # 문서 검색 시 더 높은 다양성을 가진 문서를 더 많이 검색합니다.
# # 데이터셋에 유사한 문서가 많을 경우 유용합니다.
# docsearch.as_retriever(
#     search_type="mmr",  # MMR(Maximal Marginal Relevance) 알고리즘을 사용하여 검색
#     search_kwargs={'k': 6, 'lambda_mult': 0.25}  # 상위 6개의 문서를 검색하고 다양성을 높이기 위해 lambda 값을 0.25로 설정
# )

# # MMR 알고리즘이 고려할 문서 수를 더 많이 가져옵니다.
# # 그러나 최종적으로 상위 5개 문서만 반환합니다.
# docsearch.as_retriever(
#     search_type="mmr",  # MMR 알고리즘을 사용하여 검색
#     search_kwargs={'k': 5, 'fetch_k': 50}  # 상위 5개의 문서를 반환하지만, 고려할 문서는 50개로 설정
# )

# # 특정 임계값 이상의 유사도 점수를 가진 문서만 검색합니다.
# docsearch.as_retriever(
#     search_type="similarity_score_threshold",  # 유사도 점수 기반 검색
#     search_kwargs={'score_threshold': 0.8}  # 유사도 점수가 0.8 이상인 문서만 검색
# )

# # 데이터셋에서 가장 유사한 문서 하나만 검색합니다.
# docsearch.as_retriever(search_kwargs={'k': 1})

# # 특정 논문에서만 문서를 검색하는 필터를 사용합니다.
# docsearch.as_retriever(
#     search_kwargs={'filter': {'paper_title':'GPT-4 Technical Report'}}  # 'GPT-4 Technical Report' 제목을 가진 논문에서만 문서를 검색
# )

# Multi Query
Flow:
![Screenshot 2024-02-12 at 12.39.59 PM.png](attachment:9efe017a-075f-4017-abef-174c755b11c6.png)

Docs:

* https://python.langchain.com/docs/modules/data_connection/retrievers/MultiQueryRetriever

In [5]:
import bs4
from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

#### INDEXING ####

loader = WebBaseLoader(
    web_paths=("https://news.naver.com/section/101",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("sa_text", "sa_item _SECTION_HEADLINE")
        )
    ),
)
docs = loader.load()


# Split
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=300, 
    chunk_overlap=50)

# Make splits
splits = text_splitter.split_documents(docs)

# Index
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
vectorstore = Chroma.from_documents(documents=splits, 
                                    embedding=OpenAIEmbeddings())

retriever = vectorstore.as_retriever()

### prompt

In [6]:
from langchain.prompts import ChatPromptTemplate

# Multi Query: Different Perspectives
# template = """You are an AI language model assistant. Your task is to generate five 
# different versions of the given user question to retrieve relevant documents from a vector 
# database. By generating multiple perspectives on the user question, your goal is to help
# the user overcome some of the limitations of the distance-based similarity search. 
# Provide these alternative questions separated by newlines. Original question: {question}"""
# prompt_perspectives = ChatPromptTemplate.from_template(template)

template = """
당신은 AI 언어 모델 조수입니다. 당신의 임무는 주어진 사용자 질문에 대해 벡터 데이터베이스에서 관련 문서를 검색할 수 있도록 다섯 가지 다른 버전을 생성하는 것입니다. 
사용자 질문에 대한 여러 관점을 생성함으로써, 거리 기반 유사성 검색의 한계를 극복하는 데 도움을 주는 것이 목표입니다. 
각 질문은 새 줄로 구분하여 제공하세요. 원본 질문: {question}
"""
prompt_perspectives = ChatPromptTemplate.from_template(template)


from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

generate_queries = (
    prompt_perspectives 
    | ChatOpenAI(model_name="gpt-4o-mini",temperature=0) 
    | StrOutputParser() 
    | (lambda x: x.split("\n"))
)

In [7]:
generated_query = generate_queries.invoke("집값의 향방?")
generated_query

['집값의 미래 전망은 어떻게 될까요?  ',
 '현재 집값의 추세와 앞으로의 변화는 어떤 영향을 받을까요?  ',
 '부동산 시장에서 집값이 오를지 내릴지에 대한 예측은 무엇인가요?  ',
 '경제적 요인들이 집값에 미치는 영향은 어떤 것들이 있을까요?  ',
 '향후 몇 년간 집값의 변동성을 어떻게 분석할 수 있을까요?  ']

In [9]:
from langchain.load import dumps, loads

def get_unique_union(documents: list[list]):
    """ 고유한 문서들의 합집합을 생성하는 함수입니다. """
    
    # 리스트의 리스트를 평탄화하고, 각 문서를 문자열로 직렬화합니다.
    flattened_docs = [dumps(doc) for sublist in documents for doc in sublist]
    
    # 중복된 문서를 제거하고 고유한 문서만 남깁니다.
    unique_docs = list(set(flattened_docs))
    
    # 고유한 문서를 원래의 문서 객체로 변환하여 반환합니다.
    return [loads(doc) for doc in unique_docs]

# 사용자 질문 정의
question = "집값의 향방?"

# 문서 검색 체인을 구성합니다.
# generate_queries: 주어진 질문에 대해 검색 쿼리를 생성합니다.
# retriever.map(): 생성된 쿼리를 바탕으로 관련 문서를 검색합니다.
# get_unique_union: 검색된 문서에서 중복을 제거하고 고유한 문서들을 반환합니다.
retrieval_chain = generate_queries | retriever.map() | get_unique_union

# 체인을 실행하여 질문에 대한 관련 문서를 검색하고 고유한 문서를 반환합니다.
docs = retrieval_chain.invoke({"question": question})

# 중복 제거 전 chain
# retrieval_chain = generate_queries | retriever.map()

# 검색된 고유 문서들의 개수를 출력합니다.
len(docs)

# 검색된 고유 문서들을 출력합니다.
docs

[Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content="2분기 가계신용 잔액 1896.2조…공표 이래 최대 규모 수도권 집값 상승으로 인해 이른바 '영끌(영혼까지 끌어모은 투자)' 붐이 되살아나면서 가계 빚이 다시 역대 최대 기록을 갈아치웠다. 정부의 8.8 부동산 공급\n\n\n프레시안\n\n24분전"),
 Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content="경향신문\n\n17분전\n\n\n\n\n\n\n\n\n가계빚 1896조 역대 최대…'영끌'이 가계빚 폭증 이끌었다\n\n2분기 가계신용 잔액 1896.2조…공표 이래 최대 규모 수도권 집값 상승으로 인해 이른바 '영끌(영혼까지 끌어모은 투자)' 붐이 되살아나면서 가계 빚이 다시 역대 최대 기록을 갈아치웠다. 정부의 8.8 부동산 공급\n\n\n프레시안\n\n17분전\n\n\n\n\n\n\n\n\n증권사가 발간한 ‘잠실아파트 리포트’…“집객시설·유동인구 등 호재가 장기화두” [투자360]"),
 Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content='수도권을 중심으로 한 부동산 가격 상승에 ‘영끌(영혼까지 끌어모아 집 구매)’과 ‘빚투(빚을 내 투자)’가 다시 늘면서 가계대출이 역대 최대치를 경신했다. 한국은행이 20일 발표한 ‘2024년 2분기 가계신용’에 따\n\n\n서울경제\n\n\n\n\n34\n개의 관련뉴스 더보기'),
 Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content='지방에서 공공주택 짓는 건설사들이 겪는 공사비 갈등이 여전히 답보상태라는 지적이 나온다. 공공 사업자의 공사비 증액에 따른 ‘배임’ 우려를 해소할 길이 열렸는데

In [10]:
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough

# RAG
template = """다음 맥락을 바탕으로 질문에 답변하세요:

{context}

질문: {question}
"""

prompt = ChatPromptTemplate.from_template(template)

llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

final_rag_chain = (
    {"context": retrieval_chain, 
     "question": RunnablePassthrough()} 
    | prompt
    | llm
    | StrOutputParser()
)

final_rag_chain.invoke(question)

"현재 수도권을 중심으로 집값이 상승하고 있는 상황입니다. 이는 '영끌(영혼까지 끌어모은 투자)'과 '빚투(빚을 내 투자)'가 다시 증가하면서 가계 신용 잔액이 역대 최대치를 기록한 것과 관련이 있습니다. 정부의 부동산 공급 정책에도 불구하고, 집값 상승세가 지속되고 있는 것으로 보입니다. 따라서 앞으로도 집값의 향방은 상승세를 유지할 가능성이 높아 보입니다. 다만, 대출 한도가 줄어들고 있는 점과 같은 여러 경제적 요인들이 집값에 미치는 영향도 고려해야 할 것입니다."

# RAG-Fusion

In [11]:
# RAG-Fusion: 관련 검색 쿼리 생성

# template = """You are a helpful assistant that generates multiple search queries based on a single input query. \n
# Generate multiple search queries related to: {question} \n
# Output (4 queries):"""


template = """당신은 주어진 하나의 질문을 기반으로 여러 검색 쿼리를 생성하는 유용한 조수입니다. \n
다음 질문과 관련된 여러 검색 쿼리를 생성하세요: {question} \n
출력 (4개의 쿼리):"""
prompt_rag_fusion = ChatPromptTemplate.from_template(template)

In [12]:
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

generate_queries = (
    prompt_rag_fusion 
    | ChatOpenAI(temperature=0)
    | StrOutputParser() 
    | (lambda x: x.split("\n"))
)

In [13]:
from langchain.load import dumps, loads

def reciprocal_rank_fusion(results: list[list], k=60):
    """ 여러 개의 순위가 매겨진 문서 리스트를 받아, RRF(Reciprocal Rank Fusion) 공식을 사용하여
        문서의 최종 순위를 계산하는 함수입니다. k는 RRF 공식에서 사용되는 선택적 파라미터입니다. """
    
    # 각 고유한 문서에 대한 점수를 저장할 딕셔너리를 초기화합니다.
    fused_scores = {}

    # 순위가 매겨진 문서 리스트를 순회합니다.
    for docs in results:
        # 리스트 내의 각 문서와 그 문서의 순위를 가져옵니다.
        for rank, doc in enumerate(docs):
            # 문서를 문자열 형식으로 직렬화하여 딕셔너리의 키로 사용합니다 (문서가 JSON 형식으로 직렬화될 수 있다고 가정).
            doc_str = dumps(doc)
            # 해당 문서가 아직 딕셔너리에 없으면 초기 점수 0으로 추가합니다.
            if doc_str not in fused_scores:
                fused_scores[doc_str] = 0
            # 문서의 현재 점수를 가져옵니다 (이전에 계산된 점수).
            previous_score = fused_scores[doc_str]
            # RRF 공식을 사용하여 문서의 점수를 업데이트합니다: 1 / (순위 + k)
            fused_scores[doc_str] += 1 / (rank + k)

    # 문서들을 계산된 점수에 따라 내림차순으로 정렬하여 최종적으로 재정렬된 결과를 얻습니다.
    reranked_results = [
        (loads(doc), score)
        for doc, score in sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)
    ]

    # 재정렬된 결과를 튜플의 리스트로 반환합니다. 각 튜플에는 문서와 해당 점수가 포함됩니다.
    return reranked_results

# RAG-Fusion 체인을 구성합니다.
# generate_queries: 질문에 대해 여러 검색 쿼리를 생성합니다.
# retriever.map(): 생성된 쿼리로 관련 문서들을 검색합니다.
# reciprocal_rank_fusion: 검색된 문서들을 RRF 알고리즘을 통해 결합하여 최종 순위를 계산합니다.
retrieval_chain_rag_fusion = generate_queries | retriever.map() | reciprocal_rank_fusion

# 체인을 실행하여 질문에 대한 검색된 문서들을 가져옵니다.
docs = retrieval_chain_rag_fusion.invoke({"question": question})

# 검색된 고유 문서들의 개수를 출력합니다.
len(docs)

# 검색된 고유 문서들을 출력합니다.
docs


[(Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content='수도권을 중심으로 한 부동산 가격 상승에 ‘영끌(영혼까지 끌어모아 집 구매)’과 ‘빚투(빚을 내 투자)’가 다시 늘면서 가계대출이 역대 최대치를 경신했다. 한국은행이 20일 발표한 ‘2024년 2분기 가계신용’에 따\n\n\n서울경제\n\n\n\n\n34\n개의 관련뉴스 더보기'),
  0.06587301587301586),
 (Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content='9월부터 은행권 주택담보대출·신용대출, 2금융권 주담대에 총부채원리금상환비율(DSR) 스트레스(가산) 금리 2단계가 적용되면서 대출 한도가 줄어들 예정이다. 대출 대상인 주택 소재지가 수도권(서울·경기·인천)인지, \n\n\n중앙일보\n\n23분전'),
  0.048915917503966164),
 (Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content="2분기 가계신용 잔액 1896.2조…공표 이래 최대 규모 수도권 집값 상승으로 인해 이른바 '영끌(영혼까지 끌어모은 투자)' 붐이 되살아나면서 가계 빚이 다시 역대 최대 기록을 갈아치웠다. 정부의 8.8 부동산 공급\n\n\n프레시안\n\n21분전"),
  0.04866871479774705),
 (Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content="2분기 가계신용 잔액 1896.2조…공표 이래 최대 규모 수도권 집값 상승으로 인해 이른바 '영끌(영혼까지 끌어모은 투자)' 붐이 되살아나면서 가계 빚이 다시 역대 최대 기록을 갈아치웠다. 정부의 8.8 부동산 공급\n\n\n프레시안\n\n24분전"),
  0.03

In [16]:
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough

# RAG
template = """다음 맥락을 바탕으로 질문에 답변하세요:

{context}

질문: {question}
"""

prompt = ChatPromptTemplate.from_template(template)

llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

final_rag_chain = (
    {"context": retrieval_chain_rag_fusion, 
     "question": RunnablePassthrough()} 
    | prompt
    | llm
    | StrOutputParser()
)

final_rag_chain.invoke(question)

"현재 수도권의 집값은 상승세를 보이고 있으며, 이는 '영끌(영혼까지 끌어모아 집 구매)'과 '빚투(빚을 내 투자)'와 같은 현상으로 인해 가계대출이 역대 최대치를 기록하고 있는 상황입니다. 그러나 9월부터는 대출 한도가 줄어들 것으로 예상되며, 이는 주택담보대출 및 신용대출에 적용되는 총부채원리금상환비율(DSR) 스트레스 금리의 변화 때문입니다. 이러한 대출 규제는 집값 상승에 영향을 미칠 수 있으며, 향후 집값의 향방은 대출 규제와 경제 전반의 변화에 따라 달라질 가능성이 큽니다."