# Multiquery + hybrid search + RAG-Fusion

In [14]:
import bs4
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

import os
from dotenv import load_dotenv
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")

if not openai_api_key:
    raise ValueError("openai api 키가 없습니다. 한번더 확인 부탁드립니다.")

os.environ['OPENAI_API_KEY'] = openai_api_key


#### INDEXING ####

loader = WebBaseLoader(
    web_paths=("https://news.naver.com/section/101",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("sa_text", "sa_item_SECTION_HEADLINE")
        )
    ),
)
docs = loader.load()


# Split
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=300, 
    chunk_overlap=50)

# Make splits
splits = text_splitter.split_documents(docs)



In [15]:
# Index
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
vectorstore = Chroma.from_documents(documents=splits, 
                                    embedding=OpenAIEmbeddings())


In [16]:
chroma_retriever = vectorstore.as_retriever(
    search_type="mmr", # MMR 알고리즘을 사용하여 검색
    search_kwargs={'k':1,'fetch_k':4} # 상위 1개의 문서를 반환하지만, 고려할 문서는 4개로 설정
)

In [17]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever
# Initialize the BM25 retriever
bm25_retriever = BM25Retriever.from_documents(splits)
bm25_retriever.k = 2  # Retrieve top 2 results

print("type of bm25", type(bm25_retriever))

type of bm25 <class 'langchain_community.retrievers.bm25.BM25Retriever'>


In [18]:
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, chroma_retriever], weights=[0.2, 0.8]
)

In [19]:
# 예시 고객 문의
query = "향후 집값에 대해서 알려줘"

# 관련 문서/제품 검색
docs = ensemble_retriever.get_relevant_documents(query)

# 각 문서에서 페이지 내용을 추출하여 출력
# for doc in docs:
#     print(doc.page_content)

# 검색된 문서들 출력
docs

[Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content="조선비즈\n\n\n\n\n10\n개의 관련뉴스 더보기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n'강남 집값' 불붙었다…토허제 빗장 풀리고 주담대 금리인하까지"),
 Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content='도널드 트럼프 미국 대통령의 ‘도둑 잡기’ 공세가 한국을 재차 겨냥하고 있다. 7일(현지시간) 트럼프 대통령은 백악관에서 기자들과 만나 “우리는 반도체 사업을 잃었고, 대만이 그걸 훔쳐 갔다”며 “(반도체 사업은) \n\n\n중앙일보\n\n3시간전'),
 Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content='세종특별자치시 해들6단지 e편한세상 세종리버파크. 세종고속터미널이 가깝고 금강 조망도 가능해 세종 공무원 수요를 바탕으로 일대에서 인기가 많은 단지다. 이 아파트 전용면적 99㎡는 지난달 6억500만원에 거래됐다. \n\n\n매일경제\n\n1시간전')]

In [20]:
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

template = """
당신은 AI 언어 모델 조수입니다. 당신의 임무는 주어진 사용자 질문에 대해 벡터 데이터베이스에서 관련 문서를 검색할 수 있도록 다섯 가지 다른 버전을 생성하는 것입니다. 
사용자 질문에 대한 여러 관점을 생성함으로써, 거리 기반 유사성 검색의 한계를 극복하는 데 도움을 주는 것이 목표입니다. 
각 질문은 새 줄로 구분하여 제공하세요. 원본 질문: {question}
"""
prompt_perspectives = ChatPromptTemplate.from_template(template)


generate_queries = (
    prompt_perspectives 
    | ChatOpenAI(model_name="gpt-4o-mini",temperature=0) 
    | StrOutputParser() 
    | (lambda x: x.split("\n"))
)

In [21]:
from langchain.load import dumps, loads

def reciprocal_rank_fusion(results: list[list], k=60, top_n=2):
    """ 
    여러 개의 순위가 매겨진 문서 리스트를 받아, RRF(Reciprocal Rank Fusion) 공식을 사용하여
    문서의 최종 순위를 계산하는 함수입니다. k는 RRF 공식에서 사용되는 선택적 파라미터이며,
    top_n은 반환할 우선순위가 높은 문서의 개수입니다.
    """
    
    # 각 고유한 문서에 대한 점수를 저장할 딕셔너리를 초기화합니다.
    fused_scores = {}

    # 순위가 매겨진 문서 리스트를 순회합니다.
    for docs in results:
        # 리스트 내의 각 문서와 그 문서의 순위를 가져옵니다.
        for rank, doc in enumerate(docs):
            # 문서를 문자열 형식으로 직렬화하여 딕셔너리의 키로 사용합니다 (문서가 JSON 형식으로 직렬화될 수 있다고 가정).
            doc_str = dumps(doc)
            # 해당 문서가 아직 딕셔너리에 없으면 초기 점수 0으로 추가합니다.
            if doc_str not in fused_scores:
                fused_scores[doc_str] = 0
            # 문서의 현재 점수를 가져옵니다 (이전에 계산된 점수).
            previous_score = fused_scores[doc_str]
            # RRF 공식을 사용하여 문서의 점수를 업데이트합니다: 1 / (순위 + k)
            fused_scores[doc_str] += 1 / (rank + k)

    # 문서들을 계산된 점수에 따라 내림차순으로 정렬하여 최종적으로 재정렬된 결과를 얻습니다.
    reranked_results = [
        (loads(doc), score)
        for doc, score in sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)
    ]

    # 재정렬된 결과에서 우선순위가 높은 top_n 개의 문서만 반환합니다.
    return reranked_results[:top_n]

In [22]:

# RAG-Fusion 체인을 구성합니다.
# generate_queries: 질문에 대해 여러 검색 쿼리를 생성합니다.
# retriever.map(): 생성된 쿼리로 관련 문서들을 검색합니다.
# reciprocal_rank_fusion: 검색된 문서들을 RRF 알고리즘을 통해 결합하여 최종 순위를 계산합니다.
retrieval_chain_rag_fusion = generate_queries | ensemble_retriever.map() | reciprocal_rank_fusion

# 체인을 실행하여 질문에 대한 검색된 문서들을 가져옵니다.
question = "향후 집값에 대해서 알려줘"
docs = retrieval_chain_rag_fusion.invoke({"question": question})

# 검색된 고유 문서들의 개수를 출력합니다.
len(docs)

# 검색된 고유 문서들을 출력합니다.
docs

[(Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content='최근 들어 양호한 주가상승 흐름을 보이자 국내증시로 개인투자자들의 관심이 다시 집중되며 거래대금 규모도 늘어나는 추세다. 국내투자자들의 해외증시에 대한 쏠림현상은 둔화하는 모습이며 오히려 국내시장에서 시장반등에 대한\n\n\n국제신문'),
  0.06530936012691697),
 (Document(metadata={'source': 'https://news.naver.com/section/101'}, page_content='올해 들어 서울 아파트 거래량이 늘어난 가운데 강남 지역 위주로 아파트값이 다시 치솟고 있다. 기존 실거래가보다 가격을 올려 거래되는 ‘상승 거래’ 비중도 지난해 말보다 확대된 것으로 나타났다. 토지거래허가구역(토허\n\n\n한국경제'),
  0.05)]

In [23]:
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough

# RAG
template = """다음 맥락을 바탕으로 질문에 답변하세요:

{context}

질문: {question}
"""

prompt = ChatPromptTemplate.from_template(template)

llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

final_rag_chain = (
    {"context": retrieval_chain_rag_fusion, 
     "question": RunnablePassthrough()} 
    | prompt
    | llm
    | StrOutputParser()
)

final_rag_chain.invoke(question)

"최근 서울 아파트 거래량이 증가하고 있으며, 특히 강남 지역의 아파트값이 다시 상승하고 있다는 보도가 있습니다. 기존 실거래가보다 가격을 올려 거래되는 '상승 거래' 비중도 늘어나고 있는 상황입니다. 이러한 흐름은 향후 집값이 계속해서 오를 가능성을 시사합니다. 그러나 시장의 변동성이나 외부 요인에 따라 집값의 향후 추세는 달라질 수 있으므로, 지속적인 모니터링이 필요합니다."