# Query Rewrite
- 질문 복잡성이 높을 때
- 앞단에 라우터 걸어서 복잡성 높은 쿼리에 대한 셀렉터 모듈로 활용될 수 있는 구조

In [1]:
!pip install llama_index openai datasets llama-index-retrievers-bm25

Collecting llama_index
  Downloading llama_index-0.10.59-py3-none-any.whl.metadata (11 kB)
Collecting openai
  Downloading openai-1.37.1-py3-none-any.whl.metadata (22 kB)
Collecting datasets
  Downloading datasets-2.20.0-py3-none-any.whl.metadata (19 kB)
Collecting llama-index-agent-openai<0.3.0,>=0.1.4 (from llama_index)
  Downloading llama_index_agent_openai-0.2.9-py3-none-any.whl.metadata (729 bytes)
Collecting llama-index-cli<0.2.0,>=0.1.2 (from llama_index)
  Downloading llama_index_cli-0.1.13-py3-none-any.whl.metadata (1.5 kB)
Collecting llama-index-core==0.10.59 (from llama_index)
  Downloading llama_index_core-0.10.59-py3-none-any.whl.metadata (2.4 kB)
Collecting llama-index-embeddings-openai<0.2.0,>=0.1.5 (from llama_index)
  Downloading llama_index_embeddings_openai-0.1.11-py3-none-any.whl.metadata (655 bytes)
Collecting llama-index-indices-managed-llama-cloud>=0.2.0 (from llama_index)
  Downloading llama_index_indices_managed_llama_cloud-0.2.7-py3-none-any.whl.metadata (3.8 

In [1]:


import logging
import sys

logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.core.indices.query.query_transform import HyDEQueryTransform
from llama_index.core.query_engine import TransformQueryEngine
from IPython.display import Markdown, display
import pprint
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import Settings
Settings.embed_model = OpenAIEmbedding(
    model="text-embedding-3-small"
)
Settings.llm= OpenAI(model='gpt-4o-mini')

In [2]:
# Dataset 로드
from datasets import load_dataset

ds = load_dataset("HAERAE-HUB/KOREAN-WEBTEXT", split='train[:20]')
data = ds.to_pandas()

INFO:numexpr.utils:NumExpr defaulting to 12 threads.
NumExpr defaulting to 12 threads.
INFO:datasets:PyTorch version 2.6.0 available.
PyTorch version 2.6.0 available.
INFO:datasets:TensorFlow version 2.19.0 available.
TensorFlow version 2.19.0 available.


Resolving data files:   0%|          | 0/18 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/18 [00:00<?, ?it/s]

In [3]:
data

Unnamed: 0,text,source,token_count,__index_level_0__
0,사이트의 판매량에 기반하여 판매량 추이를 반영한 인터파크 도서에서의 독립적인 판매 ...,oscar2201,3348,0
1,“아~아~잊으랴 어찌 우리 이날을 조국의 원수들이 짓밟아 오던 날을~”6·25의 노...,oscar2201,1427,1
2,일러전쟁의 승패를 가른 쓰시마 해전은 세계 최강으로 평가 받는 발틱함대를 괴멸시켰다...,oscar2201,2458,2
3,"재테크 채널 유튜버이자, 「빚부터 갚아라」, 「원트재무설계 소원을 말해봐」 저자인 ...",oscar2201,2838,3
4,"상급자의 범죄와 비리, 부패를 하급자에게 돌리는 것으로 따지면 타의추종을 불허하는 ...",oscar2201,1628,4
5,최근 언론보도에 의하면 이재현 CJ그룹 회장이 지난해 말 두 자녀에게 증여하였던 주...,oscar2201,1366,5
6,"나는 노무현의 시대를 살지 않았다. 그러니까, 나는 이 땅의 생명체로 살아있긴 했지...",oscar2201,2017,6
7,CBRE가 21일 발표한 ‘2021년 2분기 국내 상업용 부동산 시장 보고서’에 따...,oscar2201,1421,7
8,"안녕하세요. 한화솔루션입니다. 지난주, 슬기로운 솔루션 직장생활 2탄에 이어 이번엔...",oscar2201,2143,8
9,캐나다는 3 년 연속 지구상에서 가장 주목할만한 국가로 선포되었습니다. 일반 타이틀...,oscar2201,1104,9


In [4]:
# Document 오브젝트로 변환
from llama_index.core import Document, VectorStoreIndex
docs = []

#Iterative하게 Document 만들기
for i, row in data.iterrows():
    docs.append(Document(
        text=row['text'],
        # extra_info={'title': row['title']}
    ))

In [5]:
index = VectorStoreIndex.from_documents(
    docs
)

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


## 1. 커스텀 프롬프트 활용

In [6]:
from llama_index.core import PromptTemplate
from llama_index.llms.openai import OpenAI



query_gen_str = """
너는 사용자가 대충 쓴 질문에 대해서, 최대한 답변하기 위한 근거를 찾기 위한 다수의 서치 쿼리를 생성해 내야해.
생성하는 쿼리 중에 딱 하나는 역으로 된 질문으로 추가해서, 상대적 근거로 활용될 수 있도록 해야해.
{num_queries}개의 서치 쿼리를 만들어 내고, 하나당 한줄씩 사용해.
Query: {query}
Queries:
"""

# 프롬프트템플릿화
query_gen_prompt = PromptTemplate(query_gen_str)

#쿼리 브레이커에 사용할 llm 정의
llm = OpenAI(model="gpt-4o-mini")


def generate_queries(llm, query: str, num_queries: int = 4):
    response = llm.predict(
        query_gen_prompt, num_queries=num_queries, query=query
    )
    queries = response.split("\n")
    queries_str = "\n".join(queries)
    print(f"Generated queries:\n{queries_str}")
    return queries

In [7]:
# 잘 답변못했던 질문 확인
queries = generate_queries(llm,"프랭키가 누구한테 인기가 없을까?")

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
Generated queries:
1. 프랭키의 인기와 관련된 정보
2. 프랭키가 싫어하는 캐릭터나 인물
3. 프랭키의 팬층 분석
4. 프랭키가 누구에게 인기가 있는가?


In [8]:
queries

['1. 프랭키의 인기와 관련된 정보',
 '2. 프랭키가 싫어하는 캐릭터나 인물',
 '3. 프랭키의 팬층 분석',
 '4. 프랭키가 누구에게 인기가 있는가?']

In [9]:
from tqdm.asyncio import tqdm
import nest_asyncio
nest_asyncio.apply()

# 다수의 쿼리를 동시에 날려야 하기 떄문에 async 사용
# 사용할 다수 Retriever들의 결과를 합치는 용도
async def run_queries(queries, retrievers):
    tasks = []
    for query in queries:
        for i, retriever in enumerate(retrievers):
            tasks.append(retriever.aretrieve(query))

    task_results = await tqdm.gather(*tasks)

    results_dict = {}
    for i, (query, query_result) in enumerate(zip(queries, task_results)):
        results_dict[(query, i)] = query_result

    return results_dict

In [12]:

from llama_index.retrievers.bm25 import BM25Retriever


## vector retriever
vector_retriever = index.as_retriever(similarity_top_k=2)

## bm25 retriever
bm25_retriever = BM25Retriever.from_defaults(
    docstore=index.docstore, similarity_top_k=2
)

#query_engine = index.as_query_engine()
#response = query_engine.query(query_str)
#display(Markdown(f"{response}"))

DEBUG:bm25s:Building index from IDs objects
Building index from IDs objects


In [13]:
results_dict = await run_queries(queries, [vector_retriever, bm25_retriever])

  0%|          | 0/8 [00:00<?, ?it/s]

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


 62%|██████▎   | 5/8 [00:00<00:00, 13.56it/s]

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


 88%|████████▊ | 7/8 [00:01<00:00,  5.03it/s]

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


100%|██████████| 8/8 [00:02<00:00,  2.93it/s]


In [14]:
results_dict

{('1. 프랭키의 인기와 관련된 정보',
  0): [NodeWithScore(node=TextNode(id_='1411cc3f-000c-4e0a-8097-35432e066024', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='0644933e-5cad-4f84-8da0-56662d75181b', node_type='4', metadata={}, hash='abb2bbcf7b87f2b88e8d0705c999c7cae6f603d6abcca99da6df938ea56c8d17'), <NodeRelationship.PREVIOUS: '2'>: RelatedNodeInfo(node_id='f74593c0-7ccd-4d0a-b4b8-29ea91520513', node_type='1', metadata={}, hash='afb22e509851281e67bb9a6fa75623623331a63ccd47b4b66fb627293bdaff0b')}, metadata_template='{key}: {value}', metadata_separator='\n', text='레고 부스트를 만난 지 2달 정도 되었는데 생각보다 아이들이 잘 따라 만들고 너무 좋아합니다. 직접 움직임을 줄 수 있다는 게 성취감을 높여주는 것 같더라구요. 레고는 모든 아이들이 좋아하는 브릭이기도 하구요. 또 아이와 함께 만들다 보면 자연스럽게 아이들과 더 교감하게 되기도 하구요. 프랭키는 가상의 고양이이지만 애교도 부리고 먹이도 먹는 등 다양한 교감 활동을 할 수 있는데, 단순히 움직이는 코딩이 아니라 교감능력까지 함께 높여줄 수 있는 것 같아서 좋습니다. 특히나 여자아이들이라면 더 좋아할 것 같네요. 애교 많은 재롱둥이 프랭키와 함께 아이들의 상상력과 창의력을 키

In [15]:
from typing import List
from llama_index.core.schema import NodeWithScore

# 여러 Retriever 메서드 사용했기 때문에 결과 퓨전 필요
# 기본적인 rrf 사용
def fuse_results(results_dict, similarity_top_k: int = 2):
    """Fuse results."""
    k = 60.0
    fused_scores = {}
    text_to_node = {}

    for nodes_with_scores in results_dict.values():
        for rank, node_with_score in enumerate(
            sorted(
                nodes_with_scores, key=lambda x: x.score or 0.0, reverse=True
            )
        ):
            text = node_with_score.node.get_content()
            text_to_node[text] = node_with_score
            if text not in fused_scores:
                fused_scores[text] = 0.0
            fused_scores[text] += 1.0 / (rank + k)

    # fusion 스코어 기반 소팅
    reranked_results = dict(
        sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)
    )
    reranked_nodes: List[NodeWithScore] = []
    for text, score in reranked_results.items():
        reranked_nodes.append(text_to_node[text])
        reranked_nodes[-1].score = score

    return reranked_nodes[:similarity_top_k]

In [16]:
final_results = fuse_results(results_dict)

In [17]:
for n in final_results:
    print(n.score, "\n", n.text, "\n********\n")

0.03333333333333333 
 레고 부스트를 만난 지 2달 정도 되었는데 생각보다 아이들이 잘 따라 만들고 너무 좋아합니다. 직접 움직임을 줄 수 있다는 게 성취감을 높여주는 것 같더라구요. 레고는 모든 아이들이 좋아하는 브릭이기도 하구요. 또 아이와 함께 만들다 보면 자연스럽게 아이들과 더 교감하게 되기도 하구요. 프랭키는 가상의 고양이이지만 애교도 부리고 먹이도 먹는 등 다양한 교감 활동을 할 수 있는데, 단순히 움직이는 코딩이 아니라 교감능력까지 함께 높여줄 수 있는 것 같아서 좋습니다. 특히나 여자아이들이라면 더 좋아할 것 같네요. 애교 많은 재롱둥이 프랭키와 함께 아이들의 상상력과 창의력을 키워 보세요. 
********

0.016666666666666666 
 그리고 누가 짧은 답변에 관심이 있습니까? 해외 유학 그리고 미국의 고등교육 기관, 대학교의 유학을 꿈꾸고 있는 분들을 위한 최적의 정보 사이트입니다! 저희 Study in the USA는 국제 학생들을 위한 최고의 유학 안내 사이트입니다. 'Study in the USA'는 지난 40년 넘게, 국제 학생들과 교육의 기회를 공유해 오고 있습니다. 우리는 오직 우수한 교육을 제공하는 고등 교육기관, 인증된 어학 연수원, 대학교 및 명성있는 교육기관들과 협업하고 있습니다. 저희 검색 툴을 활용하시면 자신에게 맞는 학교를 쉽게 검색할 수 있습니다. 학비, 위치, 전공별로 검색하여 비교해 볼 수 있습니다. 해외 유학 준비는 매우 신나는 일이지만 때로는 힘든 일이 될 수도 있습니다. 저희 사이트에 수록된 학교 소개 정보, 동영상, 블로그 등을 읽어보고 실제 유학생들의 경험을 확인하며, 유학 준비를 시작하세요. 저희 Study in the USA의 전문가들이 여러분의 유학 여정을 안내해 드릴 것입니다. 
********



In [18]:
from typing import List

from llama_index.core import QueryBundle
from llama_index.core.retrievers import BaseRetriever
from llama_index.core.schema import NodeWithScore
import asyncio

# 퓨전리트리버 클래스 정의
class FusionRetriever(BaseRetriever):

    def __init__(
        self,
        llm,
        retrievers: List[BaseRetriever],
        similarity_top_k: int = 2,
    ) -> None:
        """Init params."""
        self._retrievers = retrievers
        self._similarity_top_k = similarity_top_k
        self._llm = llm
        super().__init__()

    def _retrieve(self, query_bundle: QueryBundle) -> List[NodeWithScore]:
        """Retrieve."""
        queries = generate_queries(
            self._llm, query_bundle.query_str, num_queries=4
        )
        results = asyncio.run(run_queries(queries, self._retrievers))
        final_results = fuse_results(
            results, similarity_top_k=self._similarity_top_k
        )

        return final_results

In [19]:
from llama_index.core.query_engine import RetrieverQueryEngine

fusion_retriever = FusionRetriever(
    llm, [vector_retriever, bm25_retriever], similarity_top_k=2
)
# 퓨전리트리버를 쿼리엔진으로 사용
query_engine = RetrieverQueryEngine(fusion_retriever)

In [20]:
query_str="프랭키가 누구한테 인기가 없을까?"

In [21]:
#naive
naive_query_engine = index.as_query_engine()
response = naive_query_engine.query(query_str)


INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


In [22]:
print(str(response))

프랭키는 일본 축구에 대한 한국인의 비판적인 시각 속에서 인기가 없을 것으로 보인다. 한국에서 일본 축구에 대한 사실과 다른 인식이 존재하며, 이는 한국인들 사이에서 일본에 대한 열등감과 반일 감정이 고조되고 있는 상황과 관련이 있다.


In [23]:
response2 = query_engine.query(query_str)

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
Generated queries:
1. 프랭키의 인기와 관련된 정보
2. 프랭키가 등장하는 작품에서의 캐릭터 평가
3. 프랭키에 대한 팬들의 반응과 의견
4. 프랭키가 인기 있는 캐릭터가 아닌 이유는 무엇인가?


  0%|          | 0/8 [00:00<?, ?it/s]

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


 62%|██████▎   | 5/8 [00:00<00:00, 12.87it/s]

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


 88%|████████▊ | 7/8 [00:01<00:00,  6.10it/s]

INFO:httpx:HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/embeddings "HTTP/1.1 200 OK"


100%|██████████| 8/8 [00:01<00:00,  6.58it/s]


INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


In [24]:
print(str(response2))

프랭키는 특히 남자아이들에게 인기가 없을 것 같습니다.
