# RAG 시스템에서의 향상된 검색을 위한 쿼리 변환 기법

## 개요

이 코드는 **Retrieval-Augmented Generation (RAG)** 시스템에서 검색 프로세스를 향상시키기 위해 다음의 세 가지 쿼리 변환 기법을 구현합니다:

1. 쿼리 리라이팅(Query Rewriting)
2. 스텝-백 프롬프팅(Step-back Prompting)
3. 서브 쿼리 분해(Sub-query Decomposition)

각 기법은 원래의 쿼리를 수정하거나 확장하여 검색된 정보의 관련성과 포괄성을 향상시키는 것을 목표로 합니다.

---

## 동기

RAG 시스템은 특히 복잡하거나 모호한 쿼리를 처리할 때 가장 관련성 있는 정보를 검색하는 데 어려움을 겪습니다. 이러한 쿼리 변환 기법들은 쿼리를 재구성하여 관련 문서와 더 잘 매칭되도록 하거나 더 포괄적인 정보를 검색할 수 있도록 돕는 역할을 합니다.

---

## 주요 구성 요소

1. **쿼리 리라이팅(Query Rewriting)**: 쿼리를 더 구체적이고 세부적으로 다시 작성합니다.
2. **스텝-백 프롬프팅(Step-back Prompting)**: 문맥을 더 잘 검색할 수 있도록 더 넓은 범위의 쿼리를 생성합니다.
3. **서브 쿼리 분해(Sub-query Decomposition)**: 복잡한 쿼리를 더 간단한 하위 쿼리로 분해합니다.

---

## 기법별 세부 사항

### 1. 쿼리 리라이팅(Query Rewriting)

- **목적**: 쿼리를 더 구체적이고 세부적으로 만들어 관련 정보를 검색할 가능성을 높입니다.
- **구현 방법**:
  - GPT-4 모델과 사용자 정의 프롬프트 템플릿을 사용합니다.
  - 원래의 쿼리를 가져와 더 구체적이고 세부적으로 재구성합니다.

### 2. 스텝-백 프롬프팅(Step-back Prompting)

- **목적**: 더 일반적이고 넓은 범위의 쿼리를 생성하여 관련된 배경 정보를 검색할 수 있게 합니다.
- **구현 방법**:
  - GPT-4 모델과 사용자 정의 프롬프트 템플릿을 사용합니다.
  - 원래의 쿼리를 사용해 더 일반적인 “스텝-백” 쿼리를 생성합니다.

### 3. 서브 쿼리 분해(Sub-query Decomposition)

- **목적**: 복잡한 쿼리를 더 단순한 하위 쿼리로 분해하여 포괄적인 정보를 검색할 수 있게 합니다.
- **구현 방법**:
  - GPT-4 모델과 사용자 정의 프롬프트 템플릿을 사용합니다.
  - 원래의 쿼리를 2~4개의 더 간단한 하위 쿼리로 분해합니다.

---

## 이러한 접근법의 이점

1. **개선된 관련성**: 쿼리 리라이팅은 더 구체적이고 관련성 있는 정보 검색에 도움을 줍니다.
2. **향상된 문맥성**: 스텝-백 프롬프팅은 더 넓은 문맥과 배경 정보를 검색할 수 있게 해줍니다.
3. **포괄적인 결과**: 서브 쿼리 분해는 복잡한 쿼리의 다양한 측면을 다루는 정보를 검색하게 합니다.
4. **유연성**: 각 기법은 독립적으로 또는 특정 사용 사례에 따라 조합하여 사용할 수 있습니다.

---

## 구현 세부 사항

- 모든 기법은 OpenAI의 GPT-4 모델을 사용해 쿼리를 변환합니다.
- 사용자 정의 프롬프트 템플릿을 사용해 모델이 적절한 변환을 생성하도록 유도합니다.
- 각 변환 기법에 대해 별도의 함수를 제공하여 기존 RAG 시스템에 쉽게 통합할 수 있습니다.

---

## 예시 사용 사례

코드는 다음의 예시 쿼리로 각 기법을 시연합니다:  
**"기후 변화가 환경에 미치는 영향은 무엇인가?"**

- **쿼리 리라이팅**은 이 질문을 온도 변화와 생물 다양성 등의 특정 측면을 포함하도록 확장합니다.
- **스텝-백 프롬프팅**은 질문을 일반화하여 **"기후 변화의 일반적인 영향은 무엇인가?"**와 같은 형태로 변환합니다.
- **서브 쿼리 분해**는 질문을 생물 다양성, 해양, 기후 패턴, 육상 환경과 같은 하위 질문으로 나눕니다.

---

## 결론

이러한 쿼리 변환 기법은 RAG 시스템의 검색 기능을 크게 향상시키는 강력한 방법을 제공합니다. 다양한 방식으로 쿼리를 재구성함으로써 검색된 정보의 관련성, 문맥성, 포괄성을 크게 향상시킬 수 있습니다. 이러한 기법은 과학 연구, 법률 분석 또는 종합적인 사실 검증 작업과 같이 쿼리가 복잡하거나 다면적인 도메인에서 특히 유용합니다.


### Import libraries and set environment variables

In [5]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate

import os
from dotenv import load_dotenv

# Load environment variables from a .env file
load_dotenv()

# Set the OpenAI API key environment variable
os.environ["OPENAI_API_KEY"] = os.getenv('OPENAI_API_KEY')

### 1 - Query Rewriting: Reformulating queries to improve retrieval.

In [7]:
re_write_llm = ChatOpenAI(temperature=0, model_name="gpt-4o", max_tokens=4000)

# Create a prompt template for query rewriting
# 더 자세하고 관련된 정보를 반환할 수 있도록 다시 쿼리를 재구성하도록 prompt 구성 
query_rewrite_template = """You are an AI assistant tasked with reformulating user queries to improve retrieval in a RAG system. 
Given the original query, rewrite it to be more specific, detailed, and likely to retrieve relevant information.

Original query: {original_query}

Rewritten query:"""

query_rewrite_prompt = PromptTemplate(
    input_variables=["original_query"],
    template=query_rewrite_template
)

# Create an LLMChain for query rewriting
query_rewriter = query_rewrite_prompt | re_write_llm

# 재구성된 쿼리를 출력하는 함수 
def rewrite_query(original_query):
    response = query_rewriter.invoke(original_query)
    return response.content

### Demonstrate on a use case

In [8]:
# example query over the understanding climate change dataset
original_query = "What are the impacts of climate change on the environment?"
rewritten_query = rewrite_query(original_query)
print("Original query:", original_query)
print("\nRewritten query:", rewritten_query)

Original query: What are the impacts of climate change on the environment?

Rewritten query: How does climate change affect various aspects of the environment, such as biodiversity, ecosystems, weather patterns, sea levels, and natural resources?


### 2 - Step-back Prompting: Generating broader queries for better context retrieval.



In [9]:
step_back_llm = ChatOpenAI(temperature=0, model_name="gpt-4o", max_tokens=4000)


# Create a prompt template for step-back prompting
# 더 일반적이고 관련된 정보를 반환할 수 잇게 돕는 쿼리로 만든다. 
step_back_template = """You are an AI assistant tasked with generating broader, more general queries to improve context retrieval in a RAG system.
Given the original query, generate a step-back query that is more general and can help retrieve relevant background information.

Original query: {original_query}

Step-back query:"""

step_back_prompt = PromptTemplate(
    input_variables=["original_query"],
    template=step_back_template
)

# Create an LLMChain for step-back prompting
step_back_chain = step_back_prompt | step_back_llm

def generate_step_back_query(original_query):
    """
    Generate a step-back query to retrieve broader context.
    
    Args:
    original_query (str): The original user query
    
    Returns:
    str: The step-back query
    """
    response = step_back_chain.invoke(original_query)
    return response.content

### Demonstrate on a use case

In [10]:
# example query over the understanding climate change dataset
original_query = "What are the impacts of climate change on the environment?"
step_back_query = generate_step_back_query(original_query)
print("Original query:", original_query)
print("\nStep-back query:", step_back_query)

Original query: What are the impacts of climate change on the environment?

Step-back query: What are the general effects of climate change on natural systems and ecosystems?


### 3- Sub-query Decomposition: Breaking complex queries into simpler sub-queries.

In [12]:
sub_query_llm = ChatOpenAI(temperature=0, model_name="gpt-4o", max_tokens=4000)

# Create a prompt template for sub-query decomposition
# 2~4개의 서브쿼리로 분해, 포괄적인 답변을 제공할 수 있다. few-shot 활용 
subquery_decomposition_template = """You are an AI assistant tasked with breaking down complex queries into simpler sub-queries for a RAG system.
Given the original query, decompose it into 2-4 simpler sub-queries that, when answered together, would provide a comprehensive response to the original query.

Original query: {original_query}

example: What are the impacts of climate change on the environment?

Sub-queries:
1. What are the impacts of climate change on biodiversity?
2. How does climate change affect the oceans?
3. What are the effects of climate change on agriculture?
4. What are the impacts of climate change on human health?"""


subquery_decomposition_prompt = PromptTemplate(
    input_variables=["original_query"],
    template=subquery_decomposition_template
)

# Create an LLMChain for sub-query decomposition
subquery_decomposer_chain = subquery_decomposition_prompt | sub_query_llm

def decompose_query(original_query: str):
    response = subquery_decomposer_chain.invoke(original_query).content
    sub_queries = [q.strip() for q in response.split('\n') if q.strip() and not q.strip().startswith('Sub-queries:')]
    return sub_queries

### Demonstrate on a use case

In [13]:
# example query over the understanding climate change dataset
original_query = "What are the impacts of climate change on the environment?"
sub_queries = decompose_query(original_query)
print("\nSub-queries:")
for i, sub_query in enumerate(sub_queries, 1):
    print(sub_query)


Sub-queries:
1. How does climate change affect weather patterns and extreme weather events?
2. What are the impacts of climate change on polar ice caps and glaciers?
3. How does climate change influence sea level rise and coastal areas?
4. What are the effects of climate change on ecosystems and wildlife habitats?
