# Query Transformations for Improved Retrieval in RAG Systems

## Tổng Quan

Đoạn mã này triển khai ba kỹ thuật biến đổi truy vấn để tăng cường quá trình truy xuất trong hệ thống Retrieval-Augmented Generation (RAG):

1.  Viết lại Truy vấn (Query Rewriting)
2.  Gợi ý Bước Lùi (Step-back Prompting)
3.  Phân tách Truy vấn con (Sub-query Decomposition)

Mỗi kỹ thuật nhằm mục đích cải thiện tính liên quan và toàn diện của thông tin được truy xuất bằng cách sửa đổi hoặc mở rộng truy vấn gốc.

## Động Lực

Hệ thống RAG thường gặp phải thách thức trong việc truy xuất thông tin phù hợp nhất, đặc biệt khi xử lý các truy vấn phức tạp hoặc mơ hồ. Các kỹ thuật biến đổi truy vấn này giải quyết vấn đề này bằng cách tái cấu trúc truy vấn để phù hợp hơn với các tài liệu liên quan hoặc để truy xuất thông tin toàn diện hơn.

## Các Thành Phần Chính

1.  Viết lại Truy vấn (Query Rewriting): Tái cấu trúc truy vấn để cụ thể và chi tiết hơn.
2.  Gợi ý Bước Lùi (Step-back Prompting): Tạo ra các truy vấn rộng hơn để truy xuất ngữ cảnh tốt hơn.
3.  Phân tách Truy vấn con (Sub-query Decomposition): Chia các truy vấn phức tạp thành các truy vấn con đơn giản hơn.

## Chi Tiết Phương Pháp

### 1. Viết lại Truy vấn (Query Rewriting)

-   **Mục đích**: Làm cho truy vấn cụ thể và chi tiết hơn, cải thiện khả năng truy xuất thông tin liên quan.
-   **Triển khai**:
    -   Sử dụng mô hình GPT-4 với mẫu gợi ý tùy chỉnh.
    -   Lấy truy vấn gốc và tái cấu trúc nó để cụ thể và chi tiết hơn.

### 2. Gợi ý Bước Lùi (Step-back Prompting)

-   **Mục đích**: Tạo ra các truy vấn rộng hơn, tổng quát hơn có thể giúp truy xuất thông tin nền tảng liên quan.
-   **Triển khai**:
    -   Sử dụng mô hình GPT-4 với mẫu gợi ý tùy chỉnh.
    -   Lấy truy vấn gốc và tạo ra một truy vấn "bước lùi" tổng quát hơn.

### 3. Phân tách Truy vấn con (Sub-query Decomposition)

-   **Mục đích**: Chia các truy vấn phức tạp thành các truy vấn con đơn giản hơn để truy xuất thông tin toàn diện hơn.
-   **Triển khai**:
    -   Sử dụng mô hình GPT-4 với mẫu gợi ý tùy chỉnh.
    -   Phân tách truy vấn gốc thành 2-4 truy vấn con đơn giản hơn.

## Lợi Ích của Các Phương Pháp Này

1.  **Cải thiện Tính Liên Quan**: Viết lại truy vấn giúp truy xuất thông tin cụ thể và liên quan hơn.
2.  **Ngữ Cảnh Tốt Hơn**: Gợi ý bước lùi cho phép truy xuất ngữ cảnh và thông tin nền tảng rộng hơn.
3.  **Kết Quả Toàn Diện**: Phân tách truy vấn con cho phép truy xuất thông tin bao gồm các khía cạnh khác nhau của một truy vấn phức tạp.
4.  **Tính Linh Hoạt**: Mỗi kỹ thuật có thể được sử dụng độc lập hoặc kết hợp, tùy thuộc vào trường hợp sử dụng cụ thể.

## Chi Tiết Triển Khai

-   Tất cả các kỹ thuật đều sử dụng mô hình GPT-4 của OpenAI để biến đổi truy vấn.
-   Các mẫu gợi ý tùy chỉnh được sử dụng để hướng dẫn mô hình tạo ra các biến đổi phù hợp.
-   Đoạn mã cung cấp các hàm riêng biệt cho từng kỹ thuật biến đổi, cho phép tích hợp dễ dàng vào các hệ thống RAG hiện có.

## Ví Dụ Trường Hợp Sử Dụng

Đoạn mã minh họa từng kỹ thuật bằng truy vấn ví dụ:
"Tác động của biến đổi khí hậu đối với môi trường là gì?"

-   **Viết lại Truy vấn (Query Rewriting)** mở rộng điều này để bao gồm các khía cạnh cụ thể như thay đổi nhiệt độ và đa dạng sinh học.
-   **Gợi ý Bước Lùi (Step-back Prompting)** khái quát hóa nó thành "Ảnh hưởng chung của biến đổi khí hậu là gì?"
-   **Phân tách Truy vấn con (Sub-query Decomposition)** chia nó thành các câu hỏi về đa dạng sinh học, đại dương, kiểu thời tiết và môi trường trên cạn.

## Kết Luận

Các kỹ thuật biến đổi truy vấn này cung cấp các phương pháp mạnh mẽ để tăng cường khả năng truy xuất của hệ thống RAG. Bằng cách tái cấu trúc truy vấn theo nhiều cách khác nhau, chúng có thể cải thiện đáng kể tính liên quan, ngữ cảnh và tính toàn diện của thông tin được truy xuất. Các phương pháp này đặc biệt có giá trị trong các lĩnh vực mà truy vấn có thể phức tạp hoặc đa diện, chẳng hạn như nghiên cứu khoa học, phân tích pháp lý hoặc các nhiệm vụ tìm kiếm sự thật toàn diện.


In [4]:
# Basic setup
import os
from langchain_ollama import ChatOllama
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_chroma import Chroma

llm_model_name='qwen2.5:7b'
llm = ChatOllama(model=llm_model_name, temperature=0)

embedding_model='bge-m3:latest'
embeddings = OllamaEmbeddings(model=embedding_model)

In [5]:
# Helper functions
def replace_t_with_space(list_of_documents):
    """
    Thay thế tất cả các ký tự tab ('\t') bằng dấu cách trong nội dung trang của mỗi tài liệu

    Args:
        list_of_documents: Danh sách các đối tượng tài liệu, mỗi đối tượng có thuộc tính 'page_content'.

    Returns:
        Danh sách tài liệu đã được sửa đổi với các ký tự tab được thay thế bằng dấu cách.
    """

    for doc in list_of_documents:
        doc.page_content = doc.page_content.replace('\t', ' ')  # Replace tabs with spaces
    return list_of_documents
  

In [6]:
# Load pdf file and split file to chunks
from uuid import uuid4
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_experimental.text_splitter import SemanticChunker
from langchain_core.documents import Document

# PDF_FILE_PATH='law_gtdb/data/law_gtdb_35.pdf'

# print("Loading PDF file")
# loader = PyPDFLoader(PDF_FILE_PATH)
# documents = loader.load()

# print("Splitting document based on Semantic")
# text_splitter = SemanticChunker(
#     OllamaEmbeddings(model=embedding_model),
#     breakpoint_threshold_type="percentile",
#     breakpoint_threshold_amount=70,
# )
# docs = text_splitter.split_documents(documents)
# cleaned_docs = replace_t_with_space(docs)


vectorstore = Chroma(
    collection_name="GTDB_35_v3",
    embedding_function=embeddings,
    persist_directory="data/chroma_GTDB_35_db",  # Where to save data locally, remove if not necessary
)

# print("Adding splitted documents to vector store")
# uuids = [str(uuid4()) for _ in range(len(cleaned_docs))]
# vectorstore.add_documents(documents=cleaned_docs, ids=uuids)

In [7]:
# create retrieve
retriever = vectorstore.as_retriever(
  search_type="similarity",
  search_kwargs={'k': 4}, # number of documents to retrieve
)

In [8]:
question = "Quy định đặt tên đường bộ là gì?"
retriever_docs = retriever.invoke(question)
retriever_docs

[Document(id='ec27fa39-ec2a-4a16-a8fd-60bf32bf7d57', metadata={'creationdate': '2024-09-20T10:02:58+07:00', 'creator': 'PyPDF', 'moddate': '2024-09-20T10:02:58+07:00', 'page': 7, 'page_label': '8', 'producer': 'PyPDF', 'source': 'law_gtdb/data/law_gtdb_35.pdf', 'total_pages': 69}, page_content='Đặt tên, đổi tên, số hiệu đường bộ \n1. Việc đặt tên, số hiệu đường bộ được quy định như sau: \na) Tên đường bộ được đặt theo tên danh nhân, người có công với đất nước; di \ntích, sự kiện lịch sử, văn hóa; tên địa danh hoặc tên theo tập quán. Số hiệu đường \nbộ được đặt theo số tự nhiên hoặc số tự nhiên kèm theo chữ cái nếu cần thiết. Trường hợp đường đô thị trùng với đường khác thì sử dụng cả tên đường đô thị và \ntên, số hiệu của đường khác; \nb) Tên, số hiệu đường bộ tham gia vào mạng lưới đường bộ quốc tế thực hiện \ntheo điều ước quốc tế giữa nước Cộng hòa xã hội chủ nghĩa Việt Nam với các quốc \ngia, tổ chức quốc tế có liên quan. Đường bộ kết nối vào mạng lưới đường bộ quốc tế \nthì sử dụn

### 1 - Query Rewriting: Reformulating queries to improve retrieval.

Tái cấu trúc truy vấn để cụ thể và chi tiết hơn.

In [13]:
from langchain_core.prompts import PromptTemplate

rewrite_llm = ChatOllama(model='qwen2.5:7b', temperature=0.1)

query_rewrite_template = """You are an AI assistant tasked with reformulating user queries to improve retrieval in a RAG system. 
Given the original query, rewrite it to be more specific, detailed, and likely to retrieve relevant information.
Please note that, the Rewritten query is the same language with original query

Original query: {original_query}

Rewritten query:"""

query_rewrite_prompt = PromptTemplate(
    input_variables=["original_query"],
    template=query_rewrite_template
)

# Create an LLMChain for query rewriting
query_rewriter = query_rewrite_prompt | rewrite_llm

def rewrite_query(original_query):
    """
    Rewrite the original query to improve retrieval.
    
    Args:
    original_query (str): The original user query
    
    Returns:
    str: The rewritten query
    """
    response = query_rewriter.invoke(original_query)
    return response.content

In [14]:
# Example
original_query = "Quy định đặt tên đường bộ là gì?"
rewrite_query = rewrite_query(original_query)
rewrite_query

'Quy định đặt tên cho các con đường bộ ở Việt Nam là gì?'

### 2 - Step-back Prompting: Generating broader queries for better context retrieval.

Tạo ra các truy vấn rộng hơn để truy xuất ngữ cảnh tốt hơn.

In [15]:
step_back_llm = ChatOllama(model='qwen2.5:7b', temperature=0.1)


# Create a prompt template for step-back prompting
step_back_template = """You are an AI assistant tasked with generating broader, more general queries to improve context retrieval in a RAG system.
Given the original query, generate a step-back query that is more general and can help retrieve relevant background information.
Please note that, the step-back query is the same language with original query.

Original query: {original_query}

Step-back query:"""

step_back_prompt = PromptTemplate(
    input_variables=["original_query"],
    template=step_back_template
)

# Create an LLMChain for step-back prompting
step_back_chain = step_back_prompt | step_back_llm

def generate_step_back_query(original_query):
    """
    Generate a step-back query to retrieve broader context.
    
    Args:
    original_query (str): The original user query
    
    Returns:
    str: The step-back query
    """
    response = step_back_chain.invoke(original_query)
    return response.content

In [16]:
# example query over the understanding climate change dataset
original_query = "Quy định đặt tên đường bộ là gì?"
step_back_query = generate_step_back_query(original_query)
print("Original query:", original_query)
print("\nStep-back query:", step_back_query)

Original query: Quy định đặt tên đường bộ là gì?

Step-back query: Quy định về quản lý và sử dụng đường bộ bao gồm những nội dung nào?


### 3- Sub-query Decomposition: Breaking complex queries into simpler sub-queries.

Chia các truy vấn phức tạp thành các truy vấn con đơn giản hơn.

In [19]:
sub_query_llm = ChatOllama(model='qwen2.5:7b', temperature=0.1)

# Create a prompt template for sub-query decomposition
subquery_decomposition_template = """You are an AI assistant tasked with breaking down complex queries into simpler sub-queries for a RAG system.
Given the original query, decompose it into 2-4 simpler sub-queries that, when answered together, would provide a comprehensive response to the original query.

Original query: {original_query}

example: What are the impacts of climate change on the environment?

Sub-queries:
1. What are the impacts of climate change on biodiversity?
2. How does climate change affect the oceans?
3. What are the effects of climate change on agriculture?
4. What are the impacts of climate change on human health?

Please note that, the sub-queries  is the same language with original query."""


subquery_decomposition_prompt = PromptTemplate(
    input_variables=["original_query"],
    template=subquery_decomposition_template
)

# Create an LLMChain for sub-query decomposition
subquery_decomposer_chain = subquery_decomposition_prompt | sub_query_llm

def decompose_query(original_query: str):
    """
    Decompose the original query into simpler sub-queries.
    
    Args:
    original_query (str): The original complex query
    
    Returns:
    List[str]: A list of simpler sub-queries
    """
    response = subquery_decomposer_chain.invoke(original_query).content
    sub_queries = [q.strip() for q in response.split('\n') if q.strip() and not q.strip().startswith('Sub-queries:')]
    return sub_queries

In [20]:
# example query over the understanding climate change dataset
original_query = "Quy định đặt tên đường bộ là gì?"
sub_queries = decompose_query(original_query)
print("\nSub-queries:")
for i, sub_query in enumerate(sub_queries, 1):
    print(sub_query)


Sub-queries:
Original query: Quy định đặt tên đường bộ là gì?
1. What are the rules for naming roads in general?
2. How do local regulations affect road naming practices?
3. What considerations are made when naming a new road?
