# Query Transformations for Improved Retrieval in RAG Systems

## Tổng Quan

Đoạn mã này triển khai ba kỹ thuật biến đổi truy vấn để tăng cường quá trình truy xuất trong hệ thống Retrieval-Augmented Generation (RAG):

1.  Viết lại Truy vấn (Query Rewriting)
2.  Gợi ý Bước Lùi (Step-back Prompting)
3.  Phân tách Truy vấn con (Sub-query Decomposition)

Mỗi kỹ thuật nhằm mục đích cải thiện tính liên quan và toàn diện của thông tin được truy xuất bằng cách sửa đổi hoặc mở rộng truy vấn gốc.

## Động Lực

Hệ thống RAG thường gặp phải thách thức trong việc truy xuất thông tin phù hợp nhất, đặc biệt khi xử lý các truy vấn phức tạp hoặc mơ hồ. Các kỹ thuật biến đổi truy vấn này giải quyết vấn đề này bằng cách tái cấu trúc truy vấn để phù hợp hơn với các tài liệu liên quan hoặc để truy xuất thông tin toàn diện hơn.

## Các Thành Phần Chính

1.  Viết lại Truy vấn (Query Rewriting): Tái cấu trúc truy vấn để cụ thể và chi tiết hơn.
2.  Gợi ý Bước Lùi (Step-back Prompting): Tạo ra các truy vấn rộng hơn để truy xuất ngữ cảnh tốt hơn.
3.  Phân tách Truy vấn con (Sub-query Decomposition): Chia các truy vấn phức tạp thành các truy vấn con đơn giản hơn.

## Chi Tiết Phương Pháp

### 1. Viết lại Truy vấn (Query Rewriting)

-   **Mục đích**: Làm cho truy vấn cụ thể và chi tiết hơn, cải thiện khả năng truy xuất thông tin liên quan.
-   **Triển khai**:
    -   Sử dụng mô hình GPT-4 với mẫu gợi ý tùy chỉnh.
    -   Lấy truy vấn gốc và tái cấu trúc nó để cụ thể và chi tiết hơn.

### 2. Gợi ý Bước Lùi (Step-back Prompting)

-   **Mục đích**: Tạo ra các truy vấn rộng hơn, tổng quát hơn có thể giúp truy xuất thông tin nền tảng liên quan.
-   **Triển khai**:
    -   Sử dụng mô hình GPT-4 với mẫu gợi ý tùy chỉnh.
    -   Lấy truy vấn gốc và tạo ra một truy vấn "bước lùi" tổng quát hơn.

### 3. Phân tách Truy vấn con (Sub-query Decomposition)

-   **Mục đích**: Chia các truy vấn phức tạp thành các truy vấn con đơn giản hơn để truy xuất thông tin toàn diện hơn.
-   **Triển khai**:
    -   Sử dụng mô hình GPT-4 với mẫu gợi ý tùy chỉnh.
    -   Phân tách truy vấn gốc thành 2-4 truy vấn con đơn giản hơn.

## Lợi Ích của Các Phương Pháp Này

1.  **Cải thiện Tính Liên Quan**: Viết lại truy vấn giúp truy xuất thông tin cụ thể và liên quan hơn.
2.  **Ngữ Cảnh Tốt Hơn**: Gợi ý bước lùi cho phép truy xuất ngữ cảnh và thông tin nền tảng rộng hơn.
3.  **Kết Quả Toàn Diện**: Phân tách truy vấn con cho phép truy xuất thông tin bao gồm các khía cạnh khác nhau của một truy vấn phức tạp.
4.  **Tính Linh Hoạt**: Mỗi kỹ thuật có thể được sử dụng độc lập hoặc kết hợp, tùy thuộc vào trường hợp sử dụng cụ thể.

## Chi Tiết Triển Khai

-   Tất cả các kỹ thuật đều sử dụng mô hình GPT-4 của OpenAI để biến đổi truy vấn.
-   Các mẫu gợi ý tùy chỉnh được sử dụng để hướng dẫn mô hình tạo ra các biến đổi phù hợp.
-   Đoạn mã cung cấp các hàm riêng biệt cho từng kỹ thuật biến đổi, cho phép tích hợp dễ dàng vào các hệ thống RAG hiện có.

## Ví Dụ Trường Hợp Sử Dụng

Đoạn mã minh họa từng kỹ thuật bằng truy vấn ví dụ:
"Tác động của biến đổi khí hậu đối với môi trường là gì?"

-   **Viết lại Truy vấn (Query Rewriting)** mở rộng điều này để bao gồm các khía cạnh cụ thể như thay đổi nhiệt độ và đa dạng sinh học.
-   **Gợi ý Bước Lùi (Step-back Prompting)** khái quát hóa nó thành "Ảnh hưởng chung của biến đổi khí hậu là gì?"
-   **Phân tách Truy vấn con (Sub-query Decomposition)** chia nó thành các câu hỏi về đa dạng sinh học, đại dương, kiểu thời tiết và môi trường trên cạn.

## Kết Luận

Các kỹ thuật biến đổi truy vấn này cung cấp các phương pháp mạnh mẽ để tăng cường khả năng truy xuất của hệ thống RAG. Bằng cách tái cấu trúc truy vấn theo nhiều cách khác nhau, chúng có thể cải thiện đáng kể tính liên quan, ngữ cảnh và tính toàn diện của thông tin được truy xuất. Các phương pháp này đặc biệt có giá trị trong các lĩnh vực mà truy vấn có thể phức tạp hoặc đa diện, chẳng hạn như nghiên cứu khoa học, phân tích pháp lý hoặc các nhiệm vụ tìm kiếm sự thật toàn diện.


In [3]:
# Basic setup
import os
from langchain_ollama import ChatOllama
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_chroma import Chroma

llm_model_name='qwen2.5:7b'
llm = ChatOllama(model=llm_model_name, temperature=0)

embedding_model='bge-m3:latest'
embeddings = OllamaEmbeddings(model=embedding_model)

In [5]:
# Load vectorstore saved in rag_v2.ipynb
vectorstore = Chroma(
    collection_name='GTDB_35_v2',
    embedding_function=embeddings
)
retriever = vectorstore.as_retriever(
  search_type="similarity",
  search_kwargs={'k': 2}, # number of documents to retrieve
)

In [6]:
# test vector store
question = "Quy định đặt tên đường bộ là gì?"
retriever_docs = retriever.invoke(question)
retriever_docs

[]