# AI Agents: Agentic RAG (Part-10)

# Table of Contents
1. Introduction
- 1.1 Overview of Agentic RAG
- 1.2 RAG Versus Agentic RAG
2. Evolution of RAG Paradigms
- 2.1 Naïve RAG
- 2.2 Advanced RAG
- 2.3 Modular RAG
- 2.4 Graph RAG
- 2.5 Agentic RAG
3. Challenges and Limitations of Traditional RAG Systems​
4. Taxonomy of Agentic RAG
- 4.1 Single Agent Agentic RAG: Router
- 4.2 Multi-Agent Agentic RAG Systems
- 4.3 Hierarchical Agentic RAG Systems
- 4.4 Agentic Corrective RAG
- 4.5 Adaptive Agentic RAG
- 4.6 Graph-Based Agentic RAG
  - 4.6.1 Agent-G: Agentic Framework for Graph RAG
  - 4.6.2 GeAR: Graph-Enhanced Agent for RAG
- 4.7 Agentic Document Workflows (ADW) in Agentic RAG
5. Comparative Analysis of Agentic RAG Frameworks
6. Building an Agentic RAG System
- 6.1 Preprocess documents
- 6.2 Create a Retrieval Tool
- 6.3 Generate a Query
- 6.4 Grade Documents
- 6.5 Rewrite Question
- 6.6 Generate an Answer
- 6.7 Assemble the Graph
- 6.8 Run the Agentic RAG
7. Conclusion

# 1. Introduction

- 2024-2025: Trọng tâm của AI chuyển từ RAG sang Agentic RAG

## 1.1 Overview of Agentic RAG

- RAG khắc phục điểm yếu của LLM khi cung cấp thêm thông tin bên ngoài giúp LLM đưa ra phản hồi cho thông tin mới

![image.png](attachment:image.png)



## 1.2 RAG Versus Agentic RAG
Kiến trúc của RAG gồm 3 thành phần chính:

![image.png](attachment:image.png)

- Truy xuất: Chịu trách nhiệm truy vấn các nguồn dữ liệu bên ngoài như cơ sở tri thức, API hoặc cơ sở dữ liệu vector.
- Tăng cường: Xử lý dữ liệu đã truy xuất, trích xuất và tóm tắt thông tin phù hợp nhất để phù hợp với ngữ cảnh truy vấn.
- Tạo dữ liệu: Kết hợp thông tin đã truy xuất với kiến thức đã được đào tạo trước của LLM để tạo ra các phản hồi mạch lạc, phù hợp với ngữ cảnh.

![image-2.png](attachment:image-2.png)

Agentic RAG giới thiệu khả năng ra quyết định và điều phối tự động bằng cách sử dụng các tác nhân AI, cho phép quy trình tạo dữ liệu truy xuất mạnh mẽ và linh hoạt hơn. Quy trình cấp cao của nó bao gồm:
- Bước 1: Phân tích truy vấn hướng đến tác nhân: Truy vấn của người dùng được chuyển đến tác nhân AI để diễn giải ý định và ngữ cảnh của truy vấn
- Bước 2: Trí nhớ và chiến lược: Tác nhân tận dụng trí nhớ ngắn hạn và dài hạn để theo dõi bối cảnh. Sau đó, nó xây dựng một chiến lược truy xuất và lập luận động.
- Bước 3: Lựa chọn công cụ và thu thập dữ liệu: Tác nhân sẽ lựa chọn công cụ một cách thông minh
- Bước 4: Xây dựng lời nhắc: Nội dung được lấy ra sẽ được bổ sung ngữ cảnh có cấu trúc và hướng dẫn hệ thống. Lời nhắc được bổ sung này sẽ được chuyển đến LLM.
- Bước 5: Tạo phản hồi: LLM xử lý lời nhắc được tối ưu hóa và theo ngữ cảnh, tạo ra phản hồi co tính thích ứng, dễ giải thích và có liên quan cao.

# 2. Evolution of RAG Paradigms

Phần này xem xét sự phát triển của các mô hình RAG và các giai đoạn phát triển chính của RAG:
- RAG ngây thơ
- RAG nâng cao
- RAG module
- RAG đồ thị
- RAG tác nhân

## 2.1 Naïve RAG
Naïve RAG dại diện cho việc triển khai RAG nền tảng:

Hình minh họa quy trình đọc-truy xuất đơn giản của Naive RAG, tập trung vào truy xuất dựa trên từ khóa và các tập dữ liệu tĩnh. Các hệ thống này dựa trên các kỹ thuật truy xuất dựa trên từ khóa đơn giản, chẳng hạn như TF-IDF và BM25, để lấy tài liệu từ các tập dữ liệu tĩnh. Các tài liệu được truy xuất sau đó được sử dụng để tăng cường khả năng sinh của mô hình ngôn ngữ.

![image.png](attachment:image.png)

- Đơn giản, dễ triển khai.
- Phù hợp cho các tác vụ liên quan đến truy vấn dựa trên dữ liệu

Hạn chế:
- Lack of Contextual Awareness (thiếu nhận thức ngữ cảnh): Các tài liệu thu thập được thường không nắm bắt được sắc thái ngữ nghĩa
- Fragmented Outputs (đầu ra bị phân mảnh): việc thiếu quá trình xử lý nâng cao trước hoặc tích hợp theo ngữ cảnh thường dẫn đến phản hồi rời rạc hoặc quá chung chung.
- Scalability Issues (các vấn đế khả năng mở rộng): các kỹ thuật truy xuất dựa trên từ khóa gặp khó khăn với các tập dữ liệu lớn, thường không xác định được thông tin có liên quan nhất

## 2.2 Advanced RAG
Được xây dựng dựa trên RAG ngây thơ, công thêm hiểu biết ngữ nghĩa và các kỹ thuật truy xuất nâng cao. Các hệ thống này tận dụng các mô hình truy xuất dày đặc, chẳng hạn như Truy xuất Đoạn văn Dày đặc (Dense Passage Retrieval - DPR), và các thuật toán xếp hạng thần kinh để cải thiện độ chính xác của truy xuất.

![image.png](attachment:image.png)

## 2.3 Modular RAG
RAG dạng mô-đun đại diện cho sự phát triển mới nhất trong các mô hình RAG. Nhấn mạnh tính linh hoạt và khả năng tùy chỉnh. Các hệ thống này phân tách quy trình truy xuất và tạo dữ liệu thành các thành phần độc lập, có thể tái sử dụng, cho phép tối ưu hóa với từng miền cụ thể và khả năng thích ứng với từng nhiệm vụ.

![image.png](attachment:image.png)

## 2.4 Graph RAG
Graph RAG mở rộng hệ thống RAG bằng cách tích hợp các cấu trúc dữ liệu dựa trên đồ thị (hình). Các hệ thống này tận dụng các mối quan hệ và hệ thống phân cấp trong dữ liệu đồ thị để tăng cường khả năng suy luận đa bước nhảy và làm giàu ngữ cảnh. Bằng cách kết hợp truy xuất dựa trên đồ thị, Graph RAG cho phép tạo ra các kết quả đầu ra phong phú và chính xác hơn, đặc biệt là các tác vụ đòi hỏi sự hiểu biết về mối quan hệ.

![image.png](attachment:image.png)

Tuy nhiên, Graph RAG có một số hạn chế:
- Khả năng mở rộng hạn chế: việc phụ thuộc vào đồ thị sẽ hạn chế khả năng mở rộng, đặc biệt là với nguồn dữ liệu lớn.
- Phụ thuộc dữ liệu: Dữ liệu đồ thị chất lượng cao là yếu tố cần thiết để có kết quả đầu ra có ý nghĩa, hạn chế khả năng ứng dụng của nó trong các tập dữ liệu phi cấu trúc hoặc được chú thích kém.
- Độ phức tạp của tích hợp: Việc tích hợp dữ liệu đồ thị với các hệ thống truy xuất phi cấu trúc làm tăng độ phức tạp trong thiết kế và triển khai.

Graph RAG rất phù hợp cho các ứng dụng như chẩn đoán chăm sóc sức khỏe, nghiên cứu pháp lý và các lĩnh vực khác mà việc lập luận dựa trên các mối quan hệ có cấu trúc là rất quan trọng.

![image-2.png](attachment:image-2.png)

## 2.5 Agentic RAG
Agentic RAG đại diện cho một sự thay đổi mô hình bằng cách giới thiệu các tác nhân tự động và tối ưu hóa quy trình làm việc. Không giống như các hệ thống tĩnh, agentic RAG sử dụng các chiến lược tinh chỉnh lặp lại và truy xuất thích ứng để giải quyết các truy vấn phức tạp, thời gian thực và đa miền. Quy trình này tận dụng tính mô-đun và tính tự động dựa trên tác nhân.

![image.png](attachment:image.png)

khi phát triển hệ thống RAG, kiến trúc là tùy chọn và được thiết kế để phù hợp với nhu cầu thực tế và bài toán. Để thực hiện việc này một cách hiệu quả, điều quan trọng là phải hiểu các thành phần và mô-đun vận hành Agentic RAG pipline.

Phân tích các giai đoạn cốt lõi và khám phá cách chúng tương tác:
1. Phân tích bước truy vấn đầu tiên: Bao gồm việc chuyển truy vấn gốc của người dùng đến một tác nhân được hỗ trợ bởi LLM, chịu trách nhiệm phân tích sâu và chuyển đổi. Bao gồm:
- Query rewriting: Viết lại truy vấn: Tác nhân có thể viết lại truy vấn đầu vào, tạo ra phiên bản tinh chỉnh hoặc thay thế để trích xuất các thông tin liên quan tốt hơn.
- Decision logic (logic quyết định): đánh giá xem liệu truy vấn hiện tại có thể được trả lời trực tiếp hay cần thêm dữ liệu không.
2. Additional Data Sources: Nếu cần thêm ngữ cảnh, hệ thống sẽ kích hoạt một hoặc nhiều tác nhân truy xuất được giao nhiệm vụ tìm kiếm dữ liệu phù hợp nhất:
- Dữ liệu người dùng theo thời gian thực
- Các tài liệu riêng tư, nội bộ
- Nội dung công khai web

Mỗi đường dẫn truy xuất là động, thường được lựa chọn dựa trên mục đích và bản chất của truy vấn.

3. Rereank Search Results: Sau khi truy xuất được, các tài liệu sẽ được chuyển qua mô hình để rerank lại, thường mạnh hơn và khả năng nhận biết ngữ cảnh cao hơn so với embedding. Bước này:
- lọc nhiễu, chỉ giữ lại những điểm dữ liệu có liên quan nhất
- nén phạm vi, đảm bảo các bước tiếp theo hoạt động với ngữ cảnh chính xác, tín hiệu cao.

4. Generate Answer: Trong trường hợp LLM biết nó đủ thông tin, sẽ tiến hành trực tiếp đến tổng hợp câu trả lời, việc này có thể dẫn đến:
- Một phản hồi thực tế duy nhất
- một danh sách các hành động được đề xuất
- Hoặc thậm chí các quy trình làm việc do tác nhân điều khiển thực hiện các tác vụ

5. Analyse the Answer: Cuối cùng, câu trả lời được tạo ra sẽ trải qua quá trình đánh giá quan trọng bởi một tác nhân khác (hoặc chính tác nhân đó được gọi lại)
- Nếu thông tin chính xác và có liên quan, nó sẽ được chia sẻ với người dùng cuối
- nếu thiếu, hệ thống có thể sẽ xây dựng lại truy vấn ban đầu và khởi tạo vòng lặp (được giới hạn bởi số lần làm lại xác định trước để tránh các chu trình vô hạn.)

Về bản chất, hệ thống RAG hoạt động giống như những người ra quyết định tự động hơn là những công cụ truy xuất đơn thuần. Chúng thích ứng, suy luận và phát triển linh hoạt qua từng giai đoạn, tất cả đều được định hướng dựa trên (tình hình nhu cầu (của doanh nghiệp) sử dụng agent hiện tại)

Thiết kế hệ thống có nghĩa là lựa chọn đúng tác nhân, xác định ranh giới quyết định của họ và sắp xếp các tương tác một cách cẩn thận.

# 3. Challenges and Limitations of Traditional RAG Systems​

Thách thức và giới hạn của RAG truyền thống:
1. khó tích hợp ngữ cảnh:
- lấy được dữ liệu liên quan nhưng lúng túng khi đưa vào câu trả lời
- dẫn đến kết quả rời rạc, chung chung, thiếu kết nối
2. Hạn chế trong suy luận nhiều bước
- chỉ thường thực hiện truy xuất một bước
- khó tổng hợp kiến thức đa tầng (e.g. chính sách -> bối cảnh -> tác động)
3. Vấn đề về khả năng mở rộng và độ trễ
- dataset càng lớn, việc tìm kiếm và rerank lại chậm
- ảnh hưởng xấu đến ứng dụng thời gian thực (như phân tích tài chính, chăm sóc khách hàng)

# 4. Taxonomy of Agentic RAG

## 4.1 Single Agent Agentic RAG: Router
A Single-Agent Agentic RAG (RAG tác nhân đơn) hoạt động như một hệ thống ra quyết định tập trung, trong đó một tác nhân duy nhất quản lý việc truy xuất, định tuyến và kết hợp thông tin (hính). Kiến trúc này đơn giản hóa hệ thống bằng cách hợp nhất các tác vụ này thành một tác nhân thống nhất, đặc biệt hiệu quả đối với các thiết lập có số lượng công cụ hoặc nguồn dữ liệu hạn chế.

![image.png](attachment:image.png)

**Workflow**:
1. Gửi và đánh giá truy vấn: Người dùng gửi truy vấn, tác nhân điều phối phân tích và xác định nguồn dữ liệu phù hợp
2. Knowledge Source Selection:
- Structured Databases (e.g., PostgreSQL, MySQL via Text-to-SQL).
- Semantic Search (e.g., vector-based search on PDFs, books, internal records).
- Web Search (real-time online data).
- Recommendation Systems (personalized suggestions based on user profiles).
3. Tích hợp dữ liệu và LLM tổng hợp thông tin
4. Hệ thống tạo đầu ra

![image-2.png](attachment:image-2.png)

Mặc dù tiến bộ, agentic RAG vẫn có những thách thức:
- Độ phức tạp trong phối hợp: Việc quản lý tương tác giữa các tác nhân đòi hỏi các cơ chế điều phối phức tạp
- Chi phí tính toán: Việc sử dụng nhiều tác nhân làm tăng nhu cầu tài nguyên cho các quy trình làm việc phức tạp
- Hạn chế về khả năng mở rộng: Mặc dù có khẳ năng mở rộng, bản chất động của hệ thống có thể gây quá tải tài nguyên tính toán cho khối lượng truy vấn lớn.
  
Agentic rag nổi trổi trong các lĩnh vực như hỗ trợ khách hàng, phân tích tài chính và nền tảng học tập thích ứng, trong độ chính xác và khả năng thích ứng theo ngữ cảnh là tối quan trọng

## 4.2 Multi-Agent Agentic RAG Systems
Nhiều tác nhân chuyên biệt làm việc cộng tác với nhau, mỗi tác nhân tập trung vào một nguồn dữ liệu hoặc nhiệm vụ cụ thể, cho phép xử lý các truy vấn phức tạp theo mô-đun và có khả năng mở rộng.

![image.png](attachment:image.png)

**Workflow**:
1. Gửi truy vấn: Đại lý điều phối nhận truy vấn và phân phối đến các đại lý chuyên môn.
2. Các tác nhân truy xuất chuyên dụng:
- Agent 1: Structured data (SQL queries on PostgreSQL, MySQL).
- Agent 2: Semantic search (PDFs, books, internal unstructured data).
- Agent 3: Real-time web search (news, policy updates).
- Agent 4: Recommendation systems (personalized content, expert suggestions).
3. Truy cập công cụ và truy xuất dữ liệu: Tìm kiếm vectơ, Text-to-SQL, Tìm kiếm trên web và API bên ngoài được tận dụng song song.
4. Tích hợp dữ liệu và LLM tổng hợp: Dữ liệu tổng hợp được chuyển đến LLM để tổng hợp thành đầu ra toàn diện.
5. Tạo đầu ra: Phản hồi cuối cùng, hợp nhất được gửi đến người dùng.

**Challenges**:
- Tăng độ phức tạp trong việc phối hợp giữa các tác nhân. 
- Tiêu thụ nhiều tài nguyên tính toán hơn. 
- Tích hợp dữ liệu phức tạp trên các đầu ra không đồng nhất.

![image-2.png](attachment:image-2.png)

## 4.3 Hierarchical Agentic RAG Systems
Hệ thống RAG tác nhân phân cấp: sử dụng phương pháp tiếp cận đa tầng, có cấu trúc để truy xuất và xử lý thông tin, nâng cao cả hiệu quả và khả năng ra quyết định chiến lược (hình). Các tác nhân được tổ chức theo hệ thống phân cấp, với tác nhân cấp cao hơn giám sát và chỉ đạo tác nhân cấp thấp hơn. Cấu trúc này cho phép ra quyết định đa tầng, đảm bảo các truy vấn được xử lý bởi các nguồn lực phù hợp nhất.

![image.png](attachment:image.png)

Hơn  nữa, kiến trúc này còn cho phép phân quyền và tổng hợp động cho các tác vụ cực kỳ phức tạp.

**Workflow**:

![image-2.png](attachment:image-2.png)

1. Query Reception (tiếp nhận truy vấn): Người dùng gửi truy vấn, được tiếp nhận bởi tác nhân cấp cao chịu trách nhiệm đánh giá ban đầu và phân công nhiệm vụ.
2. Ra quyết định chiến lược: Tác nhân cấp cao đánh giá độ phức tạp của truy vấn và lựa chọn tác nhân cấp dưới, cơ sở dữ liệu, API hoặc công cụ truy xuất nào để ưu tiên dựa trên mức độ liên quan đến miền và độ tin cậy của dữ liệu.
3. Delegation to Subordinate Agents (ủy quyền cho tác nhân cấp dưới): Nhiệm vụ được giao cho các tác nhân cấp thấp chuyên biệt (ví dụ: cơ sở dữ liệu SQL, tìm kiếm trên web, API độc quyền), thực hiện truy xuất một cách độc lập.
4. Aggregation and Synthesis (Tích hợp và tổng hợp): Các tác nhân cấp dưới trả lại kết quả cho tác nhân cấp trên, tác nhân này sẽ tích hợp và tổng hợp thông tin thành một phản hồi thống nhất, mạch lạc.
5. Response Delivery: Câu trả lời cuối cùng được trình bày cho người dùng, bảm bảo tính đầy đủ và chính xác theo ngữ cảnh

![image-3.png](attachment:image-3.png)

**Challenges**:
- Coordination Complexity (độ phức tạp của việc phối hợp): Giao tiếp chặt chẽ giữa các tác nhân trên nhiều cấp độ là tăng chi phí điều phối
- Resource Allocation (phân bổ tài nguyên): việc phân bổ nhiệm vụ và hiệu quả giữa các cấp là phức tạp và đòi hỏi phải quản lý cẩn thận để tránh tình trạng tắc ngẽn.

## 4.4 Agentic Corrective RAG
RAG sửa lỗi giới thiệu cơ chế tự sửa lỗi giúp tinh chỉnh kết quả truy xuất theo từng lần, nâng cao khả năng sử dụng tài liệu và chất lượng phản hồi bằng cách nhúng các tác nhân thông minh vào quy trình làm việc.

![image.png](attachment:image.png)

**Workflow**:
1. Context Retrieval Agent: Truy xuất các tài liệu ngữ cảnh ban đầu từ cơ sở dữ liệu vector
2. Relevance Evaluation Agent: Đánh giá tính liên quan của các tài liệu đã thu thập, đánh dấu các tài liệu không liên quan hoặc mơ hồ để sửa
3. Query Refinement Agent (công cụ tinh chỉnh truy vấn): viết lại và tối ưu hóa các truy vấn bằng cách sử dụng hiểu biết ngữ nghĩa để cải thiện kết quả truy xuất.
4. External Knowledge Retrieval Agent (Tác nhân truy xuất kiến thức bên ngoài): Thực hiện tìm kiếm trên web hoặc các nguồn dữ liệu thay thế nếu ngữ cảnh vẫn chưa đủ
5. Response Synthesis Agent: tổng hợp tất cả các thông tin đã được xác thực và tinh chỉnh thành một phản hồi chính xác và mạch lạc.

Ý tưởng chính của RAG sửa lỗi:
- đánh giá mức độ liên quan của tài liệu: các tài liệu thu thập được sẽ được đánh giá, các tài liệu ít liên quan sẽ được thực hiện các bước khắc phục.
- Tinh chỉnh và mở rộng truy vấn: các truy vấn được viết lại bởi tác nhân tinh chỉnh truy vấn để cải thiện khả năng truy xuất, đảm bảo đầu vào có chất lượng tốt hơn cho việc tạo phản hồi.

![image-2.png](attachment:image-2.png)

## 4.5 Adaptive Agentic RAG
Adaptive RAG giới thiệu cách xử lý truy vấn động bằng cách điều chỉnh các chiến lược truy xuất dựa trên độ phức tạp của từng truy vấn, tăng cường cả tính linh hoạt và hiệu quả.

![image.png](attachment:image.png)

Ý tưởng chính của RAG thích ứng:
- Straightforward Queries (truy vấn trực tiếp): tạo trực tiếp mà không cần truy xuất đối với các câu hỏi dựa trên sự kiện (e.g. nhiệt độ sôi của nước là bao nhiêu)
- Simple Queries (các truy vấn đơn giản): truy xuất một bước cho truy vấn phức tạp vừa phải (e.g. hóa đơn tiền điện tháng này)
- Complex Queries (truy xuất phức tạp): truy xuất nhiều bước với quá trình tinh chỉnh lặp lại để lập luận theo lớp (e.g. dân số thành phố X thay đổi như thế nào qua các năm)

**Workflow**:

![image-2.png](attachment:image-2.png)

1. Classifier Role:
- Một LLM nhỏ hơn sẽ phân tích độ phức tạp của truy vấn bằng cách sử dụng các tập dữ liệu được gắn nhãn tự động dựa trên kết quả lịch sử
2. Lựa chọn chiến lược động: 
- LLM phản hồi trực tiếp cho các truy vấn đơn giản
- Truy xuất một bước cho các truy vấn đơn giản
- Truy xuất nhiều bước cho các truy vấn phức tạp đòi hỏi suy luận lặp lại
3. Tích hợp LLM:
- thông tin thu thập được sẽ được tổng hợp thành các phản hồi mạch lạc
- các tương tác lặp đi lặp lại giữa LLM và bộ phân loại sẽ tinh chỉnh kết quả đầu ra cho các tác vụ phức tạp

![image-3.png](attachment:image-3.png)

## 4.6 Graph-Based Agentic RAG
### 4.6.1 Agent-G: Agentic Framework for Graph RAG
Agent-G giới thiệu kiến trúc mới kết hợp cơ sở kiến thức đồ thị với khả năng truy xuất tài liệu phi cầu trúc, nâng cao khả năng suy luận và độ chính xác của việc truy xuất trong các hệ thống RAG

![image.png](attachment:image.png)

**Key Idea of Agent-G**:
- Graph Knowledge Bases: trích xuất các mối quan hệ có cấu trúc
- Unstructured Documents: Bổ sung dữ liệu có cấu trúc bằng thông tin theo ngữ cảnh từ các nguồn văn bản
- Critic Module (mô-đun phê bình): đánh giá mức độ liên quan và chất lượng của dữ liệu thu thập được, kích hoạt các hành động khắc phục nếu cần.
- Feedback Loops: Tinh chỉnh quá trình truy xuất và tổng hợp theo từng bước thông qua xác thực và truy vấn lại.

**Workflow**:
- Retriever Bank: Các tác nhân mô-đun chuyên về trích xuất dữ liệu đồ thị hoặc dữ liệu phi cấu trúc. lựa chọn nguồn một cách linh hoạt dựa trên nhu cầu truy vấn
- Critic Module: Xác thực thông tin thu thập được về mức độ liên quan và độ tin cậy, đánh dấu các kết quả không chắc chắn để tinh chỉnh.
- Dynamic Agent Interaction (tương tác tác nhân động): các tác nhân theo nhiệm vụ cụ thể cộng tác để tích hợp các nguồn dữ liệu có cấu trúc và không có cấu trúc vào một quy trình làm việc thống nhất
- LLM Integration: Tổng hợp dữ liệu đã được xác thực thành các phản hồi mạch lạc, liên tục được tinh chỉnh thông qua vòng lặp phản hồi phê bình.

![image-2.png](attachment:image-2.png)

### 4.6.2 GeAR: Graph-Enhanced Agent for RAG
(tác nhân tăng cường đồ thị cho RAG)

GeAR cải thiện RAG truyền thống bằng cách tích hợp truy xuất dựa trên đồ thị và điều khiển tác nhân, cải thiện khả năng truy xuất đa bước cho các truy vấn phức tạp

![image-3.png](attachment:image-3.png)

**Key Idea of GeAR**:
- Graph Expansion: mở rộng các trình truy xuất cơ sở (vd: BM25) bằng cách kết hợp dữ liệu có cấu trúc đồ thị, nhằm nắm bắt các mối quan hệ thực thể phức tạp và các mối quan hệ phụ thuộc
- Agent Framework: Sử dụng các tác nhân để quản lý động các chiến lược truy xuất, tự động lựa chọn các đường dẫn mở rộng đồ thị dựa trên độ phức tạp của truy vấn

**Workflow**:

![image-4.png](attachment:image-4.png)

1. Graph Expansion Module: Tích hợp dữ liệu đồ thị vào quá trình truy xuất, mở rộng không gian tìm kiếm để bao gồm các thực thể được kết nối nhằm suy luận đa bước tốt hơn.
2. Agent-Based Retrieval (truy xuất dựa trên tác nhân): các tác nhân lựa chọn và kết hợp các chiến lược truy xuất một cách linh hoạt, tận dụng khả năng truy xuất mở rộng đồ thị khi cần thiết
3. LLM Integration: tổng hợp dữ liệu dạng biểu đồ và không có cấu trúc thành các phản hồi mạch lạc, giàu ngữ cảnh bằng cách sử dụng LLM

![image-5.png](attachment:image-5.png)

## 4.7 Agentic Document Workflows (ADW) in Agentic RAG
(Quy trình làm việc tài liệu Agentic (ADW) trong Agentic RAG)

ADW mở rộng RAG truyền thống bằng cách điều phối tự động hóa công việc kiến thức đầu cuối trong cách quy trình tập trung vào tài liệu, tích hợp phân tích cú pháp, truy xuất, lập luận và đầu ra có cấu trúc với các tác nhân thông minh. 

**Workflow**:

![image.png](attachment:image.png)

1. Document Parsing and Information Structuring:
- Phân tích tài liệu bằng các công cụ doanh nghiệp để trích xuất các trường như số hóa đơn, ngày tháng, nhà cung cấp...
- Cấu trúc dữ liệu được trích xuất cho các tác vụ tiếp theo
2. State Maintenance Across Processes (duy trì trạng thái trên nhiều quy trình):
Duy trì bối cảnh tài liệu và theo dõi tiến trình công việc trên nhiều giai đoạn xử lý
3. Knowledge Retrieval:
- Truy xuất các tài liệu tham khảo có liên quan từ các cơ sở kiến thức bên ngoài và các chỉ mục vector.
- Kết hợp các hướng dẫn theo thời gian thực, cụ thể theo từng lĩnh vực để hỗ trợ ra quyết định.
4. Agentic Orchestration (phối hợp tác nhân): các tác nhân thông minh áp dụng các quy tắc, thực hiện suy luận đa bước và phối hợp các thành phần như phân tích cú pháp, trình truy xuất và API
5. Actionable Output Generation (tạo đầu ra có thể thực hiện được): tạo ra đầu ra có cấu trúc với các khuyến nghị phù hợp và thông tin chi tiết trong các báo cáo ngắn gọn, có thể thực hiện được

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

# 5. Comparative Analysis of Agentic RAG Frameworks

Bảng 2 cung cấp phân tích so sánh toàn diện về ba khung kiến trúc: RAG truyền thống, RAG Agentic và Luồng công việc tài liệu Agentic (ADW). Phân tích này làm nổi bật các điểm mạnh, điểm yếu và kịch bản phù hợp nhất của từng khung, đồng thời cung cấp những hiểu biết giá trị về khả năng ứng dụng của chúng trong nhiều trường hợp sử dụng khác nhau.

![image.png](attachment:image.png)

# 6. Building an Agentic RAG System

Trong phần cuối, chúng ta sẽ xây dựng một tác nhân truy xuất. Tác nhân truy xuất hữu ích khi chúng ta muốn một LLM đưa ra quyết định về việc truy xuất ngữ cảnh từ vectorstore hay phản hồi trực tiếp cho người dùng.

Đến cuối hướng dẫn, chúng ta sẽ hoàn thành những việc sau:
- Tìm kiếm và xử lý sơ bộ các tài liệu được sử dụng để truy xuất
- Lập chỉ mục cho tài liệu đó cho tìm kiếm ngữ nghĩa và tạo một công cụ truy xuất cho tác nhân
- Xây dựng hệ thống RAG tác nhân có thể quyết định khi nào nên sử dụng công cụ truy xuất

![image.png](attachment:image.png)

Setup:

In [None]:
%pip install -U --quiet langgraph "langchain[openai]" langchain-community langchain-text-splitters

In [None]:
import getpass
import os

from dotenv import load_dotenv

load_dotenv()

def _set_env(key: str):
    if key not in os.environ:
        os.environ[key] = getpass.getpass(f"{key}")

_set_env("OPENAI_API_KEY")


## 6.1 Preprocess documents
1. Lấy tài liệu để sử dụng trong hệ thống RAG của chúng ta:

In [1]:
from langchain_community.document_loaders import WebBaseLoader

urls = [
    "https://lilianweng.github.io/posts/2024-11-28-reward-hacking/",
    "https://lilianweng.github.io/posts/2024-07-07-hallucination/",
    "https://lilianweng.github.io/posts/2024-04-12-diffusion-video/",
]

docs = [WebBaseLoader(url).load() for url in urls]
docs[0][0].page_content.strip()[:1000]

USER_AGENT environment variable not set, consider setting it to identify your requests.


"Reward Hacking in Reinforcement Learning | Lil'Log\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nLil'Log\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n|\n\n\n\n\n\n\nPosts\n\n\n\n\nArchive\n\n\n\n\nSearch\n\n\n\n\nTags\n\n\n\n\nFAQ\n\n\n\n\n\n\n\n\n\n      Reward Hacking in Reinforcement Learning\n    \nDate: November 28, 2024  |  Estimated Reading Time: 37 min  |  Author: Lilian Weng\n\n\n \n\n\nTable of Contents\n\n\n\nBackground\n\nReward Function in RL\n\nSpurious Correlation\n\n\nLet’s Define Reward Hacking\n\nList of Examples\n\nReward hacking examples in RL tasks\n\nReward hacking examples in LLM tasks\n\nReward hacking examples in real life\n\n\nWhy does Reward Hacking Exist?\n\n\nHacking RL Environment\n\nHacking RLHF of LLMs\n\nHacking the Training Process\n\nHacking the Evaluator\n\nIn-Context Reward Hacking\n\n\nGeneralization of Hacking Skills\n\nPeek into Mitigations\n\nRL Algorithm Improvement\n\nDetecting Reward Hacking\n\nData Analysis of RLHF\

2. Chia các tài liệu đã được tải xuống thành các phần nhỏ hơn để lập chỉ mục vào vectorstore:

In [2]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

docs_list = [item for sublist in docs for item in sublist]

text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=100, chunk_overlap=50
)
doc_splits = text_splitter.split_documents(docs_list)
doc_splits[0].page_content.strip()

"Reward Hacking in Reinforcement Learning | Lil'Log\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nLil'Log\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n|\n\n\n\n\n\n\nPosts\n\n\n\n\nArchive\n\n\n\n\nSearch\n\n\n\n\nTags\n\n\n\n\nFAQ"

## 6.2 Create a Retrieval Tool
Sau khi có được tài liệu đã phân tách, chúng ta có thể lập chỉ mục chúng vào kho lưu trữ vector mà chúng ta sẽ sử dụng cho tìm kiếm ngữ nghĩa:

1. Sử dụng kho lưu trữ vector trong bộ nhớ và embedding của openAI

In [None]:
from langchain_core.vectorstores import InMemoryVectorStore
from langchain_openai import OpenAIEmbeddings

vectorstore = InMemoryVectorStore.from_documents(
    documents=doc_splits, embedding=OpenAIEmbeddings()
)
retriever = vectorstore.as_retriever()

2. Tạo công cụ truy xuất bằng cách sử dụng create_retriever_tool được xây dựng sẵn của LangChain

In [None]:
from langchain.tools.retriever import create_retriever_tool

retriever_tool = create_retriever_tool(
    retriever,
    "retrieve_blog_posts",
    "Search and return information about Lilian Weng's blog posts",
)

3. Test the tool

In [None]:
retriever_tool.invoke({"query": "types of reward hacking"})

## 6.3 Generate a Query
Bây giờ chúng ta sẽ bắt đầu xây dựng các thành phần (nút và cạnh) cho đồ thị RAG agentic. Lưu ý rằng các thành phần sẽ hoạt động trên messagesState - trạng thái đồ thị chứa khóa messages với danh sách các tin nhắn trò chuyện.

1. Xây dựng một nút `generate_query_or_respond`. Nó sẽ gọi một LLM để tạo phản hồi dựa trên trạng thái đồ thị hiện tại (danh sách tin nhắn). Với các tin nhắn đầu vào, nó sẽ quyết định truy xuất bằng công cụ truy xuất hoặc phản hồi trực tiếp cho người dùng. Lưu ý rằng chúng ta đang cấp cho mô hình trò chuyện quyền truy cập vào `retriever_tool` mà chúng ta đã tạo trước đó thông qua `.bind_tools`

In [None]:
from langgraph.graph import MessagesState
from langchain.chat_models import init_chat_model

response_model = init_chat_model("openai:gpt-4.1", temperature=0)

def generate_query_or_respond(state: MessagesState):
    """Call the model to generate a response based on the current state. Given
    the question, it will decide to retrieve using the retriever tool, or simply respond to the user.
    """
    response = (
        response_model.bind_tools([retriever_tool]).invoke(state["messages"])
    )
    return {"messages": [response]}

In [None]:
# Thử với một ví dụ đơn giản
input = {"messages": [{"role": "user", "content": "hello!"}]}
generate_query_or_respond(input)["messages"][-1].pretty_print()

## 6.4 Grade Documents
Thêm một conditional edge `grade_documents` để quyết định tài liệu nào được truy xuất thì liên quan đến câu hỏi.

Chúng ta sẽ dùng một mô hình với đầu ra được cấu trúc lược đồ (i.g. định nghĩa lược đồ để bắt mô hình sinh đầu ra theo cấu trúc chỉ định) `GradeDocuments` để chấm điểm documents. Hàm `grade_documents` sẽ trả về một cái tên của nút tiếp theo cần tới dựa trên quyết định chấm điểm (`generate_answer` hoặc `rewrite_question`)

In [None]:
from pydantic import BaseModel, Field
from typing import Literal


GRADE_PROMPT = (
    "You are a grader assessing relevance of a retrieved document to a user question. \n "
    "Here is the retrieved document: \n\n {context} \n\n"
    "Here is the user question: {question} \n"
    "If the document contains keyword(s) or semantic meaning related to the user question, grade it as relevant. \n"
    "Give a binary score 'yes' or 'no' score to indicate whether the document is relevant to the question."
)


class GradeDocuments(BaseModel):
    """Grade documents using a binary score for relevance check."""
    binary_score: str = Field(
        description="Relevance score: 'yes' if relevant, or 'no' if not relevant."
    )


grader_model = init_chat_model("openai:gpt-4.1", temperature=0)

def grade_documents(
        state: MessagesState,
) -> Literal["generate_answer", "rewrite_question"]:
    """Determine whether the retrieved documents are relevant to the question."""
    question = state["messages"][0].content
    context = state["messages"][-1].content

    prompt = GRADE_PROMPT.format(question=question, context=context)
    response = (
        grader_model.with_structured_output(GradeDocuments).invoke(
            [{"role": "user", "content": prompt}]
        )
    )
    score = response.binary_score

    if score == "yes":
        return "generate_answer"
    else:
        return "rewrite_question"

2. Chạy lệnh này với các tài liệu không liên quan trong phản hồi của công cụ:

In [None]:
from langchain_core.messages import convert_to_messages

input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "What does Lilian Weng say about types of reward hacking?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "types of reward hacking"},
                    }
                ],
            },
            {"role": "tool", "content": "meow", "tool_call_id": "1"},
        ]
    )
}
grade_documents(input)

3. Xác nhận rằng tài liệu liên quan đã được phân loại

In [None]:
input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "What does Lilian Weng say about types of reward hacking?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "types of reward hacking"},
                    }
                ],
            },
            {
                "role": "tool",
                "content": "reward hacking can be categorized into two types: environment or goal misspecification, and reward tampering",
                "tool_call_id": "1",
            },
        ]
    )
}
grade_documents(input)

## 6.5 Rewrite Question
Xây dựng nút `rewrite_question`. công cụ truy xuất có thể trả về các tài liệu có khả năng không liên quan, điều này cho thấy cần phải cải thiện câu hỏi gốc của người dùng. Để làm điều này, chúng ta sẽ gọi nút `rewrite_question`

In [None]:
REWRITE_PROMPT = (
    "Look at the input and try to reason about the underlying semantic intent / meaning.\n"
    "Here is the initial question:"
    "\n ------- \n"
    "{question}"
    "\n ------- \n"
    "Formulate an improved question:"
)


def rewrite_question(state: MessagesState):
    """Rewrite the original user question."""
    messages = state["messages"]
    question = messages[0].content
    prompt = REWRITE_PROMPT.format(question=question)
    response = response_model.invoke([{"role": "user", "content": prompt}])
    return {"messages": [{"role": "user", "content": response.content}]}

2. Try it out

In [None]:
input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "What does Lilian Weng say about types of reward hacking?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "types of reward hacking"},
                    }
                ],
            },
            {"role": "tool", "content": "meow", "tool_call_id": "1"},
        ]
    )
}

response = rewrite_question(input)
print(response["messages"][-1]["content"])

## 6.6 Generate an Answer
1. Xây dựng một nút `generate_answer`: nếu vượt qua kiểm tra của grader, chúng ta có thể sinh cầu trả lời dựa trên câu hỏi ban đầu và thông tin truy xuất được.

In [None]:
GENERATE_PROMPT = (
    "You are an assistant for question-answering tasks. "
    "Use the following pieces of retrieved context to answer the question. "
    "If you don't know the answer, just say that you don't know. "
    "Use three sentences maximum and keep the answer concise.\n"
    "Question: {question} \n"
    "Context: {context}"
)


def generate_answer(state: MessagesState):
    """Generate an answer"""
    question = state["messages"][0].content
    context = state["messages"][-1].content
    prompt = GENERATE_PROMPT.format(question=question, context=context)
    response = response_model.invoke([{"role": "user", "content": prompt}])
    return {"messages": [response]}

2. Try it out

In [None]:
input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "What does Lilian Weng say about types of reward hacking?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "types of reward hacking"},
                    }
                ],
            },
            {
                "role": "tool",
                "content": "reward hacking can be categorized into two types: environment or goal misspecification, and reward tampering",
                "tool_call_id": "1",
            },
        ]
    )
}

response = generate_answer(input)
response["messages"][-1].pretty_print()

## 6.7 Assemble the Graph
Bắt đầu với một `generate_query_or_respond` và quyết định nếu chúng ta cần gọi ọot `retriever_tool`

Điều hướng đến bước tiếp theo sử dụng `tool_condition`:
- nếu `generate_query_or_respond` trả về `tool_call`, sẽ gọi `retriever_tool` để truy xuất context
- Nếu không, phản hồi tới người dùng

Đánh giá các tài liệu truy xuất được có liên quan tới câu hỏi hay không `grade_documents` và điều hướng đến bước tiếp theo:
- Nếu tài liệu truy xuất được không liên quan đến câu hỏi, sẽ viết lại câu hỏi bằng cách sử dụng `rewrite_question` sau đó gọi `generate_quẻy_or_respond` lần nữa
- Nếu tài liệu có liên quan, xử lý tới `generate_answer` và tạo câu phản hồi sử dụng `ToolMessage` với tài liệu context trích xuất được 

In [None]:
from langgraph.graph import StateGraph, START, END
from langgraph.prebuilt import ToolNode
from langgraph.prebuilt import tools_condition


workflow = StateGraph(MessagesState)


# Define the nodes we will cycle between
workflow.add_node(generate_query_or_respond)
workflow.add_node("retrieve", ToolNode([retriever_tool]))
workflow.add_node(rewrite_question)
workflow.add_node(generate_answer)

workflow.add_edge(START, "generate_query_or_respond")

# Decide whether to retrieve
workflow.add_conditional_edges(
    "generate_query_or_respond",
    # Assess LLM decision (call `retriever_tool` tool or respond to the user)
    tools_condition,
    {
        # Translate the condition outputs to nodes in our graph
        "tool": "retrieve",
        END: END,
    },
)

# Edges taken after the "action" node is called
workflow.add_conditional_edges("generate_answer", END)
workflow.add_edge("rewrite_question", "generate_query_or_respond")

# Compile
graph = workflow.compile()

trực quan đồ thị:

In [None]:
from IPython.display import display, Image

display(Image(graph.get_graph().draw_mermaid_png()))

## 6.8 Run the Agentic RAG

In [None]:
for chunk in graph.stream(
    {
        "messages": [
            {
                "role": "user",
                "content": "what does Lilian Weng say about types of reward hacking?",
            }
        ]
    }
):
    for node, update in chunk.items():
        print("Update from node", node)
        update["messages"][-1].pretty_print()
        print("\n\n")

# 7. Conclusion

Điểm chính về sự tiến hóa từ RAG đến Agentic RAG
1. Thay đổi tư duy (Paradigm shift)
- agentic RAG mở ra cách tiếp cập mới: seasoning lặp lại, phân công nhiệm vụ, tự sửa sai và thích ứng linh hoạt -> điều mà RAG truyền thống khó làm
2. Kiến trúc đa tác nhân (Multi-agent architectures) 
- tiến hóa từ single-agent -> multi-agent (phân cấp, correctivate)
- kết hợp với graph structures (vd: Agent-G, GeAR) -> tạo hệ retrieval module, bền vững, nhận thức ngữ cảnh
3. Gia tăng mức độ trừu tượng (layers of abstraction)
- từ adaptive agents -> document workflow agents -> mỗi lớp bổ sung khả năng tự chủ và ra quyết định tinh vi hơn
4. hạn chế và yêu cầu
- không phải "silver bullet"
- cần: orchestration chặt chẽ, prompt engineering tốt, taxonomy rõ ràng, giám sát liên tục để đảm bảo độ tin cậy và khả năng mở rộng
5. Hướng phát triển tương lai
- chuẩn hóa đánh giá
- xây dựng framework agent tương tác tốt
- khai phá multimodel và memory-augmented capabilities