## Reliable-RAG 🏷️

### Tổng quan

Phương pháp "Reliable-RAG" (Retrieval-Augmented Generation đáng tin cậy) nâng cao cách tiếp cận RAG truyền thống bằng cách thêm các lớp xác thực và tinh chỉnh để đảm bảo tính chính xác và mức độ liên quan của thông tin được truy xuất. Hệ thống này được thiết kế để xử lý và truy vấn các tài liệu dựa trên web, mã hóa nội dung của chúng vào một kho vector (vector store), và truy xuất các phân đoạn liên quan nhất để tạo ra các câu trả lời chính xác và đáng tin cậy. Phương pháp này kết hợp các kiểm tra về mức độ liên quan của tài liệu, ngăn chặn ảo giác (hallucination), và làm nổi bật các phân đoạn chính xác được sử dụng trong việc tạo ra phản hồi cuối cùng.

### Các thành phần chính

1.  **Tải và phân đoạn tài liệu (Document Loading and Chunking):**
    * Các tài liệu dựa trên web được tải và chia thành các đoạn nhỏ, dễ quản lý để tạo điều kiện mã hóa và truy xuất vector hiệu quả.

2.  **Tạo kho vector (Vectorstore Creation):**
    * Sử dụng Chroma và Cohere embeddings để mã hóa các đoạn tài liệu vào một kho vector, cho phép truy xuất dựa trên độ tương tự hiệu quả.

3.  **Kiểm tra mức độ liên quan của tài liệu (Document Relevancy Check):**
    * Triển khai cơ chế kiểm tra mức độ liên quan bằng cách sử dụng mô hình ngôn ngữ để lọc ra các tài liệu không liên quan trước khi tạo câu trả lời.

4.  **Tạo câu trả lời (Answer Generation):**
    * Sử dụng mô hình ngôn ngữ để tạo ra các câu trả lời ngắn gọn dựa trên các tài liệu liên quan được truy xuất.

5.  **Phát hiện ảo giác (Hallucination Detection):**
    * Bước phát hiện ảo giác chuyên dụng đảm bảo rằng các câu trả lời được tạo ra dựa trên các tài liệu được truy xuất, ngăn chặn việc đưa vào thông tin không được hỗ trợ hoặc sai sót.

6.  **Làm nổi bật đoạn trích tài liệu (Document Snippet Highlighting):**
    * Hệ thống xác định và làm nổi bật các phân đoạn tài liệu cụ thể được sử dụng trực tiếp để tạo câu trả lời, cung cấp tính minh bạch và khả năng truy xuất nguồn gốc.

### Động lực

Phương pháp Reliable-RAG được phát triển để giải quyết các thách thức phổ biến trong các hệ thống RAG truyền thống, chẳng hạn như truy xuất các tài liệu không liên quan, tạo ra các câu trả lời không dựa trên sự kiện và thiếu tính minh bạch trong các nguồn được sử dụng để tạo câu trả lời. Bằng cách thêm nhiều lớp xác thực, phương pháp này đảm bảo rằng các câu trả lời được cung cấp vừa chính xác vừa đáng tin cậy.

### Chi tiết và lợi ích của phương pháp

* **Lọc mức độ liên quan của tài liệu (Document Relevancy Filtering):**
    * Bằng cách sử dụng điểm số mức độ liên quan nhị phân được tạo bởi mô hình ngôn ngữ, chỉ các tài liệu liên quan nhất mới được chuyển sang giai đoạn tạo câu trả lời, giảm nhiễu và cải thiện chất lượng của câu trả lời cuối cùng.

* **Kiểm tra ảo giác (Hallucination Check):**
    * Trước khi hoàn thiện câu trả lời, hệ thống kiểm tra ảo giác bằng cách xác minh rằng nội dung được tạo ra được hỗ trợ đầy đủ bởi các tài liệu được truy xuất.

* **Làm nổi bật đoạn trích (Snippet Highlighting):**
    * Tính năng này tăng cường tính minh bạch bằng cách hiển thị các phân đoạn chính xác từ các tài liệu được truy xuất đã đóng góp vào câu trả lời cuối cùng.

## Triển khai

### Triển khai Python từng bước

1.  **Nhập thư viện và đặt biến môi trường (Import Libraries and Set Environment Variables)**
    * Nhập các thư viện cần thiết và đặt các biến môi trường để truy cập LLM và mô hình embedding.

2.  **Tạo kho vector (Create Vectorstore)**
    * Tải các tài liệu dựa trên web, chia chúng thành các đoạn và tạo kho vector bằng cách sử dụng Chroma và Cohere embeddings.

3.  **Truy vấn câu hỏi (Question Query)**
    * Xác định truy vấn của người dùng và truy xuất các tài liệu liên quan hàng đầu từ kho vector.

4.  **Kiểm tra mức độ liên quan của tài liệu (Check Document Relevancy)**
    * Lọc ra các tài liệu không liên quan bằng cách sử dụng điểm số mức độ liên quan nhị phân do mô hình ngôn ngữ cung cấp.

5.  **Tạo câu trả lời (Generate Answer)**
    * Sử dụng các tài liệu liên quan để tạo câu trả lời ngắn gọn cho truy vấn của người dùng.

6.  **Kiểm tra ảo giác (Check for Hallucinations)**
    * Đảm bảo rằng câu trả lời được tạo ra dựa trên đầy đủ các tài liệu được truy xuất.

7.  **Làm nổi bật đoạn trích tài liệu (Highlight Document Snippets)**
    * Xác định và làm nổi bật các phân đoạn chính xác từ các tài liệu được truy xuất đã được sử dụng để tạo câu trả lời cuối cùng.

### Các cân nhắc bổ sung

* **Hạn chế (Limitations):** Hiệu suất của hệ thống phụ thuộc vào chất lượng của embeddings và hiệu quả của cơ chế phát hiện ảo giác.
* **Cải tiến tiềm năng (Potential Improvements):** Việc kết hợp các mô hình phức tạp hơn để kiểm tra mức độ liên quan và phát hiện ảo giác có thể nâng cao hơn nữa độ tin cậy của hệ thống.
* **Các trường hợp sử dụng cụ thể (Specific Use Cases):** Phương pháp này đặc biệt hữu ích trong các lĩnh vực mà tính chính xác và minh bạch của sự kiện là tối quan trọng, chẳng hạn như nghiên cứu pháp lý hoặc học thuật.

<img src="images/reliable_rag.svg" alt="Reliable-RAG" width="300">


In [None]:
import os
from dotenv import load_dotenv
load_dotenv(dotenv_path='.env')

from langchain_community.embeddings import OllamaEmbeddings
from langchain_ollama import ChatOllama
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma

embedding_model_name='bge-m3:latest'
llm_model_name='qwen2.5:7b'

# set embedding
embedding_model = OllamaEmbeddings(model=embedding_model_name)

# Docs to index
urls = [
    "https://www.deeplearning.ai/the-batch/how-agents-can-improve-llm-performance/?ref=dl-staging-website.ghost.io",
    "https://www.deeplearning.ai/the-batch/agentic-design-patterns-part-2-reflection/?ref=dl-staging-website.ghost.io",
    "https://www.deeplearning.ai/the-batch/agentic-design-patterns-part-3-tool-use/?ref=dl-staging-website.ghost.io",
    "https://www.deeplearning.ai/the-batch/agentic-design-patterns-part-4-planning/?ref=dl-staging-website.ghost.io",
    "https://www.deeplearning.ai/the-batch/agentic-design-patterns-part-5-multi-agent-collaboration/?ref=dl-staging-website.ghost.io"
]

# Load
docs = [WebBaseLoader(url).load() for url in urls]

USER_AGENT environment variable not set, consider setting it to identify your requests.
  embedding_model = OllamaEmbeddings(model=embedding_model_name)


In [2]:
docs_list = [item for sublist in docs for item in sublist]
docs_list

[Document(metadata={'source': 'https://www.deeplearning.ai/the-batch/how-agents-can-improve-llm-performance/?ref=dl-staging-website.ghost.io', 'title': 'Four AI Agent Strategies That Improve GPT-4 and GPT-3.5 Performance', 'description': 'I think AI agent workflows will drive massive AI progress this year — perhaps even more than the next generation of foundation models. This is an important...', 'language': 'en'}, page_content='Four AI Agent Strategies That Improve GPT-4 and GPT-3.5 Performance✨ New course! Enroll in Long-Term Agentic Memory with LangGraphExplore CoursesAI NewsletterThe BatchAndrew\'s LetterData PointsML ResearchBlog✨ AI Dev 25CommunityForumEventsAmbassadorsAmbassador SpotlightResourcesCompanyAboutCareersContactStart LearningWeekly IssuesAndrew\'s LettersData PointsML ResearchBusinessScienceCultureHardwareAI CareersAboutSubscribeThe BatchLettersArticleAgentic Design Patterns Part 1 Four AI agent strategies that improve GPT-4 and GPT-3.5 performanceLettersTechnical Ins

In [3]:
# Split
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(chunk_size=500, chunk_overlap=0)
doc_splits = text_splitter.split_documents(docs_list)

In [4]:
# Add to vector store
vectorstore = Chroma.from_documents(
  documents=doc_splits,
  collection_name='rag',
  embedding=embedding_model
)

retriever = vectorstore.as_retriever(
  search_type="similarity",
  search_kwargs={'k': 4}, # number of documents to retrieve
)


### Question

In [5]:
question = "what are the differnt kind of agentic design patterns?"

### Retrieve docs

In [6]:
retriever_docs = retriever.invoke(question)
retriever_docs

[Document(metadata={'description': 'Tool use, in which an LLM is given functions it can request to call for gathering information, taking action, or manipulating data, is a key design...', 'language': 'en', 'source': 'https://www.deeplearning.ai/the-batch/agentic-design-patterns-part-3-tool-use/?ref=dl-staging-website.ghost.io', 'title': 'Agentic Design Patterns Part 3: Tool Use'}, page_content='(2023)“MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action,” Yang et al. (2023)“Efficient Tool Use with Chain-of-Abstraction Reasoning,” Gao et al. (2024)\xa0 \xa0Both Tool Use and Reflection, which I described in last week’s\xa0letter, are design patterns that I can get to work fairly reliably on my applications — both are capabilities well worth learning about. In future letters, I’ll describe the Planning and Multi-agent collaboration design patterns. They allow AI agents to do much more but are less mature, less predictable — albeit very exciting — technologies.\xa0Keep learning

In [7]:
print(f"Title: {retriever_docs[0].metadata['title']}\n\nSource: {retriever_docs[0].metadata['source']}\n\nContent: {retriever_docs[0].page_content}\n")

Title: Agentic Design Patterns Part 3: Tool Use

Source: https://www.deeplearning.ai/the-batch/agentic-design-patterns-part-3-tool-use/?ref=dl-staging-website.ghost.io

Content: (2023)“MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action,” Yang et al. (2023)“Efficient Tool Use with Chain-of-Abstraction Reasoning,” Gao et al. (2024)   Both Tool Use and Reflection, which I described in last week’s letter, are design patterns that I can get to work fairly reliably on my applications — both are capabilities well worth learning about. In future letters, I’ll describe the Planning and Multi-agent collaboration design patterns. They allow AI agents to do much more but are less mature, less predictable — albeit very exciting — technologies. Keep learning!AndrewRead "Agentic Design Patterns Part 1: Four AI agent strategies that improve GPT-4 and GPT-3.5 performance"Read "Agentic Design Patterns Part 2: Reflection"Read "Agentic Design Patterns Part 4: Planning"Read "Agentic Design Pat

### Check document relevancy

In [8]:
from langchain_core.prompts import ChatPromptTemplate
from pydantic import BaseModel, Field

# Data model
class GradeDocuments(BaseModel):
    """Binary score for relevance check on retrieved documents."""

    binary_score: str = Field(
        description="Documents are relevant to the question, 'yes' or 'no'"
    )
llm = ChatOllama(model=llm_model_name)
structured_llm_grader = llm.with_structured_output(GradeDocuments)

# Prompt
system = """You are a grader assessing relevance of a retrieved document to a user question. \n 
    If the document contains keyword(s) or semantic meaning related to the user question, grade it as relevant. \n
    It does not need to be a stringent test. The goal is to filter out erroneous retrievals. \n
    Give a binary score 'yes' or 'no' score to indicate whether the document is relevant to the question."""
grade_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        ("human", "Retrieved document: \n\n {document} \n\n User question: {question}"),
    ]
)

retrieval_grader = grade_prompt | structured_llm_grader

In [9]:
# Filter out the non-relevant docs
docs_to_use = []
for doc in retriever_docs:
    print(doc.page_content, '\n', '-'*50)
    res = retrieval_grader.invoke({"question": question, "document": doc.page_content})
    print(res,'\n')
    if res.binary_score == 'yes':
        docs_to_use.append(doc)

(2023)“MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action,” Yang et al. (2023)“Efficient Tool Use with Chain-of-Abstraction Reasoning,” Gao et al. (2024)   Both Tool Use and Reflection, which I described in last week’s letter, are design patterns that I can get to work fairly reliably on my applications — both are capabilities well worth learning about. In future letters, I’ll describe the Planning and Multi-agent collaboration design patterns. They allow AI agents to do much more but are less mature, less predictable — albeit very exciting — technologies. Keep learning!AndrewRead "Agentic Design Patterns Part 1: Four AI agent strategies that improve GPT-4 and GPT-3.5 performance"Read "Agentic Design Patterns Part 2: Reflection"Read "Agentic Design Patterns Part 4: Planning"Read "Agentic Design Patterns Part 5: Multi-Agent Collaboration"ShareSubscribe to The BatchStay updated with weekly AI News and Insights delivered to your inboxCoursesThe BatchCommunityCareersAbout 
 --

### Generate Result

In [10]:
from langchain_core.output_parsers import StrOutputParser

# Prompt
system = """You are an assistant for question-answering tasks. Answer the question based upon your knowledge. 
Use three-to-five sentences maximum and keep the answer concise."""
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        ("human", "Retrieved documents: \n\n <docs>{documents}</docs> \n\n User question: <question>{question}</question>"),
    ]
)

# LLM
llm = ChatOllama(model=llm_model_name, temperature=0)

# Post-processing
def format_docs(docs):
    return "\n".join(f"<doc{i+1}>:\nTitle:{doc.metadata['title']}\nSource:{doc.metadata['source']}\nContent:{doc.page_content}\n</doc{i+1}>\n" for i, doc in enumerate(docs))

# Chain
rag_chain = prompt | llm | StrOutputParser()

# Run
generation = rag_chain.invoke({"documents":format_docs(docs_to_use), "question": question})
print(generation)

There are four main kinds of agentic design patterns: Reflection, Tool Use, Planning, and Multi-agent collaboration. These patterns help AI agents improve their performance in various ways, from examining their own work to collaborate with other agents on complex tasks.


### Check halluciation

In [11]:
# Data model
class GradeHallucinations(BaseModel):
    """Binary score for hallucination present in 'generation' answer."""

    binary_score: str = Field(
        ...,
        description="Answer is grounded in the facts, 'yes' or 'no'"
    )

# LLM with function call
llm = ChatOllama(model=llm_model_name, temperature=0)
structured_llm_grader = llm.with_structured_output(GradeHallucinations)

# Prompt
system = """You are a grader assessing whether an LLM generation is grounded in / supported by a set of retrieved facts. \n 
    Give a binary score 'yes' or 'no'. 'Yes' means that the answer is grounded in / supported by the set of facts."""
hallucination_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system),
        ("human", "Set of facts: \n\n <facts>{documents}</facts> \n\n LLM generation: <generation>{generation}</generation>"),
    ]
)

hallucination_grader = hallucination_prompt | structured_llm_grader

response = hallucination_grader.invoke({"documents": format_docs(docs_to_use), "generation": generation})
print(response)

binary_score='yes'


### hightlight used doc

In [12]:
from typing import List
from langchain.output_parsers import PydanticOutputParser
from langchain_core.prompts import PromptTemplate

# Data model
class HighlightDocuments(BaseModel):
    """Return the specific part of a document used for answering the question."""

    id: List[str] = Field(
        ...,
        description="List of id of docs used to answers the question"
    )

    title: List[str] = Field(
        ...,
        description="List of titles used to answers the question"
    )

    source: List[str] = Field(
        ...,
        description="List of sources used to answers the question"
    )

    segment: List[str] = Field(
        ...,
        description="List of direct segements from used documents that answers the question"
    )

# LLM
llm = ChatOllama(model=llm_model_name, temperature=0)

# parser
parser = PydanticOutputParser(pydantic_object=HighlightDocuments)

# Prompt
system = """You are an advanced assistant for document search and retrieval. You are provided with the following:
1. A question.
2. A generated answer based on the question.
3. A set of documents that were referenced in generating the answer.

Your task is to identify and extract the exact inline segments from the provided documents that directly correspond to the content used to 
generate the given answer. The extracted segments must be verbatim snippets from the documents, ensuring a word-for-word match with the text 
in the provided documents.

Ensure that:
- (Important) Each segment is an exact match to a part of the document and is fully contained within the document text.
- The relevance of each segment to the generated answer is clear and directly supports the answer provided.
- (Important) If you didn't used the specific document don't mention it.

Used documents: <docs>{documents}</docs> \n\n User question: <question>{question}</question> \n\n Generated answer: <answer>{generation}</answer>

<format_instruction>
{format_instructions}
</format_instruction>
"""


prompt = PromptTemplate(
    template= system,
    input_variables=["documents", "question", "generation"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

# Chain
doc_lookup = prompt | llm | parser

# Run
lookup_response = doc_lookup.invoke({"documents":format_docs(docs_to_use), "question": question, "generation": generation})

In [14]:
import pprint
for id, title, source, segment in zip(lookup_response.id, lookup_response.title, lookup_response.source, lookup_response.segment):
    pprint.pp(f"ID: {id}\nTitle: {title}\nSource: {source}\nText Segment: {segment}\n")

('ID: doc3\n'
 'Title: Four AI Agent Strategies That Improve GPT-4 and GPT-3.5 Performance\n'
 'Source: '
 'https://www.deeplearning.ai/the-batch/how-agents-can-improve-llm-performance/?ref=dl-staging-website.ghost.io\n'
 'Text Segment: Reflection: The LLM examines its own work to come up with ways '
 'to improve it.\n')
