In [66]:
!pip install markdownify duckduckgo-search smolagents --upgrade -q
!pip install -qU langchain-community faiss-cpu
!pip install langchain unstructured python-docx
!pip install markdownify duckduckgo-search spaces gradio-tools langchain langchain-community langchain-huggingface faiss-cpu --upgrade -q





Let's login in order to call the HF Inference API:

# 2. Let's create our multi-agent RAG system

In this section, we will create each of the agents present in our RAG system.

We will have 3 agents managed by a central one (refer to the image for details):

* **🕵💬 Web search agent**: It will include the [`DuckDuckGoSearchTool`](https://github.com/huggingface/transformers/blob/main/src/transformers/agents/search.py) tool and the [`VisitWebpageTool`](https://github.com/huggingface/transformers/blob/main/src/transformers/agents/search.py). As you can see, each agent may contain a list of tools.
* **🕵💬 Retriever agent**: It will include two tools for retrieving information from two different knowledge bases.

In [67]:
import re
import requests
from markdownify import markdownify as md
from requests.exceptions import RequestException
from smolagents import tool


@tool
def visit_webpage(url: str) -> str:
    """Visits a webpage at the given URL and returns its content as a markdown string.

    Args:
        url: The URL of the webpage to visit.

    Returns:
        The content of the webpage converted to Markdown, or an error message if the request fails.
    """
    try:
        # Send a GET request to the URL
        response = requests.get(url)
        response.raise_for_status()  # Raise an exception for bad status codes

        # Convert the HTML content to Markdown
        markdown_content = md(response.text).strip()

        # Remove multiple line breaks
        markdown_content = re.sub(r"\n{3,}", "\n\n", markdown_content)

        return markdown_content

    except RequestException as e:
        return f"Error fetching the webpage: {str(e)}"
    except Exception as e:
        return f"An unexpected error occurred: {str(e)}"

Ok, now let's initialize and test our tool!

In [None]:
print(visit_webpage("https://netzero.vn/")[:500])

Trang chủ | NetZero.VN - Net Zero Viet Nam

 

By using this site, you agree to the [Privacy Policy](#) and [Terms of Use](#).

[Accept](#)

[![NetZero.VN - Net Zero Viet Nam](https://netzero.vn/wp-content/uploads/2023/10/netzero_vn.png)![NetZero.VN - Net Zero Viet Nam](https://netzero.vn/wp-content/uploads/2023/10/netzero_vn.png)![NetZero.VN - Net Zero Viet Nam](https://netzero.vn/wp-content/uploads/2023/10/netzero_vn-trans.png)

NetZero.VN - Net Zero Viet Nam

Vi


## Build our multi-agent system 🤖🤝🤖


In [105]:
from smolagents import (
    ToolCallingAgent,
    InferenceClientModel,
    DuckDuckGoSearchTool,
    MultiStepAgent
)

# Khởi tạo model
model = InferenceClientModel("Qwen/Qwen2.5-7B-Instruct")

search_agent = ToolCallingAgent(
    tools=[DuckDuckGoSearchTool(), visit_webpage],  # This is good!
    model=model,
    name="search_agent",
    description="Runs web searches for you. Give it your query as an argument."
)


In [None]:
result = search_agent(task="net zero là gì vậy?")
print(result)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Here is the final answer from your managed agent 'search_agent':
Net Zero là trạng thái mà tổng lượng khí thải nhà kính từ các hoạt động sản xuất và kinh doanh bằng 0. Net Zero (phát thải ròng bằng 0) là một mục tiêu môi trường nhằm giảm lượng khí thải nhà kính (bao gồm CO2, CH4, N2O, HFCs) xuống mức cân bằng với khả năng hấp thụ của Trái Đất. Đây là trạng thái mà tổng lượng khí thải nhà kính từ các hoạt động sản xuất và kinh doanh bằng 0. Net Zero không chỉ liên quan đến việc giảm lượng khí thải mà còn bao gồm các biện pháp hấp thụ carbon để bù đắp phần phát thải còn lại. Net Zero là một mục tiêu tham vọng hơn so với Trung hòa Carbon, đòi hỏi cắt giảm lượng khí thải Carbon từ các nhà cung cấp đầu tiên đến người dùng cuối. Để đạt được mục tiêu Net Zero, các tổ chức, doanh nghiệp và quốc gia cần giảm lượng khí thải xuống mức thấp nhất có thể và bù đắp phần phát thải còn lại bằng các biện pháp hấp thụ carbon, như trồng cây và sử dụng công nghệ hấp thụ carbon. Đạt mục tiêu Net Zero là điề

### 2.2 Retriever agent 🤖🔍

The second agent in our multi-agent system is the **Retriever agent**. This agent is responsible for gathering relevant information from different sources. To achieve this, it will utilize two tools that retrieve data from two separate knowledge bases.

We will reuse two data sources that were previously used in other RAG recipes, which will allow the retriever to efficiently gather information for further processing.

By leveraging these tools, the Retriever agent can access diverse datasets, ensuring a comprehensive collection of relevant information before passing it on to the next step in the system.

Let's explore how to set up the retriever and integrate it into our multi-agent system!


In [70]:
# prompt: mount drive

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [71]:
from langchain.document_loaders import UnstructuredWordDocumentLoader

loader = UnstructuredWordDocumentLoader("/content/drive/MyDrive/AgriCarbonDEX.docx")
documents = loader.load()

print(documents[0].page_content)  # In nội dung đầu tiên

AgriCarbonDEX

Bối cảnh

Biến đổi khí hậu và phát thải nhà kính đang là thách thức toàn cầu, đòi hỏi mỗi quốc gia, doanh nghiệp và cá nhân cùng hành động. Tín chỉ carbon và dữ liệu ESG (môi trường – xã hội – quản trị) ngày càng trở thành tài sản có giá trị cao, được giao dịch như một phần của chiến lược giảm phát thải và tài chính bền vững.

Tuy nhiên, thị trường tín chỉ carbon hiện nay đối mặt với các vấn đề lớn:

Khó xác minh nguồn gốc và tính minh bạch của dữ liệu môi trường.

Nguy cơ “greenwashing” khi doanh nghiệp tuyên bố xanh nhưng không có bằng chứng kiểm chứng.

Dữ liệu bị phân mảnh, khó theo dõi xuyên suốt chuỗi giá trị.

Giải thích các khái niệm

DT (Digital Twin): là bản sao kỹ thuật số của một đối tượng, hệ thống hoặc quá trình trong thế giới thực. DT mô phỏng hành vi, trạng thái và hiệu suất của đối tượng thật theo thời gian thực.

Dữ liệu DT: là dữ liệu được thu thập từ cảm biến hoặc nguồn thực tế, phản ánh trạng thái hiện tại hoặc lịch sử của đối tượng.

Tín chỉ carbon:

In [72]:

from tqdm import tqdm
from transformers import AutoTokenizer
from langchain.docstore.document import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores.utils import DistanceStrategy

source_docs = documents


text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
    AutoTokenizer.from_pretrained("thenlper/gte-small"),
    chunk_size=500,
    chunk_overlap=20,
    add_start_index=True,
    strip_whitespace=True,
    separators=["\n\n", "\n", ".", " ", ""],
)

# Split docs and keep only unique ones
print("Splitting documents...")
docs_processed = []
unique_texts = {}
for doc in tqdm(source_docs):
    new_docs = text_splitter.split_documents([doc])
    for new_doc in new_docs:
        if new_doc.page_content not in unique_texts:
            unique_texts[new_doc.page_content] = True
            docs_processed.append(new_doc)

print("Embedding documents...")
embedding_model = HuggingFaceEmbeddings(model_name="thenlper/gte-small")
huggingface_doc_vector_db = FAISS.from_documents(
    documents=docs_processed,
    embedding=embedding_model,
    distance_strategy=DistanceStrategy.COSINE,
)

Splitting documents...


100%|██████████| 1/1 [00:00<00:00,  8.40it/s]

Embedding documents...





In [73]:
from smolagents import Tool
from langchain_core.vectorstores import VectorStore

class RetrieverTool(Tool):
    name = "retriever"
    description="Truy xuất thông tin từ cơ sở dữ liệu nội bộ"
    inputs = {
        "query": {
            "type": "string",
            "description": "The query to perform. This should be semantically close to your target documents. Use the affirmative form rather than a question.",
        }
    }
    output_type = "string"

    def __init__(self, vectordb: VectorStore, **kwargs):
        super().__init__(**kwargs)
        self.vectordb = vectordb

    def forward(self, query: str) -> str:
        assert isinstance(query, str), "Your search query must be a string"

        docs = self.vectordb.similarity_search(
            query,
            k=3,
        )

        return "\nRetrieved documents:\n" + "".join(
            [
                f"===== Document {str(i)} =====\n" + doc.page_content
                for i, doc in enumerate(docs)
            ]
        )

In [74]:
in_system_tool = RetrieverTool(huggingface_doc_vector_db)

In [106]:
retriever_agent = ToolCallingAgent(
    tools=[in_system_tool],  # This is good!
    model=model,
    name="retriever_agent",
    description="Agent chuyên tìm kiếm thông tin từ cơ sở tri thức nội bộ về carbon, tín chỉ carbon, dữ liệu tài liệu công ty và các báo cáo PDF.",
)

In [None]:
retriever_agent.run("AgriCarbonDEX hoạt động như nào ?")

KeyboardInterrupt: 

In [104]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [92]:
from smolagents import CodeAgent


manager_agent = CodeAgent(
    name="manager_agent",
    description = """
    Tôi là agent điều phối. Tôi sẽ chọn agent phù hợp tùy yêu cầu:
    - Nếu câu hỏi yêu cầu tìm kiếm thông tin có trong tài liệu nội bộ (như tài liệu PDF, dữ liệu RAG), tôi sẽ gọi `retriever_agent`.
    - Nếu yêu cầu liên quan đến việc truy vấn thông tin mới trên internet, tôi sẽ dùng `search_agent`.
    """ ,
    tools=[],
    model=model,
    managed_agents=[search_agent, retriever_agent],
    additional_authorized_imports=["time", "datetime", "PIL"],
)

In [None]:
manager_agent.run("Trong tài liệu nội bộ, có nói gì về tín chỉ carbon tại Việt Nam không?")

"Here is the final answer from your managed agent 'retriever_agent':\n### 1. Task outcome (short version):\nTín chỉ carbon tại Việt Nam liên quan đến việc xác minh nguồn gốc phát thải và hấp thụ, cũng như việc tạo và giao dịch tín chỉ carbon. Nó được ứng dụng trong nhiều lĩnh vực như nông nghiệp tái sinh, trang trại trồng rừng, nhà máy xanh, tổ chức tài chính, nhà đầu tư ESG, chính quyền địa phương và trung ương, và người dân.\n\n### 2. Task outcome (extremely detailed version):\nTín chỉ carbon tại Việt Nam là một công cụ hữu ích để đảm bảo tính minh bạch và xác thực về nguồn gốc phát thải và hấp thụ khí thải nhà kính. Nó giúp tạo ra một thị trường giao dịch tín chỉ carbon minh bạch và phi tập trung, khuyến khích doanh nghiệp phát triển bền vững. Một số điểm chính:\n\n- Tín chỉ carbon được tạo ra từ dữ liệu thật, có thể kiểm tra, giúp đảm bảo tính minh bạch.\n- Thị trường tín chỉ carbon được xây dựng để tạo ra một hệ thống giao dịch minh bạch, phi tập trung, thúc đẩy phát triển bền vữn

In [107]:
import gradio as gr

# Hàm xử lý truy vấn
def ask_multi_agent(question):
    try:
        response = manager_agent.run(question)
        return str(response)
    except Exception as e:
        return f"❌ Lỗi: {str(e)}"

# Tạo giao diện với dark theme
with gr.Blocks(title="Multi-Agent RAG + Web Assistant", theme=gr.themes.Soft()) as demo:
    gr.Markdown("## 🤖 Hỏi hệ thống trợ lý đa tác nhân (Multi-Agent RAG/Web Search)")
    with gr.Row():
        question_input = gr.Textbox(label="💬 Nhập câu hỏi", placeholder="Ví dụ: Tín chỉ carbon là gì?", lines=2)
    with gr.Row():
        output = gr.Textbox(label="📄 Kết quả phản hồi", lines=15)
    with gr.Row():
        submit_btn = gr.Button("🚀 Gửi câu hỏi")

    submit_btn.click(fn=ask_multi_agent, inputs=question_input, outputs=output)

# Chạy giao diện
demo.launch(share=True)


Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://5e38ed7eda03961a66.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


