## **1. Install and import libraries**

In [None]:
!pip install 'smolagents[transformers]'

Collecting smolagents[transformers]
  Downloading smolagents-1.14.0-py3-none-any.whl.metadata (15 kB)
Collecting markdownify>=0.14.1 (from smolagents[transformers])
  Downloading markdownify-1.1.0-py3-none-any.whl.metadata (9.1 kB)
Collecting duckduckgo-search>=6.3.7 (from smolagents[transformers])
  Downloading duckduckgo_search-8.0.1-py3-none-any.whl.metadata (16 kB)
Collecting python-dotenv (from smolagents[transformers])
  Downloading python_dotenv-1.1.0-py3-none-any.whl.metadata (24 kB)
Collecting primp>=0.15.0 (from duckduckgo-search>=6.3.7->smolagents[transformers])
  Downloading primp-0.15.0-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (13 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=2.0.0->accelerate->smolagents[transformers])
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=2.0.0->accelerate->smolagents[transformers])
  Downloading n

In [None]:
from smolagents import TransformersModel, CodeAgent, tool, FinalAnswerTool
import os
import torch

def set_seed(seed: int):
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

set_seed(42)

## **2. Define tools for agent**

### Define `fetch_latest_news_urls_and_titles` tool

In [None]:
@tool
def fetch_latest_news_titles_and_urls(url: str) -> list[tuple[str, str]]:
    """
    This tool extracts the titles and URLs of the latest news articles from a news website's homepage.

    Args:
        url: The URL of the news website's homepage.

    Returns:
        list[tuple[str, str]]: A list of titles and URLs of the latest news articles.
    """
    import requests
    from bs4 import BeautifulSoup

    article_urls = []
    article_titles = []
    navigation_urls = []

    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    navigation_bar = soup.find('nav', class_='main-nav')
    if navigation_bar:
        for header in navigation_bar.ul.find_all('li')[2:7]:
            navigation_urls.append(url + header.a['href'])
        for section_url in navigation_urls:
            response = requests.get(section_url)
            section_soup = BeautifulSoup(response.text, 'html.parser')
            for article in section_soup.find_all('article')[:10]:
                title_tag = article.find('h3', class_='title-news')
                if title_tag:
                    title = title_tag.text.strip()
                    article_url = article.find('a')['href']
                    article_titles.append(title)
                    article_urls.append(article_url)

    return list(zip(article_titles, article_urls))

### Define `extract_news_article_content` tool

In [None]:
@tool
def extract_news_article_content(url: str) -> str:
    """
    This tool extracts the content of a news article from its URL.

    Args:
        url (str): The URL of the news article.

    Returns:
        str: The content of the news article.
    """
    import requests
    from bs4 import BeautifulSoup

    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    content = ""
    for paragraph in soup.find_all('p'):
        content += paragraph.get_text().strip() + " "
    return content


### Define `summarize_news` tool

In [None]:
@tool
def summarize_news(text: str) -> str:
    """
    This tool summarizes the given Vietnamese news text.

    Args:
        text (str): The Vietnamese news text to be summarized.

    Returns:
        str: The summarized version of the input text.
    """
    from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
    import torch
    device = "cuda" if torch.cuda.is_available() else "cpu"
    model_name = "VietAI/vit5-base-vietnews-summarization"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForSeq2SeqLM.from_pretrained(model_name, torch_dtype=torch.bfloat16).cuda()

    formatted_text = "vietnews: " + text + " </s>"
    encoding = tokenizer(formatted_text, return_tensors="pt")
    input_ids = encoding["input_ids"].to(device)
    attention_masks = encoding["attention_mask"].to(device)

    with torch.no_grad():
        outputs = model.generate(input_ids=input_ids, attention_mask=attention_masks,max_length=256)

    summary = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
    return summary

### Define `classify_topic` tool

In [None]:
@tool
def classify_topic(text: str, topic: str) -> bool:
    """
    This tool classifies whether the given Vietnamese text is related to the specified topic.

    Args:
        text: The Vietnamese text to be classified.
        topic: The string representing the topic to be checked.

    Returns:
        bool: True if the text is related to the topic; False otherwise.
    """
    from transformers import pipeline
    import torch
    device = "cuda" if torch.cuda.is_available() else "cpu"
    classifier = pipeline(
        "zero-shot-classification",
        model="vicgalle/xlm-roberta-large-xnli-anli",
        device=device,
        trust_remote_code=True,
    )

    candidate_labels = [topic, f"không liên quan {topic}"]
    result = classifier(text, candidate_labels)
    predicted_label = result["labels"][0]

    return predicted_label == topic

## **3. Create an agent powered by LLM and tools**

In [None]:
model = TransformersModel(
    model_id="Qwen/Qwen2.5-Coder-3B-Instruct",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    max_new_tokens=3000
)

agent = CodeAgent(
    model=model,
    tools=[fetch_latest_news_titles_and_urls,
           summarize_news,
           extract_news_article_content,
           classify_topic,
           FinalAnswerTool()],
    additional_authorized_imports=["requests", "bs4"],
    verbosity_level=2,
    name="news_agent",
    description="This agent is a smart news aggregator that fetches, summarizes, and classifies real-time news updates."
)

agent.visualize()

config.json:   0%|          | 0.00/661 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/35.6k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/1.21G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.96G [00:00<?, ?B/s]

Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/243 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/7.30k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/2.78M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/1.67M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/7.03M [00:00<?, ?B/s]

In [None]:
task = "Hãy tổng hợp các tin tức liên quan đến chủ đề 'trí tuệ nhân tạo' trên https://vnexpress.net, sau đó trả về kết quả."

agent.run(task, max_steps=5)

tokenizer_config.json:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/820k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.40M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.12k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/702 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/904M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/904M [00:00<?, ?B/s]

'Chủ tịch nước: \'Hải quân phải tinh, gọn, mạnh, là điểm tựa trên biển\':\nChủ tịch nước Lương Cường yêu cầu Hải quân xây dựng lực lượng tinh, gọn, mạnh, là nòng cốt trong bảo vệ chủ quyền biển đảo và điểm tựa cho ngư dân trên biển.\n\nKhánh thành cột cờ gần biên giới Việt - Lào - Trung:\nCông trình đặt ở cực Tây Tổ quốc là biểu tượng khẳng định chủ quyền lãnh thổ Việt Nam, tri ân đến các thế hệ cha anh đã chiến đấu vì sự nghiệp bảo vệ từng tấc đất biên cương.\n\nThường trực Ban Bí thư sẽ làm việc với các tỉnh thành về nhân sự sau sáp nhập:\nThường trực Ban Bí thư sẽ chủ trì làm việc với các tỉnh, thành để thông báo chủ trương của Bộ Chính trị, Ban Bí thư về nhân sự chủ chốt các địa phương sau sáp nhập.\n\nHầm chui dự án nút giao lớn nhất TP HCM lùi ngày thông xe đến tháng 6:\nSau 2 tháng thi công, hầm chui nút giao An Phú, quận 2, TP HCM, nối thông cao tốc TP HCM - Long Thành, nhưng chưa thể thông xe vào cuối tháng 6.\n\nÔng Hoàng Nam được giao quyền Chủ tịch tỉnh Quảng Trị:\nÔng Hoàn

## **4. Push agent to Hub**

In [None]:
agent.push_to_hub('VLAIResearchLab/smolagents-vnexpress-news-codeagent')

README.md:   0%|          | 0.00/254 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/spaces/VLAIResearchLab/smolagents-vnexpress-news-codeagent/commit/120594872141d8f0d6e1527d55a2120c15fc9b09', commit_message='Upload agent', commit_description='', oid='120594872141d8f0d6e1527d55a2120c15fc9b09', pr_url=None, repo_url=RepoUrl('https://huggingface.co/spaces/VLAIResearchLab/smolagents-vnexpress-news-codeagent', endpoint='https://huggingface.co', repo_type='space', repo_id='VLAIResearchLab/smolagents-vnexpress-news-codeagent'), pr_revision=None, pr_num=None)