In [6]:
import requests
from bs4 import BeautifulSoup
import json

def crawl_vnexpress_ai_articles():
    url = "https://vnexpress.net/cong-nghe/ai"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        # Send HTTP request
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        
        # Parse HTML content
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # Find all article items
        articles = soup.find_all('article', class_='item-news', limit=5)
        
        results = []
        
        for article in articles:
            # Extract title and URL
            title_element = article.find('h2', class_='title-news') or article.find('h3', class_='title-news')
            title = title_element.get_text().strip() if title_element else "N/A"
            
            link_element = title_element.find('a') if title_element else None
            url = link_element['href'] if link_element else "N/A"
            
            # Extract summary
            summary_element = article.find('p', class_='description')
            summary = summary_element.get_text().strip() if summary_element else "N/A"
            
            # Extract time
            time_element = article.find('span', class_='time')
            time = time_element.get_text().strip() if time_element else "N/A"
            
            # Extract author (often in the summary or not available directly)
            author_element = article.find('p', class_='author')
            author = author_element.get_text().strip() if author_element else "N/A"
            
            # If author not found directly, sometimes it's in the description
            if author == "N/A" and summary_element:
                if "(" in summary and ")" in summary:
                    author = summary.split("(")[-1].split(")")[0].strip()
            
            results.append({
                'title': title,
                'url': url,
                'summary': summary,
                'time': time,
                'author': author
            })
        
        # Save to JSON file
        with open('vnexpress_ai_articles.json', 'w', encoding='utf-8') as f:
            json.dump(results, f, ensure_ascii=False, indent=2)
            
        print("Successfully crawled and saved 5 AI articles from VnExpress!")
        return results
        
    except Exception as e:
        print(f"An error occurred: {e}")
        return []

# Run the crawler
articles = crawl_vnexpress_ai_articles()

# Print the results
for i, article in enumerate(articles, 1):
    print(f"\nArticle {i}:")
    print(f"Title: {article['title']}")
    print(f"URL: {article['url']}")
    print(f"Summary: {article['summary']}")
    print(f"Time: {article['time']}")
    print(f"Author: {article['author']}")

Successfully crawled and saved 5 AI articles from VnExpress!

Article 1:
Title: Thiết bị 'hiểu' đất bằng AI đoạt giải về giải pháp xanh
URL: https://vnexpress.net/thiet-bi-hieu-dat-bang-ai-doat-giai-ve-giai-phap-xanh-4870256.html
Summary: Bộ thiết bị đo chất lượng đất bằng AI của Enfarm là một trong ba giải pháp đoạt giải Startup bền vững được yêu thích.
Time: N/A
Author: N/A

Article 2:
Title: 'Cha đẻ' Internet và các chuyên gia lo con người lệ thuộc AI
URL: https://vnexpress.net/cha-de-internet-va-cac-chuyen-gia-lo-con-nguoi-le-thuoc-ai-4869747.html
Summary: "Cha đẻ" Internet Vinton Cerf và nhiều chuyên gia lo ngại AI sẽ khiến con người mất đi kỹ các năng cốt lõi, như sự đồng cảm hay tư duy sâu.
Time: N/A
Author: N/A

Article 3:
Title: Cơn sốt 'đóng vỉ chân dung' bằng ChatGPT
URL: https://vnexpress.net/con-sot-dong-vi-chan-dung-bang-chatgpt-4869364.html
Summary: Tính năng tạo hộp đồ chơi figure với hình ảnh bản thân bằng ChatGPT được nhiều người hào hứng chia sẻ trên mạng xã hội.
Tim

In [8]:
import json
from bs4 import BeautifulSoup
import re

def clean_text(text):
    """Loại bỏ HTML tags và làm sạch text"""
    if not text:
        return ""
    
    # Remove HTML tags
    clean_text = BeautifulSoup(text, "html.parser").get_text()
    
    # Remove extra whitespace and newlines
    clean_text = ' '.join(clean_text.split())
    
    # Remove special characters except Vietnamese
    clean_text = re.sub(r'[^\w\sàáạảãâầấậẩẫăằắặẳẵèéẹẻẽêềếệểễìíịỉĩòóọỏõôồốộổỗơờớợởỡùúụủũưừứựửữỳýỵỷỹđÀÁẠẢÃÂẦẤẬẨẪĂẰẮẶẲẴÈÉẸẺẼÊỀẾỆỂỄÌÍỊỈĨÒÓỌỎÕÔỒỐỘỔỖƠỜỚỢỞỠÙÚỤỦŨƯỪỨỰỬỮỲÝỴỶỸĐ\-.,;:?!]', '', clean_text)
    
    return clean_text.strip()

def clean_articles():
    try:
        print("Bắt đầu làm sạch dữ liệu...")
        with open('raw_articles.json', 'r', encoding='utf-8') as f:
            raw_articles = json.load(f)
        
        cleaned_articles = []
        
        for article in raw_articles:
            cleaned_article = {
                'title': clean_text(article['title']),
                'url': article['url'],
                'summary': clean_text(article['summary']),
                'time': clean_text(article['time']),
                'author': clean_text(article['author']),
                'crawl_time': article['crawl_time']
            }
            cleaned_articles.append(cleaned_article)
        
        with open('cleaned_articles.json', 'w', encoding='utf-8') as f:
            json.dump(cleaned_articles, f, ensure_ascii=False, indent=2)
            
        print(f"Đã làm sạch {len(cleaned_articles)} bài viết")
        return cleaned_articles
        
    except Exception as e:
        print(f"Có lỗi khi làm sạch dữ liệu: {e}")
        return []

if __name__ == "__main__":
    clean_articles()

Bắt đầu làm sạch dữ liệu...
Có lỗi khi làm sạch dữ liệu: [Errno 2] No such file or directory: 'raw_articles.json'
