In [1]:
import json
from bs4 import BeautifulSoup
import re

def clean_html_tags(text):
    """Loại bỏ các thẻ HTML từ text"""
    if not text:
        return ""
    return BeautifulSoup(text, "html.parser").get_text().strip()

def clean_whitespace(text):
    """Chuẩn hóa khoảng trắng"""
    if not text:
        return ""
    return re.sub(r'\s+', ' ', text).strip()

def clean_special_chars(text):
    """Loại bỏ ký tự đặc biệt nhưng giữ tiếng Việt"""
    if not text:
        return ""
    # Giữ lại các ký tự tiếng Việt, số, chữ cái và dấu câu cơ bản
    return re.sub(r'[^\w\sàáạảãâầấậẩẫăằắặẳẵèéẹẻẽêềếệểễìíịỉĩòóọỏõôồốộổỗơờớợởỡùúụủũưừứựửữỳýỵỷỹđÀÁẠẢÃÂẦẤẬẨẪĂẰẮẶẲẴÈÉẸẺẼÊỀẾỆỂỄÌÍỊỈĨÒÓỌỎÕÔỒỐỘỔỖƠỜỚỢỞỠÙÚỤỦŨƯỪỨỰỬỮỲÝỴỶỸĐ\-.,;:?!]', '', text)

def clean_articles_data():
    try:
        # Đọc dữ liệu từ file JSON đã crawl
        with open('vnexpress_ai_articles.json', 'r', encoding='utf-8') as f:
            raw_articles = json.load(f)
        
        cleaned_articles = []
        
        for article in raw_articles:
            # Làm sạch từng trường dữ liệu
            cleaned_article = {
                'title': clean_special_chars(clean_whitespace(clean_html_tags(article['title']))),
                'url': article['url'],  # URL không cần làm sạch
                'summary': clean_special_chars(clean_whitespace(clean_html_tags(article['summary']))),
                'time': clean_whitespace(clean_html_tags(article['time'])),
                'author': clean_special_chars(clean_whitespace(clean_html_tags(article['author'])))
            }
            cleaned_articles.append(cleaned_article)
        
        # Lưu dữ liệu đã làm sạch
        with open('cleaned_vnexpress_articles.json', 'w', encoding='utf-8') as f:
            json.dump(cleaned_articles, f, ensure_ascii=False, indent=2)
            
        print("Successfully cleaned and saved 5 AI articles!")
        return cleaned_articles
        
    except Exception as e:
        print(f"An error occurred while cleaning data: {e}")
        return []

# Chạy quá trình làm sạch dữ liệu
cleaned_data = clean_articles_data()

# In kết quả để kiểm tra
for i, article in enumerate(cleaned_data, 1):
    print(f"\nCleaned Article {i}:")
    print(f"Title: {article['title']}")
    print(f"URL: {article['url']}")
    print(f"Summary: {article['summary']}")
    print(f"Time: {article['time']}")
    print(f"Author: {article['author']}")

Successfully cleaned and saved 5 AI articles!

Cleaned Article 1:
Title: Thiết bị hiểu đất bằng AI đoạt giải về giải pháp xanh
URL: https://vnexpress.net/thiet-bi-hieu-dat-bang-ai-doat-giai-ve-giai-phap-xanh-4870256.html
Summary: Bộ thiết bị đo chất lượng đất bằng AI của Enfarm là một trong ba giải pháp đoạt giải Startup bền vững được yêu thích.
Time: N/A
Author: NA

Cleaned Article 2:
Title: Cha đẻ Internet và các chuyên gia lo con người lệ thuộc AI
URL: https://vnexpress.net/cha-de-internet-va-cac-chuyen-gia-lo-con-nguoi-le-thuoc-ai-4869747.html
Summary: Cha đẻ Internet Vinton Cerf và nhiều chuyên gia lo ngại AI sẽ khiến con người mất đi kỹ các năng cốt lõi, như sự đồng cảm hay tư duy sâu.
Time: N/A
Author: NA

Cleaned Article 3:
Title: Cơn sốt đóng vỉ chân dung bằng ChatGPT
URL: https://vnexpress.net/con-sot-dong-vi-chan-dung-bang-chatgpt-4869364.html
Summary: Tính năng tạo hộp đồ chơi figure với hình ảnh bản thân bằng ChatGPT được nhiều người hào hứng chia sẻ trên mạng xã hội.
Time

  return BeautifulSoup(text, "html.parser").get_text().strip()
