#  Thực Hành Crawl Dữ Liệu Tin Tức từ VNExpress  
#  Practice: Crawling News Data from VNExpress  

---

## Giới thiệu  
##  Introduction  

Chào mừng các bạn đến với bài thực hành về **Web Crawling** (thu thập dữ liệu web)!  
Welcome to the practical exercise on **Web Crawling** (collecting data from websites)!  

Trong notebook này, chúng ta sẽ học cách thu thập dữ liệu tin tức từ **VNExpress** — một trong những trang báo trực tuyến hàng đầu Việt Nam.  
In this notebook, we will learn how to collect news data from **VNExpress** — one of Vietnam’s leading online newspapers.  

---

## Mục tiêu học tập  
## Learning Objectives  

Sau khi hoàn thành bài thực hành này, bạn sẽ có thể:  
After completing this exercise, you will be able to:  

1. **Hiểu về Web Crawling** – Nắm vững khái niệm thu thập dữ liệu từ web và các ứng dụng thực tế.  
   **Understand Web Crawling** – Grasp the concept of collecting web data and its real-world applications.  

2. **Sử dụng các thư viện Python** – Thành thạo BeautifulSoup, requests, và các công cụ crawling khác.  
   **Use Python Libraries** – Become proficient in BeautifulSoup, requests, and other crawling tools.  

3. **Xử lý dữ liệu HTML** – Biết cách phân tích cấu trúc HTML và trích xuất thông tin.  
   **Process HTML Data** – Learn to analyze HTML structures and extract useful information.  

4. **Quản lý dữ liệu** – Lưu trữ và tổ chức dữ liệu crawl được một cách hiệu quả.  
   **Manage Data** – Store and organize crawled data efficiently.  

5. **Xử lý lỗi** – Nhận biết và khắc phục các vấn đề thường gặp khi crawl dữ liệu.  
   **Handle Errors** – Identify and resolve common issues encountered during crawling.  

---

##  Ứng dụng thực tế  
## Practical Applications  

- **Phân tích xu hướng tin tức** – Thu thập dữ liệu để phân tích các chủ đề hot.  
  **News Trend Analysis** – Collect data to analyze trending topics.  

- **Nghiên cứu học thuật** – Thu thập corpus văn bản tiếng Việt để nghiên cứu NLP.  
  **Academic Research** – Gather Vietnamese text corpora for NLP research.  

- **Theo dõi thương hiệu** – Giám sát thông tin về công ty/sản phẩm trên báo chí.  
  **Brand Monitoring** – Track company or product mentions in the media.  

- **Machine Learning** – Tạo dataset để train model phân loại văn bản.  
  **Machine Learning** – Create datasets to train text classification models.  

---

##  Lưu ý quan trọng  
##  Important Notes  

- **Tuân thủ robots.txt** – Luôn kiểm tra quy định của website trước khi crawl.  
  **Respect robots.txt** – Always check the website’s crawling policy before collecting data.  

- **Crawl có trách nhiệm** – Không gây quá tải cho server bằng cách thêm delay giữa các request.  
  **Crawl Responsibly** – Avoid overloading servers by adding delays between requests.  

- **Chỉ sử dụng cho mục đích học tập** – Dữ liệu crawl được chỉ dùng để học và nghiên cứu.  
  **For Educational Use Only** – The crawled data should only be used for learning and research.  

---

## Yêu cầu  
## Requirements  

Sinh viên cần hoàn thiện file code tại các phần `#TODO` và crawl được dữ liệu các bài báo từ trang web VNExpress.  
Students must complete the code sections marked with `#TODO` and crawl news articles from the VNExpress website.  

- **Đầu ra** là các file dữ liệu thô HTML và các file dữ liệu được lưu dưới định dạng `*.txt`.  
- **Output** should include raw HTML data files and processed text files saved as `*.txt`.  


# Chuẩn bị môi trường  
# Environment Setup  

---

## Cài đặt thư viện cần thiết  
## Install Required Libraries  

Trước khi bắt đầu crawl dữ liệu, chúng ta cần cài đặt các thư viện Python cần thiết.  
Before starting the data crawling process, we need to install the required Python libraries.  

Mỗi thư viện có vai trò riêng trong quá trình thu thập và xử lý dữ liệu:  
Each library serves a specific role in data collection and processing:  

---

### Danh sách thư viện và chức năng  
### List of Libraries and Their Functions  

- **`beautifulsoup4`**: Thư viện chính để phân tích HTML và XML, giúp trích xuất dữ liệu từ các thẻ HTML.  
  **`beautifulsoup4`**: The main library for parsing HTML and XML, used to extract data from HTML tags.  

- **`requests`**: Gửi HTTP requests để lấy nội dung trang web.  
  **`requests`**: Sends HTTP requests to retrieve webpage content.  

- **`PyYAML`**: Xử lý file cấu hình định dạng YAML.  
  **`PyYAML`**: Handles configuration files in YAML format.  

- **`tqdm`**: Hiển thị thanh tiến trình khi crawl nhiều trang.  
  **`tqdm`**: Displays progress bars when crawling multiple pages.  

- **`pandas`**: Xử lý và phân tích dữ liệu dạng bảng.  
  **`pandas`**: Used for handling and analyzing tabular data.  

- **`numpy`**: Hỗ trợ tính toán với mảng và ma trận.  
  **`numpy`**: Supports numerical computation with arrays and matrices.  

---

>  **Gợi ý (Tip)**:  
> Trên Google Colab, hầu hết các thư viện này đã được cài sẵn, nhưng chúng ta vẫn chạy lệnh cài đặt để đảm bảo có phiên bản mới nhất.  
> On Google Colab, most of these libraries are already pre-installed, but we’ll run the installation command to ensure we have the latest versions.  


In [None]:
# Install the necessary libraries (Cài đặt các thư viện cần thiết)
!pip install beautifulsoup4
!pip install PyYAML
!pip install requests
!pip install tqdm
!pip install pandas
!pip install numpy



# Nhập thư viện
# Import Libraries

Sau khi cài đặt xong, chúng ta cần import các thư viện cần thiết để sử dụng trong mã. Hãy cùng tìm hiểu vai trò của từng thư viện.  
After installation, we need to import the necessary libraries to use in our code. Let’s explore the role of each one.

---

### Nhóm thư viện cơ bản
### Basic Libraries
- **`os`**: Thao tác với hệ thống file (tạo thư mục, xử lý đường dẫn)  
  **`os`**: Work with the file system (create folders, handle file paths)
- **`json`**: Xử lý dữ liệu định dạng JSON  
  **`json`**: Handle JSON data
- **`time`**: Tạo độ trễ giữa các yêu cầu để tránh bị chặn  
  **`time`**: Create delays between requests to avoid being blocked
- **`re`**: Dùng biểu thức chính quy để xử lý chuỗi  
  **`re`**: Use regular expressions to process strings

---

### Nhóm thư viện thu thập dữ liệu web
### Web Crawling Libraries
- **`requests`**: Gửi yêu cầu HTTP để lấy nội dung trang web  
  **`requests`**: Send HTTP requests to fetch web content
- **`BeautifulSoup`**: Phân tích HTML và trích xuất dữ liệu  
  **`BeautifulSoup`**: Parse HTML and extract information
- **`tqdm`**: Hiển thị thanh tiến trình  
  **`tqdm`**: Display progress bars

---

### Nhóm thư viện xử lý dữ liệu
### Data Processing Libraries
- **`yaml`**: Đọc các tệp cấu hình  
  **`yaml`**: Read configuration files
- **`typing`**: Cung cấp type hint giúp code rõ ràng hơn  
  **`typing`**: Provide type hints for clearer code
- **`urllib.parse`**: Xử lý URL  
  **`urllib.parse`**: Handle URLs

---

> **Lưu ý**: Hãy đảm bảo chạy cell cài đặt thư viện trước khi chạy cell import này!  
> **Note**: Make sure to run the library installation cell before running this import cell!


In [None]:
import os
import json
import yaml
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm
import time
from typing import Dict, List
import re
from urllib.parse import urljoin, urlparse
import random

# Kết nối và lấy dữ liệu từ website  
# Connecting and Fetching Data from the Website

## Định nghĩa các hàm crawl dữ liệu  
## Defining Crawling Functions

Trong phần này, chúng ta sẽ tạo ra các hàm để thu thập dữ liệu từ VNExpress. Quá trình crawl dữ liệu bao gồm các bước:  
In this section, we will create functions to collect data from VNExpress. The crawling process includes the following steps:

1. **Gửi request** đến trang web  
   **Send a request** to the website
2. **Nhận response** HTML  
   **Receive the HTML response**
3. **Phân tích HTML** bằng BeautifulSoup  
   **Parse the HTML** using BeautifulSoup
4. **Trích xuất thông tin** cần thiết  
   **Extract the required information**

---

### Hàm `get_content_()` - Lấy nội dung HTML cơ bản  
### Function `get_content_()` - Basic HTML fetching

**Mục đích**: Tải nội dung HTML từ một URL với các kỹ thuật anti-detection  
**Purpose**: Download HTML content from a URL using anti-detection techniques

**Đầu vào**:  
**Input**:
- `url` (string): URL của trang web cần crawl  
  `url` (string): The URL of the webpage to crawl

**Đầu ra**:  
**Output**:
- HTML content (string) nếu thành công  
  HTML content (string) if successful
- `None` nếu thất bại  
  `None` if failed

**Kỹ thuật chống phát hiện**:  
**Anti-detection techniques**:
- **User-Agent rotation**: Thay đổi User-Agent để giả lập các trình duyệt khác nhau  
  **User-Agent rotation**: Rotate User-Agent strings to mimic different browsers
- **Headers giả lập**: Sử dụng headers giống trình duyệt thực  
  **Browser-like headers**: Use headers that resemble a real browser
- **Random delay**: Tạo độ trễ ngẫu nhiên giữa các request  
  **Random delay**: Introduce random delays between requests
- **Retry mechanism**: Thử lại tối đa 3 lần nếu thất bại  
  **Retry mechanism**: Retry up to 3 times on failure

> **Tại sao cần chống phát hiện?**  
> **Why is anti-detection needed?**

> Nhiều website có hệ thống chống bot để bảo vệ server khỏi bị quá tải. Chúng ta cần crawl một cách "lịch sự" để không bị chặn.  
> Many websites employ anti-bot measures to protect servers from overload. We should crawl politely to avoid being blocked.


In [None]:
def get_content_(url):
    """
    This function is responsible for:
    Fetching the HTML content from a given URL,
    with an anti-bot detection mechanism.
    (Hàm này có nhiệm vụ:
    Lấy nội dung HTML từ một URL,
    có cơ chế chống bị phát hiện là bot.)
    """

    # Import additional libraries locally to avoid global conflicts
    # (Import thêm các thư viện cần thiết, đặt trong hàm để tránh xung đột toàn cục)
    import random
    import ssl
    from urllib.parse import urlparse

    # Clean URL: remove the fragment part after '#' if it exists
    # (Làm sạch URL: nếu có dấu # thì loại bỏ phần sau nó)
    if '#' in url:
        url = url.split('#')[0]

    # Validate URL: it must start with "http"
    # (Kiểm tra URL hợp lệ: phải bắt đầu bằng “http”)
    if not url.startswith('http'):
        return None  # Return None if the URL is invalid (Trả về None nếu URL sai)

    # A list of different User-Agents to randomly rotate (helps avoid blocking)
    # (Danh sách nhiều User-Agent khác nhau để chọn ngẫu nhiên, giúp tránh bị chặn)
    user_agents = [
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Safari/605.1.15',
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    ]

    headers = {
    # Declare accepted content types (HTML, XML, images, etc.)
    # Khai báo các loại nội dung mà client có thể nhận (HTML, XML, hình ảnh, v.v.)
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',

    # Preferred languages for response (Vietnamese first, then English, French)
    # Ngôn ngữ ưu tiên khi nhận phản hồi — ưu tiên tiếng Việt, sau đó tiếng Anh và tiếng Pháp
    'Accept-Language': 'vi-VN,vi;q=0.9,en-US;q=0.8,en;q=0.7,fr;q=0.6',

    # Allow data compression for faster transfers (gzip, deflate, br)
    # Cho phép nén dữ liệu để tải nhanh hơn (gzip, deflate, br)
    'Accept-Encoding': 'gzip, deflate, br',

    # "Do Not Track" header requests not to be tracked by websites
    # Header “Do Not Track” yêu cầu website không theo dõi hoạt động của người dùng
    'DNT': '1',

    # Keep the TCP connection alive for multiple requests
    # Giữ kết nối TCP mở để có thể gửi nhiều yêu cầu liên tiếp, tăng hiệu suất
    'Connection': 'keep-alive',

    # Allow upgrade from HTTP to HTTPS if supported
    # Cho phép nâng cấp từ HTTP lên HTTPS nếu máy chủ hỗ trợ
    'Upgrade-Insecure-Requests': '1',

    # Fetch metadata: destination is a document (webpage)
    # Thông tin fetch: đích đến là tài liệu (trang web)
    'Sec-Fetch-Dest': 'document',

    # Fetch metadata: mode is “navigate” (simulates user navigation)
    # Thông tin fetch: chế độ là “navigate” (mô phỏng hành vi người dùng nhấp vào liên kết)
    'Sec-Fetch-Mode': 'navigate',

    # Fetch metadata: request origin — “none” means direct access (not from iframe)
    # Thông tin fetch: nguồn request — “none” nghĩa là truy cập trực tiếp (không qua trang khác)
    'Sec-Fetch-Site': 'none',

    # Indicates a real user interaction (?1 = true)
    # Biểu thị có tương tác người dùng thật (?1 = có)
    'Sec-Fetch-User': '?1',

    # Force revalidation: no cache reuse (always get the latest content)
    # Buộc tải lại nội dung mới, không dùng dữ liệu lưu trong cache
    'Cache-Control': 'max-age=0',

    # Client hints: describe browser family and version
    # Gợi ý trình duyệt: mô tả họ và phiên bản của trình duyệt (ví dụ Chrome)
    'sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120"',

    # Client hints: specify if device is mobile (?0 = no)
    # Gợi ý trình duyệt: xác định có phải thiết bị di động không (?0 = không)
    'sec-ch-ua-mobile': '?0',

    # Client hints: specify operating system / platform (e.g., macOS)
    # Gợi ý trình duyệt: cho biết hệ điều hành hoặc nền tảng (ví dụ: macOS)
    'sec-ch-ua-platform': '"macOS"',

    # Randomly select a User-Agent to simulate different browsers
    # Chọn ngẫu nhiên một User-Agent để giả lập nhiều loại trình duyệt, tránh bị chặn
    'User-Agent': random.choice(user_agents),

    # Indicate the referring page (where the request comes from)
    # Chỉ ra trang mà người dùng đến từ đó (nguồn truy cập)
    'Referer': 'https://vnexpress.net/',

    # Specify the origin domain of the request (for CORS / CSRF validation)
    # Xác định nguồn gốc domain của request (dùng trong xác thực CORS/CSRF)
    'Origin': 'https://vnexpress.net'
    }


    # Create a session to maintain cookies and headers across multiple requests
    # (Tạo một session để giữ cookie và headers giữa các yêu cầu HTTP)
    session = requests.Session()

    # Disable SSL verification (some sites may have invalid certificates)
    # (Tắt xác thực SSL vì một số trang có thể bị lỗi chứng chỉ)
    session.verify = False

    # Suppress SSL warning messages from showing in the console
    # (Ẩn cảnh báo SSL để không in ra màn hình)
    import urllib3
    urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

    # Update session headers with our custom headers
    # (Cập nhật headers giả lập vào session)
    session.headers.update(headers)

    # Try sending the request up to 3 times in case of failure
    # (Thử gửi yêu cầu tối đa 3 lần, nếu lỗi thì thử lại)
    for attempt in range(3):
        try:
            # Add random delay between requests to avoid being rate-limited
            # (Thêm độ trễ ngẫu nhiên giữa các lần request để tránh bị chặn)
            time.sleep(random.uniform(1, 3))

            # Send the GET request
            # (Gửi yêu cầu GET tới trang web)
            response = session.get(
                url,
                timeout=30,           # Max wait time = 30s (Giới hạn tối đa 30 giây)
                allow_redirects=True, # Follow redirects automatically (Cho phép tự động theo redirect)
                stream=False          # Download all content at once (Không tải kiểu stream)
            )

            # If successful response (status code 200)
            # (Nếu phản hồi thành công — mã 200)
            if response.status_code == 200:
                response.encoding = 'utf-8'  # Set UTF-8 encoding for Vietnamese text (Đặt mã hóa UTF-8)
                content = response.text      # Extract HTML content (Lấy nội dung HTML)
                response.close()
                session.close()
                return content               # Return HTML content (Trả kết quả về)

            # If access is forbidden (HTTP 403)
            # (Nếu bị từ chối truy cập — lỗi 403)
            elif response.status_code == 403:
                # Change User-Agent and retry
                # (Đổi User-Agent và thử lại)
                headers['User-Agent'] = random.choice(user_agents)
                session.headers.update(headers)
                time.sleep(random.uniform(2, 5))  # Wait 2–5 seconds before retrying (Nghỉ 2–5 giây rồi thử lại)
                continue

            # If other HTTP errors occur
            # (Nếu gặp mã lỗi HTTP khác)
            else:
                if attempt == 2:
                    print(f"HTTP {response.status_code} for {url}")
                response.close()

        # Handle SSL errors
        # (Xử lý lỗi SSL)
        except requests.exceptions.SSLError:
            continue  # Retry (Thử lại)

        # Handle general request errors (timeouts, connection issues, etc.)
        # (Xử lý lỗi request chung: hết thời gian chờ, lỗi kết nối,...)
        except requests.exceptions.RequestException as e:
            if attempt == 2:
                print(f"Request error for {url}: {e}")

        # Handle any unexpected errors
        # (Xử lý lỗi không xác định)
        except Exception as e:
            if attempt == 2:
                print(f"Unknown error for {url}: {e}")

        # Increase delay between retries to avoid server rate limits
        # (Tăng thời gian chờ giữa các lần thử lại để tránh bị giới hạn tốc độ)
        if attempt < 2:
            time.sleep(random.uniform(3 + attempt, 6 + attempt))

    # After 3 failed attempts, close the session and return None
    # (Sau 3 lần thử thất bại, đóng session và trả về None)
    session.close()
    return None


### Hàm backup với cURL  
### Backup Function Using cURL  

**Tại sao cần phương pháp backup?**  
**Why do we need a backup method?**  

Đôi khi website có thể chặn Python requests nhưng vẫn cho phép truy cập từ các tool khác như cURL. Đây là lý do chúng ta cần có phương pháp dự phòng.  
Sometimes, websites may block Python requests but still allow access from other tools such as cURL. That’s why we need a fallback method.

**Đặc điểm của các hàm này**:  
**Characteristics of these functions**:  
- `get_content_with_curl()`: Sử dụng lệnh cURL của hệ thống  
  `get_content_with_curl()`: Uses the system’s cURL command  
- `get_content_enhanced()`: Kết hợp cả hai phương pháp (requests + cURL)  
  `get_content_enhanced()`: Combines both methods (requests + cURL)

> **Thực hành**: Thử chạy từng hàm riêng lẻ với cùng một URL để thấy sự khác biệt!  
> **Practice**: Try running each function separately with the same URL to observe the difference!


In [None]:
def get_content_with_curl(url):
    """
    Backup method using cURL to bypass anti-bot systems.
    -> If 'requests' fails or gets blocked, we use the external curl command instead.
    (Phương thức dự phòng sử dụng cURL để vượt qua hệ thống chống bot.
    → Nếu requests bị chặn, ta sẽ gọi lệnh curl bên ngoài hệ thống.)
    """
    import subprocess   # Used to run system commands (like 'curl') (Dùng để gọi lệnh hệ thống như 'curl')
    import tempfile     # Used to create temporary files (Dùng để tạo file tạm lưu dữ liệu tải về)
    import os           # Used for file operations (Dùng để xóa file tạm sau khi sử dụng)

    # Clean URL: remove any fragment part after '#'
    # (Làm sạch URL: loại bỏ phần sau dấu '#')
    if '#' in url:
        url = url.split('#')[0]

    # Validate URL: must start with 'http' or 'https'
    # (Kiểm tra tính hợp lệ: URL phải bắt đầu bằng http hoặc https)
    if not url.startswith('http'):
        return None

    try:
        # Create a temporary file to store the downloaded HTML
        # (Tạo file tạm thời để lưu kết quả tải về)
        with tempfile.NamedTemporaryFile(mode='w+', delete=False, suffix='.html') as temp_file:
            temp_filename = temp_file.name  # Save file path for later use (Lưu tên file để sử dụng sau)

        # Build the curl command to simulate a real browser (like Chrome)
        # (Tạo lệnh curl giả lập trình duyệt thật — ví dụ như Chrome)
        curl_command = [
            'curl',
            '-s',  # Silent mode: no progress bar or logs (Chế độ im lặng — không in log ra terminal)
            '-L',  # Follow redirects automatically (Tự động theo dõi các redirect)
            '--compressed',  # Enable compressed transfer (Cho phép tải nội dung nén)
            '--max-time', '30',  # Timeout after 30 seconds (Giới hạn thời gian 30 giây)
            '--retry', '2',      # Retry twice if request fails (Thử lại tối đa 2 lần nếu lỗi)
            '--user-agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
            # Use a realistic User-Agent to avoid detection (Giả lập trình duyệt thật để tránh bị chặn)

            # Common browser headers (Các header phổ biến mà trình duyệt gửi kèm)
            '--header', 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
            '--header', 'Accept-Language: vi-VN,vi;q=0.9,en-US;q=0.8,en;q=0.7',
            '--header', 'Accept-Encoding: gzip, deflate, br',
            '--header', 'DNT: 1',  # Do Not Track header (Yêu cầu không theo dõi)
            '--header', 'Connection: keep-alive',
            '--header', 'Upgrade-Insecure-Requests: 1',
            '--header', 'Sec-Fetch-Dest: document',
            '--header', 'Sec-Fetch-Mode: navigate',
            '--header', 'Sec-Fetch-Site: none',
            '--header', 'Sec-Fetch-User: ?1',
            '--header', 'Cache-Control: max-age=0',
            '--referer', 'https://vnexpress.net/',  # Pretend to come from vnexpress homepage (Giả vờ người dùng click từ trang chủ)
            '--output', temp_filename,              # Save output HTML to temp file (Ghi nội dung tải về vào file tạm)
            url
        ]

        # Execute the curl command as a subprocess
        # (Chạy lệnh curl bên ngoài Python)
        result = subprocess.run(
            curl_command,            # Command to run (Lệnh cần chạy)
            capture_output=True,     # Capture stdout/stderr (Lưu stdout và stderr thay vì in ra)
            text=True,               # Return output as text (Trả kết quả về dạng chuỗi)
            timeout=35               # Total timeout for curl (Giới hạn thời gian tổng 35 giây)
        )

        # If curl executed successfully (exit code = 0)
        # (Nếu curl chạy thành công — mã thoát = 0)
        if result.returncode == 0:
            # Read the downloaded HTML content from temp file
            # (Đọc nội dung HTML từ file tạm)
            with open(temp_filename, 'r', encoding='utf-8', errors='ignore') as f:
                content = f.read()

            # Remove the temp file after reading
            # (Xóa file tạm sau khi sử dụng)
            os.unlink(temp_filename)

            # Check if the content is long enough to be valid
            # (Kiểm tra xem nội dung có đủ dài để coi là hợp lệ không)
            if len(content) > 1000:
                return content

        # Cleanup: if temp file still exists, delete it
        # (Dọn dẹp: nếu file tạm vẫn còn, xóa nó đi)
        if os.path.exists(temp_filename):
            os.unlink(temp_filename)

    except Exception as e:
        # Handle all possible errors (e.g. curl not installed, timeout)
        # (Xử lý các lỗi có thể xảy ra như curl chưa cài hoặc hết thời gian)
        print(f"Curl method failed for {url}: {e}")

    # Return None if download failed
    # (Trả về None nếu không tải được nội dung)
    return None


def get_content_enhanced(url):
    """
    Combined method — try requests first, then fall back to cURL.
    (Phương thức kết hợp — thử requests trước, nếu thất bại thì dùng cURL.)
    """
    # TODO: Try to fetch content using the main requests-based method
    # TODO: (Thử tải nội dung bằng hàm chính sử dụng requests)
    content = TODO
    if content:
        return content  # Return immediately if successful (Trả về ngay nếu thành công)

    # TODO: If requests failed, try using cURL as a backup
    # (Nếu requests thất bại, dùng cURL làm phương án dự phòng)
    # TODO: Nếu requests thất bại, dùng cURL làm backup (bypass anti-bot tốt hơn)
    print(f" Trying curl method for {url[:50]}... (Thử phương pháp curl cho {url[:50]}...)")
    content = TODO
    if content:
        print(f" Curl success! (Curl thành công!)")
        return content

    # If both methods fail, return None
    # (Nếu cả hai phương pháp đều thất bại, trả về None)
    return None


SyntaxError: invalid syntax (ipython-input-268203055.py, line 90)

### Hàm trích xuất nội dung bài báo  
### Function to Extract Article Content  

**Mục đích**: Phân tích HTML của một bài báo và trích xuất thông tin quan trọng  
**Purpose**: Parse the HTML of a news article and extract key information  

**Đầu vào**: URL của bài báo VNExpress  
**Input**: URL of the VNExpress article  

**Đầu ra**: Dictionary chứa:  
**Output**: A dictionary containing:  
- `title`: Tiêu đề bài báo  
  `title`: The title of the article  
- `description`: Mô tả ngắn (lead paragraph)  
  `description`: Short summary (lead paragraph)  
- `contents`: Nội dung đầy đủ  
  `contents`: Full article content  
- `url`: URL gốc  
  `url`: Original article URL  

**Kỹ thuật trích xuất**:  
**Extraction Techniques**:  
1. **Multiple selectors**: Thử nhiều CSS selector khác nhau để tìm content  
   **Multiple selectors**: Try various CSS selectors to locate the content  
2. **Content filtering**: Loại bỏ các đoạn text không mong muốn (quảng cáo, tags, etc.)  
   **Content filtering**: Remove unwanted text such as ads, tags, or footers  
3. **Fallback strategy**: Nếu không tìm được content chính, thử các phương pháp khác  
   **Fallback strategy**: If main content is not found, try alternative extraction methods  



In [None]:
def get_content_news_from_news_url(url: str) -> dict:
    """
    Get detailed content of a news article from its URL.
    (Lấy nội dung chi tiết của một bài báo từ URL.)
    """
    try:
        # Try to get HTML from the URL (automatically chooses between requests and curl)
        # (Thử lấy HTML từ URL — hàm này tự động chọn giữa requests hoặc curl tùy trường hợp)
        raw_content = get_content_enhanced(url)

        # If unable to retrieve content (None returned), stop here
        # (Nếu không lấy được nội dung (trả về None), dừng lại và không xử lý thêm)
        if raw_content is None:
            return None

        # If HTML is fetched, parse and extract article info
        # (Nếu tải được HTML thành công, chuyển sang bước phân tích và trích xuất thông tin bài viết)
        return parse_article_from_html(raw_content, url)

    except Exception as e:
        # If any unexpected error occurs (network, parsing, syntax, etc.)
        # (Nếu xảy ra lỗi bất ngờ như mạng, cú pháp HTML lỗi, hoặc lỗi phân tích)
        return None


def parse_article_from_html(html_content: str, url: str) -> dict:
    """
    Parse article details from HTML content.
    Returns a dict with title, description, content, and URL.
    (Phân tích nội dung bài báo từ HTML. Trả về dict gồm tiêu đề, mô tả, nội dung và URL.)
    """
    try:
        # Check if HTML is empty or too short (<500 chars)
        # (Kiểm tra nếu HTML trống hoặc quá ngắn, có thể là trang lỗi hoặc redirect)
        if not html_content or len(html_content) < 500:
            return None

        # Create BeautifulSoup object for easier HTML navigation
        # (Tạo đối tượng BeautifulSoup để dễ dàng duyệt cây HTML và tìm thẻ)
        soup = BeautifulSoup(html_content, 'html.parser')

        # ===================== EXTRACT TITLE =====================
        # (===================== LẤY TIÊU ĐỀ =====================)
        title_detail = None

        # List of CSS selectors that may contain the title (depends on website structure)
        # (Danh sách các selector có thể chứa tiêu đề, vì mỗi chuyên mục VnExpress có cấu trúc HTML hơi khác nhau)
        title_selectors = [
            "h1.title-detail",
            "h1.title_news_detail",
            "h1[class*='title']",
            "h1",
            ".title-detail",
            ".title_news_detail",
            "title"  # Dự phòng: nếu không tìm thấy trong body, lấy từ thẻ <title> trên <head>
        ]

        # Iterate through selectors until a valid title is found
        # (Duyệt qua từng selector cho đến khi tìm được tiêu đề phù hợp)
        for selector in title_selectors:
            elements = soup.select(selector)
            for element in elements:
                text = element.get_text().strip()
                # Skip if title is too short or contains site name
                # (Bỏ qua nếu tiêu đề quá ngắn hoặc chứa tên trang “vnexpress”)
                if text and len(text) > 10 and 'vnexpress' not in text.lower():
                    title_detail = text
                    break
            if title_detail:
                break

        # If still no title found, skip article
        # (Nếu không tìm thấy tiêu đề nào hợp lệ → bỏ qua bài viết này)
        if not title_detail:
            return None


        # ===================== EXTRACT DESCRIPTION =====================
        # (===================== LẤY MÔ TẢ =====================)
        description = ""

        # List of possible selectors for article description
        # (Danh sách selector có thể chứa đoạn mô tả đầu bài – thường là phần in nghiêng dưới tiêu đề)
        desc_selectors = [
            "p.description",
            "p.lead",
            "p[class*='description']",
            "p[class*='lead']",
            ".description",
            ".lead",
            "meta[name='description']",           # Nếu không có trong body thì thử lấy từ <meta>
            "meta[property='og:description']"     # Dự phòng thêm cho mạng xã hội (Open Graph)
        ]

        # Try each selector until found
        # (Thử từng selector cho đến khi tìm thấy đoạn mô tả hợp lệ)
        for selector in desc_selectors:
            elements = soup.select(selector)
            for element in elements:
                if element.name == 'meta':
                    text = element.get('content', '').strip()
                else:
                    text = element.get_text().strip()
                # Accept only if text length is meaningful
                # (Chỉ chấp nhận nếu độ dài mô tả đủ lớn)
                if text and len(text) > 20:
                    description = text
                    break
            if description:
                break


        # ===================== EXTRACT MAIN CONTENT =====================
        # (===================== LẤY NỘI DUNG CHÍNH =====================)
        content_text = ""

        # List of possible content containers
        # (Danh sách các vùng HTML có thể chứa nội dung bài báo, thử nhiều khả năng khác nhau)
        content_selectors = [
            "article.fck_detail p.Normal",
            "article.fck_detail p",
            ".fck_detail p.Normal",
            ".fck_detail p",
            "article.content_detail p",
            ".content_detail p",
            "div.content_detail p",
            "article p",
            ".Normal",
            "div[class*='content'] p",
            "div[class*='article'] p",
            "main p"
        ]

        # Loop through each pattern to extract paragraphs
        # (Duyệt qua từng mẫu cấu trúc để gom các đoạn văn thành nội dung hoàn chỉnh)
        for selector in content_selectors:
            paragraphs = soup.select(selector)
            if paragraphs:
                temp_content = ""
                for p in paragraphs:
                    text = p.get_text().strip()

                    # Skip irrelevant lines such as “Theo VnExpress”, “Ảnh:”, etc.
                    # (Bỏ qua các dòng không phải nội dung chính như “Theo VnExpress”, “Ảnh:”, “Video:”)
                    if (text and len(text) > 30 and
                        not re.match(r'^[\s\W]*$', text) and
                        not any(keyword in text.lower() for keyword in
                               ['theo ', 'nguồn:', 'ảnh:', 'video:', 'xem thêm:', 'tags:',
                                'bình luận', 'chia sẻ', 'facebook', 'twitter'])):
                        temp_content += text + " "

                # Accept if content length > 200 chars
                # (Chấp nhận nếu tổng độ dài nội dung > 200 ký tự – tránh lấy nhầm phần rác)
                if len(temp_content) > 200:
                    content_text = temp_content.strip()
                    break


        # ===================== IF STILL NO CONTENT FOUND =====================
        # (===================== NẾU VẪN CHƯA TÌM THẤY NỘI DUNG =====================)
        if len(content_text) < 200:
            main_content_selectors = [
                "div[class*='content']",
                "div[class*='article']",
                "div[class*='detail']",
                "main",
                "article"
            ]

            # Try to extract text from larger containers
            # (Thử lấy toàn bộ nội dung từ các khối lớn hơn nếu không có đoạn <p> rõ ràng)
            for selector in main_content_selectors:
                containers = soup.select(selector)
                for container in containers:
                    paragraphs = container.find_all('p')
                    temp_content = ""
                    for p in paragraphs:
                        text = p.get_text().strip()
                        if text and len(text) > 30:
                            temp_content += text + " "
                    if len(temp_content) > len(content_text):
                        content_text = temp_content.strip()
                if len(content_text) > 200:
                    break


        # ===================== FINAL CHECK AND RETURN =====================
        # (===================== KIỂM TRA CUỐI CÙNG VÀ TRẢ KẾT QUẢ =====================)
        if len(content_text) < 100:
            # If article body is too short → likely not a valid article
            # (Nếu nội dung quá ngắn → có thể là trang rỗng, hoặc chỉ có video)
            return None

        # Return final result as dictionary
        # (Trả kết quả cuối cùng dưới dạng dictionary để dễ xử lý tiếp)
        return {
            "title": title_detail,
            "description": description if description else title_detail[:200],
            "contents": content_text,
            "url": url
        }

    except Exception as e:
        # If parsing fails, return None
        # (Nếu xảy ra lỗi trong quá trình phân tích, trả về None để bỏ qua bài lỗi)
        return None


### Hàm lấy danh sách links bài báo  
### Function to Extract Article Links  

**Mục đích**: Từ một trang chủ đề (ví dụ: trang Khoa học), lấy links đến tất cả các bài báo  
**Purpose**: From a topic page (e.g., *Science*), extract all article links.  

**Quy trình hoạt động**:  
**Workflow**:  
1. Lấy HTML của trang chủ đề  
   **Fetch the HTML** of the topic page.  
2. Tìm tất cả thẻ `<a>` có href chứa `.html`  
   **Find all `<a>` tags** whose `href` attribute contains `.html`.  
3. Lọc chỉ giữ links bài báo VNExpress  
   **Filter** to keep only valid VNExpress article links.  
4. Loại bỏ duplicates và giới hạn số lượng  
   **Remove duplicates** and **limit** the number of links.  

**Đầu vào**: URL trang chủ đề (vd: https://vnexpress.net/khoa-hoc)  
**Input**: Topic page URL (e.g., https://vnexpress.net/khoa-hoc)  

**Đầu ra**: List các URL bài báo (giới hạn 2 links để demo nhanh, trong thực tế có thể tăng lên)  
**Output**: A list of article URLs (limited to 2 for quick demo; can be increased in practice).  

> **Tip**: Thử in ra một vài links đầu tiên để kiểm tra kết quả trước khi crawl hết!  
> **Tip**: Try printing the first few links to verify results before crawling all pages!


In [None]:
def get_news_links_from_sub_topic_page_link(sub_topic_page_link: str) -> list:
    """
    Get all article links from a VnExpress topic page.
    (Lấy tất cả các liên kết bài báo từ một trang chủ đề của VnExpress.)

    Example: From https://vnexpress.net/thoi-su → extract links of individual articles.
    (Ví dụ: từ https://vnexpress.net/thoi-su → tìm ra link của các bài viết con.)
    """

    links = []  # List to store all collected article links (Danh sách để lưu tất cả các link bài báo thu thập được)

    # Fetch full HTML content from the topic page (like "Thời sự", "Thế giới", etc.)
    # (Gọi hàm lấy toàn bộ HTML từ trang chủ đề, ví dụ: "Thời sự", "Thế giới", ...)
    raw_content = get_content_enhanced(sub_topic_page_link)

    # If no HTML content is retrieved, return an empty list
    # (Nếu không tải được nội dung HTML thì trả về danh sách rỗng)
    if raw_content is None:
        return links

    # Parse the HTML content using BeautifulSoup for easier tag navigation
    # (Phân tích nội dung HTML bằng BeautifulSoup để dễ tìm thẻ)
    soup = BeautifulSoup(raw_content, 'html.parser')

    # ===================== LIST OF POSSIBLE SELECTORS =====================
    # (===================== DANH SÁCH CÁC SELECTOR =====================)
    # Websites can use different HTML structures for articles.
    # (Mỗi website có thể có cấu trúc HTML khác nhau cho bài báo.)
    # Example: Articles may be inside <article>, <h2>, or <h3> tags.
    # (Ví dụ: bài báo có thể nằm trong <article>, hoặc chỉ có <h2>/<h3> chứa thẻ <a>.)
    link_selectors = [
        "article h2.title-news a",  # Most common form (Dạng phổ biến nhất)
        "article h3.title-news a",  # Some pages use <h3> instead of <h2> (Một số trang dùng h3)
        "h2.title-news a",          # Without <article> wrapper (Không có thẻ <article> bọc ngoài)
        "h3.title-news a",
        "h2 a[href*='.html']",      # Any <h2> with an href containing ".html" (Bất kỳ thẻ h2 có .html)
        "h3 a[href*='.html']",
        "article a[href*='.html']", # All <a> inside <article> that link to .html (Mọi link trong <article> có .html)
        "a[href*='.html']"          # Fallback: any <a> with .html (Dự phòng: mọi <a> có .html)
    ]

    # Base URL to complete relative links
    # (URL gốc của trang, dùng để ghép nếu link thiếu phần đầu)
    base_url = "https://vnexpress.net"

    # ===================== LOOP THROUGH SELECTORS =====================
    # (===================== DUYỆT QUA CÁC SELECTOR =====================)
    for selector in link_selectors:
        # TODO: Find all <a> tags matching the current selector
        # TODO: (Tìm tất cả thẻ <a> phù hợp với selector hiện tại)
        link_elements = TODO

        for element in link_elements:
            # Extract the "href" attribute value
            # (Lấy giá trị thuộc tính href)
            href = element.get('href')

            if href:
                # ------------------- CLEAN URL -------------------
                # (------------------- LÀM SẠCH URL -------------------)
                # Remove fragment part after "#" if present
                # (Nếu URL có dấu #, chỉ giữ phần trước)
                if '#' in href:
                    href = href.split('#')[0]

                # ------------------- NORMALIZE PATH -------------------
                # (------------------- CHUẨN HÓA ĐƯỜNG DẪN -------------------)
                # If relative path (starts with "/"), join with base_url
                # (Nếu link bắt đầu bằng / → nối thêm base_url)
                if href.startswith('/'):
                    href = base_url + href
                # Skip if link doesn’t start with "http" (invalid or external format)
                # (Bỏ qua nếu link không bắt đầu bằng http)
                elif not href.startswith('http'):
                    continue

                # ------------------- VALIDATION CHECKS -------------------
                # (------------------- KIỂM TRA TÍNH HỢP LỆ -------------------)
                # Conditions:
                # - Must contain ".html" (Phải có .html)
                # - Must include at least one digit (Có ít nhất 1 chữ số)
                # - Must contain "vnexpress.net" (Là link nội bộ)
                # - Must be longer than 50 chars (Dài hơn 50 ký tự)
                if ('.html' in href and
                    re.search(r'\d+', href) and
                    'vnexpress.net' in href and
                    len(href) > 50):
                    links.append(href)

        # Stop if valid links are found (don’t test other selectors)
        # (Nếu đã tìm thấy link hợp lệ thì dừng, không thử selector khác)
        if links:
            break

    # ===================== POST-PROCESSING =====================
    # (===================== XỬ LÝ KẾT QUẢ =====================)
    # Remove duplicate links using set, then convert back to list
    # (Loại bỏ các link trùng lặp bằng set rồi chuyển lại thành list)
    unique_links = list(set(links))

    # Limit result to first 2 links to prevent overloading
    # (Giới hạn chỉ lấy 2 link đầu tiên để tránh tải quá nhiều)
    return unique_links[:2]


### Hàm xử lý phân trang  
### Function for Pagination Handling  

**Mục đích**: Tạo URLs cho nhiều trang của cùng một chủ đề  
**Purpose**: Generate URLs for multiple pages of the same topic.  

VNExpress có cấu trúc phân trang như sau:  
VNExpress uses the following pagination structure:  
- Trang 1: `https://vnexpress.net/khoa-hoc`  
  → Page 1: `https://vnexpress.net/khoa-hoc`  
- Trang 2: `https://vnexpress.net/khoa-hoc-p2`  
  → Page 2: `https://vnexpress.net/khoa-hoc-p2`  
- Trang 3: `https://vnexpress.net/khoa-hoc-p3`  
  → Page 3: `https://vnexpress.net/khoa-hoc-p3`  

**Đầu vào**:  
**Input**:  
- `sub_topic_url`: URL trang đầu tiên  
  → The URL of the first page.  
- `pages`: Số trang muốn crawl  
  → The number of pages to crawl.  

**Đầu ra**: List các URL của tất cả các trang  
**Output**: A list of all page URLs.  

> **Thử nghiệm**: Thay đổi số trang từ 1 lên 3 để lấy nhiều bài báo hơn (nhưng cũng tốn thời gian hơn)!  
> **Experiment**: Try changing the number of pages from 1 to 3 to collect more articles (but it will take longer)!


In [None]:
def get_page_urls_from_sub_topic_url(sub_topic_url, pages=1) -> list:
    """
    Generate a list of paginated URLs for a given VnExpress sub-topic.
    (Tạo danh sách các URL có phân trang cho một chuyên mục của VnExpress.)

    Example (Ví dụ):
        sub_topic_url = "https://vnexpress.net/the-gioi"
        pages = 3
        Output (Kết quả):
        [
            "https://vnexpress.net/the-gioi",
            "https://vnexpress.net/the-gioi-p2",
            "https://vnexpress.net/the-gioi-p3"
        ]
    """

    # Initialize the list with the base URL (first page)
    # (Khởi tạo danh sách URL với trang đầu tiên — trang gốc của chuyên mục)
    urls = [sub_topic_url]

    # Loop through page numbers from 2 to the specified number of pages
    # (Lặp qua các số trang từ 2 đến giá trị `pages` được truyền vào)
    for page in range(2, pages + 1):

        # Append the suffix "-p{page}" to generate subsequent page URLs
        # (Ghép thêm hậu tố "-p{page}" để tạo ra URL cho các trang tiếp theo)
        #
        # Ghi chú:
        #   - Cấu trúc URL phân trang của VnExpress luôn tuân theo mẫu này:
        #       /chuyen-muc      → Trang 1
        #       /chuyen-muc-p2   → Trang 2
        #       /chuyen-muc-p3   → Trang 3
        #   - Vì vậy, chỉ cần nối chuỗi đơn giản là đủ.
        new_url = f"{sub_topic_url}-p{page}"

        # Add this generated URL to the list
        # (Thêm URL vừa tạo vào danh sách)
        urls.append(new_url)

    # Return the complete list of URLs
    # (Trả về toàn bộ danh sách các URL phân trang)
    return urls


### Hàm tổng hợp - Crawl tất cả chủ đề  
### Aggregated Function – Crawl All Topics  

**Mục đích**: Hàm chính để crawl links bài báo từ nhiều chủ đề khác nhau  
**Purpose**: The main function to crawl article links from multiple topics.  

**Quy trình hoạt động**:  
**How It Works:**  
1. Duyệt qua từng chủ đề trong danh sách  
   → Iterate through each topic in the list  
2. Với mỗi chủ đề, lấy links của các trang (phân trang)  
   → For each topic, get links from its paginated pages  
3. Với mỗi trang, lấy links của các bài báo  
   → For each page, extract the article links  
4. Loại bỏ duplicates và tổng hợp kết quả  
   → Remove duplicates and combine all results  

**Đầu vào**:  
**Input:**  
- `topics_links`: Dictionary chứa các chủ đề và sub-topics  
  → A dictionary containing topics and their sub-topics  
- `n_pages_per_topic`: Số trang crawl cho mỗi chủ đề  
  → Number of pages to crawl for each topic  

**Đầu ra**: Dictionary với structure tương tự đầu vào nhưng chứa links bài báo  
**Output:** A dictionary with the same structure as input but containing article links.  

**Tính năng đặc biệt**:  
**Special Features:**  
- Hiển thị progress bar với `tqdm`  
  → Display progress bar using `tqdm`  
- Tự động delay giữa các request  
  → Automatically adds delay between requests  
- In thống kê số lượng bài báo tìm được  
  → Prints a summary of how many articles were found  

> **Lưu ý về thời gian**: Crawl nhiều chủ đề và nhiều trang sẽ mất thời gian. Hãy bắt đầu với ít chủ đề để test!  
> **Time Note**: Crawling many topics and pages takes time — start small for testing!


In [None]:
def get_all_news_urls_from_topics_links(topics_links: dict, n_pages_per_topic=1) -> dict:
    """
    Collect all news article URLs from a list of topic links.
    (Lấy toàn bộ link bài báo từ danh sách các chủ đề (topics_links).)

    Each main topic may contain several sub-topics,
    and each sub-topic may have multiple paginated pages.
    (Mỗi chủ đề chính có thể gồm nhiều chủ đề con,
    và mỗi chủ đề con có thể có nhiều trang phân trang.)
    """

    # Initialize the output dictionary to store final results
    # (Khởi tạo dict để lưu kết quả cuối cùng)
    # Format (Định dạng):
    # {
    #   "Thời sự": ["link1", "link2", ...],
    #   "Thế giới": ["link1", "link2", ...],
    #   ...
    # }
    output = {}

    # Iterate through each main topic in the dictionary
    # (Duyệt qua từng chủ đề chính trong từ điển topics_links)
    # k = topic name (tên chủ đề), v = list of sub-topic URLs (danh sách các link chủ đề con)
    for k, v in tqdm(topics_links.items(), desc="Processing topics (Xử lý các chủ đề)"):
        print(f'\n Topic: {k} - Subtopics: {len(v)} (Số chủ đề con: {len(v)})')

        # Create an empty list to store all article links for this topic
        # (Tạo danh sách rỗng để lưu các link bài báo của chủ đề hiện tại)
        output[k] = []

        # Temporary list to store all paginated sub-topic page URLs
        # (Tạo danh sách tạm để lưu tất cả link các trang phân trang của chủ đề con)
        page_links = []

        # ------------------------------------------------------------
        # STEP 1: Generate all paginated page URLs for each sub-topic
        # (BƯỚC 1: Tạo danh sách link các trang (phân trang) cho từng chủ đề con)
        # ------------------------------------------------------------
        for sub_topic_link in tqdm(v, desc=f"Generating page links for {k} (Tạo link trang cho {k})", leave=False):
            # Example:
            # https://vnexpress.net/the-gioi → https://vnexpress.net/the-gioi-p2 → https://vnexpress.net/the-gioi-p3
            # (Ví dụ cách tạo các link phân trang từ link chủ đề con)
            # TODO: Create a list of links for paginated pages (e.g. -p2, -p3)
            # Hint: use the function get_page_urls_from_sub_topic_url(sub_topic_link, pages=n_pages_per_topic)
            s = TODO
            # Add all generated page links into the main list
            # (Thêm toàn bộ các link trang vừa tạo vào danh sách page_links)
            page_links.extend(s)

        # ------------------------------------------------------------
        # STEP 2: From each page, extract all article links
        # (BƯỚC 2: Từ mỗi trang, lấy các link bài báo cụ thể)
        # ------------------------------------------------------------
        for page_link in tqdm(page_links, desc=f"Extracting article links for {k} (Lấy link bài báo cho {k})", leave=False):
            # Call the function that extracts article URLs from a sub-topic page
            # (Gọi hàm lấy link bài báo từ trang con)
            news_links = get_news_links_from_sub_topic_page_link(page_link)

            # Add all extracted article links into the topic’s list
            # (Thêm toàn bộ link bài báo lấy được vào danh sách của chủ đề)
            output[k].extend(news_links)

            # Wait 1 second between each request to avoid IP ban or server blocking
            # (Tạm nghỉ 1 giây giữa các lần gọi để tránh bị server chặn hoặc giới hạn tốc độ)
            time.sleep(1)

        # ------------------------------------------------------------
        # STEP 3: Remove duplicate links
        # (BƯỚC 3: Loại bỏ các link trùng lặp)
        # ------------------------------------------------------------
        output[k] = list(set(output[k]))  # Convert list → set → list again to remove duplicates
        print(f" Found {len(output[k])} unique articles for {k} (Tìm được {len(output[k])} bài báo duy nhất cho {k})")

    # Return the final dictionary containing all collected article links
    # (Trả về toàn bộ kết quả cuối cùng dưới dạng từ điển)
    return output


# Cấu hình dữ liệu cần crawl  
# Data Configuration for Crawling  

## Thiết lập các chủ đề cần thu thập  
## Define the Topics to Be Collected  

Trong bước này, chúng ta sẽ cấu hình những chủ đề tin tức muốn crawl từ VNExpress.  
In this step, we will configure which news topics to crawl from VNExpress.  

Mỗi chủ đề có thể có nhiều sub-topic (chủ đề con).  
Each topic may contain several sub-topics.  

### Cấu trúc dữ liệu:  
### Data Structure:  
```python
topics_links = {
    'tên_chủ_đề': [               # topic name
        'url_sub_topic_1',        # URL of sub-topic 1
        'url_sub_topic_2',        # URL of sub-topic 2
        ...
    ]
}
```
###  Lời khuyên cho việc chọn chủ đề:
###  Tips for Choosing Topics:
- **Bắt đầu nhỏ** : Chỉ chọn 2-3 chủ đề cho lần chạy đầu tiên

- **Start small** : Choose only 2–3 topics for your first run
- **Đa dạng nội dung**: Chọn các chủ đề khác nhau để có dataset phong phú
- **Diversify content**: Choose varied topics for a richer dataset
- **Kiểm tra URL**: Đảm bảo các URL có thể truy cập được
- **Check URLs**: Make sure the URLs are accessible

> **Quan trọng**: Trong demo này chúng ta chỉ lấy 1 sub-topic của mỗi chủ đề để tiết kiệm thời gian. Trong thực tế, bạn có thể uncomment các dòng khác để lấy nhiều hơn.
> **Important**: In this demo, we only take 1 sub-topic per topic to save time.
Trong thực tế, bạn có thể uncomment các dòng khác để lấy nhiều hơn.
In practice, you can uncomment other lines to collect more.

In [None]:
# Cấu hình các chủ đề - giảm số lượng để test
# Configure the news topics - reduce the number for testing

topics_links = {
    'khoa-hoc': [  # Chủ đề: Khoa học (Science)
        # 'https://vnexpress.net/khoa-hoc/tin-tuc',  # (Bỏ để test nhanh)
        'https://vnexpress.net/khoa-hoc/phat-minh'   # Đường dẫn đến mục “Phát minh” (Invention)
    ],
    'the-thao': [  # Chủ đề: Thể thao (Sports)
        # 'https://vnexpress.net/bong-da',            # (Bỏ để test nhanh)
        'https://vnexpress.net/the-thao/tennis'       # Đường dẫn đến mục “Tennis”
    ],
    # 'doi-song': [                                   # Một chủ đề khác: Đời sống (Life)
    #     # 'https://vnexpress.net/doi-song/to-am',   # (Tạm ẩn để giảm tải khi test)
    #     'https://vnexpress.net/doi-song/bai-hoc-song' # Mục “Bài học sống” (Life lessons)
    # ]
}

# In ra màn hình danh sách các chủ đề đã được cấu hình
# Print out the list of configured topics

print(" Themes configured:")  # Notify that the topics have been set (Thông báo đã cấu hình xong)
for topic, links in topics_links.items():
    # Duyệt qua từng cặp key-value: topic (tên chủ đề), links (danh sách các liên kết con)
    # Iterate through each key-value pair: topic name and list of subtopic links
    print(f"- {topic}: {len(links)} sub-topic")
    # In ra tên chủ đề và số lượng chủ đề con của nó
    # Print the topic name and the number of its subtopics


## Test hệ thống crawl (Bước quan trọng!)
## Test the crawling system (Important step!)

Trước khi crawl hàng loạt, chúng ta **PHẢI** test hệ thống để đảm bảo tất cả đều hoạt động tốt.  
Before doing a large-scale crawl, we **MUST** test the system to ensure everything works properly.  

Đây là thực hành tốt nhất trong web crawling.  
This is a best practice in web crawling.  

---

###  Test này sẽ kiểm tra:
###  This test will check:

1. **Kết nối mạng**: Có thể truy cập VNExpress không?  
   **Network connection**: Can we access VNExpress?

2. **Bypass anti-bot**: Các kỹ thuật chống phát hiện có hiệu quả không?  
   **Bypass anti-bot**: Are the anti-detection techniques effective?

3. **Parsing HTML**: Có trích xuất được nội dung không?  
   **Parsing HTML**: Can we extract the content correctly?

4. **Error handling**: Xử lý lỗi có ổn định không?  
   **Error handling**: Is the error handling stable?

---

###  Kết quả mong đợi:
###  Expected results:

- **Tìm được links**: Ít nhất 10–20 links bài báo từ trang test  
  **Find links**: At least 10–20 article links from the test page  

- **Crawl thành công**: Ít nhất 2/3 bài báo test được crawl thành công  
  **Successful crawl**: At least 2/3 of the test articles are crawled successfully  

- **Nội dung đầy đủ**: Tiêu đề + nội dung có độ dài hợp lý  
  **Complete content**: Title + body have reasonable length  

---

>  **Nếu test thất bại**: Đừng tiếp tục!  
>  **If the test fails**: Do not continue!  

> Hãy kiểm tra kết nối mạng hoặc thử lại sau 10–15 phút vì có thể website đang bảo trì.  
> Check your internet connection or try again after 10–15 minutes — the website might be under maintenance.


In [None]:
# Test detailed debug with the new methods (requests + curl)
# (Test/Debug chi tiết với các phương pháp mới (requests + curl))
test_url = 'https://vnexpress.net/khoa-hoc/tin-tuc'

# Print the URL being tested
# (In URL đang test)
print(f'Testing link extraction from: {test_url} (Test lấy links từ: {test_url})')
# Separator line for readability
# (Dòng phân cách để dễ nhìn)
print("─" * 60)

# Announce the testing approach (combined methods)
# (Thông báo phương pháp test: kết hợp requests + curl)
print("Testing combined method (requests + curl)... (Test phương pháp kết hợp (requests + curl)...)")

# Call the function to extract article links from a topic page
# (Gọi hàm để lấy các link bài báo từ trang chủ đề)
test_links = get_news_links_from_sub_topic_page_link(test_url)

# Print how many links were found
# (In ra số lượng link tìm được)
print(f'Found {len(test_links)} links (Tìm thấy {len(test_links)} links)')

# If any links were found, perform further checks
# (Nếu tìm thấy link thì thực hiện kiểm tra tiếp)
if test_links:
    # Print top 5 found links for quick inspection
    # (In 5 link đầu để kiểm tra nhanh)
    print('\nTop 5 links found: (Top 5 links tìm được:)')
    for i, link in enumerate(test_links[:5]):  # iterate first 5 items
        # Print each link with index
        # (In từng link kèm số thứ tự)
        print(f'{i+1}. {link}')

    # Separator and next test section title
    # (Dòng phân cách và tiêu đề phần test tiếp theo)
    print('\n' + "─" * 60)
    print('Testing article content crawling with enhanced method (requests -> curl)... (Test crawl nội dung bài báo với phương pháp nâng cao (requests -> curl)...)')

    # Counter for successful article crawls in this sample test
    # (Bộ đếm số bài crawl thành công trong test mẫu này)
    success_count = 0

    # Try to crawl and parse the first 3 links to verify parsing quality
    # (Thử crawl và parse 3 link đầu để kiểm tra chất lượng parsing)
    for i, link in enumerate(test_links[:3]):  # limit to first 3 links for the test
        # Print a shortened preview of the link for clarity
        # (In phần đầu của link để dễ quan sát)
        print(f'\nTest link {i+1}: {link[:80]}... (Test link {i+1}: {link[:80]}...)')

        # Fetch and parse the article using the combined method (requests -> curl)
        # (Lấy nội dung bài báo bằng phương pháp kết hợp)
        article = get_content_news_from_news_url(link)

        # If parsing was successful, print summary info and increment success counter
        # (Nếu parse thành công, in tóm tắt và tăng biến đếm thành công)
        if article:
            print('Success! (Thành công!)')
            # Print title (short) for verification
            # (In tiêu đề (rút gọn) để kiểm tra)
            print(f'    Title (Tiêu đề): {article["title"]}')
            # Print first 100 chars of description to inspect it
            # (In 100 ký tự đầu của mô tả để kiểm tra)
            print(f'    Description (Mô tả): {article["description"][:100]}...')
            # Print first 150 chars of article body as a preview
            # (In 150 ký tự đầu của nội dung bài báo)
            print(f'    Content preview (Nội dung - xem trước): {article["contents"][:150]}...')
            # Print the length of the content to know its size
            # (In độ dài nội dung để biết kích thước)
            print(f'    Length: {len(article["contents"])} characters (Độ dài: {len(article["contents"])} ký tự)')
            success_count += 1
        else:
            # If parsing failed, report failure for that link
            # (Nếu không lấy được nội dung, báo thất bại cho link đó)
            print('Failed (Thất bại)')

    # Print summary of the 3-link test
    # (In kết quả tổng kết test với 3 link)
    print(f'\nTest result: {success_count}/3 succeeded (Kết quả test: {success_count}/3 thành công)')

    # If at least one article parsed successfully, consider system OK to continue
    # (Nếu có ít nhất 1 bài thành công → hệ thống có thể tiếp tục crawl)
    if success_count > 0:
        print('System looks OK, you can continue crawling! (Hệ thống hoạt động tốt, có thể tiếp tục crawl!)')
    else:
        # If none succeeded, perform deeper debugging on the first link
        # (Nếu tất cả thất bại → debug chi tiết link đầu tiên)
        print('There is an issue with the crawling system, please check! (Có vấn đề với hệ thống crawl, cần kiểm tra lại!)')

        print('\nDetailed debug for the first link: (Debug chi tiết cho link đầu tiên:)')
        # Save the first link for step-by-step testing
        # (Lưu link đầu tiên để test từng phương pháp)
        first_link = test_links[0]

        print("Testing each method separately: (Test riêng từng method:)")

        # ------------------ Test requests-based method ------------------
        # Test the requests method (get_content_) to see if it can fetch HTML
        # (Test phương pháp requests (get_content_) xem có lấy được HTML không)
        print("Testing requests method: (Test requests method:)")
        raw_html_requests = get_content_(first_link)
        if raw_html_requests:
            # If requests succeeded, print length of HTML
            # (Nếu requests lấy được, in độ dài HTML)
            print(f'    Requests OK, length: {len(raw_html_requests)} characters (Requests OK, độ dài: {len(raw_html_requests)} ký tự)')
        else:
            # Otherwise indicate requests failed for this URL
            # (Ngược lại, báo requests failed)
            print('    Requests failed (Requests failed)')

        # ------------------ Test curl-based method ------------------
        # Test the cURL backup method (get_content_with_curl)
        # (Test phương pháp dự phòng cURL)
        print("Testing curl method: (Test curl method:)")
        raw_html_curl = get_content_with_curl(first_link)
        if raw_html_curl:
            # If curl returned HTML, print length
            # (Nếu curl lấy được HTML, in độ dài)
            print(f'    Curl OK, length: {len(raw_html_curl)} characters (Curl OK, độ dài: {len(raw_html_curl)} ký tự)')

            # Quick structure inspection: parse HTML from curl to check tags
            # (Kiểm tra nhanh cấu trúc HTML nhận từ curl để xem có thẻ h1, p,...)
            soup = BeautifulSoup(raw_html_curl, 'html.parser')

            # Count number of H1 tags (likely headline tags)
            # (Đếm số thẻ h1 — thường là thẻ tiêu đề)
            h1_tags = soup.find_all('h1')
            print(f'      Number of <h1> tags: {len(h1_tags)} (Số thẻ h1: {len(h1_tags)})')

            # Print first 3 h1 text samples (trimmed) to inspect headline extraction
            # (In 3 thẻ h1 đầu (rút gọn) để kiểm tra việc trích tiêu đề)
            for h1 in h1_tags[:3]:
                print(f'       - {h1.get_text().strip()[:100]}')

            # Count all <p> tags and those with >50 chars (likely article paragraphs)
            # (Đếm thẻ <p> tổng và số thẻ có nội dung >50 ký tự — khả năng là đoạn nội dung)
            p_tags = soup.find_all('p')
            content_p = [p for p in p_tags if len(p.get_text().strip()) > 50]
            print(f'      <p> tags with content >50 chars: {len(content_p)}/{len(p_tags)} (Số thẻ p có nội dung: {len(content_p)}/{len(p_tags)})')
        else:
            # If curl also failed, indicate that as well
            # (Nếu curl cũng thất bại, in thông báo)
            print('    Curl failed (Curl failed)')

        # ------------------ Test combined/enhanced method ------------------
        # Test the enhanced method which tries requests first then curl if needed
        # (Test phương pháp kết hợp: requests rồi fallback sang curl)
        print("Testing enhanced method (requests -> curl): (Test enhanced method:)")
        raw_html_enhanced = get_content_enhanced(first_link)
        if raw_html_enhanced:
            # If enhanced method succeeded, print length
            # (Nếu enhanced thành công, in độ dài)
            print(f'    Enhanced OK, length: {len(raw_html_enhanced)} characters (Enhanced OK, độ dài: {len(raw_html_enhanced)} ký tự)')
        else:
            # Otherwise show enhanced failed as well
            # (Ngược lại báo enhanced failed)
            print('    Enhanced failed (Enhanced failed)')

# If no links found on topic page, debug the topic page HTML itself
# (Nếu không tìm thấy link nào, debug trang chủ đề để kiểm tra cấu trúc)
else:
    print('No links found (Không tìm thấy links nào)')
    print('Debugging the topic page... (Debug trang chủ đề...)')
    # Fetch raw HTML of the topic page for manual inspection
    # (Lấy HTML trang chủ để kiểm tra thủ công)
    raw_html = get_content_enhanced(test_url)
    if raw_html:
        # Print the length of the fetched topic page HTML
        # (In độ dài HTML của trang chủ đề)
        print(f'    Topic page HTML fetched, length: {len(raw_html)} characters (Lấy được HTML trang chủ, độ dài: {len(raw_html)} ký tự)')
        soup = BeautifulSoup(raw_html, 'html.parser')

        # Find all <a> tags with href attributes and filter those containing ".html"
        # (Tìm tất cả <a href=""> rồi lọc những href chứa ".html")
        all_links = soup.find_all('a', href=True)
        html_links = [a['href'] for a in all_links if '.html' in a.get('href', '')]

        # Print how many .html links found on the page (quick sanity check)
        # (In số link chứa .html tìm thấy trên trang — kiểm tra nhanh)
        print(f'Found {len(html_links)} links containing .html (Tìm thấy {len(html_links)} links chứa .html)')
        # Print first 5 of these links for inspection
        for i, link in enumerate(html_links[:5]):
            print(f'   {i+1}. {link}')
    else:
        # If topic page HTML can't be fetched, report it
        # (Nếu không lấy được HTML trang chủ, báo lỗi)
        print('Could not fetch topic page HTML (Không lấy được HTML trang chủ)')

# Final tips and summary printed to the user
# (Lời khuyên/tóm tắt cuối cùng in cho người dùng)
print("\n" + "─" * 60)
print("TIP: If curl works but requests fails, the site may block Python requests but allow curl. (TIP: Nếu curl method thành công mà requests failed, có thể VNExpress chặn Python requests nhưng cho phép curl.)")
print("Enhanced method will automatically fallback to curl when needed. (Phương pháp nâng cao sẽ tự động fallback sang curl khi cần.)")


##  Thu thập danh sách links bài báo
## Collect the list of article links

**Điều kiện**: Chỉ chạy cell này nếu **test ở bước trước đã thành công**!  
**Condition**: Only run this cell if the **test in the previous step was successful**!

---

### Trong bước này, chúng ta sẽ:
###  In this step, we will:

1. Duyệt qua tất cả các chủ đề đã cấu hình  
   Browse through all configured topics  

2. Lấy danh sách links bài báo từ mỗi trang chủ đề  
   Get the list of article links from each topic page  

3. Tổng hợp và đếm số lượng bài báo tìm được  
   Combine and count the number of articles found  

---

###  Thời gian dự kiến:
###  Estimated time:

- **1 chủ đề, 1 trang**: ~30 giây  
  **1 topic, 1 page**: ~30 seconds  

- **3 chủ đề, 1 trang mỗi chủ đề**: ~2 phút  
  **3 topics, 1 page each**: ~2 minutes  

- **3 chủ đề, 3 trang mỗi chủ đề**: ~5–7 phút  
  **3 topics, 3 pages each**: ~5–7 minutes  

---

###  Số lượng bài báo dự kiến:
###  Expected number of articles:

- Mỗi trang thường có 15–25 bài báo  
  Each page usually has 15–25 articles  

- Một số bài có thể bị duplicate hoặc không crawl được  
  Some articles may be duplicated or fail to crawl  

---

>  **Mẹo**: Theo dõi output để xem quá trình diễn ra như thế nào.  
>  **Tip**: Watch the output to see how the process runs.  

> Nếu một chủ đề nào đó mất quá nhiều thời gian, có thể dừng và bỏ chủ đề đó.  
> If any topic takes too long, you may stop and skip that topic.


In [None]:
# Run only if the previous crawl test was successful
# (Chỉ chạy nếu phần test crawl trước đó đã thành công)
print(' Start collecting article links... (Bắt đầu lấy danh sách links bài báo...)')

# Number of pages to fetch per sub-topic (pagination count)
# (Số lượng trang muốn lấy trong mỗi chủ đề con - dùng cho phân trang)
n_pages_per_topic = 1

# Call the main function to collect all article links from topic list
# (Gọi hàm chính để lấy toàn bộ danh sách link bài báo từ danh sách chủ đề)
# This function will:
# (Hàm này sẽ:)
#  - Iterate through each main topic in 'topics_links'
#    (  - Duyệt qua từng chủ đề chính trong 'topics_links')
#  - Get all sub-topic page URLs (pagination)
#    (  - Lấy danh sách các trang con (có phân trang))
#  - Call get_news_links_from_sub_topic_page_link() to extract actual article URLs
#    (  - Gọi hàm get_news_links_from_sub_topic_page_link() để lấy link bài báo thực tế)
topics_links_news =  # TODO: Fetch list of article URLs (TODO: Lấy danh sách link bài báo)

# After collecting links, print statistics for each topic
# (Sau khi lấy xong, in thống kê số lượng bài báo cho từng chủ đề)
print('\n Number of articles per topic: (Số lượng bài báo cho từng chủ đề:)')

total_articles = 0  # Counter for total number of collected articles (Biến đếm tổng số bài báo)

# Iterate through each topic in the resulting dictionary
# (Lặp qua từng chủ đề trong kết quả trả về)
for k, v in topics_links_news.items():
    # Print topic name and number of articles found
    # (In tên chủ đề và số lượng bài báo tìm thấy)
    print(f'- {k}: {len(v)} articles (bài báo)')
    # Add count to total
    # (Cộng dồn vào tổng số bài báo)
    total_articles += len(v)

# Print total number of articles collected across all topics
# (In tổng số bài báo lấy được từ tất cả các chủ đề)
print(f'\n Total: {total_articles} articles collected (Tổng cộng: {total_articles} bài báo đã được lấy)')


#  Tiền xử lý dữ liệu  
#  Data Preprocessing  

##  Tạo cấu trúc thư mục lưu trữ  
##  Create directory structure for storage  

Trước khi bắt đầu crawl nội dung, chúng ta cần tạo các thư mục để tổ chức dữ liệu một cách khoa học.  
Before starting to crawl content, we need to create folders to organize data in a structured and logical way.  

---

###  Mục đích:
###  Purpose:

- Giúp lưu trữ dữ liệu rõ ràng theo từng chủ đề  
  Helps store data clearly by topic  

- Dễ dàng truy cập và xử lý về sau  
  Makes it easier to access and process later  

- Tránh ghi đè dữ liệu trong các lần chạy khác nhau  
  Prevents data overwriting between runs  

---

###  Cấu trúc ví dụ:
###  Example structure:



In [None]:
# Creat folder (Tạo thư mục)
CRAWL_FOLDER = 'data/crawl_data'
OUTPUT_FOLDER = 'data/news_vnexpress'

os.makedirs('data', exist_ok=True)
os.makedirs(CRAWL_FOLDER, exist_ok=True)
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

print(f" Created folder - (Đã tạo thư mục): {CRAWL_FOLDER}")
print(f" Create folder - (Đã tạo thư mục:) {OUTPUT_FOLDER}")

#  Crawl nội dung bài báo chi tiết  
#  Detailed Article Content Crawling  

Đây là bước **quan trọng nhất** – nơi chúng ta thu thập nội dung thực tế của từng bài báo.  
This is the **most important step** – where we collect the actual content of each article.  

---

##  Quy trình hoạt động  
##  How It Works  

1. Duyệt qua từng **chủ đề**  
   Iterate through each **topic**  
2. Với mỗi **link bài báo**, gửi request và **trích xuất nội dung**  
   For each **article link**, send a request and **extract content**  
3. Lưu dữ liệu vào **file JSON** (mỗi bài báo = 1 dòng JSON)  
   Save data into a **JSON file** (1 article = 1 JSON line)  
4. Hiển thị **thống kê tiến trình và kết quả**  
   Display **progress statistics and results**  

---

##  Thời gian dự kiến  
##  Estimated Runtime  

| Số lượng bài báo | Thời gian ước tính | Estimated Time |
|------------------|--------------------|----------------|
| 1 bài báo        | ~2–3 giây          | ~2–3 seconds   |
| 50 bài báo       | ~3–5 phút          | ~3–5 minutes   |
| 100 bài báo      | ~7–10 phút         | ~7–10 minutes  |

---

##  Thống kê theo dõi  
##  Tracking Metrics  

| Loại kết quả | Mô tả | Description |
|---------------|-------|--------------|
|  **Thành công** | Bài báo crawl được đầy đủ nội dung | Successfully crawled full article |
|  **Thất bại** | Bài báo không truy cập được hoặc không có nội dung | Article unavailable or missing content |
|  **Tỷ lệ thành công** | Nên đạt ít nhất 60–70% | Should reach at least 60–70% success rate |

---

##  Cơ chế bảo vệ  
##  Protection Mechanisms  

-  **Delay 1.5 giây** giữa mỗi request để tránh bị chặn  
  Add a **1.5-second delay** between requests to avoid being blocked  

-  **Error handling**: Tự động bỏ qua các bài báo lỗi  
  **Error handling**: Automatically skip failed articles  

-  **Progress tracking**: Hiển thị tiến trình realtime với thanh `tqdm`  
  **Progress tracking**: Display realtime progress bar using `tqdm`  

---

>  **Quan trọng**: Không tắt notebook trong khi đang crawl!  
> Nếu cần dừng, hãy dùng nút **“Interrupt”** của Jupyter/Colab.  
>
>  **Important**: Do not close the notebook while crawling!  
> If you need to stop, use the **“Interrupt”** button in Jupyter/Colab.


In [None]:
# Print message indicating the start of the crawling process
# (In thông báo bắt đầu quá trình crawl)
print(' Bắt đầu crawl nội dung bài báo... / Starting to crawl article content...')

# Print a visual separator for clarity
# (In dòng phân cách cho dễ nhìn)
print("═" * 60)

# Initialize counters for overall success and failure
# (Khởi tạo biến đếm tổng số crawl thành công và thất bại)
total_success = 0  # Total successfully crawled articles (Tổng số bài đã crawl thành công)
total_failed = 0   # Total failed crawls (Tổng số bài crawl thất bại)

# Loop through each topic and its corresponding article links
# (Lặp qua từng chủ đề và danh sách link bài báo tương ứng)
for topic, links in topics_links_news.items():

    # Skip the topic if it has no links
    # (Bỏ qua nếu chủ đề không có link)
    if not links:
        print(f'\n  Bỏ qua chủ đề {topic}: không có links / Skipping topic {topic}: no links found.')
        continue

    # Print current topic being processed
    # (In tên chủ đề hiện đang được xử lý)
    print(f'\n Đang crawl chủ đề: {topic.upper()} / Crawling topic: {topic.upper()}')
    print(f' Số lượng: {len(links)} bài báo / Number of articles: {len(links)}')
    print("─" * 40)  # Small separator (Dòng phân cách nhỏ)

    # Path to save raw HTML data for this topic
    raw_file_path = os.path.join(CRAWL_FOLDER, f'{topic}.txt')

    # Path to save processed data (each topic has its own folder)
    processed_folder = os.path.join(OUTPUT_FOLDER, topic)
    os.makedirs(processed_folder, exist_ok=True)

    # Counters for current topic
    successful_crawls = 0
    failed_crawls = 0

    # Open file for writing raw HTML data
    with open(raw_file_path, 'w', encoding='utf-8') as f_raw:

        # Use tqdm to display progress bar
        for i, link in enumerate(tqdm(links, desc=f"Crawling {topic}")):
            try:
                html_content = get_content_enhanced(link)

                if html_content is None or len(html_content) < 1000:
                    failed_crawls += 1
                    if i < 2:
                        print(f" #{i+1}: Không lấy được HTML - {link[:60]}... / Failed to get HTML - {link[:60]}...")
                    continue

                raw_data = {
                    "url": link,
                    "html": html_content,
                    "timestamp": time.time()
                }
                f_raw.write(json.dumps(raw_data, ensure_ascii=False))
                f_raw.write('\n')

                # Parse article
                article_data = parse_article_from_html(html_content, link)

                if article_data is not None:
                    output_file = os.path.join(processed_folder, str(successful_crawls).zfill(5) + ".txt")
                    with open(output_file, 'w', encoding='utf-8') as f_processed:
                        f_processed.write(article_data['contents'])
                        f_processed.write('\n')

                    successful_crawls += 1
                    if i < 2:
                        print(f" #{i+1}: {article_data['title'][:60]}... / Title: {article_data['title'][:60]}...")
                else:
                    failed_crawls += 1
                    if i < 2:
                        print(f" #{i+1}: Không trích xuất được - {link[:60]}... / Could not extract content - {link[:60]}...")

                time.sleep(1.5)

            except Exception as e:
                failed_crawls += 1
                if i < 2:
                    print(f" #{i+1}: Lỗi - {str(e)[:50]}... / Error - {str(e)[:50]}...")
                continue

    total_success += successful_crawls
    total_failed += failed_crawls

    success_rate = successful_crawls * 100 / (successful_crawls + failed_crawls) if (successful_crawls + failed_crawls) > 0 else 0

    print(f"\n Kết quả {topic}: / Results for {topic}:")
    print(f"    Thành công: {successful_crawls} / Success: {successful_crawls}")
    print(f"    Thất bại: {failed_crawls} / Failed: {failed_crawls}")
    print(f"    Tỷ lệ: {success_rate:.1f}% / Success rate: {success_rate:.1f}%")

# After all topics processed
print("\n" + "═" * 60)
print(f" TỔNG KẾT CRAWL / FINAL CRAWL SUMMARY")
print("═" * 60)
print(f" Tổng thành công: {total_success} / Total success: {total_success}")
print(f" Tổng thất bại: {total_failed} / Total failed: {total_failed}")

total_rate = total_success * 100 / (total_success + total_failed) if (total_success + total_failed) > 0 else 0
print(f" Tỷ lệ thành công: {total_rate:.1f}% / Overall success rate: {total_rate:.1f}%")

if total_rate > 50:
    print("\n Crawl thành công! Tiếp tục với bước tiếp theo. / Crawl successful! Proceed to the next step.")
else:
    print("\n Tỷ lệ thành công thấp, cần kiểm tra lại. / Low success rate, please review the process.")


#  Lưu dữ liệu  
#  Save Data  

---

##  Kiểm tra kết quả crawl  
##  Check Crawling Results  

Sau khi hoàn tất quá trình crawl, chúng ta đã có:  
After completing the crawling process, we now have:  

- **`data/crawl_data/`** → Chứa **dữ liệu thô (HTML)** ở dạng JSON – mỗi dòng là một bài báo gồm URL và toàn bộ HTML  
  → Contains **raw HTML data** in JSON format – each line represents an article with its URL and full HTML  

- **`data/news_vnexpress/`** → Chứa **dữ liệu đã xử lý (text sạch)** – mỗi file `.txt` là nội dung một bài báo  
  → Contains **clean processed data** – each `.txt` file holds the cleaned article content  

---

##  Cấu trúc thư mục  
##  Folder Structure  


```
data/
├── crawl_data/          # Dữ liệu thô (HTML)
│   ├── khoa-hoc.txt    # JSON: {url, html, timestamp}
│   ├── the-thao.txt
│   └── doi-song.txt
└── news_vnexpress/      # Dữ liệu đã xử lý (text)
    ├── khoa-hoc/
    │   ├── 00000.txt    # Nội dung bài báo đã trích xuất
    │   ├── 00001.txt
    │   └── ...
    ├── the-thao/
    └── doi-song/
```


---

##  Lợi ích của cấu trúc này  
##  Benefits of This Structure  

| Tiếng Việt | English |
|-------------|----------|
| **Dữ liệu thô được bảo toàn** – có thể xử lý lại nếu cần thay đổi cách trích xuất | **Raw data preserved** – can be reprocessed if extraction logic changes |
| **Dữ liệu sạch sẵn sàng cho ML/NLP** | **Clean data ready for ML/NLP tasks** |
| **Phân loại rõ ràng** – mỗi thư mục = 1 class | **Clear categorization** – each folder = one class |
| **Linh hoạt** – dễ dàng thêm, xóa hoặc cập nhật | **Flexible** – easy to add, remove, or reprocess |

---

>  **Ứng dụng tiếp theo / Next Step:**  
> Dữ liệu trong thư mục `news_vnexpress` có thể dùng ngay để:  
> The data inside `news_vnexpress` can now be used for:  
> -  Huấn luyện mô hình phân loại văn bản / Train text classification models  
> -  Phân tích cảm xúc / Perform sentiment analysis  
> -  Tạo chatbot trả lời theo nội dung báo / Build a chatbot using news content  


In [None]:
# Print the heading for crawl data summary
# (In tiêu đề kiểm tra kết quả crawl)
print(' Thống kê dữ liệu đã crawl / Crawl data summary:')
print("═" * 60)  # Print a separator line for better readability (In dòng kẻ dài để phân tách dễ nhìn)

# ───────────────────────────────────────────────────────────────
# PART 1: Check raw HTML data — stored in CRAWL_FOLDER
# (PHẦN 1: Kiểm tra dữ liệu thô (HTML) — nằm trong thư mục CRAWL_FOLDER)
# ───────────────────────────────────────────────────────────────
print("\n [1] Dữ liệu thô (HTML) trong crawl_data / Raw HTML data in crawl_data:")

# Iterate through all files inside the raw data folder (usually "crawl_data")
# (Duyệt qua tất cả các file trong thư mục chứa dữ liệu thô, thường là "crawl_data")
for filename in os.listdir(CRAWL_FOLDER):

    # Only process files that end with .txt (each file represents one topic)
    # (Chỉ lấy các file có phần mở rộng .txt — mỗi file tương ứng một chủ đề)
    if filename.endswith('.txt'):

        # Create the full file path (e.g., crawl_data/the-thao.txt)
        # (Tạo đường dẫn đầy đủ tới file, ví dụ: crawl_data/the-thao.txt)
        filepath = os.path.join(CRAWL_FOLDER, filename)

        # Open the file and read all lines (each line = one article in JSON format)
        # (Mở file và đọc toàn bộ các dòng — mỗi dòng là một bài báo dạng JSON)
        with open(filepath, 'r', encoding='utf-8') as f:
            lines = f.readlines()

        # Print the number of crawled articles (based on number of lines)
        # (In ra số lượng bài báo theo số dòng trong file)
        print(f"  - {filename}: {len(lines)} bài báo (HTML) / {len(lines)} articles (HTML)")

# ───────────────────────────────────────────────────────────────
# PART 2: Check processed text data — stored in OUTPUT_FOLDER
# (PHẦN 2: Kiểm tra dữ liệu đã xử lý (text) — nằm trong thư mục OUTPUT_FOLDER)
# ───────────────────────────────────────────────────────────────
print("\n [2] Dữ liệu đã xử lý (text) trong news_vnexpress / Processed text data in news_vnexpress:")

# Iterate through each subfolder inside OUTPUT_FOLDER
# (Duyệt qua từng thư mục con trong OUTPUT_FOLDER)
# Each subfolder represents a topic (e.g., “the-thao”, “giao-duc”)
# (Mỗi thư mục con tương ứng với một chủ đề như “the-thao”, “giao-duc”)
for topic_folder in os.listdir(OUTPUT_FOLDER):

    # Create full path to this topic’s folder
    # (Tạo đường dẫn đầy đủ đến thư mục chủ đề)
    topic_path = os.path.join(OUTPUT_FOLDER, topic_folder)

    # Ensure it's a folder (skip any files accidentally placed here)
    # (Kiểm tra nếu đúng là thư mục, tránh lỗi nếu có file lẻ)
    if os.path.isdir(topic_path):

        # Get list of all .txt files inside this folder (each file = one article)
        # (Lấy danh sách các file .txt trong thư mục này — mỗi file là một bài báo)
        files = [f for f in os.listdir(topic_path) if f.endswith('.txt')]

        # Print topic name and number of processed text files
        # (In tên chủ đề và số lượng file text bên trong)
        print(f"  - {topic_folder}/: {len(files)} file text / {len(files)} text files")

# ───────────────────────────────────────────────────────────────
# PART 3: Print a short summary explaining the data structure
# (PHẦN 3: In thông báo tóm tắt cấu trúc dữ liệu)
# ───────────────────────────────────────────────────────────────
print("\n Hoàn thành! Dữ liệu đã được tổ chức theo cấu trúc: / Done! Data is organized as follows:")

# Provide a short explanation for each data folder
# (Giải thích ngắn gọn để người đọc hiểu từng loại dữ liệu)
print("  - crawl_data: Dữ liệu thô (HTML + metadata) / Raw data (HTML + metadata)")
print("  - news_vnexpress: Dữ liệu đã xử lý (text sạch) / Processed data (clean text only)")


## Thống kê và xuất kết quả
## Statistics & Export Results

Cell cuối cùng này sẽ thực hiện / This final cell will:

1. **Thống kê tổng quan** – Số lượng bài báo theo từng chủ đề  
   **Overview statistics** – Number of articles per topic

2. **Hiển thị mẫu dữ liệu** – Preview nội dung đã crawl được  
   **Show sample data** – Preview the crawled content

3. **Tạo file ZIP** – (Chỉ trên Google Colab) Đóng gói data để download  
   **Create ZIP file** – (Only in Google Colab) Package data for download

4. **Đánh giá kết quả** – Crawl có thành công hay không  
   **Evaluate results** – Check if crawling was successful

---

### Tiêu chí đánh giá thành công
### Success Criteria

- **Số lượng**: Có ít nhất 20-30 bài báo mỗi chủ đề  
  **Quantity**: At least 20-30 articles per topic

- **Chất lượng**: Nội dung có ý nghĩa, không phải HTML rác  
  **Quality**: Meaningful content, not raw HTML

- **Đa dạng**: Các chủ đề khác nhau có nội dung phù hợp  
  **Diversity**: Different topics contain relevant content

---

### File xuất ra
### Output Files

- **vnexpress_crawl_data.zip**: Chứa toàn bộ dữ liệu crawl được  
  **vnexpress_crawl_data.zip**: Contains all crawled data

- **Cấu trúc đầy đủ**: Bao gồm cả raw data và formatted data  
  **Complete structure**: Includes both raw and formatted data

---

>  **Chúc mừng**: Nếu crawl thành công, bạn đã có một dataset tin tức tiếng Việt hoàn chỉnh để sử dụng cho các dự án ML/NLP!  
>  **Congratulations**: If crawling is successful, you now have a complete Vietnamese news dataset ready for ML/NLP projects!


In [None]:
# Print final summary header
# (In tiêu đề phần thống kê cuối cùng)
print(" FINAL CRAWL SUMMARY / THỐNG KÊ KẾT QUẢ CUỐI CÙNG")
print("═" * 50)  # Print a separator line for clarity (In một đường kẻ dài cho rõ ràng)

# Initialize counters for total raw and formatted articles
# (Khởi tạo biến đếm tổng số bài báo thô và bài đã xử lý)
raw_total = 0
formatted_total = 0


# ───────────────────────────────────────────────────────────────
# PART 1: Count raw data (JSON or HTML files stored in crawl_data)
# (PHẦN 1: Đếm dữ liệu thô (JSON hoặc HTML thô lưu trong crawl_data))
# ───────────────────────────────────────────────────────────────
print("\n RAW DATA (JSON) / DỮ LIỆU THÔ (JSON):")

# Loop through all files in the folder containing raw crawled data
# (Duyệt qua tất cả file trong thư mục chứa dữ liệu thô)
for filename in sorted(os.listdir(CRAWL_FOLDER)):
    if filename.endswith('.txt'):
        filepath = os.path.join(CRAWL_FOLDER, filename)
        try:
            with open(filepath, 'r', encoding='utf-8') as f:
                lines = [line.strip() for line in f.readlines() if line.strip()]

            # Print the number of articles (counted by lines)
            # (In ra số lượng bài báo (tính theo số dòng))
            print(f"    {filename}: {len(lines)} articles / {len(lines)} bài báo")

            raw_total += len(lines)
        except:
            print(f"    {filename}: File read error / Lỗi đọc file")

# Print total number of raw articles crawled
# (In tổng số bài báo thô đã crawl được)
print(f"\n TOTAL RAW DATA: {raw_total} articles / Tổng dữ liệu thô: {raw_total} bài báo")


# ───────────────────────────────────────────────────────────────
# PART 2: Count processed data (clean text in news_vnexpress)
# (PHẦN 2: Đếm dữ liệu đã xử lý (text sạch trong news_vnexpress))
# ───────────────────────────────────────────────────────────────
print("\n FORMATTED DATA / DỮ LIỆU ĐÃ ĐỊNH DẠNG:")

for folder_name in sorted(os.listdir(OUTPUT_FOLDER)):
    folder_path = os.path.join(OUTPUT_FOLDER, folder_name)
    if os.path.isdir(folder_path):
        files = [f for f in os.listdir(folder_path) if f.endswith('.txt')]
        print(f"    {folder_name}: {len(files)} files / {len(files)} file")
        formatted_total += len(files)

print(f"\n TOTAL FORMATTED FILES: {formatted_total} / Tổng file đã định dạng: {formatted_total}")


# ───────────────────────────────────────────────────────────────
# PART 3: Final result summary
# (PHẦN 3: Đưa ra kết luận tổng thể)
# ───────────────────────────────────────────────────────────────
if formatted_total > 0:
    print("\n" + "═" * 50)
    print(" CRAWL SUCCESSFUL! / CRAWL THÀNH CÔNG!")
    print("═" * 50)
    print(f" {formatted_total} articles collected / Đã crawl được {formatted_total} bài báo")
    print(" Data saved at: data/news_vnexpress/ / Dữ liệu lưu tại: data/news_vnexpress/")

    # ───────────────────────────────────────────────────────────────
    # PART 4: If running in Google Colab → compress data for download
    # (PHẦN 4: Nếu đang chạy trong Google Colab thì nén dữ liệu thành file zip)
    # ───────────────────────────────────────────────────────────────
    try:
        import google.colab
        IN_COLAB = True
    except:
        IN_COLAB = False

    if IN_COLAB:
        print("\n Creating ZIP file for Google Colab... / Đang tạo file zip cho Google Colab...")
        import zipfile

        zip_filename = 'vnexpress_crawl_data.zip'
        with zipfile.ZipFile(zip_filename, 'w', zipfile.ZIP_DEFLATED) as zipf:
            for root, dirs, files in os.walk('data'):
                for file in files:
                    file_path = os.path.join(root, file)
                    arcname = os.path.relpath(file_path, '.')
                    zipf.write(file_path, arcname)

        print(f" {zip_filename} created / Đã tạo {zip_filename}")

        try:
            from google.colab import files
            files.download(zip_filename)
            print(" Downloading file... / File đang được tải xuống...")
        except:
            print(" Please download manually from Files panel / Vui lòng tải thủ công từ panel Files")

    # ───────────────────────────────────────────────────────────────
    # PART 5: Show one text sample for quick inspection
    # (PHẦN 5: Hiển thị một mẫu dữ liệu text để kiểm tra)
    # ───────────────────────────────────────────────────────────────
    print("\n SAMPLE DATA / MẪU DỮ LIỆU:")
    sample_found = False

    for folder_name in os.listdir(OUTPUT_FOLDER):
        folder_path = os.path.join(OUTPUT_FOLDER, folder_name)
        if os.path.isdir(folder_path):
            files = [f for f in os.listdir(folder_path) if f.endswith('.txt')]
            if files:
                sample_file = os.path.join(folder_path, files[0])
                try:
                    with open(sample_file, 'r', encoding='utf-8') as f:
                        content = f.read()[:300]
                    print(f"\n Topic '{folder_name}' - File '{files[0]}': / Chủ đề '{folder_name}' - File '{files[0]}':")
                    print(f"{content}...")
                    sample_found = True
                    break
                except:
                    continue

    if not sample_found:
        print(" No sample data found / Không tìm thấy mẫu dữ liệu")

# ───────────────────────────────────────────────────────────────
# PART 6: If no data → show failure message
# (PHẦN 6: Nếu không có dữ liệu nào => thông báo thất bại)
# ───────────────────────────────────────────────────────────────
else:
    print("\n" + "═" * 50)
    print(" CRAWL FAILED / CRAWL THẤT BẠI")
    print("═" * 50)
    print(" No data was saved successfully / Không có dữ liệu nào được lưu thành công")
    print(" Suggestions / Gợi ý:")
    print("   - Check internet connection / Kiểm tra kết nối internet")
    print("   - Try again in a few minutes / Thử lại sau vài phút")
    print("   - Recheck Test Step (Step 5) / Kiểm tra lại bước Test (Bước 5)")

# ───────────────────────────────────────────────────────────────
# PART 7: End of program
# (PHẦN 7: Kết thúc chương trình)
# ───────────────────────────────────────────────────────────────
print("\n ALL STEPS COMPLETED! / HOÀN THÀNH TẤT CẢ CÁC BƯỚC!")


## Xử lý lỗi và Troubleshooting
##  Error Handling & Troubleshooting

### Các lỗi thường gặp và cách khắc phục
### Common Errors and Solutions

#### 1. **ConnectionError / TimeoutError**
#### 1. **ConnectionError / TimeoutError**

```
requests.exceptions.ConnectionError: HTTPSConnection pool
```
**Nguyên nhân**: Mạng không ổn định hoặc website đang down  
**Cause**: Unstable network or website downtime  

**Khắc phục / Solution**:  
- Kiểm tra kết nối internet / Check your internet connection  
- Thử lại sau 5-10 phút / Retry after 5-10 minutes  
- Giảm số lượng request đồng thời / Reduce concurrent requests  

#### 2. **HTTP 403 Forbidden**
#### 2. **HTTP 403 Forbidden**

```
HTTP 403 cho https://vnexpress.net/...
```
**Nguyên nhân**: Website chặn bot/crawler  
**Cause**: Website blocks bots/crawlers  

**Khắc phục / Solution**:  
- Tăng delay giữa các request: `time.sleep(3)` / Increase delay between requests  
- Thay đổi User-Agent / Change User-Agent  
- Sử dụng phương pháp cURL backup / Use cURL as backup  

#### 3. **HTTP 429 Too Many Requests**
#### 3. **HTTP 429 Too Many Requests**

```
HTTP 429 cho https://vnexpress.net/...
```
**Nguyên nhân**: Gửi request quá nhanh, bị rate limit  
**Cause**: Requests sent too fast, rate-limited  

**Khắc phục / Solution**:  
- Tăng delay lên 5-10 giây / Increase delay to 5-10 seconds  
- Crawl từng chủ đề một, không crawl song song / Crawl topics sequentially, not in parallel  
- Chờ 30 phút rồi thử lại / Wait 30 minutes then retry  

#### 4. **Không tìm thấy nội dung (None result)**
#### 4. **No content found (None result)**

```
Thất bại: None
```
**Nguyên nhân**: CSS selector không đúng hoặc cấu trúc HTML thay đổi  
**Cause**: Incorrect CSS selector or changed HTML structure  

**Khắc phục / Solution**:  
- Kiểm tra HTML source bằng cách mở URL trên browser / Check HTML source in browser  
- Cập nhật CSS selectors trong code / Update CSS selectors in code  
- Test với ít bài báo trước / Test with a few articles first  

#### 5. **Memory Error / Out of Memory**
#### 5. **Memory Error / Out of Memory**

```
MemoryError: Unable to allocate array
```
**Nguyên nhân**: Crawl quá nhiều dữ liệu cùng lúc  
**Cause**: Crawling too much data at once  

**Khắc phục / Solution**:  
- Giảm số lượng chủ đề / Reduce number of topics  
- Crawl từng batch nhỏ / Crawl in smaller batches  
- Clear memory định kỳ: `import gc; gc.collect()` / Periodically clear memory  

---

### Debug Commands hữu ích
### Useful Debug Commands

```python
# Simple connection test / Test kết nối đơn giản
import requests

# Send a GET request to VnExpress homepage / Gửi yêu cầu GET đến trang chủ VnExpress
response = requests.get('https://vnexpress.net/')

# Print the HTTP response status code / In mã trạng thái HTTP trả về
print(f"Status: {response.status_code}")

# ───────────────────────────────────────────────────────────────
# Check if IP is blocked using curl command / Kiểm tra IP có bị chặn không bằng lệnh curl
# ───────────────────────────────────────────────────────────────
import subprocess

# Run the command: curl -I https://vnexpress.net/ / Chạy lệnh curl -I để chỉ lấy phần header
result = subprocess.run(['curl', '-I', 'https://vnexpress.net/'],
                       capture_output=True,  # Capture output / Lưu kết quả
                       text=True)  # Decode as text / Giải mã thành chữ

# Print the HTTP headers returned by the server / In header trả về
print(result.stdout)
```

###  Checklist khi gặp lỗi:

### Checklist When Facing Errors

1. Kiểm tra mạng: Có truy cập được VNExpress bằng browser không?
Check network: Can you access VNExpress via browser?

2. Kiểm tra code: Có lỗi syntax hoặc typo không?
Check code: Any syntax errors or typos?

3. Kiểm tra delay: Có để delay đủ lớn không? (ít nhất 1-2 giây)
Check delay: Is the delay sufficient (at least 1-2 sec)?

4. Kiểm tra số lượng: Có crawl quá nhiều cùng lúc không?
Check quantity: Are you crawling too many articles at once?

5. Kiểm tra thời gian: Có crawl vào giờ cao điểm không?
Check timing: Are you crawling during peak hours?

###  Tips tối ưu hóa:

- **Crawl vào ban đêm** (0h-6h) thường ít bị chặn hơn / Crawling at night (0h-6h) usually less blocked
- **Bắt đầu với 1 chủ đề** để test trước / Start with 1 topic for testing
- **Lưu progress** thường xuyên để tránh mất dữ liệu / Save progress frequently
- **Monitor resource usage** (CPU, RAM, Network) / Monitor CPU, RAM, and network usage

> **Khi nào cần dừng**: Nếu tỷ lệ thành công < 30% hoặc liên tục gặp HTTP 403/429, hãy dừng và thử lại sau ít nhất 1 giờ.
> **When to stop**: If success rate < 30% or continuous HTTP 403/429, stop and retry after at least 1 hour.

# Kết luận
# Conclusion

## Chúc mừng bạn đã hoàn thành!
## Congratulations on Completing!

Bạn vừa trải qua một hành trình hoàn chỉnh về **Web Crawling** - từ việc hiểu concepts cơ bản đến implement một crawler thực tế có thể thu thập hàng trăm bài báo!  
You have just completed a full journey in **Web Crawling** – from understanding the basic concepts to implementing a real crawler that can collect hundreds of articles!

## Những gì bạn đã học được:
## What You Have Learned:

### Kỹ năng kỹ thuật / Technical Skills
- **Web Scraping với Python / Web Scraping with Python**: Sử dụng requests, BeautifulSoup / Using requests and BeautifulSoup  
- **HTML parsing**: Trích xuất dữ liệu từ cấu trúc HTML phức tạp / Extract data from complex HTML structures  
- **Error handling**: Xử lý các lỗi thường gặp khi crawl / Handle common crawling errors  
- **Data processing**: Làm sạch và tổ chức dữ liệu / Clean and organize data  
- **Anti-detection**: Kỹ thuật tránh bị chặn bởi website / Techniques to avoid being blocked by websites  

### Tư duy lập trình / Programming Mindset
- **Modular design**: Chia nhỏ vấn đề thành các hàm riêng biệt / Break down problems into modular functions  
- **Error resilience**: Xây dựng system có thể recover từ lỗi / Build a system resilient to errors  
- **Progress monitoring**: Theo dõi và báo cáo tiến trình / Monitor and report progress  
- **Data quality**: Đảm bảo chất lượng dữ liệu thu thập được / Ensure quality of collected data  

### Hiểu biết về web / Web Understanding
- **HTTP protocols**: Cách web browser và server giao tiếp / How browsers and servers communicate  
- **Website structure**: Cách phân tích cấu trúc một website / How to analyze website structure  
- **Rate limiting**: Tại sao và cách websites bảo vệ chống crawler / Why websites limit requests and how they protect themselves  
- **Ethical crawling**: Crawl có trách nhiệm và tôn trọng website / Crawl responsibly and ethically  

## Tài nguyên học tập bổ sung / Additional Learning Resources

### Sách nên đọc / Books
- **"Web Scraping with Python"** - Ryan Mitchell  
- **"Python for Data Analysis"** - Wes McKinney  
- **"Natural Language Processing with Python"** - Steven Bird  

### Khóa học online / Online Courses
- **Scrapy Course** trên Udemy / Scrapy Course on Udemy  
- **NLP Specialization** trên Coursera / NLP Specialization on Coursera  
- **Data Science Track** trên DataCamp / Data Science Track on DataCamp  

### Tools và frameworks / Tools & Frameworks
- **Scrapy**: Industrial-strength crawling framework  
- **Selenium**: Crawl dynamic websites  
- **Pandas**: Data manipulation và analysis  
- **NLTK/SpaCy**: Natural Language Processing  

## Câu hỏi / Questions

### Câu hỏi 1: Web Crawling cơ bản / Question 1: Basic Web Crawling
**Câu hỏi / Question**: Trong bài thực hành này, chúng ta sử dụng những thư viện Python nào để thực hiện web crawling? Hãy nêu tên ít nhất 4 thư viện và giải thích vai trò của từng thư viện.  
Which Python libraries were used in this exercise for web crawling? Name at least 4 libraries and explain the role of each.

### Câu hỏi 2: Xử lý lỗi trong Web Crawling / Question 2: Error Handling in Web Crawling
**Câu hỏi / Question**: Khi thực hiện crawl dữ liệu từ VNExpress, có những lỗi nào thường gặp và cách khắc phục như thế nào? Hãy nêu ít nhất 3 loại lỗi và cách xử lý.  
What common errors occur when crawling data from VNExpress and how can they be handled? Name at least 3 errors and their solutions.

### Câu hỏi 3: Quy trình crawl và xử lý dữ liệu / Question 3: Crawling & Data Processing Workflow
**Câu hỏi / Question**: Mô tả quy trình hoàn chỉnh để crawl dữ liệu tin tức từ VNExpress theo hướng dẫn trong bài thực hành này, từ việc lấy links bài báo đến lưu trữ dữ liệu cuối cùng.  
Describe the complete workflow to crawl news data from VNExpress as instructed in this exercise, from collecting article links to storing the final data.

## BTVN / Homework

### Bài tập / Exercise:
Hoàn thiện 01 file `.ipynb` mới sử dụng chromedriver để crawl dữ liệu **title và link** của 10-20 bài báo trên đường link [https://cafef.vn/tai-chinh-quoc-te.chn](https://cafef.vn/tai-chinh-quoc-te.chn).  
Yêu cầu đầu ra là 01 file **excel** bao gồm **title** và **link** của các bài báo (có thể sử dụng cách crawl khác và trang web khác).  

Complete a new `.ipynb` file using Chromedriver to crawl **title and link** of 10-20 articles from [https://cafef.vn/tai-chinh-quoc-te.chn](https://cafef.vn/tai-chinh-quoc-te.chn).  
The output should be an **Excel file** containing **title** and **link** of the articles (you may use other crawling methods or websites).
