In [None]:
! pip install requests beautifulsoup4




In [None]:
import requests
from bs4 import BeautifulSoup

# Lấy nội dung trang web
def fetch_webpage(url):
    try:
        response = requests.get(url)
        response.raise_for_status()
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"Error fetching the webpage: {e}")
        return None

# Phân tích trang web và tạo dãy bit (1 cho thẻ, 0 cho không phải thẻ)
def parse_webpage(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')

    # Tạo dãy các 1 và 0 cho mỗi token (1 cho thẻ, 0 cho không phải thẻ)
    tokens = []

    for element in soup.descendants:
        if isinstance(element, str):  # Nếu là chuỗi (không phải thẻ)
            tokens.append(0)
        elif hasattr(element, 'name'):  # Nếu là thẻ
            tokens.append(1)

    return tokens

# Triển khai thuật toán tìm i và j tối đa hóa tổng
def find_optimal_indices(tokens):
    N = len(tokens)

    max_sum = -1
    best_i, best_j = -1, -1

    for i in range(N):
        for j in range(i, N):
            sum1 = sum(tokens[:i])
            sum2 = sum([1 - tokens[k] for k in range(i, j + 1)])
            sum3 = sum(tokens[j + 1:])
            total_sum = sum1 + sum2 + sum3

            if total_sum > max_sum:
                max_sum = total_sum
                best_i, best_j = i, j

    return best_i, best_j, max_sum

# Hàm chính để chạy việc thu thập và thuật toán
def crawler_thread(url):
    print(f"Fetching webpage from: {url}")
    html_content = fetch_webpage(url)

    if html_content:
        print("\n[INFO] Page fetched successfully.")

        tokens = parse_webpage(html_content)

        # In ra các token (bit) đã phân tích
        print("\n[INFO] Tokens (bit representation):")
        print(tokens)

        best_i, best_j, max_sum = find_optimal_indices(tokens)

        # In ra kết quả tối ưu (i, j, sum)
        print(f"\n[INFO] Optimal i: {best_i}, j: {best_j}, with maximum sum: {max_sum}")
    else:
        print("[ERROR] Failed to fetch or parse the webpage.")

# Ví dụ sử dụng
url = 'https://edition.cnn.com/'  # Thay bằng URL bạn muốn thu thập
crawler_thread(url)


Fetching webpage from: https://edition.cnn.com/

[INFO] Page fetched successfully.

[INFO] Tokens (bit representation):
[0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 