In [8]:
# ==================================================
# VNFootballGraph - Thu thập dữ liệu Wikipedia
# ==================================================
import json
import wikipediaapi
import mwparserfromhell
import pandas as pd
import os
from tqdm import tqdm
from datetime import datetime
from IPython.display import Markdown, display

# ---------------------------------------------
# 1️⃣ Đọc danh sách category từ file JSON
# ---------------------------------------------
with open("data/categories.json", encoding="utf-8") as f:
    cat_data = json.load(f)

# Gộp tất cả nhóm category lại thành 1 list chung
categories = (
    cat_data["players"] +
    cat_data["female_players"] +
    cat_data["coaches"] +
    cat_data["clubs"] +
    cat_data["national_teams"] +
    cat_data["overseas"]
)

display(Markdown(f"### 📘 Tổng số category cần thu thập: {len(categories)}"))
for name, lst in cat_data.items():
    display(Markdown(f"- **{name}**: {len(lst)} mục"))

print("🧩 Ví dụ vài category đầu tiên:", categories[:8])


### 📘 Tổng số category cần thu thập: 34

- **players**: 19 mục

- **female_players**: 2 mục

- **coaches**: 3 mục

- **clubs**: 3 mục

- **national_teams**: 4 mục

- **overseas**: 3 mục

🧩 Ví dụ vài category đầu tiên: ['Cầu thủ bóng đá Việt Nam', 'Cầu thủ bóng đá nam Việt Nam', 'Cầu thủ bóng đá Việt Nam ở nước ngoài', 'Cầu thủ bóng đá sinh năm 1990', 'Cầu thủ bóng đá sinh năm 1991', 'Cầu thủ bóng đá sinh năm 1992', 'Cầu thủ bóng đá sinh năm 1993', 'Cầu thủ bóng đá sinh năm 1994']


In [10]:

# ---------------------------------------------
# 2️⃣ Khởi tạo Wikipedia API và hàm hỗ trợ
# ---------------------------------------------
wiki = wikipediaapi.Wikipedia(
    language='vi',
    user_agent='VNFootballGraph/1.2 (contact: longha6104@gmail.com)'
)

def get_pages_from_category(cat_name, max_depth=2):
    """Lấy toàn bộ bài viết từ một category (và các subcategory nếu có)"""
    cat_page = wiki.page("Thể loại:" + cat_name)
    pages = []
    def crawl(category, level):
        if level > max_depth:
            return
        for c in category.categorymembers.values():
            if c.ns == 0:  # bài viết
                pages.append(c)
            elif c.ns == 14:  # thể loại con
                crawl(c, level + 1)
    crawl(cat_page, 0)
    return pages

def extract_infobox_and_text(text):
    """Tách Infobox (dict) và phần text (giới hạn 4000 ký tự)"""
    try:
        wikicode = mwparserfromhell.parse(text)
        info = {}
        for t in wikicode.filter_templates():
            if "infobox" in t.name.lower() or "hộp thông tin" in t.name.lower():
                for p in t.params:
                    key = str(p.name).lower().strip()
                    val = str(p.value).strip()
                    info[key] = val
        return info, wikicode.strip_code().strip()[:4000]
    except Exception:
        return {}, ""

def get_internal_links(page):
    """Trả về danh sách liên kết nội bộ (internal links)"""
    return [l for l in page.links.keys() if not l.startswith("Thể loại")]



In [None]:
# ---------------------------------------------
# 3️⃣ Bắt đầu thu thập dữ liệu
# ---------------------------------------------
os.makedirs("data", exist_ok=True)
all_data = []
scraped_titles = []
stats = []

start_time = datetime.now()
display(Markdown(f"### 🚀 Bắt đầu thu thập dữ liệu: {start_time.strftime('%H:%M:%S')}"))

for cat in categories:
    print(f"\n==> Đang thu thập thể loại: {cat}")
    pages = get_pages_from_category(cat, max_depth=2)
    print(f"   🧩 Tìm thấy {len(pages)} bài viết.")

    valid_count = 0
    for p in tqdm(pages):
        if p.ns == 0:
            info, text = extract_infobox_and_text(p.text)
            links = get_internal_links(p)
            if info or links:
                all_data.append({
                    "title": p.title,
                    "category": cat,
                    "url": f"https://vi.wikipedia.org/wiki/{p.title.replace(' ', '_')}",
                    "infobox_data": info,
                    "text": text,
                    "links": links
                })
                scraped_titles.append(p.title)
                valid_count += 1
    stats.append((cat, len(pages), valid_count))


### 🚀 Bắt đầu thu thập dữ liệu: 11:12:26


==> Đang thu thập thể loại: Cầu thủ bóng đá Việt Nam
   🧩 Tìm thấy 1482 bài viết.


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1482/1482 [21:48<00:00,  1.13it/s]



==> Đang thu thập thể loại: Cầu thủ bóng đá nam Việt Nam
   🧩 Tìm thấy 517 bài viết.


  5%|██████▍                                                                                                                    | 27/517 [00:22<07:48,  1.05it/s]