# DATA COLLECTION NOTEBOOK

###  **1. Nguồn thu thập dữ liệu**

#### **1.1 [Fbref](https://fbref.com/en/)**

**FBref** là một trang web chuyên cung cấp dữ liệu và thống kê chi tiết về bóng đá. Đây là một trong những nguồn dữ liệu uy tín nhất dành cho người hâm mộ bóng đá, nhà phân tích dữ liệu, nhà báo thể thao và các nhà nghiên cứu.

Các dữ liệu có thể thu thập được từ trang web này:

| Trường dữ liệu             | Mô tả                             |
|----------------------------|-----------------------------------|
| player_name                | Tên cầu thủ                       |
| age                        | Tuổi                              |
| nationality                | Quốc tịch                         |
| height                     | Chiều cao                         |
| foot                       | Chân thuận                        |
| position                   | Vị trí thi đấu                    |
| current_club               | Câu lạc bộ hiện tại               |
| league                     | Giải đấu                          |
| market_value               | Giá trị chuyển nhượng             |
| appearances                | Số trận thi đấu                   |
| minutes_played             | Tổng phút thi đấu                 |
| minutes_per_game           | Phút thi đấu trung bình/trận      |
| goals                      | Bàn thắng                         |
| assists                    | Kiến tạo                          |
| goals_per_90               | Bàn thắng mỗi 90 phút             |
| assists_per_90             | Kiến tạo mỗi 90 phút              |
| shots                      | Tổng cú sút                       |
| shots_on_target            | Cú sút trúng đích                 |
| xG                         | Expected Goals (bàn thắng kỳ vọng)|
| xAG                        | Expected Assists (kiến tạo kỳ vọng) |
| key_passes                 | Đường chuyền tạo cơ hội           |
| tackles                    | Số pha tắc bóng                   |
| interceptions              | Số lần cắt bóng                   |
| clearances                 | Phá bóng                          |
| aerial_wins                | Thắng tranh chấp trên không       |
| aerial_win_rate            | Tỷ lệ thắng không chiến           |
| clean_sheets               | Giữ sạch lưới                     |
| saves                      | Cứu thua                           |
| save_percentage            | Tỷ lệ cứu thua                     |
| goals_conceded             | Bàn thua                           |
| goals_conceded_per_90      | Bàn thua mỗi 90 phút               |
| psxg_minus_ga              | PSxG − GA (hiệu suất thủ môn)     |
| passes_completed           | Đường chuyền chính xác            |
| pass_accuracy              | Tỷ lệ chính xác chuyền bóng       |
| progressive_passes         | Đường chuyền tiến tuyến           |


#### **1.2. [Transfermart](https://www.transfermarkt.co.uk/)**

**Transfermarkt** là trang web chuyên cung cấp thông tin về bóng đá, nổi bật với dữ liệu về giá trị chuyển nhượng cầu thủ, hồ sơ cầu thủ, thành tích đội bóng, bảng xếp hạng giải đấu và thống kê thi đấu cơ bản. Trang web được sử dụng rộng rãi để tham khảo giá trị thị trường cầu thủ, so sánh cầu thủ, và phân tích dữ liệu bóng đá.

Các dữ liệu có thể thu thập được từ trang web này:

| Trường dữ liệu             | Mô tả                             |
|----------------------------|-----------------------------------|
| market_value               | Giá trị chuyển nhượng cầu thủ     |
| height                     | Chiều cao (nếu thiếu dữ liệu từ Fbref)                             |

### **2. Mã nguồn (Source code)**

##### **Cài đặt các thư viện**

In [1]:
%pip install -r requirements.txt





[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


#### **Import các thư viện**

In [2]:
from utils.imports import *

### **2.1 Thiết lập các tham số**

Khởi tạo Logger

In [3]:
logging.basicConfig(
    level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s"
)

In [4]:

HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Language": "en-US,en;q=0.5",
    "Accept-Encoding": "gzip, deflate, br",
    "Connection": "keep-alive",
    "Upgrade-Insecure-Requests": "1",
}


Đây là **header HTTP mặc định** được dùng khi gửi request tới các trang web (FBref, Transfermarkt) để giả lập trình duyệt thật, tránh bị chặn.  
Các trường quan trọng:

- `User-Agent`: Giả lập trình duyệt Chrome trên Windows.
- `Accept`: Các định dạng dữ liệu chấp nhận từ server.
- `Accept-Language`: Ngôn ngữ ưu tiên.
- `Accept-Encoding`: Chấp nhận dữ liệu nén gzip, br.
- `Connection`: Giữ kết nối TCP mở.
- `Upgrade-Insecure-Requests`: Yêu cầu nâng cấp HTTP → HTTPS nếu có.

In [None]:
BASE_SCHEMA = {
    "player_id": None,
    "player_name": None,
    "age": None,
    "nationality": None,
    "height": None,
    "foot": None,
    "position": None,
    "current_club": None,
    "league": None,
    "market_value": None,

    "appearances": 0,
    "minutes_played": 0,
    "minutes_per_game": 0,

    "goals": 0,
    "assists": 0,
    "goals_per_90": None,
    "assists_per_90": None,

    "shots": 0,
    "shots_on_target": 0,
    "xG": None,
    "xAG": None,

    "key_passes": 0,
    "tackles": 0,
    "interceptions": 0,
    "clearances": 0,
    "aerial_wins": 0,
    "aerial_win_rate": None,

    "clean_sheets": 0,
    "saves": 0,
    "save_percentage": None,
    "goals_conceded": 0,
    "goals_conceded_per_90": None,
    "psxg_minus_ga": None,

    "passes_completed": 0,
    "pass_accuracy": None,
    "progressive_passes": 0,
}

Đây là cấu trúc dữ liệu chuẩn cho mỗi cầu thủ mà crawler sẽ lưu.

Dùng để đảm bảo tất cả cầu thủ đều có cùng trường dữ liệu.

Bao gồm thông tin cá nhân, thống kê thi đấu, các chỉ số per-90, thống kê phòng ngự, thủ môn, passing, và giá trị thị trường.

Các nhóm dữ liệu chính:

- Thông tin cơ bản: `player_id`, `player_name`, `age`, `nationality`, `height`, `foot`, `position`, `current_club`, `league`, `market_value`.

- Thống kê thi đấu tổng quát: `appearances`, `minutes_played`, `minutes_per_game`, `goals`, `assists`, `goals_per_90`, `assists_per_90`, `shots`, `shots_on_target`, `xG`, `xAG`, `key_passes`.

- Thống kê phòng ngự: `tackles`, `interceptions`, `clearances`, `aerial_wins`, `aerial_win_rate`.

- Thống kê thủ môn: `clean_sheets`, `saves`, `save_percentage`, `goals_conceded`, `goals_conceded_per_90`, `psxg_minus_ga`.

- Thống kê passing: `passes_completed`, `pass_accuracy`, `progressive_passes`.

In [6]:
SEASON = "2024-2025"

LEAGUE_CONFIG = {
    "La Liga": f"https://fbref.com/en/comps/12/{SEASON}/{SEASON}-La-Liga-Stats",
    "Premier League": f"https://fbref.com/en/comps/9/{SEASON}/{SEASON}-Premier-League-Stats",
    "Serie A": f"https://fbref.com/en/comps/11/{SEASON}/{SEASON}-Serie-A-Stats",
    "Bundesliga": f"https://fbref.com/en/comps/20/{SEASON}/{SEASON}-Bundesliga-Stats",
    "Ligue 1": f"https://fbref.com/en/comps/13/{SEASON}/{SEASON}-Ligue-1-Stats",
    "Eredivisie": f"https://fbref.com/en/comps/23/{SEASON}/{SEASON}-Eredivisie-Stats",
    "Primeira Liga": f"https://fbref.com/en/comps/32/{SEASON}/{SEASON}-Primeira-Liga-Stats",
    "J1 League": "https://fbref.com/en/comps/25/J1-League-Stats",
    "MLS": "https://fbref.com/en/comps/22/Major-League-Soccer-Stats",
    "Belgian Pro League": f"https://fbref.com/en/comps/37/{SEASON}/{SEASON}-Belgian-Pro-League-Stats",
    "Süper Lig": f"https://fbref.com/en/comps/26/{SEASON}/{SEASON}-Super-Lig-Stats",
    "Scottish Premiership": f"https://fbref.com/en/comps/40/{SEASON}/{SEASON}-Scottish-Premiership-Stats",
    "Argentine Liga": f"https://fbref.com/en/comps/21/Liga-Profesional-Argentina-Stats",
    "Liga MX": f"https://fbref.com/en/comps/31/{SEASON}/{SEASON}-Liga-MX-Stats",
    "Eliteserien": f"https://fbref.com/en/comps/28/2024/2024-Eliteserien-Stats",
    "Serbian SuperLiga": f"https://fbref.com/en/comps/54/{SEASON}/{SEASON}-Serbian-SuperLiga-Stats",
    "Russian Premier League": f"https://fbref.com/en/comps/30/{SEASON}/{SEASON}-Russian-Premier-League-Stats",
    "Hrvatska NL": f"https://fbref.com/en/comps/63/{SEASON}/{SEASON}-Hrvatska-NL-Stats",
    "Czech First League": f"https://fbref.com/en/comps/66/{SEASON}/{SEASON}-Czech-First-League-Stats",
    "Chinese Super League": f"https://fbref.com/en/comps/62/Chinese-Super-League-Stats",
}

`SEASON`: mùa giải muốn lấy dữ liệu (2024-2025).

`LEAGUE_CONFIG`: URL mặc định cho từng giải đấu lớn trên FBref.

Mỗi key là tên giải, value là URL thống kê của mùa giải đó.

Sử dụng f-string để tự động cập nhật mùa giải.

In [7]:
TRANSFERMARKT_PLAYER_SEACH_URL = "https://www.transfermarkt.com/schnellsuche/ergebnis/schnellsuche?query={player_name}"
MAX_THREADS = 1
MIN_DELAY = 1.5
MAX_DELAY = 3.0
DATA_FOLDER = "data"
CSV_FOLDER = f"{DATA_FOLDER}/csv"
JSON_FOLDER = f"{DATA_FOLDER}/json"
HEADLESS = True

Cấu hình delay và folder lưu dữ liệu

`DELAY_BETWEEN_REQUESTS`, `DELAY_BETWEEN_PLAYERS`: tránh bị server block bằng cách chèn delay.

`TRANSFERMARKT_PLAYER_SEACH_URL`: URL tìm kiếm nhanh cầu thủ trên Transfermarkt.

`MAX_THREADS`: số luồng crawl đồng thời.

`MIN_DELAY` / `MAX_DELAY`: delay ngẫu nhiên giữa các request.

`DATA_FOLDER`, `CSV_FOLDER`, `JSON_FOLDER`: thư mục lưu trữ dữ liệu.

`HEADLESS`: chạy Chrome ở chế độ headless (không hiện GUI).

### **2.2 Hàm hỗ trợ**

Hàm `get_random_delay`

In [8]:
def random_delay(a: float = MIN_DELAY, b: float = MAX_DELAY) -> None:
    """
    Pause execution for a random amount of time between `a` and `b` seconds.

    This is useful to mimic human-like behavior in scripts and avoid
    triggering rate limits when making repeated requests to APIs or websites.

    Args:
        a (float): Minimum number of seconds to sleep. Defaults to MIN_DELAY.
        b (float): Maximum number of seconds to sleep. Defaults to MAX_DELAY.
    """
    time.sleep(random.uniform(a, b))

Hàm `generate_player_id`: tạo ID duy nhất cho cầu thủ

In [9]:
def generate_player_id(player_name: str, dob: Optional[str] = None, nationality: Optional[str] = None) -> str:
    name = unicodedata.normalize("NFKD", player_name)
    name = name.encode("ascii", "ignore").decode("ascii")
    name = re.sub(r"[^\w\s-]", "", name.lower())
    name = re.sub(r"[-\s]+", "-", name).strip("-")
    hash_input = f"{player_name}:{dob or ''}:{nationality or ''}"
    hash_suffix = hashlib.md5(hash_input.encode("utf-8")).hexdigest()[:6]
    return f"{name}-{hash_suffix}"

Hàm `clean_number`: chuẩn hóa số liệu từ text

In [10]:
def clean_number(val, allow_float: bool = True):
    """
    Convert string or number to numeric value, handling commas, %, empty strings.

    Args:
        val: Input value to convert
        allow_float (bool): Whether to allow float conversion

    Returns:
        int or float: Converted numeric value, defaults to 0 on failure
    """
    if val is None:
        return 0
    try:
        s = str(val).strip().replace(",", "").replace("%", "")
        if s == "":
            return 0
        if allow_float and (
            "." in s or s.replace(".", "", 1).replace("-", "", 1).isdigit()
        ):
            return float(s)
        return int(float(s))
    except Exception:
        return 0

Hàm `find_table_in_comments` tìm bảng ẩn trong comment HTML

In [11]:
def find_table_in_comments(
    soup: BeautifulSoup, needle: Optional[str] = None, id_contains: Optional[str] = None
):
    """
    Find a table that is hidden inside HTML comments.

    Args:
        soup (BeautifulSoup): Parsed HTML page
        needle (Optional[str]): Text to match in comment
        id_contains (Optional[str]): Substring to match in table id

    Returns:
        Tag or None: The first matching table element
    """
    comments = soup.find_all(string=lambda text: isinstance(text, Comment))
    for c in comments:
        if needle and needle not in c:
            continue
        try:
            s2 = BeautifulSoup(c, "html.parser")
            t = (
                s2.find("table", id=lambda x: x and id_contains in x)
                if id_contains
                else s2.find("table")
            )
            if t:
                return t
        except Exception:
            continue
    return None

Hàm `parse_market_value` chuyển giá trị market value từ string dạng '700k', '3.8m' thành float (triệu euro)

In [12]:
def parse_market_value(value_str: str) -> float | None:
    """
    Chuyển giá trị market value từ string dạng '700k', '3.8m' thành float (triệu euro)
    """
    if not value_str:
        return None
    value_str = value_str.lower().replace("€", "").strip()
    try:
        if value_str.endswith("k"):
            return float(value_str[:-1].replace(",", ".")) / 1000
        elif value_str.endswith("m"):
            return float(value_str[:-1].replace(",", "."))
        else:
            # Nếu là số nguyên không có k/m, giả sử là euro, chuyển sang triệu
            return float(value_str.replace(",", ".")) / 1_000_000
    except:
        return None

Hàm `save_to_csv` lưu tất cả dữ liệu cầu thủ đã thu thập vào file CSV.

In [13]:
def save_to_csv(self, filename: str) -> None:
        """Save all scraped players to CSV"""
        if not self.players:
            logging.warning("No players to save")
            return

        with open(filename, "w", newline="", encoding="utf-8") as f:
            writer = csv.DictWriter(f, fieldnames=list(BASE_SCHEMA.keys()))
            writer.writeheader()

            for player in self.players:
                row = {k: player.get(k, BASE_SCHEMA[k]) for k in BASE_SCHEMA.keys()}
                writer.writerow(row)

        logging.info(f"Saved {len(self.players)} players to {filename}")

Hàm `combine_csv`: gộp tất cả các file CSV trong một thư mục thành một file CSV duy nhất

In [14]:
def combine_csv(folder_path: str, output_path: str):
    """
    Combine all CSV files in a specified folder into a single CSV file.

    Args:
        folder_path (str): Path to the folder containing the CSV files.
        output_path (str): Path to the output CSV file.
    """
    csv_files = glob.glob(os.path.join(folder_path, "*.csv"))

    if not csv_files:
        print("Cannot find any CSV files in the specified folder.")
        return

    df_list = [pd.read_csv(file) for file in csv_files]

    # Combine all DataFrames into a single DataFrame
    merged_df = pd.concat(df_list, ignore_index=True)

    # Save merged DataFrame to a new CSV file
    merged_df.to_csv(output_path, index=False)

    print(f"Successfully merged {len(csv_files)} files into: {output_path}.")

### **2.3 Hàm thu thập dữ liệu (Scraping)**

Hàm `get_market_value`: lấy **giá trị thị trường của cầu thủ** từ *Transfermarkt*.

In [15]:
def get_market_value(player_name: str) -> float | None:
    """
    Fetch the market value of a player from Transfermarkt and return as float (million €).

    Args:
        player_name (str): Full name of the player.

    Returns:
        float | None: Market value in million €, or None if not found.
    """
    url = TRANSFERMARKT_PLAYER_SEACH_URL.format(player_name=player_name)
    logging.info(f"Fetching market value for {player_name}: {url}")

    resp = requests.get(url, headers=HEADERS)
    random_delay()
    if resp.status_code != 200:
        logging.warning(f"Failed to load page for {player_name}")
        return None

    soup = BeautifulSoup(resp.text, "html.parser")
    table = soup.find("table", class_="items")
    if not table:
        logging.warning(f"No search results table found for {player_name}")
        return None

    for row in table.tbody.find_all("tr"):
        mv_tag = row.find("td", class_="rechts hauptlink")
        if mv_tag:
            market_value_str = mv_tag.get_text(strip=True).replace("€", "").strip()
            return parse_market_value(market_value_str)

    logging.warning(f"Player {player_name} not found")
    return None

Hàm `get_profile_url` dùng **Selenium WebDriver** để **lấy URL hồ sơ cầu thủ trên Transfermarkt**.


In [16]:
def get_profile_url(driver, player_name: str) -> str | None:
    """
    Get the Transfermarkt profile URL of a player using a Selenium driver.

    Args:
        driver: Selenium WebDriver instance.
        player_name (str): Full name of the player.

    Returns:
        str | None: Player profile URL, or None if not found.
    """
    search_url = TRANSFERMARKT_PLAYER_SEACH_URL.format(player_name=player_name)
    driver.get(search_url)
    random_delay(2, 4)

    try:
        td = driver.find_element(By.CSS_SELECTOR, "td.hauptlink a")
        href = td.get_attribute("href")
        logging.info(f"{player_name}: URL found: {href}")
        return href
    except Exception as e:
        logging.warning(f"{player_name}: URL not found: {e}")
        return None

Hàm `get_height` dùng để **lấy chiều cao của cầu thủ** từ trang hồ sơ *Transfermark* để phòng trường hợp *Fbref* không có thông tin này.


In [17]:
def get_height(player_url: str, player_name: str) -> int | None:
    """
    Fetch the height of a player from their Transfermarkt profile.

    Args:
        player_url (str): URL of the player's Transfermarkt profile.
        player_name (str): Full name of the player.

    Returns:
        int | None: Height in centimeters, or None if not found.
    """
    try:
        resp = requests.get(player_url, headers=HEADERS, timeout=10)
        random_delay()
        if resp.status_code != 200:
            logging.warning(
                f"{player_name} -> Failed to load profile page ({resp.status_code})"
            )
            return None

        soup = BeautifulSoup(resp.text, "html.parser")
        details_div = soup.find("div", class_="data-header__details")
        if not details_div:
            logging.warning(f"{player_name} -> Details div not found")
            return None

        # Look for the <li> containing "Height" and extract the value
        for li in details_div.find_all("li"):
            if "Height" in li.get_text():
                span = li.find("span", itemprop="height")
                if span:
                    height_text = span.get_text(strip=True)
                    match = re.search(r"([\d,]+)\s*m", height_text)
                    if match:
                        height_m = match.group(1).replace(",", ".")
                        height_cm = int(float(height_m) * 100)
                        logging.info(f"{player_name}: Height: {height_cm} cm")
                        return height_cm

        logging.warning(f"{player_name}: Height not found")
        return None

    except Exception as e:
        logging.error(f"{player_name}: Error fetching height: {e}")
        return None

Định nghĩa lớp FootballPlayerCrawler
- Đây là lớp chính để crawl dữ liệu cầu thủ
- Bao gồm: mở trình duyệt, truy cập trang, scrape cầu thủ, tính toán thống kê, lưu CSV/JSON

In [18]:
class FootballPlayerCrawler:
    def __init__(self, headless: bool = True, user_agent: Optional[str] = None):
        chrome_options = Options()
        if headless:
            chrome_options.add_argument("--headless=new")
        chrome_options.add_argument("--disable-gpu")
        chrome_options.add_argument("--window-size=1920,1080")
        chrome_options.add_argument("--disable-blink-features=AutomationControlled")
        chrome_options.add_argument("--no-sandbox")
        chrome_options.add_argument("--disable-dev-shm-usage")
        ua = user_agent or "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
        chrome_options.add_argument(f"user-agent={ua}")

        # Bỏ ChromeDriverManager, để Selenium tự quản lý
        self.driver = webdriver.Chrome(options=chrome_options)
        self.players: List[Dict] = []
        self.seen_ids: Set[str] = set()

    def close(self):
        try:
            self.driver.quit()
        except:
            pass

    def __enter__(self):
        return self

    def __exit__(self, exc_type, exc_val, exc_tb): 
        self.close()

Hàm lấy trang và parse **BeautifulSoup**


In [19]:
def get_page_soup(self, url: str, wait: float = 1.5) -> Optional[BeautifulSoup]:
        logging.info(f"GET {url}")
        try:
            self.driver.get(url)
        except Exception as e:
            logging.warning(f"Failed to load {url}: {e}")
            return None
        random_delay(wait, wait + 1.0)
        return BeautifulSoup(self.driver.page_source, "html.parser")

FootballPlayerCrawler.get_page_soup = get_page_soup

Hàm lấy danh sách câu lạc bộ trong giải đấu

In [20]:
def get_league_clubs(self, league_url: str) -> List[Dict[str, str]]:
    soup = self.get_page_soup(league_url)
    if not soup:
        return []

    table = soup.find("table", class_="stats_table")
    if not table:
        table = find_table_in_comments(soup, needle="standings")

    clubs = []
    if table:
        tbody = table.find("tbody")
        if tbody:
            for row in tbody.find_all("tr"):
                team_cell = row.find("td", {"data-stat": "team"})
                if team_cell:
                    a = team_cell.find("a")
                    if a and a.get("href"):
                        clubs.append({"club_name": a.get_text(strip=True),
                                        "club_url": "https://fbref.com" + a["href"]})
    logging.info(f"Found {len(clubs)} clubs")
    return clubs

FootballPlayerCrawler.get_league_clubs = get_league_clubs

 Hàm lấy danh sách cầu thủ của câu lạc bộ

In [21]:
def get_club_players(self, club_url: str) -> List[Dict]:
    soup = self.get_page_soup(club_url)
    if not soup:
        return []

    table = soup.find("table", id=lambda v: v and v.startswith("stats_standard"))
    if not table:
        table = find_table_in_comments(soup, needle="stats_standard")

    players = []
    if table:
        tbody = table.find("tbody")
        if tbody:
            for row in tbody.find_all("tr"):
                if row.get("class") and "thead" in row.get("class"):
                    continue
                th = row.find("th", {"data-stat": "player"})
                if not th:
                    continue
                a = th.find("a")
                if not a or not a.get("href"):
                    continue
                def get_stat(col, allow_float=True):
                    td = row.find("td", {"data-stat": col})
                    return clean_number(td.text if td else None, allow_float=allow_float)
                players.append({
                    "player_name": a.get_text(strip=True),
                    "player_url": "https://fbref.com" + a["href"],
                    "appearances": get_stat("games", allow_float=False),
                    "minutes_played": get_stat("minutes", allow_float=False),
                    "goals": get_stat("goals", allow_float=False),
                    "assists": get_stat("assists", allow_float=False),
                    "xG": get_stat("xg"),
                    "xAG": get_stat("xg_assist"),
                })
    logging.info(f"Found {len(players)} players")
    return players

FootballPlayerCrawler.get_club_players = get_club_players


Hàm dùng để **thu thập đầy đủ dữ liệu cầu thủ** từ trang FBref, bao gồm thông tin cơ bản, thống kê thi đấu, phòng ngự, passing, thủ môn và giá trị thị trường.

1. Lấy **HTML soup** từ URL cầu thủ.  
2. Khởi tạo dictionary `stats` theo `BASE_SCHEMA`.  
3. Lấy các thông tin cơ bản:
   - `player_name`: tên cầu thủ.
   - `nationality`: quốc tịch.
   - `age`: tuổi tính từ ngày sinh.
   - `player_id`: ID duy nhất được sinh tự động.
   - `height`: chiều cao (cm), có fallback dùng Selenium nếu không tìm thấy trong trang.  
   - `position` & `foot`: vị trí và chân thuận.
4. Gọi các hàm `_parse_*_stats` để lấy thống kê:
   - `_parse_standard_stats`: thống kê tổng quát (games, minutes, goals…).  
   - `_parse_defensive_stats`: thống kê phòng ngự (tackles, interceptions…).  
   - `_parse_passing_stats`: thống kê chuyền bóng (passes_completed, pass_accuracy…).  
   - `_parse_goalkeeper_stats`: thống kê thủ môn (saves, clean_sheets…).  
   - `_calculate_derived_fields`: tính các trường dẫn xuất như `goals_per_90`.  
5. Lấy giá trị thị trường cầu thủ từ Transfermarkt bằng `get_market_value`.  
6. Trả về dictionary `stats` hoàn chỉnh.

In [22]:
def scrape_full_players_data(
    self,
    player_url: str,
    league_name: Optional[str] = None,
    club_name: Optional[str] = None,
) -> Optional[Dict]:
    """
    Scrape complete player profile with all statistics
    """
    soup = self.get_page_soup(player_url)
    if not soup:
        return None

    stats = dict(BASE_SCHEMA)
    stats["league"] = league_name or ""
    stats["current_club"] = club_name or ""

    # Get HTML main container
    info_div = soup.find("div", id="info")
    if not info_div:
        return stats

    # --- Player name ---
    h1 = info_div.find("h1")
    if h1:
        stats["player_name"] = h1.get_text(strip=True)

    # --- Nationality ---
    nat_link = info_div.find("a", href=lambda x: x and "/country/" in x)
    if nat_link:
        stats["nationality"] = nat_link.get_text(strip=True)

    # --- Date of birth & age ---
    dob = None
    birth_span = info_div.find("span", id="necro-birth")
    if birth_span and birth_span.get("data-birth"):
        dob = birth_span["data-birth"]
        try:
            dt = datetime.strptime(dob, "%Y-%m-%d")
            today = datetime.today()
            stats["age"] = (
                today.year
                - dt.year
                - ((today.month, today.day) < (dt.month, dt.day))
            )
        except:
            pass

    # --- Generate unique player ID ---
    player_id = generate_player_id(
        stats.get("player_name"), dob=dob, nationality=stats.get("nationality")
    )
    counter = 1
    base_id = player_id
    while player_id in self.seen_ids:
        player_id = f"{base_id}-{counter}"
        counter += 1
    self.seen_ids.add(player_id)
    stats["player_id"] = player_id

    # --- Height ---
    height_span = info_div.find("span", string=lambda s: s and s.endswith("cm"))
    if height_span:
        try:
            stats["height"] = float(
                height_span.get_text(strip=True).replace("cm", "").strip()
            )
        except:
            stats["height"] = None
    else:

        if stats.get("player_name") and stats.get("current_club"):
            try:
                profile_url = get_profile_url(self.driver, stats["player_name"])
                if profile_url:
                    height_cm = get_height(profile_url, stats["player_name"])
                    stats["height"] = height_cm
                else:
                    stats["height"] = None
            except Exception as e:
                logging.warning(
                    f"{stats['player_name']}: Cannot get height from fallback: {e}"
                )
                stats["height"] = None

    # --- Position & Footed ---
    info_text = info_div.get_text(" ", strip=True).replace("\xa0", " ")

    m_pos = re.search(r"Position:\s*([A-Za-z0-9\-]+)", info_text)
    m_foot = re.search(r"Footed:\s*([A-Za-z]+)", info_text)

    if m_pos:
        stats["position"] = m_pos.group(1).strip()
    if m_foot:
        stats["foot"] = m_foot.group(1).strip()

    # --- Parse stats tables ---
    self._parse_standard_stats(soup, stats)
    self._parse_defensive_stats(soup, stats)
    self._parse_passing_stats(soup, stats)
    self._parse_goalkeeper_stats(soup, stats)
    self._calculate_derived_fields(stats)

    # --- Market value ---
    try:
        stats["market_value"] = get_market_value(player_name=stats["player_name"])
    except Exception as e:
        logging.warning(
            f"Can not get market value for {stats.get('player_name')}: {e}"
        )
        stats["market_value"] = None

    return stats

FootballPlayerCrawler.scrape_full_players_data = scrape_full_players_data

Các hàm `_parse_*_stats`

`_parse_standard_stats`
- Parse bảng thống kê tổng quát của cầu thủ.
- Lấy các thông số như: `appearances`, `minutes_played`, `goals`, `assists`, `shots`, `shots_on_target`, `xG`, `xAG`, `passes_completed`.

In [23]:
def _parse_standard_stats(self, soup: BeautifulSoup, stats: Dict) -> None:
        """Parse standard statistics table"""
        std_table = soup.find(
            "table", id=lambda x: x and x.startswith("stats_standard")
        )
        if not std_table:
            std_table = find_table_in_comments(soup, needle="stats_standard")

        if std_table:
            tbody = std_table.find("tbody")
            if tbody:
                agg = {}
                mapping = {
                    "games": "appearances",
                    "minutes": "minutes_played",
                    "goals": "goals",
                    "assists": "assists",
                    "shots": "shots",
                    "shots_on_target": "shots_on_target",
                    "xg": "xG",
                    "xg_assist": "xAG",
                    "passes_completed": "passes_completed",
                }

                for row in tbody.find_all("tr"):
                    if row.get("class") and "thead" in row.get("class"):
                        continue

                    for td in row.find_all("td"):
                        dstat = td.get("data-stat")
                        if dstat in mapping:
                            key = mapping[dstat]
                            is_int = key in [
                                "appearances",
                                "minutes_played",
                                "goals",
                                "assists",
                                "shots",
                                "shots_on_target",
                                "passes_completed",
                            ]
                            val = clean_number(
                                td.get_text(strip=True), allow_float=not is_int
                            )
                            agg[key] = agg.get(key, 0) + val

                for k, v in agg.items():
                    stats[k] = v

FootballPlayerCrawler._parse_standard_stats = _parse_standard_stats

`_parse_defensive_stats`
- Parse bảng phòng ngự.
- Lấy các thông số: `tackles`, `interceptions`, `clearances`, `aerial_wins`, `aerial_win_rate`.

In [None]:
def _parse_defensive_stats(self, soup: BeautifulSoup, stats: Dict) -> None:
        """Parse defensive statistics table"""
        def_table = soup.find("table", id=lambda x: x and "defense" in x)
        if not def_table:
            def_table = find_table_in_comments(soup, needle="Defense")

        if def_table:
            tbody = def_table.find("tbody")
            if tbody:
                for row in tbody.find_all("tr"):
                    if row.get("class") and "thead" in row.get("class"):
                        continue

                    def get_stat(dstat, allow_float=False):
                        td = row.find("td", {"data-stat": dstat})
                        return clean_number(
                            td.get_text(strip=True) if td else None,
                            allow_float=allow_float,
                        )

                    if val := get_stat("tackles"):
                        stats["tackles"] = val
                    if val := get_stat("interceptions"):
                        print(f"Pedri: ")
                        stats["interceptions"] = val
                    if val := get_stat("clearances"):
                        stats["clearances"] = val
                    if val := get_stat("aerials_won"):
                        stats["aerial_wins"] = val
                    if val := get_stat("aerials_won_pct", allow_float=True):
                        stats["aerial_win_rate"] = val

FootballPlayerCrawler._parse_defensive_stats = _parse_defensive_stats

`_parse_passing_stats`
- Parse bảng chuyền bóng.
- Lấy các thông số: `passes_completed`, `pass_accuracy`, `progressive_passes`, `key_passes`.

In [25]:
def _parse_passing_stats(self, soup: BeautifulSoup, stats: Dict) -> None:
    """Parse passing statistics table"""
    pass_table = soup.find("table", id=lambda x: x and "passing" in x)
    if not pass_table:
        pass_table = find_table_in_comments(soup, needle="Passes")

    if pass_table:
        tbody = pass_table.find("tbody")
        if tbody:
            for row in tbody.find_all("tr"):
                if row.get("class") and "thead" in row.get("class"):
                    continue

                def get_stat(dstat, allow_float=False):
                    td = row.find("td", {"data-stat": dstat})
                    return clean_number(
                        td.get_text(strip=True) if td else None,
                        allow_float=allow_float,
                    )

                if val := get_stat("passes_completed"):
                    stats["passes_completed"] = val
                if val := get_stat("passes_pct", allow_float=True):
                    stats["pass_accuracy"] = val
                if val := get_stat("progressive_passes"):
                    stats["progressive_passes"] = val
                if val := get_stat("passes_into_final_third"):
                    stats["key_passes"] = val

FootballPlayerCrawler._parse_passing_stats = _parse_passing_stats

`_parse_goalkeeper_stats`
- Parse bảng thủ môn.
- Lấy các thông số: `saves`, `save_percentage`, `goals_conceded`, `clean_sheets`, `psxg_minus_ga`.

In [26]:
def _parse_goalkeeper_stats(self, soup: BeautifulSoup, stats: Dict) -> None:
        """Parse goalkeeper statistics table"""
        gk_table = soup.find("table", id=lambda x: x and "keeper" in x)
        if not gk_table:
            gk_table = find_table_in_comments(soup, needle="Goalkeeping")

        if gk_table:
            tbody = gk_table.find("tbody")
            if tbody:
                for row in tbody.find_all("tr"):
                    if row.get("class") and "thead" in row.get("class"):
                        continue

                    def get_stat(dstat, allow_float=False):
                        td = row.find("td", {"data-stat": dstat})
                        return clean_number(
                            td.get_text(strip=True) if td else None,
                            allow_float=allow_float,
                        )

                    if val := get_stat("gk_saves"):
                        stats["saves"] = val
                    if val := get_stat("gk_save_pct", allow_float=True):
                        stats["save_percentage"] = val
                    if val := get_stat("gk_goals_against"):
                        stats["goals_conceded"] = val
                    if val := get_stat("gk_clean_sheets"):
                        stats["clean_sheets"] = val
                    if val := get_stat("gk_psxg_gk", allow_float=True):
                        stats["psxg_minus_ga"] = val

FootballPlayerCrawler._parse_goalkeeper_stats = _parse_goalkeeper_stats

`_calculate_derived_fields`

Tính các chỉ số dẫn xuất:
- `minutes_per_game` = `minutes_played` / `appearances`
- `goals_per_90`, `assists_per_90` = chuẩn hóa trên 90 phút
- `goals_conceded_per_90` = chuẩn hóa cho thủ môn

In [27]:
def _calculate_derived_fields(self, stats: Dict) -> None:
        """Calculate per-90 and other derived statistics"""
        if stats["minutes_played"] and stats["appearances"]:
            stats["minutes_per_game"] = round(
                stats["minutes_played"] / max(1, stats["appearances"]), 1
            )

        if stats["minutes_played"] > 0:
            mins_90 = stats["minutes_played"] / 90
            stats["goals_per_90"] = round(stats["goals"] / mins_90, 2)
            stats["assists_per_90"] = round(stats["assists"] / mins_90, 2)

            if stats["goals_conceded"]:
                stats["goals_conceded_per_90"] = round(
                    stats["goals_conceded"] / mins_90, 2
                )

FootballPlayerCrawler._calculate_derived_fields = _calculate_derived_fields

Hàm `scrape_league`

- Thu thập cầu thủ theo giải đấu **và lưu ngay vào CSV/JSON**.  
- Mở file CSV & JSON, ghi header, sau đó duyệt qua các CLB và cầu thủ.  
- Merge các thống kê cơ bản từ CLB.  
- Ghi dữ liệu ra CSV và JSON từng cầu thủ, flush dữ liệu sau mỗi lần ghi.  

In [28]:
def scrape_league(
        self,
        league_name: str,
        league_url: str,
        csv_file=None,
        json_file=None,
    ) -> None:
        """
        Scrape all players in a league and save immediately to CSV/JSON
        """

        if csv_file is None:
            csv_file = f"{league_name.replace(' ', '_').lower()}_players.csv"
        if json_file is None:
            json_file = f"{league_name.replace(' ', '_').lower()}_players.json"

        logging.info(f"Starting league: {league_name}")
        logging.info(f"CSV file:  {csv_file}")
        logging.info(f"JSON file: {json_file}")

        clubs = self.get_league_clubs(league_url)

        # Open CSV & JSON once
        csv_f = open(csv_file, "w", newline="", encoding="utf-8")
        csv_writer = csv.DictWriter(csv_f, fieldnames=list(BASE_SCHEMA.keys()))
        csv_writer.writeheader()

        json_f = open(json_file, "w", encoding="utf-8")
        json_f.write("[\n")
        first = True

        try:
            for club in clubs:
                logging.info(f"Scraping club: {club['club_name']}")
                club_players = self.get_club_players(club["club_url"])

                for p in club_players:
                    try:
                        full = self.scrape_full_players_data(
                            p["player_url"], league_name, club["club_name"]
                        )
                        if not full:
                            continue

                        # Merge basic stats
                        for stat in [
                            "appearances",
                            "minutes_played",
                            "goals",
                            "assists",
                            "xG",
                            "xAG",
                        ]:
                            full[stat] = p.get(stat) or full.get(stat, 0)

                        self._calculate_derived_fields(full)

                        # Write CSV
                        csv_writer.writerow(
                            {k: full.get(k, BASE_SCHEMA[k]) for k in BASE_SCHEMA.keys()}
                        )
                        csv_f.flush()

                        # Write JSON
                        if not first:
                            json_f.write(",\n")
                        else:
                            first = False

                        json.dump(
                            {
                                k: full.get(k, BASE_SCHEMA[k])
                                for k in BASE_SCHEMA.keys()
                            },
                            json_f,
                            ensure_ascii=False,
                            indent=2,
                        )
                        json_f.flush()

                        logging.info(
                            f"✓ {full['player_name']} (ID: {full['player_id']})"
                        )

                    except Exception as e:
                        logging.exception(
                            f"✗ Error scraping {p.get('player_name')}: {e}"
                        )

        finally:
            csv_f.close()
            json_f.write("\n]")
            json_f.close()

        logging.info(f"League {league_name} complete.")


FootballPlayerCrawler.scrape_league = scrape_league


### **2.4 Thực thi code để thu thập dữ liệu (Scraping)**

Hàm này dùng để **thu thập dữ liệu tất cả cầu thủ trong một giải đấu**.

In [29]:
def scrape_one_league(args):
    league_name, league_url = args
    crawler = FootballPlayerCrawler(headless=HEADLESS)

    os.makedirs(CSV_FOLDER, exist_ok=True)
    os.makedirs(JSON_FOLDER, exist_ok=True)

    csv_file = os.path.join(CSV_FOLDER, f"{league_name.replace(' ', '_')}.csv")
    json_file = os.path.join(JSON_FOLDER, f"{league_name.replace(' ', '_')}.json")

    crawler.scrape_league(
        league_name, league_url, csv_file=csv_file, json_file=json_file
    )

    crawler.close()
    return league_name

Thực hiện craping cầu thủ

In [30]:
for league_name, league_url in LEAGUE_CONFIG.items():
    scrape_one_league((league_name, league_url))

2025-11-29 17:27:02,156 [INFO] Starting league: La Liga
2025-11-29 17:27:02,156 [INFO] CSV file:  data/csv\La_Liga.csv
2025-11-29 17:27:02,157 [INFO] JSON file: data/json\La_Liga.json
2025-11-29 17:27:02,157 [INFO] GET https://fbref.com/en/comps/12/2024-2025/2024-2025-La-Liga-Stats
2025-11-29 17:27:09,924 [INFO] Found 20 clubs
2025-11-29 17:27:09,927 [INFO] Scraping club: Barcelona
2025-11-29 17:27:09,927 [INFO] GET https://fbref.com/en/squads/206d90db/2024-2025/Barcelona-Stats
2025-11-29 17:27:13,722 [INFO] Found 39 players
2025-11-29 17:27:13,722 [INFO] GET https://fbref.com/en/players/0d9b2d31/Pedri
2025-11-29 17:27:17,127 [INFO] Fetching market value for Pedri: https://www.transfermarkt.com/schnellsuche/ergebnis/schnellsuche?query=Pedri
2025-11-29 17:27:19,660 [INFO] ✓ Pedri (ID: pedri-d01084)
2025-11-29 17:27:19,661 [INFO] GET https://fbref.com/en/players/3423f250/Raphinha
2025-11-29 17:27:23,797 [INFO] Fetching market value for Raphinha: https://www.transfermarkt.com/schnellsuche

KeyboardInterrupt: 