<a href="https://colab.research.google.com/github/dodor3030/303030/blob/main/HW02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HW02 Web Clawler

## 題目

2025美國職棒MLB數據分析

## 摘要

本報告旨在透過網路爬蟲技術，收集美國職棒MLB網站上2025例行賽的相關資料，為球迷提供參考。

## 引言

近幾年棒球運動逐漸走向科學、數據化，球迷們不只喜歡觀賞精彩刺激的比賽，同時也喜歡談論球員們的數據表現，的網站中有著球員們生涯的所有比賽紀錄，本次爬蟲的目標是獲取
美國職棒MLB網站上2025例行賽打擊率前十名的相關資料，並附上其隊伍、上壘率、長打率、整體攻擊指數等資訊，位球迷提供更好的觀賽品質。

## 方法

- 目標網站描述
  - 目標網站:美國職棒MLB網站
    https://www.mlb.com/stats/batting-average
  - 頁面結構:包含球員隊伍、上壘率、長打率、整體攻擊指數等資訊

- 工具與技術
  - 使用 Python 的 `requests` 庫發送 HTTP 請求。
  - 使用 `BeautifulSoup` 解析 HTML。



In [3]:
!pip install requests beautifulsoup4 --upgrade
import requests
from bs4 import BeautifulSoup
url = "https://www.mlb.com/stats/batting-average"  # MLB Stats 網址
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# 找到包含球員數據的表格
table = soup.find("table", {"class": "bui-table"})


# 提取前 10 名球員的數據
top_10_players = []
for row in table.find_all("tr")[1:11]:  # 迭代表格中的每一列，跳過標題列
    columns = row.find_all("td")
    # Check if row has enough columns before accessing elements
    team = columns[0].text.strip()   # 球員姓名
    avg = columns[-4].text.strip()  # 打擊率
    obp = columns[-3].text.strip()  # 上壘率
    slg = columns[-2].text.strip()  # 長打率
    ops = columns[-1].text.strip()  # 整體攻擊指數
    top_10_players.append([team, avg, obp, slg, ops])

# 印出前 10 名球員的數據
print("2024 年 MLB 打擊率前 10 名球員：")
for player in top_10_players:
    print(f"{player[0]}: 打擊率 {player[1]}, 上壘率 {player[2]}, 長打率 {player[3]}, 整體攻擊指數 {player[4]}")

2024 年 MLB 打擊率前 10 名球員：
NYY: 打擊率 .412, 上壘率 .497, 長打率 .782, 整體攻擊指數 1.279
LAD: 打擊率 .362, 上壘率 .430, 長打率 .698, 整體攻擊指數 1.128
ATH: 打擊率 .354, 上壘率 .380, 長打率 .500, 整體攻擊指數 .880
NYY: 打擊率 .346, 上壘率 .395, 長打率 .506, 整體攻擊指數 .901
SD: 打擊率 .340, 上壘率 .410, 長打率 .490, 整體攻擊指數 .900
TB: 打擊率 .339, 上壘率 .430, 長打率 .562, 整體攻擊指數 .992
CLE: 打擊率 .325, 上壘率 .384, 長打率 .450, 整體攻擊指數 .834
LAD: 打擊率 .324, 上壘率 .435, 長打率 .477, 整體攻擊指數 .912
LAD: 打擊率 .315, 上壘率 .333, 長打率 .600, 整體攻擊指數 .933
HOU: 打擊率 .315, 上壘率 .365, 長打率 .475, 整體攻擊指數 .840


## 結果

- 數據存儲方式
 - 將數據存儲為CSV格式，方便後續分析


In [4]:
import csv
with open("mlb_top10_batting_2024.csv", "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerow(["球員名稱", "打擊率", "上壘率", "長打率", "OPS"])  # 標題列
        writer.writerows(top_10_players)

## 問題與挑戰

- 技術挑戰
 - 不知道為甚麼無法取得球員名字

- 資料限制
 - 原本想收集中華職棒球員資訊，但中職官網有預防爬蟲，因此無法取得資料


## 結論

- 成功獲取並分析了MLB美國職棒目前打擊率前十名的球員分屬的隊伍、上壘率、長打率、整體攻擊指數等資訊
- 希望未來能成功分析更多職棒聯盟，進行跨聯盟的分析比較，讓看職棒更多樂趣



## 參考文獻

* [MLB美國職棒](https://www.mlb.com/)