In [2]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
from time import sleep
from random import randint
from io import StringIO

### 爬取日本國土交通省氣象廳的氣象資料
### 以下連結為"2024"年"1"月"東京"的氣象作為例子
#### https://www.data.jma.go.jp/stats/etrn/view/daily_s1.php?prec_no=44&block_no=47662&year=2024&month=1&day=&view=

In [4]:
# 目標網址（資料顯示頁）
base_url = "https://www.data.jma.go.jp/stats/etrn/view/daily_s1.php"
# 查詢參數範本（地點：東京）
params = {
    "prec_no": "44",       # 東京的都道府縣編號
    "block_no": "47662",   # 東京的氣象站編號
    "year": "",            # 年份（後面填）
    "month": "",           # 月份（後面填）
    "day": "",             # 留空代表整月
    "view": ""             # 預設檢視
}

# 建立空的 DataFrame 儲存所有資料
all_data = None
column_names = None

# 迴圈跑每年、每月
for year in range(1961, 2025):  # 1961 到 2024（含）
    for month in range(1, 13):  # 每年 1 到 12 月
        print(f"📦 抓取 {year} 年 {month} 月...")
        params["year"] = str(year)
        params["month"] = str(month)
        try:
            # 發送 GET 請求
            response = requests.get(base_url, params=params)
            if response.status_code != 200:
                print(f"❌ 無法取得 {year}/{month} 的資料，HTTP 錯誤碼：{response.status_code}")
                continue
                
            # 用 BeautifulSoup 解析 HTML
            soup = BeautifulSoup(response.content, "html.parser")
            table = soup.find("table", class_="data2_s")
            
            if table:
                # 用 StringIO 避免警告
                df = pd.read_html(StringIO(str(table)), header=0)[0]
                
                # 如果是第一次讀取，保存column名稱
                if all_data is None:
                    column_names = df.columns
                    all_data = df.copy()
                else:
                    # 使用第一次獲取的column名稱
                    df.columns = column_names
                    # 去除可能的標題行 (如果標題行變成了數據)
                    df = df[~df.iloc[:, 0].astype(str).str.contains("日")]
                    all_data = pd.concat([all_data, df], ignore_index=True)
                
                # 加上年份與月份欄位
                all_data.loc[all_data.shape[0]-df.shape[0]:, "年"] = year
                all_data.loc[all_data.shape[0]-df.shape[0]:, "月"] = month
                
            else:
                print(f"⚠️ 找不到表格：{year} 年 {month} 月")
                
            # 隨機休息 1~3 秒，避免被封鎖
            sleep(randint(1, 3))
            
        except Exception as e:
            print(f"⚠️ 錯誤：{year}/{month} 發生異常：{e}")
            continue

# 儲存成 CSV（可改成 Excel）
all_data.to_csv("tokyo_weather_from_1961_to_2024.csv", index=False, encoding="utf-8-sig")
print("✅ 所有資料已完成下載！儲存為 tokyo_weather_from_1961_to_2024.csv")

📦 抓取 1961 年 1 月...
📦 抓取 1961 年 2 月...
📦 抓取 1961 年 3 月...
📦 抓取 1961 年 4 月...
📦 抓取 1961 年 5 月...
📦 抓取 1961 年 6 月...
📦 抓取 1961 年 7 月...
📦 抓取 1961 年 8 月...
📦 抓取 1961 年 9 月...
📦 抓取 1961 年 10 月...
📦 抓取 1961 年 11 月...
📦 抓取 1961 年 12 月...
📦 抓取 1962 年 1 月...
📦 抓取 1962 年 2 月...
📦 抓取 1962 年 3 月...
📦 抓取 1962 年 4 月...
📦 抓取 1962 年 5 月...
📦 抓取 1962 年 6 月...
📦 抓取 1962 年 7 月...
📦 抓取 1962 年 8 月...
📦 抓取 1962 年 9 月...
📦 抓取 1962 年 10 月...
📦 抓取 1962 年 11 月...
📦 抓取 1962 年 12 月...
📦 抓取 1963 年 1 月...
📦 抓取 1963 年 2 月...
📦 抓取 1963 年 3 月...
📦 抓取 1963 年 4 月...
📦 抓取 1963 年 5 月...
📦 抓取 1963 年 6 月...
📦 抓取 1963 年 7 月...
📦 抓取 1963 年 8 月...
📦 抓取 1963 年 9 月...
📦 抓取 1963 年 10 月...
📦 抓取 1963 年 11 月...
📦 抓取 1963 年 12 月...
📦 抓取 1964 年 1 月...
📦 抓取 1964 年 2 月...
📦 抓取 1964 年 3 月...
📦 抓取 1964 年 4 月...
📦 抓取 1964 年 5 月...
📦 抓取 1964 年 6 月...
📦 抓取 1964 年 7 月...
📦 抓取 1964 年 8 月...
📦 抓取 1964 年 9 月...
📦 抓取 1964 年 10 月...
📦 抓取 1964 年 11 月...
📦 抓取 1964 年 12 月...
📦 抓取 1965 年 1 月...
📦 抓取 1965 年 2 月...
📦 抓取 1965 年 3 月...
📦 抓取 1965 年 4 月...
