In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

def scrape_weather_data(start_year, start_month, end_year, end_month, prec_no, block_no):
    base_url = "https://www.data.jma.go.jp/stats/etrn/view/daily_s1.php"
    data = []

    for year in range(start_year, end_year + 1):
        for month in range(1, 13):
            # 期間外の月はスキップ
            if year == start_year and month < start_month:
                continue
            if year == end_year and month > end_month:
                break

            params = {
                "prec_no": prec_no,
                "block_no": block_no,
                "year": year,
                "month": month,
                "day": "",
                "view": "p1"
            }
            response = requests.get(base_url, params=params)
            soup = BeautifulSoup(response.content, 'html.parser')

            # 天気データを抽出
            for row in soup.find_all('tr', class_='mtx'):
                weather_cells = row.find_all('td', class_='data_0_0')
                for cell in weather_cells:
                    weather = cell.get_text().strip()  # 天気データのテキストを取得
                    # ここで日付や他の関連データと一緒に保存することもできます
                    data.append(weather)  # 抽出したデータをリストに追加

            # サーバーへの負荷を避けるために少し待機
            time.sleep(1)

    # pandas DataFrameに変換
    df = pd.DataFrame(data, columns=['Weather'])
    return df

# スクレイピングの実行
prec_no = 44  # 地点番号
block_no = 47662  # ブロック番号
start_year = 2023
start_month = 8
end_year = 2024
end_month = 1

weather_data = scrape_weather_data(start_year, start_month, end_year, end_month, prec_no, block_no)
print(weather_data)



     Weather
0     1010.6
1     1013.4
2       12.5
3       10.5
4        5.0
...      ...
3675        
3676        
3677        
3678        
3679        

[3680 rows x 1 columns]
