In [None]:

# 特定のURLから水位データを取得し、それをCSVファイルに保存し、後にデータを再加工して最終的に一つのファイルにまとめる


import pandas as pd
import numpy as np

# 指定した年と月の範囲でURLからデータを取得し、CSVに保存する
for y in range(18, 20):  # 2018年から2019年まで
    for m in range(1, 13):  # 1月から12月まで
        # 荒川　大芦橋の水位データのURL
        url = f'http://www1.river.go.jp/cgi-bin/DspWaterData.exe?KIND=2&ID=303041283308040&BGNDATE=20{y:02d}{m:02d}01&ENDDATE=20{y:02d}{m:02d}31&KAWABOU=NO'
        df = pd.read_html(url)  # URLからデータを読み込む
        
        # 不要な行や列の削除
        df = pd.DataFrame(np.concatenate(df)).drop(index=[0, 1]).drop(columns=[0]).iloc[:-1]
        
        # CSVファイルに保存
        df.to_csv(f'river_20{y:02d}{m:02d}.csv', index=False)

# 取得したデータの再加工
for y in range(18, 20):  # 2018年から2019年まで
    for m in range(1, 13):  # 1月から12月まで
        # CSVファイルからデータを読み込む
        df = pd.read_csv(f'river_20{y:02d}{m:02d}.csv').iloc[:, 1:]
        
        # データを一次元化して再保存
        df = pd.DataFrame(df.values.flatten())
        df.to_csv(f'river_20{y:02d}{m:02d}.csv', index=False)

# 全てのデータを一つのDataFrameに統合
df = pd.DataFrame()
for y in range(18, 20):  # 2018年から2019年まで
    for m in range(1, 13):  # 1月から12月まで
        # CSVからデータを読み込み、指定した列のみを抽出
        df1 = pd.read_csv(f'river_20{y:02d}{m:02d}.csv').iloc[:, [0]]
        df = pd.concat([df, df1], axis=0)  # データを結合

# 最終的なデータをCSVファイルに保存
df.to_csv("river.csv", index=False)
