In [None]:
import requests
from bs4 import BeautifulSoup
import csv
import time
import chardet

# ループの範囲設定
start = 23  # 開始選挙回
end = 49    # 終了選挙回

# 全データを格納するリスト
all_data = []

# ベースURL
base_url = "https://kokkai.sugawarataku.net/giin/"

# URLをループで処理
for i in range(start, end + 1):
    # URLの作成 (rl023, rl024, ..., rl049 の形式)
    url_suffix = f"rl{i:03d}.html"
    url = base_url + url_suffix
    
    # リクエストを送信
    response = requests.get(url, verify=False)

    # chardetでエンコーディングを検出
    encoding = chardet.detect(response.content)['encoding']
    print(f"{url} の検出されたエンコーディング: {encoding}")

    # 検出されたエンコーディングでデコード
    response.encoding = encoding

    # BeautifulSoupでHTMLを解析
    soup = BeautifulSoup(response.text, 'html.parser')

    # 議員データを格納するリスト
    giin_data = []

    # URLからrl番号を取得し、これをyearとして使用
    year = url_suffix.replace('.html', '')

    # 議員データを探す
    giin_list = soup.find_all("div", class_="zt11")

    for giin in giin_list:
        kana = giin.find("span", class_="zt4").get_text().strip()
        kanji = giin.find("span", class_="zt5").get_text().strip()
        party = giin.find("div", class_="cc2").get_text().strip()
        election_area = giin.find("div", class_="cc4").get_text().strip()
        
        # giin_idは<a>タグのhref属性から取得し、.htmlを削除
        giin_id_tag = giin.find("span", class_="zt5").find("a")
        giin_id = giin_id_tag['href'].replace('.html', '') if giin_id_tag else 'N/A'
        
        # 1人分のデータをリストに追加
        giin_data.append([year, giin_id, kanji, kana, party, election_area])
        all_data.append([year, giin_id, kanji, kana, party, election_area])

    # 各選挙回ごとにCSVファイルに保存（utf-8 BOMエンコーディング）
    csv_filename = f'Shugiin_data_{year}.csv'
    with open(csv_filename, 'w', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['year', 'giin_id', 'kanji', 'kana', 'party', 'election_area'])
        writer.writerows(giin_data)
    
    print(f"{csv_filename} にデータが保存されました。")

    # 3秒間のスリープ
    time.sleep(3)

# 全データを1つのファイルに保存（utf-8 BOMエンコーディング）
all_csv_filename = 'Shugiin_data_ALL.csv'
with open(all_csv_filename, 'w', newline='', encoding='utf-8-sig') as all_csvfile:
    writer = csv.writer(all_csvfile)
    writer.writerow(['year', 'giin_id', 'kanji', 'kana', 'party', 'election_area'])
    writer.writerows(all_data)

print(f"全データが {all_csv_filename} に保存されました。")




https://kokkai.sugawarataku.net/giin/rl023.html の検出されたエンコーディング: CP932
Shugiin_data_rl023.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl024.html の検出されたエンコーディング: SHIFT_JIS
Shugiin_data_rl024.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl025.html の検出されたエンコーディング: CP932
Shugiin_data_rl025.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl026.html の検出されたエンコーディング: CP932
Shugiin_data_rl026.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl027.html の検出されたエンコーディング: CP932
Shugiin_data_rl027.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl028.html の検出されたエンコーディング: CP932
Shugiin_data_rl028.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl029.html の検出されたエンコーディング: SHIFT_JIS
Shugiin_data_rl029.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl030.html の検出されたエンコーディング: SHIFT_JIS
Shugiin_data_rl030.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl031.html の検出されたエンコーディング: SHIFT_JIS
Shugiin_data_rl031.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl032.html の検出されたエンコーディング: SHIFT_JIS
Shugiin_data_rl032.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl033.html の検出されたエンコーディング: SHIFT_JIS
Shugiin_data_rl033.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl034.html の検出されたエンコーディング: SHIFT_JIS
Shugiin_data_rl034.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl035.html の検出されたエンコーディング: CP932
Shugiin_data_rl035.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl036.html の検出されたエンコーディング: CP932
Shugiin_data_rl036.csv にデータが保存されました。




https://kokkai.sugawarataku.net/giin/rl037.html の検出されたエンコーディング: CP932
Shugiin_data_rl037.csv にデータが保存されました。


