In [4]:
#第3回課題#

In [5]:
!pip install pandas requests html5lib lxml

Collecting html5lib
  Downloading html5lib-1.1-py2.py3-none-any.whl.metadata (16 kB)
Collecting lxml
  Downloading lxml-6.0.0-cp311-cp311-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl.metadata (6.6 kB)
Downloading html5lib-1.1-py2.py3-none-any.whl (112 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m112.2/112.2 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading lxml-6.0.0-cp311-cp311-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl (5.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.0/5.0 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: lxml, html5lib
Successfully installed html5lib-1.1 lxml-6.0.0


In [6]:
import pandas as pd
import time
import requests

# --- 設定 ---
# 取得する年を設定 (2015年から2024年まで)
YEARS = range(2015, 2025) 
PROGRAM_NAME = 'NHK紅白歌合戦'

# --- 関数定義 ---
def get_kouhaku_performers(year):
    """指定された年の紅白歌合戦の出演者リストを取得する関数"""
    
    # 紅白の「回数」を計算 (第1回が1951年)
    kai = year - 1951 + 1
    
    # WikipediaのURLを構築
    url = f"https://ja.wikipedia.org/wiki/第{kai}回NHK紅白歌合戦"
    
    print(f"{year}年 (第{kai}回) のデータを取得中... URL: {url}")
    
    try:
        # User-Agentを設定してアクセス
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers)
        response.raise_for_status() # エラーがあれば例外を発生させる

        # pd.read_htmlでページ内の全テーブルをリストとして取得
        tables = pd.read_html(response.text)
        
        # 出演者情報が含まれるテーブルを探す
        # '歌手名' または '歌手' というカラムを持つテーブルを本命とする
        performers_df = None
        for table in tables:
            # カラム名に '歌手名' or '歌手' が含まれるかチェック
            if '歌手名' in table.columns or '歌手' in table.columns:
                # 必要なカラムが存在するかをさらにチェック
                if '出場順' in table.columns and ('回数' in table.columns or '初' in table.columns):
                    performers_df = table
                    break
        
        if performers_df is None:
            print(f"  [警告] {year}年の出演者テーブルが見つかりませんでした。ページの構造が違う可能性があります。")
            return None

        # 必要なカラムを抽出・整形
        # カラム名が '歌手' の場合、'歌手名' に統一する
        if '歌手' in performers_df.columns and '歌手名' not in performers_df.columns:
            performers_df = performers_df.rename(columns={'歌手': '歌手名'})
        
        # '歌手名' カラムの値を整形 (例: 'X JAPAN (2)' のような表記から 'X JAPAN' を抽出)
        # 正規表現で歌手名本体を抽出
        performers_df['artist'] = performers_df['歌手名'].str.extract(r'([^(]+)').str.strip()

        # 年と番組名のカラムを追加
        performers_df['year'] = year
        performers_df['program'] = PROGRAM_NAME
        
        print(f"  -> 成功: {len(performers_df)} 件のデータを取得")
        
        # 最終的に必要なカラムだけを選択
        return performers_df[['year', 'program', 'artist']]

    except requests.exceptions.HTTPError as e:
        print(f"  [エラー] {year}年のページが見つかりません。URL: {url} (HTTP Error: {e.response.status_code})")
        return None
    except Exception as e:
        print(f"  [エラー] 予期せぬエラーが発生しました: {e}")
        return None


# --- メイン処理 ---
if __name__ == '__main__':
    # 各年のデータを格納するリスト
    all_data_list = []

    for year in YEARS:
        # 各年からデータを取得
        df = get_kouhaku_performers(year)
        
        # === 修正箇所 ===
        # 'df is not in None' から 'df is not None' へ修正
        if df is not None:
            all_data_list.append(df)
        
        # サーバーに負荷をかけないよう、1秒待機
        time.sleep(1)

    # 全てのデータフレームを結合
    if all_data_list:
        final_df = pd.concat(all_data_list, ignore_index=True)
        
        # CSVファイルとして保存
        output_filename = 'kouhaku_performers_2015-2024.csv'
        final_df.to_csv(output_filename, index=False)
        
        print("\n処理が完了しました。")
        print(f"ファイル '{output_filename}' が作成されました。")
        print("--- データサンプル ---")
        print(final_df.head())
        print("--------------------")
        print(final_df.tail())
    else:
        print("\n有効なデータを1件も取得できませんでした。")

SyntaxError: invalid syntax (2638525228.py, line 81)