In [1]:
import pandas as pd
from IPython.display import display

# ファイル名
FILE_PIT = 'stats_pit.csv'
FILE_INFO = 'play_info.csv'

# 文字化け対策と
ENCODING = 'cp932' 

df_pit = None
df_info = None

try:
    # stats_pit.csv の読み込み
    df_pit = pd.read_csv(FILE_PIT, encoding=ENCODING)
    print(f"{FILE_PIT} をエンコーディング '{ENCODING}' で読み込みました (件数: {len(df_pit)})")
    
    # play_info.csv の読み込み
    df_info = pd.read_csv(FILE_INFO, encoding=ENCODING)
    print(f"{FILE_INFO} をエンコーディング '{ENCODING}' で読み込みました (件数: {len(df_info)})")

except FileNotFoundError:
    print("エラー: CSVファイルが見つかりません。ファイルパスを確認してください。")
    raise
except UnicodeDecodeError:
    print(f"エラー: エンコーディング '{ENCODING}' でも文字化けが発生しました。")
    raise

# 読み込み成功後の確認
if df_pit is not None and df_info is not None:
    print("\n読み込み成功！文字化けが解消されたか確認してください。")
    
    # stats_pit.csv の確認
    print("\n[stats_pit.csv (df_pit) の確認]")
    if 'player_name' in df_pit.columns:
        print(df_pit[['player_name']].head())
    else:
        display(df_pit.head()) # 'player_name' がなければ全体を表示
        
    # play_info.csv の確認 
    print("\n[play_info.csv (df_info) の確認]")
    if 'pitcher_name' in df_info.columns and 'pitch_type_name' in df_info.columns:
        print(df_info[['pitcher_name', 'pitch_type_name']].head())
    else:
        display(df_info.head()) # 列がなければ全体を表示

stats_pit.csv をエンコーディング 'cp932' で読み込みました (件数: 1749)


  df_info = pd.read_csv(FILE_INFO, encoding=ENCODING)


play_info.csv をエンコーディング 'cp932' で読み込みました (件数: 254361)

読み込み成功！文字化けが解消されたか確認してください。

[stats_pit.csv (df_pit) の確認]
  player_name
0        大竹　寛
1        山口　俊
2       野上　亮磨
3       今村　信貴
4       高木　京介

[play_info.csv (df_info) の確認]
  pitcher_name pitch_type_name
0        戸郷　翔征           ストレート
1        戸郷　翔征           スライダー
2        戸郷　翔征           ストレート
3        戸郷　翔征           スライダー
4        戸郷　翔征           ストレート


In [2]:
import pandas as pd
from IPython.display import display

# ファイル名
FILE_INFO = 'play_info.csv'
OUTPUT_INFO = 'play_info_dataset.csv'
# 読み込みはCP932
ENCODING_READ = 'cp932' 
# 書き出しはUTF-8(BOM付き)
ENCODING_WRITE = 'utf-8-sig' 

# df_dataset_info 読み込み
try:
    df_info = pd.read_csv(FILE_INFO, encoding=ENCODING_READ)
    
    # 既存の df_dataset_info を再作成するコード
    target_pitcher_names = ['戸郷　翔征', '村上　頌樹', '颯', '大野　雄大', '栗林　良吏', '石川　雅規', '伊藤　大海', '鈴木　翔天', '平良　海馬', '横山　陸人', '山岡　泰輔', '大津　亮介']  
    target_year = 2025
    YEAR_COLUMN = 'game_year'
    
    df_filtered = df_info.copy()
    if target_pitcher_names and 'pitcher_name' in df_filtered.columns:
        df_filtered = df_filtered[df_filtered['pitcher_name'].isin(target_pitcher_names)].copy()
    
    if YEAR_COLUMN in df_filtered.columns:
        df_filtered = df_filtered[df_filtered[YEAR_COLUMN] == target_year].copy()
    
    selected_columns = [
        'game_id', 'game_year', 'pitcher_id', 'pitcher_name', 'pitcher_handedness', 
        'batter_id', 'batter_name', 'batter_handedness', 'inning', 
        'pre_ball', 'pre_strike', 'pre_out', 'is_risp', 'pitch_type_name', 
        'pitch_speed', 'pitch_location_x', 'pitch_location_y', 
        'is_swinging_strike', 'is_called_strike'
    ]
    existing_columns = [col for col in selected_columns if col in df_filtered.columns]
    df_dataset_info = df_filtered[existing_columns]


    # ファイル保存（書き出し時のみ 'utf-8-sig' を使用）
    df_dataset_info.to_csv(OUTPUT_INFO, index=False, encoding=ENCODING_WRITE) 
    print(f"\n分析用データセット `{OUTPUT_INFO}` をファイルとして保存しました。")
    print("ENCODING='utf-8-sig' を使用して保存したため、Excelなどで文字化けが解消されているか確認してください。")

except Exception as e:
    print(f"\nファイル保存中にエラーが発生しました。詳細: {e}")
    raise

  df_info = pd.read_csv(FILE_INFO, encoding=ENCODING_READ)



分析用データセット `play_info_dataset.csv` をファイルとして保存しました。
ENCODING='utf-8-sig' を使用して保存したため、Excelなどで文字化けが解消されているか確認してください。


In [3]:
import pandas as pd
from IPython.display import display

# ファイル名
FILE_PIT = 'stats_pit.csv'
OUTPUT_PIT = 'stats_pit_dataset.csv'
# 読み込みは(cp932)
ENCODING_READ = 'cp932' 
# 書き出しはBOM付きUTF-8(utf-8-sig)
ENCODING_WRITE = 'utf-8-sig' 

# 絞り込み
target_pitcher_names = ['戸郷　翔征', '村上　頌樹', '颯', '大野　雄大', '栗林　良吏', '石川　雅規', '伊藤　大海', '鈴木　翔天', '平良　海馬', '横山　陸人', '山岡　泰輔', '大津　亮介']
target_year = 2025
NAME_COLUMN = 'player_name'    # 投手名の列名
YEAR_COLUMN = 'season_year'  # 年次の列名

try:
    # ファイルの読み込み
    df_pit = pd.read_csv(FILE_PIT, encoding=ENCODING_READ)
    print(f"{FILE_PIT} をエンコーディング '{ENCODING_READ}' で読み込みました (件数: {len(df_pit)})")
    
except Exception as e:
    print(f"エラー: {FILE_PIT} の読み込みに失敗しました。詳細: {e}")
    raise

# データの絞り込み
df_filtered = df_pit.copy()

# 投手名の絞り込み (player_name列を使用)
if target_pitcher_names and NAME_COLUMN in df_filtered.columns:
    df_filtered = df_filtered[df_filtered[NAME_COLUMN].isin(target_pitcher_names)].copy()
    print(f"投手: {len(target_pitcher_names)} 名に限定しました (件数: {len(df_filtered)})")

# 年次の絞り込み (season_year列を使用)
if YEAR_COLUMN in df_filtered.columns:
    df_filtered = df_filtered[df_filtered[YEAR_COLUMN] == target_year].copy()
    print(f"年次: {target_year} のデータに絞り込みました (件数: {len(df_filtered)})")
else:
    print(f"注意: 年次絞り込みに使用する列 ('{YEAR_COLUMN}') が見つかりませんでした。絞り込みはスキップされました。")


# 必要な列を選択
selected_columns = [
    YEAR_COLUMN, 'player_id', NAME_COLUMN, 
    'team_name', 'era', 'g', 'gs', 'w', 'l', 'sv', 'hld', 'ip', 'er', 'so', 
    'whip', 'avg'
]

existing_columns = [col for col in selected_columns if col in df_filtered.columns]
df_dataset_pit = df_filtered[existing_columns]


# ファイル保存
try:
    df_dataset_pit.to_csv(OUTPUT_PIT, index=False, encoding=ENCODING_WRITE) 
    print(f"\n分析用データセット `{OUTPUT_PIT}` をファイルとして保存しました。")
    print(f"保存したファイルも文字化けしていないことを確認してください。")
except Exception as e:
    print(f"\nファイル保存中にエラーが発生しました。詳細: {e}")


print(f"データセットのサイズ: {len(df_dataset_pit)} 件, 列数: {len(df_dataset_pit.columns)} 列")
# print("最終データセットの最初の5行")
# display(df_dataset_pit.head())

stats_pit.csv をエンコーディング 'cp932' で読み込みました (件数: 1749)
投手: 12 名に限定しました (件数: 53)
年次: 2025 のデータに絞り込みました (件数: 12)

分析用データセット `stats_pit_dataset.csv` をファイルとして保存しました。
保存したファイルも文字化けしていないことを確認してください。
データセットのサイズ: 12 件, 列数: 13 列
