In [1]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("takamotoki/jra-horse-racing-dataset")

print("Path to dataset files:", path)

Path to dataset files: /Users/satoki252595/.cache/kagglehub/datasets/takamotoki/jra-horse-racing-dataset/versions/1


In [None]:
import kagglehub
import pandas as pd
import zipfile
import os

# 1. データセットのダウンロード
dataset_identifier = "takamotoki/jra-horse-racing-dataset"
download_path = kagglehub.dataset_download(dataset_identifier)

# ダウンロードされたファイルの拡張子を確認
if download_path.endswith('.zip'):
    # 2. ZIPファイルの解凍
    extract_dir = 'jra_horse_racing_data'
    with zipfile.ZipFile(download_path, 'r') as zip_ref:
        zip_ref.extractall(extract_dir)
else:
    extract_dir = os.path.dirname(download_path)

# 3. CSVファイルの検索
# ディレクトリ内のファイルを一覧表示し、CSVファイルを特定
csv_files = []
for root, dirs, files in os.walk(extract_dir):
    for file in files:
        if file.endswith('.csv'):
            csv_files.append(os.path.join(root, file))

# 複数のCSVファイルが存在する場合、それぞれを読み込む
# ここでは例として最初のCSVファイルを読み込みます
if csv_files:
    df_laptime = pd.read_csv(csv_files[0],encoding='utf-8')  # エンコーディングはデータに応じて変更
    df_raceResult = pd.read_csv(csv_files[1],encoding='utf-8')
    df_odds = pd.read_csv(csv_files[2],encoding='utf-8')
    df_corner = pd.read_csv(csv_files[3],encoding='utf-8')
else:
    print("CSVファイルが見つかりませんでした。データセットの構造を確認してください。")



In [None]:
# *****************************************************
# ファイル名: train_model_single_df_lambdarank.py
# 開発者: データサイエンティスト/プログラマ
# レビュー者: シニアデータサイエンティスト/MLエンジニア
# コーディング規約・型ヒント・docstring対応済み
# *****************************************************

import pandas as pd
import numpy as np
from sklearn.model_selection import GroupKFold, GridSearchCV
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import lightgbm as lgb
from sklearn.metrics import mean_squared_error
import joblib

import matplotlib.pyplot as plt
import seaborn as sns


def rename_japanese_to_english(df: pd.DataFrame) -> pd.DataFrame:
    """
    日本語の列名を英語に変換する関数
    グラフ描画や処理時に英語表記を使用したい場合に利用する
    """
    rename_dict = {
        "レース馬番ID": "race_horse_number_id",
        "レースID": "race_id",
        "レース日付": "race_date",
        "開催回数": "race_meeting_number",
        "競馬場コード": "racecourse_code",
        "競馬場名": "racecourse_name",
        "開催日数": "race_meeting_days",
        "競争条件": "race_conditions",
        "レース記号/[抽]": "race_symbol_[lottery]",
        "レース記号/(馬齢)": "race_symbol_(horse_age)",
        "レース記号/牝": "race_symbol_(female)",
        "レース記号/(父)": "race_symbol_(father)",
        "レース記号/(別定)": "race_symbol_(set_weight)",
        "レース記号/(混)": "race_symbol_(mixed)",
        "レース記号/(ハンデ)": "race_symbol_(handicap)",
        "レース記号/(抽)": "race_symbol_(lottery)",
        "レース記号/(市)": "race_symbol_(city)",
        "レース記号/(定量)": "race_symbol_(fixed_weight)",
        "レース記号/牡": "race_symbol_(male)",
        "レース記号/関東配布馬": "race_symbol_(east_area)",
        "レース記号/(指)": "race_symbol_(restricted)",
        "レース記号/関西配布馬": "race_symbol_(west_area)",
        "レース記号/九州産馬": "race_symbol_(kyushu_bred)",
        "レース記号/見習騎手": "race_symbol_(apprentice_jockey)",
        "レース記号/せん": "race_symbol_(gelding)",
        "レース記号/(国際)": "race_symbol_(international)",
        "レース記号/[指]": "race_symbol_[restricted]",
        "レース記号/(特指)": "race_symbol_(special_restricted)",
        "レース番号": "race_number",
        "重賞回次": "graded_race_order",
        "レース名": "race_name",
        "リステッド・重賞競走": "listed_graded_race",
        "障害区分": "steeplechase_division",
        "芝・ダート区分": "turf_dirt_division",
        "芝・ダート区分2": "turf_dirt_division_2",
        "右左回り・直線区分": "direction_straight_division",
        "内・外・襷区分": "inner_outer_lap_division",
        "距離(m)": "distance_m",
        "天候": "weather",
        "馬場状態1": "track_condition_1",
        "馬場状態2": "track_condition_2",
        "発走時刻": "start_time",
        "着順": "finish_position",
        "着順注記": "finish_position_note",
        "枠番": "bracket_number",
        "馬番": "horse_number",
        "馬名": "horse_name",
        "性別": "sex",
        "馬齢": "horse_age",
        "斤量": "handicap_weight",
        "騎手": "jockey",
        "タイム": "race_time",
        "着差": "margin",
        "1コーナー": "corner_1",
        "2コーナー": "corner_2",
        "3コーナー": "corner_3",
        "4コーナー": "corner_4",
        "上り": "closing_fraction",
        "単勝": "win_odds",
        "人気": "popularity",
        "馬体重": "horse_weight",
        "場体重増減": "horse_weight_diff",
        "東西・外国・地方区分": "region_category",
        "調教師": "trainer",
        "馬主": "owner",
        "賞金(万円)": "prize_10k_yen"
    }
    existing_cols = set(df.columns)
    rename_dict_filtered = {k: v for k, v in rename_dict.items() if k in existing_cols}
    df = df.rename(columns=rename_dict_filtered)
    return df


def preprocess_data(df: pd.DataFrame) -> pd.DataFrame:
    """
    前処理関数:
    - 列名を英語に変換
    - 必要に応じた型変換・欠損補完など
    """
    df = df.copy()
    
    # 1) まず列名を英語にリネーム
    df = rename_japanese_to_english(df)
    
    # 2) finish_positionが文字列の場合は数値に変換可能なもののみ抽出
    if 'finish_position' in df.columns:
        df['finish_position'] = pd.to_numeric(df['finish_position'], errors='coerce')
        # 学習対象にするため、NaNはdrop
        df = df.dropna(subset=['finish_position'])
    
    # 3) 不要なIDなどを除外(ここでは例としてrace_horse_number_idだけ削除)
    if 'race_horse_number_id' in df.columns:
        df = df.drop(columns=['race_horse_number_id'])
    
    # 4) 数値型へ変換可能な列を適宜変換
    numeric_cols = [
        'racecourse_code',       # 競馬場コードを数値化済みデータと仮定
        'distance_m',
        'finish_position',
        'horse_number',
        'horse_age',
        'horse_weight'
    ]
    for col in numeric_cols:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce')
    
    # 5) 欠損値埋め(数値は平均値、カテゴリは"missing")
    for col in df.columns:
        if df[col].dtype == 'object':
            df[col].fillna('missing', inplace=True)
        else:
            df[col].fillna(df[col].mean(), inplace=True)
    
    return df


def select_features_and_target(df: pd.DataFrame):
    """
    # 目的変数: finish_position (着順)
    # 説明変数(例示的に以下)
    #  競馬場コード(racecourse_code)
    #  芝・ダート区分(turf_dirt_division)
    #  距離(m)(distance_m)
    #  天候(weather)
    #  馬番(horse_number)
    #  性別(sex)
    #  馬齢(horse_age)
    #  騎手(jockey)
    #  馬体重(horse_weight)
    #  調教師(trainer)
    #  馬主(owner)
    #  右左回り・直線区分(direction_straight_division)
    #  内・外・襷区分(inner_outer_lap_division)
    #  枠番(bracket_number)
    #
    # ※ (finish_position)を説明変数に入れるかは本来データリーク注意
    """
    target_col = 'finish_position'
    
    # ランキング用のラベルは finish_position (例: 1着 = 1, 2着 = 2, ...)
    y = df[target_col].values  # array化しておく

    # 特徴量候補 (例)
    feature_cols = [
        'race_id',  # <= groupで後ほど使用して削除
        'racecourse_code',
        'turf_dirt_division',
        'distance_m',
        'weather',
        'horse_number',
        'sex',
        'horse_age',
        'jockey',
        'horse_weight',
        'trainer',
        'owner',
        'direction_straight_division',
        'inner_outer_lap_division',
        'bracket_number'
    ]

    X = df[feature_cols].copy()

    # GroupKFoldなどで使うグループ (レースID)
    if 'race_id' in X.columns:
        groups = X['race_id']
        # 学習時の特徴量からは race_id を除外
        X.drop(columns=['race_id'], inplace=True)
    else:
        groups = pd.Series(np.arange(len(X)), name='group_id')

    return X, y, groups


def build_pipeline(X: pd.DataFrame) -> Pipeline:
    """
    LambdaRank(ランキング)を利用したLightGBMモデルを構築
    """
    # カテゴリ列・数値列を分ける
    categorical_features = [col for col in X.columns if X[col].dtype == 'object']
    numeric_features = [col for col in X.columns if X[col].dtype != 'object']

    preprocessor = ColumnTransformer(
        transformers=[
            ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features),
            ('num', StandardScaler(), numeric_features)
        ]
    )

    # LambdaRank (LGBMRanker)
    model = lgb.LGBMRanker(
        boosting_type='gbdt',
        objective='lambdarank',  # ランキング学習(λRank)
        random_state=42
    )

    pipeline = Pipeline([
        ('preprocessing', preprocessor),
        ('model', model)
    ])
    
    return pipeline


def main(df: pd.DataFrame):
    """
    LambdaRank によるランキングモデル学習:
    1. 前処理
    2. 特徴量・ターゲット抽出
    3. パイプライン構築
    4. ハイパーパラメータ探索 (GridSearchCV)
    5. 学習・評価
    """
    # 1) 前処理
    df_processed = preprocess_data(df)

    # 2) 特徴量 & ターゲット & グループ抽出
    X, y, groups = select_features_and_target(df_processed)

    # 3) パイプライン構築
    pipeline = build_pipeline(X)

    # 4) GroupKFold (同一レースIDを同一グループとする)
    gkf = GroupKFold(n_splits=5)

    # ハイパーパラメータ設定
    param_grid = {
        "model__n_estimators": [100, 200],
        "model__learning_rate": [0.05, 0.1],
        "model__num_leaves": [31, 63]
    }

    # scikit-learnのGridSearchCVを使う場合、ランキング目的であっても
    # scoringは汎用的な指標(例: 'neg_mean_squared_error')を便宜的に使用
    # 本格的にはNDCGなどのカスタムスコアを実装することを推奨
    gsearch = GridSearchCV(
        pipeline, 
        param_grid, 
        scoring='neg_mean_squared_error',
        cv=gkf, 
        n_jobs=-1, 
        verbose=1
    )

    # LGBMRankerは fit() 時に "group" パラメータを渡す必要がある。
    # groups(=race_id) でソートし、各レース(グループ)の出走頭数(=グループサイズ)を求める
    group_sizes = groups.value_counts().sort_index().to_list()

    # ★注意★
    # GridSearchCV内の各foldでもgroup情報が必要になるため、単純にgroup_sizesを渡すだけでは
    # 内部のfoldでレースが分割される可能性があります。
    # ここでは簡易的な例として group全体をまとめて渡していますが、
    # 実務では foldごとに分割して groupパラメータを設定するなど調整が必要です。
    gsearch.fit(
        X,
        y,
        group=group_sizes
    )

    print("Best params:", gsearch.best_params_)
    print("Best CV MSE:", -gsearch.best_score_)

    # ベストモデル
    best_model = gsearch.best_estimator_

    # モデル保存
    joblib.dump(best_model, "trained_model_lambdarank.pkl")

    # 予測例: ランキングスコアが返る
    y_pred = best_model.predict(X)
    print("Example predictions (ranking scores):", y_pred[:10])

    return best_model


# =====================================
# 使用例 (ユーザの環境で df_raceResult が用意されていると仮定):
# trained_model = main(df_raceResult)