# 相互補完学習による競馬予想モデル

年度パックNPZファイルからデータを読み込み、相互補完学習モデルを学習します。

## 相互補完学習とは

着順予測と走破タイム予測を独立して学習し、相互に予測結果を特徴量として追加して再学習することで精度を向上させる手法です。

### 学習の流れ
1. **第1段階**: 着順予測モデルとタイム予測モデルを独立して学習
2. **第2段階**: タイム予測結果を特徴量として追加し、着順予測モデルを再学習
3. **第3段階**: 着順予測結果を特徴量として追加し、タイム予測モデルを再学習

### タスク構成
- **タスク1: 着順予測**（ランキング学習）
- **タスク2: 走破タイム予測**（回帰）

### 事実ベースの特徴量のみを使用
- JRDBの事前予想は除外（ペース予想、テン指数、上がり指数、位置指数など）
- オッズは除外
- 実力に基づいた予測を実現

### 期待される効果
- より高い的中率
- タイム予測による実力評価
- 相互補完による精度向上


## インポート


In [1]:
import sys
from pathlib import Path
import importlib

# プロジェクトルート（apps/prediction/）をパスに追加
project_root = Path().resolve().parent  # notebooks/ -> apps/prediction/
sys.path.insert(0, str(project_root))

# モジュールの再読み込みを確実にする（強制的に削除してから再インポート）
modules_to_reload = [
    'src.preprocessor',
    'src.data_loader',
    'src.complementary_predictor',
    'src.features',
    'src.evaluator'
]

for module_name in modules_to_reload:
    if module_name in sys.modules:
        del sys.modules[module_name]

# 念のため、パッケージも削除
for key in list(sys.modules.keys()):
    if key.startswith('src.'):
        del sys.modules[key]

import numpy as np
import pandas as pd
import lightgbm as lgb
import matplotlib.pyplot as plt
import seaborn as sns

from src.data_loader import load_annual_pack_npz, load_multiple_npz_files
from src.preprocessor import Preprocessor
from src.complementary_predictor import ComplementaryPredictor
from src.features import Features

%reload_ext autoreload
%autoreload 2

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)


## 設定


In [2]:
# NPZファイルが格納されているベースパス
BASE_PATH = Path('./data')  # apps/prediction/notebooks/data

# 使用するデータタイプ
# レース開始時点で利用可能なデータのみを含める
# オッズデータ（OZ, OW, OU, OT, OV）と払戻データ（HJC, HJB）は除外
DATA_TYPES = [
    'BAC',  # 番組データ（レース条件・出走馬一覧）
    'KYI',  # 競走馬データ（牧場先情報付き・最も詳細）
    'SED',  # 成績速報データ（過去の成績・前走データ抽出に使用、教師データとして使用）
    'UKC',  # 馬基本データ（血統登録番号・性別・生年月日・血統情報）
    'TYB',  # 直前情報データ（出走直前の馬の状態・当日予想に最重要）
]

# 使用する年度
YEARS = [2024]  # 必要に応じて複数年度を指定

# モデル保存パス
RANK_MODEL_PATH = Path('../models/complementary_rank_model_v1.txt')
TIME_MODEL_PATH = Path('../models/complementary_time_model_v1.txt')
RANK_MODEL_PATH.parent.mkdir(parents=True, exist_ok=True)
TIME_MODEL_PATH.parent.mkdir(parents=True, exist_ok=True)

# ファイル名の確認（デバッグ用）
print(f"BASE_PATH: {BASE_PATH.absolute()}")
if BASE_PATH.exists():
    npz_files = list(BASE_PATH.glob('*.npz'))
    print(f"見つかったNPZファイル: {len(npz_files)}件")
    for f in npz_files[:5]:  # 最初の5件を表示
        print(f"  - {f.name}")
else:
    print(f"警告: {BASE_PATH} が存在しません")


BASE_PATH: /Users/soichiro/Dev/umayomi/apps/prediction/notebooks/data
見つかったNPZファイル: 10件
  - jrdb_npz_SEC_2024.npz
  - jrdb_npz_UKC_2024.npz
  - jrdb_npz_KYH_2024.npz
  - jrdb_npz_KYI_2024.npz
  - jrdb_npz_SED_2024.npz


## データ読み込みと前処理


In [3]:
# 前処理を実行
preprocessor = Preprocessor()

print("データ読み込みと前処理を開始します...")
try:
    df = preprocessor.process(
        base_path=BASE_PATH,
        data_types=DATA_TYPES,
        years=YEARS,
        use_annual_pack=True
    )

    print(f"\nデータ読み込み完了: {len(df)}件")
    print(f"レース数: {df.index.nunique()}")
    print(f"\nデータ形状: {df.shape}")
    print(f"\n列名: {df.columns.tolist()[:20]}...")  # 最初の20列を表示
    
    # rankフィールドの確認
    if 'rank' in df.columns:
        print(f"\nrankフィールド: あり（欠損値: {df['rank'].isnull().sum()}件）")
        print(f"着順の分布: {df['rank'].value_counts().sort_index()}")
    else:
        print("\n警告: rankフィールドが見つかりません")
    
    # タイムフィールドの確認（SEDデータから取得）
    if 'タイム' in df.columns:
        print(f"\nタイムフィールド: あり（欠損値: {df['タイム'].isnull().sum()}件）")
        print(f"タイムの基本統計:")
        print(df['タイム'].describe())
    else:
        print("\n警告: タイムフィールドが見つかりません（SEDデータから取得する必要があります）")
        
except Exception as e:
    print(f"エラーが発生しました: {e}")
    import traceback
    traceback.print_exc()
    raise


データ読み込みと前処理を開始します...
前処理済みデータを読み込みました: data/preprocessed_data/BAC_KYI_SED_TYB_UKC_2024_annual_data.npz
  データ数: 261930件
  特徴量数: 357件

データ読み込み完了: 261930件
レース数: 3454

データ形状: (261930, 357)

列名: ['LS指数順位', 'R', 'クラスコード', 'ゴール内外', 'ゴール差', 'ゴール順位', 'ダ適性コード', 'テン指数', 'テン指数順位', 'フラグ', 'ブリンカー', 'ペース予想', 'ペース指数', 'ペース指数順位', 'ローテーション', '万券印', '万券指数', '上がり指数', '上がり指数順位', '上昇度']...

rankフィールド: あり（欠損値: 1981件）
着順の分布: rank
1.0     19632
2.0     21847
3.0     21655
4.0     21715
5.0     21398
6.0     20387
7.0     19736
8.0     18904
9.0     17673
10.0    16137
11.0    14351
12.0    12695
13.0    10794
14.0     9091
15.0     7099
16.0     4775
17.0     1232
18.0      828
Name: count, dtype: int64

タイムフィールド: あり（欠損値: 1028件）
タイムの基本統計:
count    260902.000000
mean        102.189507
std          29.445976
min           0.000000
25%          80.800003
50%         105.199997
75%         116.900002
max         306.600006
Name: タイム, dtype: float64


## データ分割


In [4]:
# 時系列でデータを分割（未来の情報を使わない）
df_sorted = df.sort_values('start_datetime', ascending=True)

# 学習データ: 80%
# 検証データ: 20%
split_idx = int(len(df_sorted) * 0.8)

train_df = df_sorted.iloc[:split_idx].copy()
val_df = df_sorted.iloc[split_idx:].copy()

print(f"学習データ: {len(train_df)}件 ({len(train_df) / len(df_sorted) * 100:.1f}%)")
print(f"検証データ: {len(val_df)}件 ({len(val_df) / len(df_sorted) * 100:.1f}%)")
print(f"\n学習データの期間: {train_df['start_datetime'].min()} ～ {train_df['start_datetime'].max()}")
print(f"検証データの期間: {val_df['start_datetime'].min()} ～ {val_df['start_datetime'].max()}")


学習データ: 209544件 (80.0%)
検証データ: 52386件 (20.0%)

学習データの期間: 202401060950 ～ 202410121400
検証データの期間: 202410121400 ～ 202412281625


## 相互補完学習


In [5]:
# 相互補完学習を実行
predictor = ComplementaryPredictor(train_df, val_df)

models = predictor.train()

print("\n学習完了")
print(f"着順予測モデル: {RANK_MODEL_PATH}")
print(f"タイム予測モデル: {TIME_MODEL_PATH}")


[I 2025-11-11 08:12:39,601] A new study created in memory with name: no-name-3f9863ee-d24b-4760-b698-3ec99b61435c


相互補完学習を開始

[1/2] 着順予測モデルを学習中...


feature_fraction, val_score: 0.363159:  14%|#4        | 1/7 [00:02<00:13,  2.22s/it][I 2025-11-11 08:12:41,865] Trial 0 finished with value: 0.3631585612968591 and parameters: {'feature_fraction': 0.5}. Best is trial 0 with value: 0.3631585612968591.
feature_fraction, val_score: 0.370314:  29%|##8       | 2/7 [00:04<00:11,  2.37s/it][I 2025-11-11 08:12:44,331] Trial 1 finished with value: 0.37031408308004055 and parameters: {'feature_fraction': 0.7}. Best is trial 1 with value: 0.37031408308004055.
feature_fraction, val_score: 0.370314:  43%|####2     | 3/7 [00:06<00:09,  2.27s/it][I 2025-11-11 08:12:46,488] Trial 2 finished with value: 0.36638804457953383 and parameters: {'feature_fraction': 0.8}. Best is trial 1 with value: 0.37031408308004055.
feature_fraction, val_score: 0.370314:  57%|#####7    | 4/7 [00:10<00:08,  2.72s/it][I 2025-11-11 08:12:49,893] Trial 3 finished with value: 0.36157548125633227 and parameters: {'feature_fraction': 0.4}. Best is trial 1 with value: 0.370314083

最適パラメータ: {'objective': 'lambdarank', 'metric': 'ndcg', 'ndcg_eval_at': [1, 2, 3], 'boosting_type': 'gbdt', 'random_state': 0, 'num_leaves': 5, 'deterministic': True, 'force_row_wise': True, 'num_threads': 12, 'max_bin': 255, 'verbose': -1, 'early_stopping_rounds': 50, 'feature_pre_filter': False, 'min_child_samples': 20, 'lambda_l1': 0.0, 'lambda_l2': 0.0, 'feature_fraction': 0.8999999999999999, 'bagging_fraction': 1.0, 'bagging_freq': 0}
✓ 着順予測モデルの学習完了

[2/2] 走破タイム予測モデルを学習中...
Training until validation scores don't improve for 50 rounds
Early stopping, best iteration is:
[14]	train's rmse: 0.0680503	val's rmse: 0.0666392
✓ 走破タイム予測モデルの学習完了

相互補完学習を開始...
  - タイム予測を特徴量として追加した着順予測モデルを再学習...


[I 2025-11-11 08:15:52,324] A new study created in memory with name: no-name-f7c7ab14-bcb5-4751-afbf-e645d1fd4497
feature_fraction, val_score: 0.376710:  14%|#4        | 1/7 [00:02<00:14,  2.36s/it][I 2025-11-11 08:15:54,691] Trial 0 finished with value: 0.37670972644376893 and parameters: {'feature_fraction': 0.5}. Best is trial 0 with value: 0.37670972644376893.
feature_fraction, val_score: 0.385068:  29%|##8       | 2/7 [00:04<00:12,  2.49s/it][I 2025-11-11 08:15:57,269] Trial 1 finished with value: 0.38506838905775065 and parameters: {'feature_fraction': 0.7}. Best is trial 1 with value: 0.38506838905775065.
feature_fraction, val_score: 0.385068:  43%|####2     | 3/7 [00:06<00:07,  1.95s/it][I 2025-11-11 08:15:58,570] Trial 2 finished with value: 0.3724037487335359 and parameters: {'feature_fraction': 0.8}. Best is trial 1 with value: 0.38506838905775065.
feature_fraction, val_score: 0.385068:  57%|#####7    | 4/7 [00:07<00:05,  1.86s/it][I 2025-11-11 08:16:00,312] Trial 3 finished

最適パラメータ: {'objective': 'lambdarank', 'metric': 'ndcg', 'ndcg_eval_at': [1, 2, 3], 'boosting_type': 'gbdt', 'random_state': 0, 'num_leaves': 89, 'deterministic': True, 'force_row_wise': True, 'num_threads': 12, 'max_bin': 255, 'verbose': -1, 'early_stopping_rounds': 50, 'feature_pre_filter': False, 'min_child_samples': 20, 'lambda_l1': 5.774327768712259e-08, 'lambda_l2': 1.1818171572391107e-08, 'feature_fraction': 0.7, 'bagging_fraction': 1.0, 'bagging_freq': 0}
  - 着順予測を特徴量として追加したタイム予測モデルを再学習...
Training until validation scores don't improve for 50 rounds
Early stopping, best iteration is:
[19]	train's rmse: 0.0664858	val's rmse: 0.0664287

相互補完学習完了

学習完了
着順予測モデル: ../models/complementary_rank_model_v1.txt
タイム予測モデル: ../models/complementary_time_model_v1.txt


## モデル保存


In [6]:
# モデルを保存
models['rank_model'].save_model(str(RANK_MODEL_PATH))
models['time_model'].save_model(str(TIME_MODEL_PATH))

print(f"✓ 着順予測モデルを保存: {RANK_MODEL_PATH}")
print(f"✓ タイム予測モデルを保存: {TIME_MODEL_PATH}")


✓ 着順予測モデルを保存: ../models/complementary_rank_model_v1.txt
✓ タイム予測モデルを保存: ../models/complementary_time_model_v1.txt


## 検証データでの予測


In [7]:
# 検証データで予測
val_predictions = ComplementaryPredictor.predict(
    models,
    val_df,
    Features()
)

print("検証データでの予測完了")
print(f"\n予測結果の形状: {val_predictions.shape}")
print(f"\n予測結果のサンプル:")
print(val_predictions[['predict_rank', 'predict_time_normalized', 'rank', 'タイム']].head(10) if 'rank' in val_predictions.columns and 'タイム' in val_predictions.columns else val_predictions.head(10))


ValueError: pandas dtypes must be int, float or bool.
Fields with bad pandas dtypes: course_type: object

## 評価結果


In [None]:
# 着順予測の評価
from src.evaluator import evaluate_model, print_evaluation_results

# rankが存在するデータのみで評価
val_predictions_with_rank = val_predictions[val_predictions['rank'].notna()].copy()

if len(val_predictions_with_rank) > 0:
    # 予測値をpredictカラムに設定（evaluatorが期待する形式）
    val_predictions_with_rank['predict'] = val_predictions_with_rank['predict_rank']
    
    # race_keyがインデックスの場合はカラムに変換
    if val_predictions_with_rank.index.name == 'race_key':
        val_predictions_with_rank = val_predictions_with_rank.reset_index()
    
    # 評価を実行
    print("=" * 60)
    print("着順予測の評価結果")
    print("=" * 60)
    eval_results = evaluate_model(
        val_predictions_with_rank,
        race_key_col='race_key' if 'race_key' in val_predictions_with_rank.columns else None,
        rank_col='rank',
        predict_col='predict',
        horse_num_col='馬番' if '馬番' in val_predictions_with_rank.columns else 'horse_number',
        odds_col=None
    )
    print_evaluation_results(eval_results)
else:
    print("警告: 評価可能なデータがありません（rankがすべて欠損）")


## タイム予測の評価


In [None]:
# タイム予測の評価
if 'タイム' in val_predictions.columns:
    val_predictions_with_time = val_predictions[val_predictions['タイム'].notna()].copy()
    
    if len(val_predictions_with_time) > 0:
        # 必要なカラムの存在確認と補完
        if 'course_type' not in val_predictions_with_time.columns:
            # 芝ダ障害コードからcourse_typeを作成
            if '芝ダ障害コード' in val_predictions_with_time.columns:
                course_type_map = {'1': '芝', '2': 'ダ', '3': '障'}
                val_predictions_with_time['course_type'] = val_predictions_with_time['芝ダ障害コード'].astype(str).map(course_type_map).fillna('芝')
            else:
                # デフォルト値
                val_predictions_with_time['course_type'] = '芝'
        
        if 'ground_condition' not in val_predictions_with_time.columns:
            # 馬場状態のデフォルト値
            if '馬場状態' in val_predictions_with_time.columns:
                val_predictions_with_time['ground_condition'] = val_predictions_with_time['馬場状態']
            else:
                val_predictions_with_time['ground_condition'] = '良'
        
        if 'course_length' not in val_predictions_with_time.columns:
            if '距離' in val_predictions_with_time.columns:
                val_predictions_with_time['course_length'] = val_predictions_with_time['距離']
            else:
                raise ValueError("course_length（距離）カラムが見つかりません")
        
        # 正規化タイムを実際のタイムに変換
        # 標準タイムを計算
        predictor_temp = ComplementaryPredictor(val_predictions_with_time, val_predictions_with_time)
        standard_time_per_100m = predictor_temp._calculate_standard_time_per_100m(
            val_predictions_with_time['course_type'],
            val_predictions_with_time['ground_condition']
        )
        
        # 正規化タイムから実際のタイムを計算
        predicted_time_per_100m = (
            val_predictions_with_time['predict_time_normalized'] * standard_time_per_100m
        )
        predicted_time = predicted_time_per_100m * (val_predictions_with_time['course_length'] / 100)
        
        val_predictions_with_time['predicted_time'] = predicted_time
        
        # タイム予測の誤差を計算
        time_errors = np.abs(val_predictions_with_time['タイム'] - predicted_time)
        
        print("=" * 60)
        print("タイム予測の評価結果")
        print("=" * 60)
        print(f"平均誤差: {time_errors.mean():.2f}秒")
        print(f"中央値誤差: {time_errors.median():.2f}秒")
        print(f"標準偏差: {time_errors.std():.2f}秒")
        print(f"RMSE: {np.sqrt((time_errors ** 2).mean()):.2f}秒")
        
        # 相関係数
        correlation = np.corrcoef(
            val_predictions_with_time['タイム'],
            predicted_time
        )[0, 1]
        print(f"相関係数: {correlation:.4f}")
        
        # タイム予測の散布図
        plt.figure(figsize=(10, 6))
        plt.scatter(val_predictions_with_time['タイム'], predicted_time, alpha=0.5)
        plt.xlabel('実際のタイム（秒）')
        plt.ylabel('予測タイム（秒）')
        plt.title('タイム予測の精度')
        plt.plot([val_predictions_with_time['タイム'].min(), val_predictions_with_time['タイム'].max()],
                 [val_predictions_with_time['タイム'].min(), val_predictions_with_time['タイム'].max()],
                 'r--', label='完璧な予測')
        plt.legend()
        plt.grid(True)
        plt.show()
    else:
        print("警告: 評価可能なデータがありません（タイムがすべて欠損）")
else:
    print("警告: タイムフィールドが見つかりません")
