# 役割
本番運用時のモデル学習を行うnotebook。事前に`v3_2_0/data/02_features/features.csv`を作成しておく必要がある。
- 学習データ：2019年1月〜2023年9月
- 検証データ（Early stopping・Calibration補正）：2023年10月〜2023年12月
    - Early stoppingについては[#14の記事](https://note.com/dijzpeb/n/n67ef63cf345f)、Calibration補正については[#22の記事](https://note.com/dijzpeb/n/nef0d54028813)で解説

ファイル名に`_latest`をつけて、オフライン検証時のものと区別する。

# インポート

In [1]:
from training import Dataset, Trainer

%load_ext autoreload

In [None]:
# モジュールを更新した場合、以下を実行することで更新を反映させる
%autoreload

# 学習

In [2]:
# データセット作成
dataset = Dataset(
    train_start_date="2015-01-01",
    train_end_date="2024-09-30",
    valid_start_date="2024-10-01",
    valid_end_date="2024-12-31",
    target_strategy=0,
    features_filename="features12-24.csv",
)

In [3]:
# 学習実行
trainer = Trainer(config_filepath="config_wr.yaml")
trainer.run(
    dataset=dataset,
    importance_filename="importance_wr",
    model_filename="model_wr.pkl",
    calibration_model_filename="calibration_model_wr.pkl",
)

Training until validation scores don't improve for 100 rounds
[100]	valid_0's binary_logloss: 0.214094
[200]	valid_0's binary_logloss: 0.205896
[300]	valid_0's binary_logloss: 0.20398
[400]	valid_0's binary_logloss: 0.203573
[500]	valid_0's binary_logloss: 0.203546
Early stopping, best iteration is:
[435]	valid_0's binary_logloss: 0.203528


In [5]:
dataset.train_df.head(5)

Unnamed: 0,race_id,date,horse_id,jockey_id,trainer_id,rank,umaban,wakuban,tansho_odds,popularity,...,interval,wakuban_race_type,umaban_race_type,wakuban_around,umaban_around,month_sex,sin_date_sex,cos_date_sex,target,target_mod
48185,201901010101,2019-07-27,2017105318,5339,1126,1,1,1,1.4,1,...,48.0,-1.0,-1.0,,,-7.0,-0.577219,-0.093768,1,1
48186,201901010101,2019-07-27,2017104612,5203,1038,2,3,3,3.5,2,...,13.0,-3.0,-3.0,,,-7.0,-0.577219,-0.093768,0,0
48187,201901010101,2019-07-27,2017103879,1180,386,3,4,4,46.6,6,...,42.0,-4.0,-4.0,,,-7.0,-0.577219,-0.093768,0,0
48188,201901010101,2019-07-27,2017106259,1179,1088,4,9,8,56.8,7,...,13.0,-8.0,-9.0,,,-7.0,-0.577219,-0.093768,0,0
48189,201901010101,2019-07-27,2017104140,1062,1075,5,5,5,140.3,9,...,20.0,-5.0,-5.0,,,-7.0,-0.577219,-0.093768,0,0
