# Keirin Prediction with GBDT

このハンズオンでは勾配ブースティングライブラリであるLightGBMを使って  
競輪の着順予測モデルを学習し、本日開催されているレースの予測を実際に作成します

また、モデルは予測結果だけでなく判断根拠を求められるケースが多々あります。
具体的には、

- 予測の判断根拠自体が欲しい
- 学習したモデルが一般的な常識/知見に基づいた特徴量を確認したい
- システムに導入しやすくなる(納得感を与えられる)

などのケースが考えられます  
作成したモデルの判断根拠を得る手法についても紹介します

In [None]:
!pip install lightgbm
!pip install shap
!pip install category_encoders
!pip install google-cloud-storage

In [None]:
import pandas as pd
import numpy as np
import lightgbm as lgb
from io import BytesIO
from google.cloud import storage

In [None]:
# GoogleCloudStorageの接続
project_id = 'hr-mixi'
buclet_name = 'mixi_hands_on_data_2022'

client = storage.Client(project_id)
bucket = client.get_bucket(buclet_name)

### 学習用データセットの読み込み
* 今回のデータは本研修外での利用はお控えください

In [None]:
training_data_path = 'training_data/race_data.csv'

blob = bucket.blob(training_data_path)
content = blob.download_as_string()
df = pd.read_csv(BytesIO(content))

# # 着順のない選手をデータセットから取り除く
df = df[~df['rank_number'].isnull()].reset_index(drop=True)
df = df[df['rank_number'] != 0].reset_index(drop=True)

上記で取得したデータを観察してみましょう  
機械学習モデルを開発する上で、データへの理解度(ドメイン知識)は重要な要素になります

In [None]:
for c in df.columns:
    print(c, df.iloc[0][c])

### ラベルデータの作成
rank_number: 着順　を使用します

着順をそのままラベルに使用するとマルチクラス分類となります    
マルチクラス分類ではそれぞれのクラスを独立したものとして扱うが、1着と2着などを別クラスとして扱うの正しいのか考えると

ラベルを`3着以内orNot`や`1着orNot`に変換する手法が考えられます

\<TODO\>  
your_targetに独自のラベルを作成してみてください  
- ヒント: 着順が条件式に対してTrueであれば１, Falseであれば0に変換する例  
`df['rank_number'].apply(lambda x: 1 if x <<条件式>> else 0)`

In [None]:
def encord_rank_order(rank_number):
    # LightGBMもマルチクラス分類は0から始まるラベルが求められるが
    # 着順は１〜９になっているため、0~8に修正する
    return rank_number -1

# 着順をそのままマルチクラス(9クラス)分類
rank_number = df['rank_number'].apply(encord_rank_order)

##  <TODO> your_targetに独自のラベルとして着順を変換する条件式を記入してください
your_target = df['rank_number'].apply(lambda x: 1 if ______ else 0)


### テストデータセットを分割する

テストデータは日付で2021/01/01以降のレースを対象とします 

In [None]:
train_test_split_date = 20210101

train_index = df[df['event_date'] < train_test_split_date].index
test_index = df[df['event_date'] >= train_test_split_date].index

df_train = df.loc[train_index].reset_index(drop=True)
rank_order_train = rank_number[train_index].values
your_target_train = your_target[train_index]

df_test = df.loc[test_index].reset_index(drop=True)
rank_order_test = rank_number[test_index].values
your_target_test = your_target[test_index]

### 前処理
前処理では一般的に以下のような処理を行います  

- 機械学習では、数値データでないと学習を行うことができないため、  文字列やカテゴリカルなデータは上手に変形する必要がある(LabelEncording, OneHotEncordingなど)  
- アルゴリズムが学習しやすいように変形する(欠損値処理、正規化など)  
- 組み合わせや集計処理によって新しい特徴量を作り出す  
など

前処理コードを学習と予測用で分けているのは、予測時に学習時のラベルエンコーディングのIDのマップと同じようにIDを振り分ける必要がある等
学習時と同様のデータの変換をするように予測用の前処理コードに記載する必要があります

\<追加チャレンジ\>
特徴量の変形や集計で新しい特徴量を作成してみましょう

In [None]:
# 学習に使用しないカラムのリスト
unuse_feature_list = [
    'event_date', 'race_start_date_time', 'player_number', 'name', 'rank_number'
]

# レース内の集計をする特徴量
stat_columns = [
    'gear_ratio', 'age', 'prize', 'rank', 'total_win_count',
    'average_race_point', 'place_rate', 'nige_count',
    'sashi_count', 'makuri_count', 'mark_count', 'standing_count',
    'back_count'
]

# カテゴリカル特徴量のリスト
categorical_feature_list = [
    'velodrome_code', 'program_name', 'grade', 'group', 'born_prefecture', 'leg_type'
]

import category_encoders as ce


def training_preprocessing(df):
    # カテゴリカル変数の処理
    # LightGBMでは、ラベルエンコーディング(カテゴリをintでID付け)して、typeをcategoryに変換すればライブラリが上手く扱ってくれる
    categorical_encorder = ce.OrdinalEncoder(cols=categorical_feature_list, handle_unknown='impute')
    
    df = categorical_encorder.fit_transform(df)
    for c in categorical_feature_list:
        df[c] = df[c].astype('category')
        
    # レース内での平均値の特徴量の作成
    race_mean = df.groupby(['event_date', 'velodrome_code', 'race_number'])[stat_columns].mean()

    race_mean = race_mean.rename(columns= {x: x+'_mean' for x in race_mean.columns})
    df = pd.merge(df, race_mean, how='left', on=['event_date', 'velodrome_code', 'race_number'])
    
    # レース内での中央値の特徴量の作成
    race_median = df.groupby(['event_date', 'velodrome_code', 'race_number'])[stat_columns].median()

    race_median = race_median.rename(columns= {x: x+'_median' for x in race_median.columns})
    df = pd.merge(df, race_median, how='left', on=['event_date', 'velodrome_code', 'race_number'])
    
    # 不要なカラムを削除する
    df = df.drop(unuse_feature_list, axis=1)

    return df, categorical_encorder


def prediction_preprocessing(df, categorical_encorder):
    # カテゴリカル変数の処理
    df = categorical_encorder.transform(df)
    for c in categorical_feature_list:
        df[c] = df[c].astype('category')
        
    # レース内での平均値の特徴量の作成
    race_mean = df.groupby(['event_date', 'velodrome_code', 'race_number'])[stat_columns].mean()

    race_mean = race_mean.rename(columns= {x: x+'_mean' for x in race_mean.columns})
    df = pd.merge(df, race_mean, how='left', on=['event_date', 'velodrome_code', 'race_number'])
    
    # レース内での中央値の特徴量の作成
    race_median = df.groupby(['event_date', 'velodrome_code', 'race_number'])[stat_columns].median()

    race_median = race_median.rename(columns= {x: x+'_median' for x in race_median.columns})
    df = pd.merge(df, race_median, how='left', on=['event_date', 'velodrome_code', 'race_number'])
    
    # 不要なカラムを削除する
    df = df.drop(unuse_feature_list, axis=1)

    return df


In [None]:
preproessed_df_train, categorical_encorder = training_preprocessing(df_train)

In [None]:
preproessed_df_train

### 学習と検証データを分割する

学習用と検証用は0.8:0.2で分割しています  
検証用データは、モデル学習時のtest_lossの計算のほか  
パラメーターの自動チューニング時のloss指標の計算に使用されます

In [None]:
val_rate = 0.2

train_val_split_point = int(len(df_train)*(1-val_rate))

df_val = preproessed_df_train.iloc[train_val_split_point:].reset_index(drop=True)
df_train = preproessed_df_train.iloc[:train_val_split_point].reset_index(drop=True)

rank_order_val = rank_order_train[train_val_split_point:]
rank_order_train = rank_order_train[:train_val_split_point]

your_target_val = your_target_train[train_val_split_point:]
your_target_train = your_target_train[:train_val_split_point]


### モデルの学習

LightGBMのパラメータ
- 出力形式に関する要素
    - objective
        - regression: 回帰
        - binary: 二値分類
        - multiclass: マルチクラス分類
    - metric
        - 回帰
            - mae: mean absolute error・平均絶対誤差
            - mse: mean squared error平均2乗誤差
        - 二値分類
            - binary_logloss:　クロスエントロピー
            - binary_error: 正解率
        - マルチクラス分類
            - multi_logloss: softmax
            - multi_error: 正解率
- モデル構造に関する要素
    - learning_rate: 学習率 Default=0.1 0以上
    - num_iterations: 木の数
    - num_leaves: 葉(条件の数)
    
    等, 
    公式リファレンス　https://lightgbm.readthedocs.io/en/latest/Parameters.html

\<TODO\>  
lgb_paramsの`objective`と`metric`を正しい値で埋めてください
  
\<追加チャレンジ\> 
lgb_paramsに任意のパラメータを追加して、モデルの精度の変化を観察してください

In [None]:
# 着順のマルチクラス分類モデルの学習

lgb_train = lgb.Dataset(df_train, rank_order_train)
lgb_test = lgb.Dataset(df_val, rank_order_val, reference=lgb_train)

## <TODO> lgb_paramsのobjectiveとmetricを正しい値で埋めてください
lgb_params = {
    'boosting_type': 'gbdt',
    'n_estimators': 1000,
    'num_class': 9,
    'early_stopping_rounds': 50,
    'objective': '_____',
    'metric': '_____',
}

booster_rank_number = lgb.train(
    lgb_params, lgb_train, valid_sets=lgb_test
)

In [None]:
# オリジナルターゲット（2値分類）のモデルの学習
lgb_train = lgb.Dataset(df_train, your_target_train)
lgb_test = lgb.Dataset(df_val, your_target_val, reference=lgb_train)

## <TODO> lgb_paramsのobjectiveとmetricを正しい値で埋めてください
lgb_params = {
    'boosting_type': 'gbdt',
    'n_estimators': 1000,
    'early_stopping_rounds': 50,
    'objective': '_____',
    'metric': '_____',
}

booster_your_target = lgb.train(
    lgb_params, lgb_train, valid_sets=lgb_test
)

### モデルの判断根拠1 Importance
feature_importanceメソッドでモデルにおける特徴量の重要度を得られます  
重要度の指標:
- split: 決定木の分岐を使用した数  
- gain: その特徴量が使用する分岐からの目的関数の減少  

In [None]:
# テストデータの前処理の実行
preprocessed_df_test = prediction_preprocessing(df_test, categorical_encorder)

In [None]:
# split
importance = pd.DataFrame(
    booster_your_target.feature_importance(importance_type = 'split'),
    index=preproessed_df_train.columns,
    columns=['importance']
)
importance.sort_values(['importance'], ascending=False)

In [None]:
# gain
importance = pd.DataFrame(
    booster_your_target.feature_importance(importance_type = 'gain'),
    index=preproessed_df_train.columns,
    columns=['importance']
)
importance.sort_values(['importance'], ascending=False)

### モデルの判断根拠1 shap
SHAPというライブラリを用いて、特徴量がモデル/予測に対してどのような影響を与えたかを計測できます

In [None]:
import shap
shap.initjs()

In [None]:
#LightGBMは決定木アルゴリズムなのでTreeExplainerを使う
# NNモデルでDeepExplainerを使うと今回のようなテーブルデータだけでなく、画像データに対しても適用することができる

explainer = shap.TreeExplainer(booster_your_target, feature_perturbation = "tree_path_dependent")
shap_values = explainer.shap_values(preprocessed_df_test.values)

In [None]:
# 特徴量の貢献度をプロット
shap.summary_plot(shap_values, preprocessed_df_test, plot_type="bar")

### 予測ごとの判断根拠
shap_valuesには各予測に対しての各特徴量の貢献度が格納されている  
これを使うことで、この住宅は[根拠]だからYという表現ができる  

検証用データの0番目の予測結果を見てみましょう  

In [None]:
idx = 0

shap_v = pd.DataFrame(shap_values[1], columns=preprocessed_df_test.columns)

In [None]:
# 予測結果に対しでpositiveな影響を与えている特徴量
shap_v.iloc[idx].sort_values(ascending=False).iloc[:10]

In [None]:
# 予測結果に対しでnegativeな影響を与えている特徴量
shap_v.iloc[idx].sort_values(ascending=True).iloc[:10]

### 精度検証
今回精度の指標は、  
`レース内で最も1着である確率である確率が高いと評価された選手が実際に1着であった確率`  
と設定します

データは１行で1選手を表現しているため、1レース単位は複数行を集約する必要があります  
groupbyを使ってレースごとのindexを取得しています

In [None]:
race_groups = df_test.groupby(['event_date', 'velodrome_code', 'race_number']).groups

### 着順のマルチクラス分類モデル

In [None]:
# 予測結果の取得
rank_number_prediction_result = booster_rank_number.predict(preprocessed_df_test)

In [None]:
# 予測結果の0番目の出力
# 9つの要素がありそれぞれが各ラベルの確率を表現しています、つまり合計は1になります
print(rank_number_prediction_result[0])

In [None]:
# レースごとの出力値の0番目(1着と推定した確率)がもっとも大きい(np.argmax)選手の実際の着順が1着だった数/ レースの数
[
    df_test.iloc[idx[np.argmax(
        [
            res[0] for res in rank_number_prediction_result[idx]
        ]
    )]]['rank_number']
    for race, idx in race_groups.items()
].count(1) / len(race_groups)

### オリジナルラベルでのモデル

In [None]:
your_target_prediction_result = booster_your_target.predict(preprocessed_df_test)

In [None]:
your_target_prediction_result

In [None]:
# レースごとの出力値がもっとも大きい(np.argmax)選手の実際の着順が1着だった数/ レースの数
[
    df_test.iloc[idx[np.argmax(your_target_prediction_result[idx])]]['rank_number']
    for race, idx in race_groups.items()
].count(1) / len(race_groups)

### 今日の予測結果の作成

GCSに本日のレースデータのcsvを作成してあります。  
このデータに対する予測結果を作成し実際のレース結果を見比べてみましょう

In [None]:
# 本日のレースデータをGCSから取得
prediction_data_path = 'prediction_data/race_data.csv'
blob = bucket.blob(prediction_data_path)
content = blob.download_as_string()
prediction_df = pd.read_csv(BytesIO(content))

In [None]:
# groupsの作成
prediction_race_groups = prediction_df.groupby(['event_date', 'velodrome_code', 'race_number']).groups

# 前処理の実行
preprocessed_prediction_df = prediction_preprocessing(prediction_df, categorical_encorder)

# 予測結果の作成
today_prediction_result = booster_your_target.predict(preprocessed_prediction_df)

### 予測結果の確認
本日開催中のレースデータでの予測なので、着順データ用意していません(できない)。  
Tipstarで任意のレースの予測結果を確認しましょう  
https://tipstar.com/keirin/channels

In [None]:
velodrome_code = {
    11: '函館競輪場', 
    12: '青森競輪場', 
    13: 'いわき平競輪場', 
    21: '弥彦競輪場', 
    22: '前橋競輪場', 
    23: '取手競輪場', 
    24: '宇都宮競輪場', 
    25: '大宮競輪場', 
    26: '西武園競輪場', 
    27: '京王閣競輪場', 
    28: '立川競輪場', 
    31: '松戸競輪場', 
    32: '千葉競輪場', 
    33: '花月園競輪場', 
    34: '川崎競輪場', 
    35: '平塚競輪場', 
    36: '小田原競輪場', 
    37: '伊東競輪場', 
    38: '静岡競輪場', 
    41: '一宮競輪場', 
    42: '名古屋競輪場', 
    43: '岐阜競輪場', 
    44: '大垣競輪場', 
    45: '豊橋競輪場', 
    46: '富山競輪場', 
    47: '松阪競輪場', 
    48: '四日市競輪場', 
    51: '福井競輪場', 
    52: '大津競輪場', 
    53: '奈良競輪場', 
    54: '向日町競輪場', 
    55: '和歌山競輪場', 
    56: '岸和田競輪場', 
    61: '玉野競輪場', 
    62: '広島競輪場', 
    63: '防府競輪場', 
    71: '高松競輪場', 
    72: '観音寺競輪場', 
    73: '小松島競輪場', 
    74: '高知競輪場', 
    75: '松山競輪場', 
    81: '小倉競輪場', 
    83: '久留米競輪場', 
    84: '武雄競輪場', 
    85: '佐世保競輪場', 
    86: '別府競輪場',
    87: '熊本競輪場', 
}

In [None]:
for race, idx in prediction_race_groups.items():
    print('会場: ', velodrome_code[race[1]])
    print('レース番号: ', race[2])
    
    # 1レース分の予測結果を正規化(合計1に変換)して確率の形にしています
    normed_result = today_prediction_result[idx] / sum(today_prediction_result[idx])
    
    for entry_num, prob in zip(prediction_df.iloc[idx]['entry_number'].values, normed_result):
        print(entry_num, '番: ', round(prob, 3), '%')