In [1]:
#インポート文
import numpy as np
import pandas as pd

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

import lightgbm as lgb
from lightgbm import LGBMRanker

from sklearn import metrics
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold

In [2]:
#データのインポート
race_df = pd.read_csv("../data/main/race_data.csv",parse_dates=['datetime'])
horse_df = pd.read_csv("../data/main/horse_data.csv")

In [3]:
#データのマージ
race_df_for_merge = race_df[['race_id',
                             "race_round",
                             "race_title",
                             "weather",
                             "ground_status",
                             "where_racecourse",
                             "total_horse_number",
                             "frame_number_first",
                             "horse_number_first",
                             "frame_number_second",
                             "horse_number_second",
                             "frame_number_third",
                             "horse_number_third",
                             "tansyo",
                             "hukusyo_first",
                             "hukusyo_second",
                             "hukusyo_third",
                             "wakuren",
                             "umaren",
                             "wide_1_2",
                             "wide_1_3",
                             "wide_2_3",
                             "umatan",
                             "renhuku3",
                             "rentan3",
                             "is_obstacle",
                             "ground_type",
                             "is_left_right_straight",
                             "distance",
                             "weather_rain",
                             "weather_snow",
                             "datetime"
                            ]]

merged_horse_df = pd.merge(horse_df, race_df_for_merge, on='race_id')

In [4]:
#datetimeをUnix時間に変換してint32に変換する
unix_time = merged_horse_df['datetime'].astype('int64')
unix_time_int32 = unix_time.astype('int32')

merged_horse_df['datetime'] = unix_time_int32

In [5]:
#エンコード
for column in ['race_title',
               'weather',
               'where_racecourse',
               'ground_type',
               'is_left_right_straight']:
    le = LabelEncoder()
    le.fit(merged_horse_df[column])
    merged_horse_df[column] = le.transform(merged_horse_df[column])

In [6]:
#使う特徴量の設定
feature = ["race_id",
#            "rank",
           "frame_number",
           "horse_number",
           "horse_id",
           "sex_and_age",
           "burden_weight",
           "rider_id",
           "goal_time",
           "goal_time_dif",
           "half_way_rank",
           "last_time",
           "odds",
           "popular",
           "horse_weight",
           "tamer_id",
           "owner_id",
           "is_down",
           "is_senba",
           "is_mesu",
           "is_osu",
           "horse_weight_dif",
           "burden_weight_rate",
           "avg_velocity",
           
             "race_round",
             "race_title",
             "weather",
             "ground_status",
             "where_racecourse",
             "total_horse_number",
             "frame_number_first",
             "horse_number_first",
             "frame_number_second",
             "horse_number_second",
             "frame_number_third",
             "horse_number_third",
             "tansyo",
             "hukusyo_first",
             "hukusyo_second",
             "hukusyo_third",
             "wakuren",
             "umaren",
             "wide_1_2",
             "wide_1_3",
             "wide_2_3",
             "umatan",
             "renhuku3",
             "rentan3",
             "is_obstacle",
             "ground_type",
             "is_left_right_straight",
             "distance",
             "weather_rain",
             "weather_snow",
             "datetime"
            ]

target = ['rank']

X = merged_horse_df[feature]
y = merged_horse_df[target]

In [7]:
#LGBMで使用するグループの設定
train_baskets = merged_horse_df.groupby(["race_id"])["horse_id"].count().values

In [8]:
#LGBMRankerの設定
ranker = LGBMRanker(boosting_type="gbdt", 
                    num_leaves=31, 
                    learning_rate=0.05, 
                    n_estimators=20, 
                    random_state=42)

In [9]:
#結果を入れるリスト
reports = []
auc_scores = []
precision_scores = []
recall_scores = []
f1_scores = []
support_scores = []

#ランダムステートを変更し、kfoldを繰り返す
for random_state in range(5):
    
    #予測結果を入れるリスト
    pred_df_list = []
    
    #kflodの設定
    kfold = KFold(n_splits=5, shuffle=True, random_state=random_state)
    
    #kflodで学習用と検証用に分ける
    for fold, (train_idx, val_idx) in enumerate(kfold.split(X, y)):

        X_train, X_val = X.iloc[train_idx], X.iloc[val_idx]
        y_train, y_val = y.iloc[train_idx], y.iloc[val_idx]

        # ここでtrain_basketsを計算する
        train_baskets = X_train.groupby(["race_id"])["horse_id"].count().values

        # モデルの学習
        model = ranker.fit(X_train,
                           y_train,
                           group=train_baskets)

        # モデルの予測
        y_pred = ranker.predict(X_val)

        #結果を入れるデータフレームを用意
        pred_df_fold = pd.DataFrame({
           "race_id": X_val['race_id'],
           "horse_id": X_val['horse_id'],
           "rank":y_val['rank'],
           "pred": y_pred
           })
        
        #そのデータフレームをリストに保存
        pred_df_list.append(pred_df_fold)

    # 各foldの予測結果を結合してpred_dfを作成
    pred_df = pd.concat(pred_df_list, axis=0).reset_index(drop=True)
    
    #予測した結果をrace_idごとでグループ化し順位をつける
    pred_df['pred_rank'] = pred_df.groupby('race_id')['pred'].rank(method='min', ascending=False)
    
    #3位以内ならprizeを1にする
    pred_df['rank_prize'] = pred_df['rank'].apply(lambda x: 1 if x <= 3 else 0)
    pred_df['pred_rank_prize'] = pred_df['pred_rank'].apply(lambda x: 1 if x <= 3 else 0)
    
    #正確度を計算
    auc_score = metrics.accuracy_score(pred_df['rank_prize'], pred_df['pred_rank_prize'])
    report = metrics.classification_report(pred_df['rank_prize'], pred_df['pred_rank_prize'])
    report_num = metrics.precision_recall_fscore_support(pred_df['rank_prize'], pred_df['pred_rank_prize'])
    #auc_scoresのリストに保存
    auc_scores.append(auc_score)
    
    reports.append(report)
    
    precision_scores.append(report_num[0])
    recall_scores.append(report_num[1])
    f1_scores.append(report_num[2])
    support_scores.append(report_num[3])

In [10]:
#各ランダムステートの正確度平均と標準偏差を出力
avg_auc_score = np.mean(auc_scores, axis=0)
std_score = np.std(auc_scores, axis=0)

# 平均と重み付き平均を計算する
precision_avg = np.mean(precision_scores, axis=0)
recall_avg = np.mean(recall_scores, axis=0)
f1_avg = np.mean(f1_scores, axis=0)
support_sum = np.sum(support_scores, axis=0)

# precision_weighted = np.average(precision_avg, weights=support_sum)
# recall_weighted = np.average(recall_avg, weights=support_sum)
# f1_weighted = np.average(f1_avg, weights=support_sum)

In [26]:
print(f"Std: {std_score:.4f}")
print(f"Average AUC score: {avg_auc_score:.4f}")
print(f"Average PRE score 0: {precision_avg[0]:.4f}"+f"   1: {precision_avg[1]:.4f}")
print(f"Average REC score 0: {recall_avg[0]:.4f}"+f"   1: {recall_avg[1]:.4f}")
print(f"Average F1  score 0: {f1_avg[0]:.4f}"+f"   1: {f1_avg[1]:.4f}")

Std: 0.0007
Average AUC score: 0.5801
Average PRE score 0: 0.7331   1: 0.0162
Average REC score 0: 0.7330   1: 0.0162
Average F1  score 0: 0.7331   1: 0.0162


In [27]:
print(reports[0])

              precision    recall  f1-score   support

           0       0.73      0.73      0.73      6637
           1       0.02      0.02      0.02      1800

    accuracy                           0.58      8437
   macro avg       0.37      0.37      0.37      8437
weighted avg       0.58      0.58      0.58      8437



In [28]:
#特徴量の重要度
for i in ranker.feature_importances_.argsort()[::-1]:
    print(feature[i], ranker.feature_importances_[i]/ranker.feature_importances_.sum())

last_time 0.16333333333333333
avg_velocity 0.11666666666666667
goal_time 0.10166666666666667
odds 0.08833333333333333
half_way_rank 0.07666666666666666
ground_type 0.06
race_title 0.04
race_round 0.03833333333333333
horse_id 0.03833333333333333
race_id 0.03333333333333333
popular 0.03
tamer_id 0.02
owner_id 0.016666666666666666
horse_weight 0.015
goal_time_dif 0.013333333333333334
rider_id 0.011666666666666667
horse_weight_dif 0.011666666666666667
burden_weight_rate 0.011666666666666667
datetime 0.011666666666666667
wide_1_3 0.011666666666666667
umatan 0.01
hukusyo_third 0.008333333333333333
renhuku3 0.006666666666666667
tansyo 0.006666666666666667
is_mesu 0.006666666666666667
hukusyo_first 0.006666666666666667
horse_number 0.005
horse_number_first 0.005
wide_2_3 0.005
ground_status 0.0033333333333333335
rentan3 0.0033333333333333335
total_horse_number 0.0033333333333333335
burden_weight 0.0033333333333333335
frame_number_third 0.0033333333333333335
umaren 0.0016666666666666668
is_left