In [1]:
# XGBoost

In [53]:
# インポート
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
import xgboost as xgb
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, precision_score, recall_score, f1_score

In [31]:
# CSVファイルの読み込み
df = pd.read_csv('data.csv', encoding='cp932')

In [None]:
# 回帰の場合→XGBRegressorを使う

In [41]:
# 説明変数
x = df[["差_直近タイム指数平均1_レース平均値", "騎手複勝率", "条件複勝率2", "条件複勝率4"]]
# 目的変数
y = df["着番"]
# 学習データと検証データの分割（検証データ割合が0.488）
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.488, shuffle=False)
# モデルの学習
model = xgb.XGBRegressor(objective='reg:squarederror', max_depth=3, random_state=42)
model.fit(x_train, y_train)
# 予測
y_pred = model.predict(x_test)
# 評価
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)
print(f"RMSE: {rmse:.4f}")
print(f"R^2 Score: {r2:.4f}")

RMSE: 1.9586
R^2 Score: 0.2692


In [59]:
# 分類の場合→XGBClassifierを使う

In [61]:
# 説明変数
x = df[["差_直近タイム指数平均1_レース平均値", "騎手複勝率", "条件複勝率2", "条件複勝率4"]]
# 目的変数（文字列のまま扱えないのでラベルエンコーディングする）
le = LabelEncoder()
y = le.fit_transform(df['着番カテゴリ'])
# 学習データと検証データの分割（検証データ割合が0.488）
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.488, shuffle=False)
# モデルの学習
model = xgb.XGBClassifier(objective='reg:squarederror', max_depth=3, random_state=42)
model.fit(x_train, y_train)
# 予測
y_pred = model.predict(x_test)
# 評価
print(f"正解率（Accuracy）: {accuracy_score(y_test, y_pred):.4f}")
print(f"適合率（Precision）: {precision_score(y_test, y_pred, average='weighted'):.4f}")
print(f"再現率（Recall）: {recall_score(y_test, y_pred, average='weighted'):.4f}")
print(f"F1スコア          : {f1_score(y_test, y_pred, average='weighted'):.4f}")

正解率（Accuracy）: 0.6481
適合率（Precision）: 0.5983
再現率（Recall）: 0.6481
F1スコア          : 0.6047
