# SIVA(シヴァ)AI競馬開発エンジニアによる<br>「競馬で始める機械学習」ハンズオン

## 目標
    ・競馬の過去データを使って、ランダムフォレストの予測モデルの作成手順を身につける。
    ・前処理、アルゴリズムのチューニングによって予測精度を上げる手法を身につける。
    ・各自作成した競馬予測AIを使って本日開催の競馬の予測を行う。

## 本日の流れ
    1- 必要ライブラリの読み込み
    2- データの読み込み
    3- 前処理
    4- 予測アルゴリズムの構築
    5- 予測モデルの検証
    6- 本日の競馬の予測



## 1- 必要ライブラリの読み込み

In [None]:
#データ解析ライブラリ
import pandas as pd

#数値計算ライブラリ
import numpy as np
import math

#機械学習ライブラリ
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import scale
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor

#日付操作ライブラリ
import datetime

import util as ut
import preprocessing as pr

## 2- データの読み込み
    2016年~2018年の3年分の過去データ(data_horse_race.csv)を読み込む

In [None]:
df = pd.read_csv('data/data_train.csv')

### データの中身を確認する
    データの扱い方を検討するため、データの特徴を理解することが重要
   　 ex) 数値なのかカテゴリなのか、外れ値はないか

In [None]:
for c in df.columns:
    print(c, df[c].dtype, df[c].unique()[:10])

## 3- 前処理

### 目的変数の作成
    今回目的変数は[3着以下,3着以上]と設定する

In [None]:
#着順データを抽出する
target_data = df['着順']

In [None]:
target_data[:15]

### チューニング 前処理編 [例1]

In [None]:
#着順がN着以内であれば1,3着以上であれば0に変換

#分類分けの閾値を設定
limit_order = 3

target_data_in_three = target_data.apply(lambda x:1 if x <= limit_order else 0)

In [None]:
target_data_in_three[:15]

### カスタマイズ用関数
    後ほど各々作成してもらいます

In [None]:
#カスタマイズ用前処理プログラム
def preprocessing(df):
    #チューニング特徴量編[例2]
    #走破タイム_(1-3)走前カラムを「分.秒.コンマ秒」→「秒」に変換
    #df['走破タイム_1走前']  = {make_yourself!!}
    #df['走破タイム_2走前'] = {make_yourself!!}
    #df['走破タイム_3走前'] = {make_yourself!!}
    
    #チューニング特徴量編[例3]
    #開催日付ファクタを月と日付に分割する
    #df['開催月'] = {make_yourself!!}
    #df['開催日付'] = {make_yourself!!}
    
    #チューニング特徴量編[例4]
    #前走からの経過日数を計算する
    #df['前走間隔'] = {make_yourself!!}
    
    #チューニング特徴量編[例4]
    #開催月,開催日付を三角関数で表現する
    #df['開催月_sin'] = {make_yourself!!}
    #df['開催月_cos'] = {make_yourself!!}
    #df['開催日付_sin'] = {make_yourself!!}
    #df['開催日付_cos'] = {make_yourself!!}
    

    return df

In [None]:
df_after_preprocessing = preprocessing(df)

### 不要カラムを削除

In [None]:
def drop_columns(df):
    #不要カラムのリストを作成しまとめて削除する
    drop_columns_list = []

    #馬を特定する情報を削除
    drop_columns_list.extend(['馬コード'])

    #結果データを削除
    drop_columns_list.extend(['着順','走破タイム','着差'])

    #チューニング特徴量編[例1]
    #カテゴリデータであり種類が多いため、取捨選択をよく考える必要がある
    #drop_columns_list.extend(['騎手コード'])
    
    #予測時に再現されない特徴のため削除(2017年は二度と来ない)
    drop_columns_list.extend(['開催年'])
    drop_columns_list.extend(['開催年_'+str(i)+'走前' for i in range(1,4)])

    #過去走破タイムデータは「分.秒.コンマ秒」→「秒」などに変換する必要がある
    drop_columns_list.extend(['走破タイム_'+str(i)+'走前' for i in range(1,4)])
    
    df = df.drop(drop_columns_list,axis = 1)
    
    return df

In [None]:
df_after_drop_columns = drop_columns(df_after_preprocessing)

### カテゴリカル変数をone-hot値に変更する
    カテゴリカルデータ : 順序性や等間隔性がないデータ
    例
    性別の以下のIDで表現した時
    牡馬 : 1 ,牝馬 : 2 , セン馬 : 3
    
    牡馬 + 牝馬 = セン馬
    
    とならない。
    

    
|馬名|性別|
| ---- | ---- |
|ディープインパクト|牡馬|
|ジェンティルドンナ|牝馬|
|カレンミロティック|セン馬|

<div align = 'center'>
    <br>
    ↓
</div>    

|馬名|性別_牡馬|性別_牝馬|性別_セン馬|
| ---- | ---- | ---- | ---- |
|ディープインパクト|1|0|0|
|ジェンティルドンナ|0|1|0|
|カレンミロティック|0|0|1|




   

In [None]:
def to_onehot(df):
    #カテゴリカル変数のリストを作成しまとめてOne-hotベクトル化する
    dummies_columns_list = []

    dummies_columns_list.extend(['コースコード', '性別', '毛色', '東西所属コード',\
                                     '騎手コード', '騎手東西所属コード', 'ブリンカーフラグ', 'グレードコード',\
                                     'ハンデ条件', 'トラックコード', '年齢条件', '競争条件', '競争記号',\
                                ])

    #過去1走分データのカテゴリカル変数
    pre_col = ['年齢条件', '競争条件', 'ハンデ条件', '競争記号', '芝ダート', 'グレードコード',\
               '天気', '馬場状態', 'ブリンカーフラグ']
    for c in pre_col:
        dummies_columns_list.append(c + '_1走前')
        dummies_columns_list.append(c + '_2走前')
        dummies_columns_list.append(c + '_3走前')

    df = pd.get_dummies(data = df, columns = dummies_columns_list)
    
    return df

In [None]:
df_after_to_onehot = to_onehot(df_after_drop_columns)

In [None]:
for c in df_after_to_onehot.columns:
    print(c)

### 空値をカラムの[0,中央値,平均値]などで埋める
### チューニング 前処理編[例2]

In [None]:
def fill_nan(df):
    #空値を0で埋める
    df = df.fillna(0)

    #空値を中央値で埋める
    #df = df.fillna(df.median())

    #空値を平均値で埋める
    #df = df.fillna(df.mean())
    
    return df

In [None]:
df_after_fill_nan = fill_nan(df_after_to_onehot)

### 予測用データの作成

In [None]:
#入力用ベクトル生成
x = df_after_fill_nan.values
#目的変数生成
y = target_data_in_three.values

### 訓練とテストにデータを分ける
    分割割合はtest_sizeで指定

In [None]:
data_train , data_test , target_train , target_test = train_test_split(x,y,test_size=0.2)

## 4- 予測アルゴリズムの構築と精度検証

### ランダムフォレスト(分類)

In [None]:
forest_classifier = RandomForestClassifier(random_state=0)
forest_classifier.fit(data_train, target_train)

In [None]:
print('Train score: {}'.format(forest_classifier.score(data_train, target_train)))
print('Test score: {}'.format(forest_classifier.score(data_test, target_test)))

In [None]:
#テストデータの内10件の予測結果
output = forest_classifier.predict(data_test)
for (t,o) in zip(target_test[:10],output[:10]):
    print('target : ',t,'predict : ',o)

In [None]:
#ファクターの重要度
importance = []
for (c,i) in zip(df_after_fill_nan.columns,forest_classifier.feature_importances_):
    importance.append([c,i])
importance.sort(key = lambda x:x[1],reverse = True)

In [None]:
importance

### ランダムフォレスト (回帰)

In [None]:
forest_regressor = RandomForestRegressor(random_state=0)
forest_regressor.fit(data_train, target_train)

In [None]:
print('Train score: {}'.format(forest_regressor.score(data_train, target_train)))
print('Test score: {}'.format(forest_regressor.score(data_test, target_test)))

In [None]:
#テストデータの内10件の予測結果
output = forest_regressor.predict(data_test)
for (t,o) in zip(target_test[:10],output[:10]):
    print('target : ',t,'predict : ',o)

In [None]:
#ファクターの重要度
importance = []
for (c,i) in zip(df_after_fill_nan.columns,forest_regressor.feature_importances_):
    importance.append([c,i])
importance.sort(key = lambda x:x[1],reverse = True)

In [None]:
importance

## 5- 予測モデルの検証(対テストデータ)

In [None]:
#本日開催の競馬データの読み込み
df_test = pd.read_csv('data/data_test.csv')

In [None]:
#先ほど作った前処理関数
df = preprocessing(df_test)
df = drop_columns(df)
df = to_onehot(df)
df = fill_nan(df)

In [None]:
#学習時と同様のカラムを持つデータフレームを作成
df_ = pd.DataFrame([],columns = [c for c in df_after_fill_nan.columns])
df = pd.concat([df_,df])[[c for c in df_after_fill_nan.columns]]
df = df.fillna(0)

In [None]:
x = df.values

### ランダムフォレスト(分類)

In [None]:
#予測出力
output = forest_classifier.predict(x)

In [None]:
result = [out==correct for out,correct in zip(output, df_test['着順'].apply(lambda x:1 if x <= 1 else 0))]


In [None]:
#Accuracy
result.count(True)/len(result)

### ランダムフォレスト(回帰)

In [None]:
#予測出力
output = forest_regressor.predict(x)

In [None]:
result = [(out-correct)**2 for out,correct in zip(output, df_test['着順'].apply(lambda x:1 if x <= 1 else 0))]

In [None]:
# RMSE(平均2乗誤差)
math.sqrt(sum(result)/len(result))

## 6- 本日の競馬の予測

In [None]:
#本日開催の競馬データの読み込み
#函館
#today_data = pd.read_csv('data/data_today_hakodate_11r.csv')
#horse_name = pd.read_csv('data/horse_name_hakodate_11r.csv')
#中京
today_data = pd.read_csv('data/data_today_tyukyo_11r.csv')
horse_name = pd.read_csv('data/horse_name_tyukyo_11r.csv')
#福島
#today_data = pd.read_csv('data/data_today_fukushima_11r.csv')
#horse_name = pd.read_csv('data/horse_name_fukushima_11r.csv')

In [None]:
#先ほど作った前処理関数
df = preprocessing(today_data)
df = drop_columns(df)
df = to_onehot(df)
df = fill_nan(df)

In [None]:
#学習時と同様のカラムを持つデータフレームを作成
df_ = pd.DataFrame([],columns = [c for c in df_after_fill_nan.columns])
df = pd.concat([df_,df])[[c for c in df_after_fill_nan.columns]]
df = df.fillna(0)

In [None]:
x = df.values

## 予測結果の出力

### ランダムフォレスト(分類)

In [None]:
#予測出力
output_classifier = forest_classifier.predict(x)

### ランダムフォレスト(回帰)

In [None]:
#予測出力
output_regressor = forest_regressor.predict(x)

In [None]:
print(ut.course(today_data.ix[0]['コースコード']),today_data.ix[0]['レース番号'],'R')
for i, out_c, out_r in zip(range(len(horse_name)), output_classifier, output_regressor):
    print(str(horse_name.ix[i]['horse_number'])+'番\t'+horse_name.ix[i]['name']+'\t分類器: '+str(out_c)+'\t回帰: '+str(out_r)+'\t予測順位: '+ str(np.where(np.argsort(output_regressor)[::-1] == i)[0][0]+1))
    