# SIVA(シヴァ)AI競馬開発エンジニアによる「競馬で始める機械学習」ハンズオン

## 目標
    機械学習で競馬を予測するAIを作り、本日開催の競馬の予測を行う。

## 本日の流れ
    1- 必要ライブラリの読み込み
    2- データの読み込み
    3- 前処理
    4- 予測アルゴリズムの構築
    5- 本日の競馬の予測



## 1- 必要ライブラリの読み込み

In [1]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import scale
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor

from keras.utils.np_utils import to_categorical
from keras.layers import Activation,Dense
from keras.models import Sequential

from keras.layers.normalization import BatchNormalization

import util as ut

import warnings
warnings.filterwarnings('ignore')

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


## 2- データの読み込み
    2016年~2018年の3年分の過去データ(data_horse_race.csv)を読み込む

In [2]:
df = pd.read_csv('data/data_horse_race.csv')

In [3]:
for c in df.columns:
    print(c,':',df.iloc[0][c])

開催年 : 2016
開催日付 : 105
競馬場コード : 6
開催回次 : 1
開催日目 : 1
レース番号 : 1
枠番 : 1
馬番 : 1
血統番号 : 2013105621
馬名 : プロジェクション
性別 : 2
毛色コード : 3
馬齢 : 3
東西所属コード : 1
調教師コード : 353
斤量 : 540
ブリンカー仕様区分 : 0
騎手コード : 1131
騎手見習いコード : 0
馬体重 : 472
増減符号 : -
増減差 : 2
着順 : 16
走破タイム : 1161
単勝オッズ : 1905
単勝人気 : 14
着差 : 29
グレードコード : nan
競争種別コード : 12
重量種別コード : 3
競争条件コード : 703
距離 : 1200
芝ダート : d
回り方向 : R
コース区分 : nan
本賞金 : 50000
出走頭数 : 16
天気コード : 1
芝馬場 : 0
ダート馬場 : 1
開催年_1走前 : 2015.0
開催日付_1走前 : 1114.0
競馬場コード_1走前 : 3.0
馬番_1走前 : 11.0
斤量_1走前 : 530.0
ブリンカー仕様区分_1走前 : 0.0
騎手コード_1走前 : 1154.0
騎手名_1走前 : 松若風馬
馬体重_1走前 : 474.0
異常区分コード_1走前 : 0.0
着順_1走前 : 14.0
1コーナー順位_1走前 : 0.0
2コーナー順位_1走前 : 0.0
3コーナー順位_1走前 : 9.0
4コーナー順位_1走前 : 10.0
単勝オッズ_1走前 : 290.0
単勝人気_1走前 : 8.0
ラスト3Fタイム_1走前 : 400.0
着差_1走前 : 29.0
グレードコード_1走前 : nan
競争種別コード_1走前 : 11.0
重量種別コード_1走前 : 3.0
距離_1走前 : 1150.0
芝ダート_1走前 : d
回り方向_1走前 : R
競争条件コード_1走前 : 703.0
コース区分_1走前 : nan
本賞金_1走前 : 50000.0
出走頭数_1走前 : 16.0
天気コード_1走前 : 3.0
芝馬場_1走前 : 0.0
ダート馬場_1走前 : 2.0
開催年_2走前 : 2015.0
開催日付_2走前 : 913.0
競馬

## 3- 前処理
    ・不要ファクタの削除
    ・カテゴリカルデータのone-hot値化

### ラベルデータの作成
    今回ラベルは[3着以下,3着以上]と設定する

In [4]:
#着順データを抽出する
target_data = df['着順']

In [5]:
target_data[:15]

0     16
1     10
2     14
3      8
4      5
5     12
6      6
7     15
8      4
9      9
10     2
11     1
12     3
13     7
14    11
Name: 着順, dtype: int64

In [6]:
#着順がN着以内であれば1,3着以上であれば0に変換

#分類分けの閾値を設定
limit_order = 3

target_data = target_data.apply(lambda x:1 if x <= limit_order else 0)

In [7]:
target_data[:15]

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    1
11    1
12    1
13    0
14    0
Name: 着順, dtype: int64

### 不要カラムを削除

In [60]:
#カスタマイズ用前処理プログラム
def preprocessing(df):
    #make_yourself!!
    return df

In [61]:
df = preprocessing(df)

In [8]:
def drop_columns(df):
    #不要カラムのリストを作成しまとめて削除する
    drop_columns_list = []

    #馬を特定する情報を削除
    drop_columns_list.extend(['血統番号','馬名'])

    #レース前にわからないデータを削除リストに追加
    drop_columns_list.extend(['着順','走破タイム','着差'])

    #カテゴリデータであり種類が多いため、取捨選択をよく考える必要がある
    drop_columns_list.extend(['調教師コード','騎手コード'])

    pre_col = ['騎手名','騎手コード']
    for i in range(1,4):
        for c in pre_col:
            drop_columns_list.append(c + '_'+str(i)+'走前')

    #直前発表データのため今回は不使用
    drop_columns_list.extend(['天気コード','芝馬場','ダート馬場','馬体重','増減符号','増減差'])

    df = df.drop(drop_columns_list,axis = 1)
    
    return df

In [9]:
df = drop_columns(df)

### カテゴリカル変数をone-hot値に変更する

In [10]:
def to_onehot(df):
    #カテゴリカル変数のリストを作成しまとめて削除する
    dummies_columns_list = []

    dummies_columns_list.extend(['競馬場コード','性別','毛色コード','東西所属コード',
                            'ブリンカー仕様区分','グレードコード','競争種別コード','重量種別コード',
                            '競争条件コード','芝ダート','回り方向','コース区分'])

    #過去3走分データのカテゴリカル変数
    pre_col = ['競馬場コード', 'ブリンカー仕様区分','異常区分コード','グレードコード'
               ,'競争種別コード','重量種別コード','競争条件コード','芝ダート'
               ,'回り方向','コース区分','天気コード','芝馬場','ダート馬場',]
    for i in range(1,4):
        for c in pre_col:
            dummies_columns_list.append(c + '_'+str(i)+'走前')

    df = pd.get_dummies(data = df,columns = dummies_columns_list)
    
    return df

In [11]:
df = to_onehot(df)

### 空値をカラムの[0,中央値,平均値]などで埋める

In [12]:
def fill_nan(df):
    #空値を0で埋める
    df = df.fillna(0)

    #空値を中央値で埋める
    #df = df.fillna(df.median())

    #空値を平均値で埋める
    #df = df.fillna(df.mean())
    
    return df

In [13]:
df = fill_nan(df)

### 数値を正規化する(ニューラルネットの場合)

In [14]:
def normalize(df):
    for c in df.columns:
        df[c] = scale(df[c].astype('float'))

    return df

In [15]:
df = normalize(df)

### 予測用データの作成

In [16]:
#numpy配列に変換
x = df.values
y = target_data.values

### 訓練とテストにデータを分ける
    分割割合はtest_sizeで指定

In [17]:
data_train , data_test , target_train , target_test = train_test_split(x,y,test_size=0.2)

## 4- 予測アルゴリズムの構築と精度検証

### ランダムフォレスト(分類)

In [18]:
forest_classifier = RandomForestClassifier(min_samples_leaf=3, random_state=0)
forest_classifier.fit(data_train, target_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=3, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=0, verbose=0, warm_start=False)

In [19]:
print('Train score: {}'.format(forest_classifier.score(data_train, target_train)))
print('Test score: {}'.format(forest_classifier.score(data_test, target_test)))

Train score: 0.933055650979045
Test score: 0.8028683069260166


In [20]:
#テストデータの内10件の予測結果
output = forest_classifier.predict(data_test)
for (t,o) in zip(target_test[:10],output[:10]):
    print('target : ',t,'predict : ',o)

target :  0 predict :  0
target :  1 predict :  1
target :  0 predict :  0
target :  0 predict :  0
target :  0 predict :  0
target :  0 predict :  0
target :  0 predict :  0
target :  0 predict :  0
target :  1 predict :  0
target :  0 predict :  0


### ランダムフォレスト (回帰)

In [43]:
forest_regressor = RandomForestRegressor(min_samples_leaf=3, random_state=0)
forest_regressor.fit(data_train, target_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=3, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=0, verbose=0, warm_start=False)

In [44]:
print('Train score: {}'.format(forest_regressor.score(data_train, target_train)))
print('Test score: {}'.format(forest_regressor.score(data_test, target_test)))

Train score: 0.7385313718248465
Test score: 0.16431632872984578


In [45]:
#テストデータの内10件の予測結果
output = forest_regressor.predict(data_test)
for (t,o) in zip(target_test[:10],output[:10]):
    print('target : ',t,'predict : ',o)

target :  [1. 0.] predict :  [0.9 0.1]
target :  [0. 1.] predict :  [0.44142857 0.55857143]
target :  [1. 0.] predict :  [0.96666667 0.03333333]
target :  [1. 0.] predict :  [0.85333333 0.14666667]
target :  [1. 0.] predict :  [0.75 0.25]
target :  [1. 0.] predict :  [0.6 0.4]
target :  [1. 0.] predict :  [0.63134921 0.36865079]
target :  [1. 0.] predict :  [0.9 0.1]
target :  [0. 1.] predict :  [0.55 0.45]
target :  [1. 0.] predict :  [0.78333333 0.21666667]


### ニューラルネット

In [22]:
model = Sequential()
model.add(Dense(400, input_dim=len(x[0])))
model.add(Activation('relu'))
model.add(BatchNormalization())
model.add(Dense(300))
model.add(Activation('relu'))
model.add(BatchNormalization())
model.add(Dense(200))
model.add(Activation('relu'))
model.add(BatchNormalization())

model.add(Dense(2))
model.add(Activation('softmax'))
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [23]:
target_train = to_categorical(target_train)
target_test = to_categorical(target_test)

In [24]:
model.fit(data_train, target_train, batch_size=100, epochs=5, verbose=1,validation_data= (data_test,target_test))

Train on 93152 samples, validate on 23289 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1a2357d048>

In [25]:
output = model.predict(data_test)

In [26]:
for (t,o) in zip(target_test[:15],output[:15]):
    print('target : ',t,'predict : ',o)

target :  [1. 0.] predict :  [0.9112642  0.08873575]
target :  [0. 1.] predict :  [0.34412786 0.65587217]
target :  [1. 0.] predict :  [0.99496585 0.00503411]
target :  [1. 0.] predict :  [0.99058235 0.00941769]
target :  [1. 0.] predict :  [0.71277124 0.28722876]
target :  [1. 0.] predict :  [0.6245301  0.37546992]
target :  [1. 0.] predict :  [0.81490105 0.1850989 ]
target :  [1. 0.] predict :  [0.60501856 0.3949814 ]
target :  [0. 1.] predict :  [0.6490925  0.35090753]
target :  [1. 0.] predict :  [0.8052052  0.19479473]
target :  [1. 0.] predict :  [0.9126928  0.08730717]
target :  [0. 1.] predict :  [0.29109105 0.708909  ]
target :  [1. 0.] predict :  [0.9329755  0.06702459]
target :  [1. 0.] predict :  [0.97678655 0.02321337]
target :  [1. 0.] predict :  [0.9644849  0.03551515]


## 5- 本日の競馬の予測

In [27]:
#本日開催の競馬データの読み込み
today_data = pd.read_csv('data/today_data_test.csv')

In [28]:
#過去データの読み込み
df = pd.read_csv('data/data_horse_race.csv')

In [29]:
today_data

Unnamed: 0,開催年,開催日付,競馬場コード,開催回次,開催日目,レース番号,枠番,馬番,血統番号,馬名,...,同騎手3着内回数,今回競馬場経験数,今回距離1着回数,今回距離3着内回数,今回斤量経験回数,今回グレード経験数,短距離経験回数,マイル経験回数,中距離経験回数,長距離経験回数
0,2018,527,5,2,12,10,1,1,2015102367,ダノンプレミアム,...,4,1,0,0,0,1,0,2,2,4
1,2018,527,5,2,12,10,1,2,2015104107,タイムフライヤー,...,0,0,0,0,1,2,0,0,7,7
2,2018,527,5,2,12,10,2,3,2015100122,テーオーエナジー,...,2,0,0,0,0,0,0,0,4,4
3,2018,527,5,2,12,10,2,4,2015104713,アドマイヤアルバ,...,0,0,0,0,0,0,0,5,4,9
4,2018,527,5,2,12,10,3,5,2015104987,キタノコマンドール,...,0,0,0,0,1,1,0,0,3,3
5,2018,527,5,2,12,10,3,6,2015106299,ゴーフォザサミット,...,2,3,1,1,0,0,0,0,5,6
6,2018,527,5,2,12,10,4,7,2015105021,コズミックフォース,...,0,3,0,0,0,0,0,0,5,5
7,2018,527,5,2,12,10,4,8,2015104882,ブラストワンピース,...,3,2,1,1,0,0,0,0,2,3
8,2018,527,5,2,12,10,5,9,2015105033,オウケンムーン,...,3,1,0,0,1,1,0,0,5,5
9,2018,527,5,2,12,10,5,10,2015104287,ステイフーリッシュ,...,0,1,0,0,0,1,0,0,4,4


In [30]:
#あとで予測対象データを取り出しやすいようindexを変更する
today_data.index = [i+1000000 for i in range(len(today_data))]

In [31]:
#前処理のため過去データを連結する
df = pd.concat([df,today_data])

In [32]:
#先ほど作った前処理関数
df = preprocessing(df)
df = drop_columns(df)
df = to_onehot(df)
df = fill_nan(df)
df = normalize(df)

In [33]:
#予測対象データを取り出す
df = df.ix[1000000:]

In [34]:
x = df.values

## 予測結果の出力

### ランダムフォレスト(分類)

In [52]:
#予測出力
output = forest_classifier.predict(x)

In [54]:
print(ut.course(today_data.iloc[0]['競馬場コード']),today_data.iloc[0]['レース番号'],'R')
for (t,o) in zip(today_data[['馬番','馬名']].values,output):
    print(str(t[0])+'番\t' + t[1] +'\t' +str(o))

東京 10 R
1番	ダノンプレミアム	0
2番	タイムフライヤー	0
3番	テーオーエナジー	0
4番	アドマイヤアルバ	0
5番	キタノコマンドール	1
6番	ゴーフォザサミット	0
7番	コズミックフォース	0
8番	ブラストワンピース	0
9番	オウケンムーン	0
10番	ステイフーリッシュ	0
11番	ジャンダルム	0
12番	エポカドーロ	0
13番	グレイル	0
14番	エタリオウ	0
15番	ステルヴィオ	0
16番	ジェネラーレウーノ	0
17番	ワグネリアン	1
18番	サンリヴァル	0


### ランダムフォレスト(回帰)

In [56]:
#予測出力
output = forest_regressor.predict(x)

In [57]:
print(ut.course(today_data.iloc[0]['競馬場コード']),today_data.iloc[0]['レース番号'],'R')
for (t,o) in zip(today_data[['馬番','馬名']].values,output):
    print(str(t[0])+'番\t' + t[1] +'\t' +str(o[1]))

東京 10 R
1番	ダノンプレミアム	0.30095238095238097
2番	タイムフライヤー	0.09523809523809523
3番	テーオーエナジー	0.13333333333333333
4番	アドマイヤアルバ	0.16
5番	キタノコマンドール	0.3571428571428571
6番	ゴーフォザサミット	0.1
7番	コズミックフォース	0.34833333333333333
8番	ブラストワンピース	0.395
9番	オウケンムーン	0.14785714285714285
10番	ステイフーリッシュ	0.0
11番	ジャンダルム	0.07083333333333333
12番	エポカドーロ	0.6833333333333333
13番	グレイル	0.03333333333333333
14番	エタリオウ	0.0
15番	ステルヴィオ	0.20952380952380953
16番	ジェネラーレウーノ	0.1
17番	ワグネリアン	0.6766666666666666
18番	サンリヴァル	0.09166666666666666


### ニューラルネット

In [58]:
#予測出力
output = model.predict(x)

In [59]:
print(ut.course(today_data.iloc[0]['競馬場コード']),today_data.iloc[0]['レース番号'],'R')
for (t,o) in zip(today_data[['馬番','馬名']].values,output):
    print(str(t[0])+'番\t' + t[1] +'\t' +str(o[1]))

東京 10 R
1番	ダノンプレミアム	0.58553624
2番	タイムフライヤー	0.0074570077
3番	テーオーエナジー	0.0025859242
4番	アドマイヤアルバ	0.008786673
5番	キタノコマンドール	0.33953658
6番	ゴーフォザサミット	0.2332467
7番	コズミックフォース	0.010157589
8番	ブラストワンピース	0.33789623
9番	オウケンムーン	0.0068886005
10番	ステイフーリッシュ	0.040912703
11番	ジャンダルム	0.021113275
12番	エポカドーロ	0.40321103
13番	グレイル	0.042560786
14番	エタリオウ	0.025614439
15番	ステルヴィオ	0.07716038
16番	ジェネラーレウーノ	0.03089395
17番	ワグネリアン	0.32703662
18番	サンリヴァル	0.01752369
