# 競馬データ取得プログラム(Python)

## はじめに
競馬の結果を予測するプログラムを作成しました。  
AIを作成するためには大量のデータが必要ですそのデータを取得するためには色々な方法がありますが  
その中でWebスクレイピングを使用して競馬過去のデータを取得していきました。  
今回は主にそのWebスクレイピングの技術について発表したいと思います。  
  

今回データを取得するサイト  
https://www.netkeiba.com/
  
  


  

# 1 クローリングとスクレイピングについて


## 1.1 クローリングとスクレイピングの定義

### クローリング 
Webページのハイパーリンクをたどって次々にWebページをダウンロードする作業。
### スクレイピング 
ダウンロードしたWebページから必要な情報を抜き出す作業。

## 1.2 クローリング・スクレイピングの方法
### プログラミング言語  
- python,PHP,java,C,Ruby
- シェルスクリプト(Unixコマンド)

### Webスクレイピングツール  
- ExcelやSpreadSheet  
- Octoparse   
- Scraper  

## 1.3 クローリング・スクレイピングでPythonを使うメリット
### 言語自体の特性  
読みやすく書きやすいPHP、Java、C / C ++と比べ、Pythonは最も簡単  
Pythonはプログラムを書いたらすぐに実行することができる対話型  
### 強力なライブラリの存在  
世界中の開発者が数多くのライブラリを公開しており、簡単に使うことができる  
lxmlやBeautifulSoupは有名なスクレイピングライブラリがある。  
### スクレイピング後の処理との親和性  
データ分析においてもPythonには優秀なライブラリのpandasなどが揃っている
Pythonでは数値計算や科学技術計算の分野で古くからNumPyやSciPyといったライブラリが有名　　
  
## 1.4 今回紹介するライブラリ
### Beautiful Soup 
シンプルかつわかりやすいAPIでデータを抜き出せるのが特徴で、古くから人気のあるライブラリです。  
内部のパーサーを目的に応じて切り替えられます。
### Selenium   
ブラウザーを自動操作するためのライブラリです。  
Pythonの他にJavaやJavaScriptなど様々な言語に対応しています。  
ブラウザーベンダーがWebDriverAPIを実装するドライバーを用意しており、これを経由して操作します。



# 2 Pythonの基礎知識
## 2.1 python実行方法
### インタラクティブシェルの使用
pythonコマンドを引数なしで実行すると、インタラクティブシェルが起動します。  
pythonのコードを対話的に実行できるので、ライブラリの使い方の確認などに便利です。

### スクリプトファイルの実行と構成
pythonのスクリプトは.pyという拡張子のファイルに保存します。  
pythonコマンドにpyファイルのpathを引数として渡すとスクリプトファイルを実行されます。

### Jupyter Notebook
ノートブックと呼ばれるファイルにプログラムや説明の文章、実行結果などをまとめて管理できるます。  
データ分析用のツールです。

In [None]:
# ソースコードを記述し、Shift+Enterで実行できます。
print(1+2)

このように、Jupyter Notebookでは、セルごとにソースコードを記述して、実行を行うことができます。  
実行結果はすぐ下に表示され、何度でも再実行できます。  
また、Jupyter Notebookでは、ノートブックにグラフを表示することもできます。

In [None]:
import matplotlib.pyplot as plt

price = [100, 250, 380, 500, 700]
number = [1, 2, 3, 4, 5]

# グラフを書く
plt.plot(price, number)

# グラフのタイトル
plt.title("price / number")

# x軸のラベル
plt.xlabel("price")

# y軸のラベル
plt.ylabel("number")

# 表示する
plt.show()

ソースコードと説明の文章、実行結果をまとめて保存しておくことができるので  
データ分析を試行錯誤しながら行うことがとても簡単に行うことができます。

## 2.2 python基本文法

### 2.2.1 データ構造 
Pythonでは数値、文字列、リスト、辞書などの基本的なデータ構造を手軽に扱えます。

#### 数値
整数と実数の基本的な四則演算が行えます。

In [None]:
a = 1
type(a) #整数はint型。type()関数でオブジェクトの型を確認

In [None]:
b = 3.14
type(b)#実数はfloat型。

In [None]:
print(1+1)

In [None]:
print(14/3)

In [None]:
print(14//3)

In [None]:
print(14%3)

#### 文字列
Unicode文字列を表すstr型とバイト列を表すbytes型があります。  
文字列操作は基本的にstr型で行い、ファイルやネットワーク越しのデータの読み書きなど  
Python以外との境界でbytes型に変換します。

In [None]:
type('abc')#文字列はstr型。<class'str'>  文字列は'または"で囲う。

In [None]:
print('abc\n123')#\nは改行文字

#### リスト 

複数の値の列をひとまとめに扱うためのデータ型としてリスト(list)があります。  
リストは文字列と同じく順序を持ち反復可能な型（シーケンスと呼ばれる）であり  
同様の操作をサポートしています。他の言語では配列やArrayと呼ばれるデータ型に対応します。

In [None]:
l = []
type(l) #[]でリスト（list型）を得る。

In [None]:
l = [1, 2, 3] #値はカンマで区切る。
print(l)

In [None]:
l = [1, 2, 'Three',4.0] #任意のオブジェクトを要素として含められる。
print(l)

In [None]:
print(l[0])#[n]でn番目の要素を取得する。
print(l[2])

In [None]:
print(l[1:3])

In [None]:
print(len(l)) # len()関数でリストの長さを取得する。

In [None]:
l = l + [5,6]#+演算子でリスト同士を結合したリストを得る。
print(l)

In [None]:
l.append(7)#append()メソッドで値を末尾に追加する。
print(l)

In [None]:
l.insert(1,1.5)#insert()メソッドで第1引数のインデックスに第2引数の値を挿入する。
print(l)

In [None]:
del l[1]#del文で指定したインデックスの要素を削除する。
print(l)

In [None]:
l.pop(0)#pop()で指定したインデックスの要素を取得し、リストから削除する。

In [None]:
print(l)

In [None]:
s = 'a,b,c'
l = s.split(',')#,で区切りそれぞれリストに入れる
print(l)

In [None]:
s = ','.join(['a','b','c'])#str型のjoin()メソッドでリストを結合した文字列を得る。
print(s)

### 2.2.2 制御構造と関数・クラス定義

Pythonではインデントが大きな意味を持ちます。  
Pythonでは読みにくくなることを避けるため  
正しくインデントされていないブロックがあるとIndentationErrorというエラーになり実行できません。  
インデントを増やす直前の行の末尾には:（コロン）を置きます  
制御構造文と関数・クラス定義を書く際に必要になってきます。


#### if文

In [None]:
a = 5 # if 文 で 処理 を 分岐 できる。 
if a == 1:
    print('aは1') # if 文 の 式 が 真 の とき に 実行 さ れる。
elif a == 2:
    print('aは2') # elif 節 の 式 が 真 の とき に 実行 さ れる（ elif 節 は なく ても 良い）。 
else:
    print('aは1でも2でもない') # どの 条件 にも 当てはまら なかっ た とき に 実行 さ れる（ else 節 は なく ても 良い

![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/1.png?raw=true)

#### for文とwhile文による繰り返し処理

In [None]:
for i in range(10):#回数を指定した繰り返しには組み込み関数range()を使う。
    print(i)

In [None]:
#変数iにinの右側のリストの要素が順に代入されて、ブロック内の処理が計7回実行される。
l = [1, 2, 'Three', 4.0, 5, 6, 7]
for i in l:
    print(i)

In [None]:
i = 1
while i<10:#while文で式が真の間繰り返し処理する。
    print(i)
    i+=1

#### 関数定義

In [None]:
#addという名前の関数を定義する。この関数はaとbの2つの引数を取り、加算した値を返す。 
def add(a,b):
    return a + b #return文で関数の戻り値を返す。 

In [None]:
a = add(1,2)#関数の呼び出しは、関数名の後に括弧で引数を指定する。
print(a)#3と表示される。 

#### クラス定義

In [None]:
#Squareという名前のクラスを定義する。 
class Square:
    #インスタンスが作成された直後に呼び出される特殊なメソッドを定義する(コンストラクタ)
    def __init__(self, width, height):
        self.width = width # width 属性 に 値 を 格納 する
        self.height = height # height 属性 に 値 を 格納 する。
    # 面積 を 計算 する メソッド を 定義 する。 
    def area(self):
        return self.width*self.height

In [None]:
square=Square(100,20)#Rectクラスのインスタンスを作成する。newなどのキーワードは不要。
print(type(square))
print(square.width) 
print(square.height)
print(square.area())

#### 組み込み関数  

Pythonにはいくつかの組み込み関数が存在し、特に宣言せずに使えます。  
これまでに使ったprint()関数やlen()関数も組み込み関数です。  

#### 代表的な組み込み関数
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/2.png?raw=true)

#### モジュール  
Pythonには豊富な標準ライブラリが付属しています。Pythonのライブラリはモジュールと呼ばれる単位で管理されます  
モジュールには複数のクラスや関数が含まれます。  
  
  
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/3.png?raw=true)

#### ライブラリインストール

PyPIで公開されているライブラリのインストールにはpipというツールを使用します
  
pip install ライブラリ 名 でインストールできます



In [None]:
!pip install requests

#### インポート文

ライブラリをインポートして利用可能にします　　

In [None]:
from datetime import datetime
date = datetime.now()
print(date)

# 3 スクレピング・クローリング実践 

## 3.1 スクレピング・クローリング注意事項
### 3.1.1 著作権について
著作物は著作権法によって保護されます。著作権法第2条では  
著作物の要件が「思想又は感情を創作的に表現したものであつて  
文芸、学術、美術又は音楽の範囲に属するもの」と定められています。  
Webページは基本的に著作物であると考えられるます。  
#### スクレピング・クローリングにおいて注意が特に必要な権利
- 複製権：収集したWebページを保存する権利
- 翻案権：収集したWebページから新たな著作物を創造する権利
- 公衆送信権：収集したWebページをサーバーから公開する権利  
  　 
これらの行為には基本的に著作権者の許諾が必要ですが、私的使用の範囲内の複製など、  
使用目的によっては著作権者の許諾なく自由に行うことが認められています。  
情報解析を目的とした複製や検索エンジンサービスの提供を目的とした複製・翻案・自動公衆送信が、  
著作権者の許諾なく行えるようになっています  

#### 利用についての一定の条件
- 会員のみが閲覧可能なサイトのクロールには著作権者の許諾が必要なこと
- robots.txtやrobotsmetaタグで拒否されているページをクロールしないこと
- クロールした後に拒否されたことがわかった場合は保存済みの著作物を消去すること
- 検索結果では元のWebページにリンクすること検索結果として表示する著作物は必要と認められる限度内であること
- 違法コンテンツであることを知った場合は公衆送信をやめること

### 3.1.2 サーバーの負荷
クローラーを実行する際には、クロール先のWebサイトの負荷を考慮する必要があります。  
あなたのクローラーがWebサーバーの処理能力の多くを占めてしまうと、  
他の人がそのWebサイトを閲覧できなくなってしまいます。  
商用サイトの場合は、業務妨害となる可能性もあります。
#### 同時接続数
1つのWebサーバーが同時に処理できる接続数は限られているので、  
同時接続数を増やすと、それだけあなたのクローラーがWebサーバーの処理能力を専有してしまいます。  
出来るだけ数を少なくし処理が終わったら接続を切るようにする。

#### リクエスト間隔
間隔を空けずに次々とWebページを取得すると相手のサーバーに負荷をかけます。  
常識的なクロールの間隔1秒以上を入れることが望ましいと考えられています。
### 3.1.3　robots.txtによる指示
robots.txtはWebサイトのトップディレクトリに配置されるテキストファイルです。  
例えば、https://www.python.org/ のrobots.txt は https://www.python.org/robots.txt に置かれます。  
robots.txtの中身はRobotsExclusionProtocolとして標準化されており、  
GoogleやBingなど主要な検索エンジンのクローラーはこの標準に従っていると表明しています。  
robots.txtが存在しない場合は、すべてのページのクロールが許可されているとみなします。
#### robots.txtのパース  
Pythonの標準ライブラリのurllib.robotparserにはrobots.txtをパースするためのRobotFileParserクラスが含まれています。次のようにrobots.txtを簡単に扱えます。


In [None]:
from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('https://www.netkeiba.com/robots.txt')#set_url()でrobots.txtのURLを設定する。
rp.read()# read() で robots. txt を 読み込む。 

In [None]:
print(rp.crawl_delay('*'))#クロール間隔表す。

数値またはNoneが返される  
返された値が数値ならばその秒数分間隔をあけなければならない  
今回はNoneであるのでクロール間隔についての指示はない

In [None]:
#そのURLのクロールが許可されているかどうかを取得できる。
print(rp.can_fetch('*',"https://db.netkeiba.com/horse/2017101835/"))

True または Falseが返されます  
Trueならばクロールが許可されている  
Falseならばクロールは許可されていません

## 3.2 スクレピング・クローリングでデータを取得

### 3.2.1 RequestsによるWebページの取得
Webページを取得するには、ライブラリのRequestsを使います。  
HTTPヘッダーの追加やBasic認証など面倒な処理もRequestsには簡単に使えるインターフェイスが用意されています。 

In [None]:
!pip install requests

In [None]:
import requests#ライブラリをインポートして利用可能にする。

In [None]:
response = requests.get('https://db.netkeiba.com/race/202006030811.html')#get()関数でWebページを取得できる。

In [None]:
print(type(response))#get()関数の戻り値はResponseオブジェクト。

In [None]:
print(response.status_code)#status_code属性でHTTPステータスコードを取得できる。

In [None]:
print(response.headers['content-type'])#headers属性でHTTPヘッダーの辞書を取得できる。

In [None]:
print(response.encoding)#encoding属性でHTTPヘッダーから得られたエンコーディングを取得できる。

In [None]:
response.text#text属性でstr型にデコードしたレスポンスボディを取得できる。

In [None]:
response.encoding = response.apparent_encoding #エンコードを変更

In [None]:
response.text

### 3.2.2 BeautifulSoupによるスクレイピング
#### 基本文法

In [None]:
!pip install beautifulsoup4

In [None]:
from bs4 import BeautifulSoup #bs4モジュールからBeautifulSoupクラスをインポートする。 
soup = BeautifulSoup(response.text, 'html.parser')# 

In [None]:
soup

In [None]:
print(type(soup))

In [None]:
soup.find("a")#タグ名の属性でh1要素を取得できる。一番先頭のタグのみ

In [None]:
print(type(soup.find("a").get_text))#要素はTagオブジェクト。

In [None]:
soup.find_all("a")#h1タグのすべての要素を取得できます

In [None]:
print(type(soup.find_all("a")))

In [None]:
rs = soup.find_all("a")
#list型と同様に扱えます
print(len(rs))
print(rs[3])


In [None]:
soup.find("a").name#Tagオブジェクトのname属性でタグ名を取得できる。 

In [None]:
soup.find("a").contents#contents属性で子要素（NavigableStringを含む）のリストを取得できる。

In [None]:
soup.find("div")

In [None]:
soup.div.get_text()

In [None]:
type(soup.h1.text)#text属性で得られる文字列はstrオブジェクト。<class'str'>

In [None]:
soup.find("div", class_="data_intro")#キーワード引数でclassなどの属性を指定できる。classは予約語なのでclass_を使うこと

In [None]:
soup.find("div", class_="data_intro").get_text()#text属性で要素内のすべての文字列を結合した文字列を取得できる。

In [None]:
print(type(soup.find("div", class_="data_intro").get_text()))

#### 目的の値をスクレイピングするまでの流れ  
  
  
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/4.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/5.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/6.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/7.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/8.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/9.png?raw=true)

目的の数値はclass属性が"race_table_01 nk_tb_common"のtableタグで囲まれた二番目のtrタグのにあります  
更にそのtrタグのに囲まれた１番目のaタグのにあります

In [None]:
response = requests.get('https://db.netkeiba.com/race/202006030811.html')
response.encoding = response.apparent_encoding 
html = response.text
soup = BeautifulSoup(html, 'html.parser')# 

In [None]:
soup_table = soup.find("table", class_="race_table_01 nk_tb_common")#class属性が"race_table_01 nk_tb_common"のtableタグ取得
soup_table 

In [None]:
soup_tr = soup_table.find_all('tr')[1]#二番目のtrタグ取得
soup_tr

In [None]:
soup_a = soup_tr.find("a")#１番目のaタグを取得

In [None]:
soup_a.get_text()#タグの中のテキストを取得

In [None]:
soup.find("table", class_="race_table_01 nk_tb_common").find_all("tr")[1].find("a").get_text()

### 3.2.3 Seleniumによるスクレイピング
Seleniumはブラウザーを自動操作するためのライブラリです。  
Pythonの他にJavaやJavaScriptなど様々な言語に対応しています。  
元々はWebアプリケーションの自動テストツールとして発展しました。ブラウザーベンダーがWebDriverAPIを実装するドライバーを用意しており、これを経由して操作します。  
  

![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/10.png?raw=true)

#### WindowsでSeleniumを動かすまでの手順
- seleniumをインストール
- Chromeのバージョン確認
- seleniumからブラウザ（Chrome）を操作するためのドライバーをダウンロード

seleniumをインストール

In [None]:
!pip install selenium

Chromeのバージョン確認  

「設定→ヘルプ→Google Chromeについて」を開くとバージョンが表示されます。  
  


![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/11.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/12.png?raw=true)

In [None]:
seleniumからブラウザ（Chrome）を操作するためのドライバーをインストール


In [None]:
!pip install chromedriver-binary==81.0.4044.122##先ほど確認したバージョンをインストールします

In [None]:
!pip install chromedriver-binary==81.0.4044.20.0#指示したバージョンがないので81のどれかをインストール

In [None]:
from selenium import webdriver#webdriverをインポート
import chromedriver_binary#実行可能ファイルがPATHに追加され検出されます。バイナリのファイル名はchromedriver_filenameに保存されます。
driver = webdriver.Chrome()

以下のようにChromeブラウザが表示されれば成功です。  
  
  
  

![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/13.png?raw=true)

#### Colaboratory上でseleniumを動かす場合

In [None]:
!apt-get update #パッケージリストの更新
!apt install chromium-chromedriver #ドライバーをダウンロード
!cp /usr/lib/chromium-browser/chromedriver /usr/bin#chromedriverを/usr/binにコピー
!pip install selenium#seleniumインストール

In [None]:
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import chromedriver_binary

options = Options()
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver',options=options)


In [None]:
from selenium import webdriver
import chromedriver_binary

 
driver = webdriver.Chrome()

#### seleniumの基本文法
##### 待ち時間の設定

In [None]:
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select,WebDriverWait
wait = WebDriverWait(driver,10)#指定したdriverに対して最大で10秒間待機する
URL = "https://db.netkeiba.com/?pid=race_search_detail"
driver.get(URL)
wait.until(EC.presence_of_all_elements_located)#すべての要素が表示されるまで待ち先ほど指定した10秒間待機する

##### 要素の取り出し  
find_element_by_XXXXXXXで一番上の要素を取得出来ます。  
例）  
find_element_by_id  
find_element_by_name  
find_element_by_xpath  
find_element_by_link_text  
find_element_by_partial_link_text  
find_element_by_tag_name  
find_element_by_class_name  
find_element_by_css_selector 

  
   
find_elements_by_XXXXXXXですべての要素を取得出来ます。 

In [None]:
div_element = driver.find_element_by_tag_name("div")#一番上のdivタグの要素を取得
print(div_element)

In [None]:
div_elements = driver.find_elements_by_tag_name("div")
print(type(div_elements))
print(div_elements)

##### テキストの取り出し

<div class="search_detail_submit">
<input type="submit" value="検索" class="button" />　<input type="reset" value="クリア" class="button" />
<p>
※1956年以降の中央競馬のレース結果が対象です。<br />
※チェックのない場合は、すべて選択となります。<br />
※馬齢・賞金は現在の表記にて統一しています。<br />
※重賞は障害競走(JG1など)を含みます。<br />
※距離は範囲指定、距離選択両方を記入した場合はand検索となります。
</p>
</div>

In [None]:
search_e = driver.find_element_by_class_name("search_detail_submit")#
print(search_e)
search_p_e = search_e.find_element_by_tag_name("p")
text = search_p_e.text#要素のなかのテキストを取得します
print(text)

##### チェックボックスの操作

<input type="checkbox" name="jyo[]" value="01" class="check" id="check_Jyo_01"  /><label for="check_Jyo_01">札幌</label>　

In [None]:
check_Jyo_01_element = driver.find_element_by_id("check_Jyo_01")
check_Jyo_01_element.click()#inputタグのチェックボックスをクリックできます

##### テキストボックスに入力

<input type="text" name="kyori_min" size="10" class="field_2" value="">
<input type="text" name="kyori_max" size="10" class="field_2" value="">

In [None]:
kyori_min = driver.find_element_by_name("kyori_min")
kyori_min.send_keys("1000")
kyori_max = driver.find_element_by_name("kyori_max")
kyori_max.send_keys("1500")

##### セレクトボックスの選択

<select name="list" class="field">
<option value="20" selected>20</option><option value="50" >50</option><option value="100" >100</option>
</select>

In [None]:
list_element = driver.find_element_by_name('list')
list_select = Select(list_element)#Selectタグ用のクラス　インスタンスを生成
list_select.select_by_value("100")#100を選択

##### submitする

In [None]:
list_element.submit()

# 4 データ処理

## 4.1 データ処理の流れ  
- 要らない文字列や数値を削除データをきれいにする
- 既存のデータから新しいデータの作成・分析
- 文字列を数値にする


## 4.2 今回紹介するライブラリ
### pandas 
pandasはPythonのライブラリの1つでデータを効率的に扱うために開発されたものです。例えばcsvファイルなどの基本的なデータファイルを読み込み、追加や、修正、削除、など様々な処理をすることができます。

## 4.3 pandasのデータ構造
1次元のデータを扱うSeriesや2次元のデータを扱うDataframeといった主要なデータ構造を備えています。


#### インストール

In [None]:
!pip install pandas

#### インポート

In [None]:
import pandas as pd#asを使用することで名前を変更できる（慣例的にpdでインポートする）

#### 1次元のデータを扱うSeries

In [None]:
l = [1, 2, 3]
se = pd.Series(l)
se

In [None]:
index_l = ["a", "b", "c"]
se = pd.Series(l, index=index_l)
se

In [None]:
#seriesのインデックスを取得
print(type(se.index))
print(se.index)
#seriesの値を取得
print(type(se.values))
print(se.values)

#### 2次元のデータを扱うDataframe

In [None]:

columns = ["id", "a", "b", "c"]
index = ["A", "B", "C", "D"]
values_A = [1, 1, 2, 3]
values_B = [2, 0.1, 0.2, 0.3]
values_C = [3, 4, 5, 6]
values_D = [4, 0.4, 0.5, 0.36]
se_A = pd.Series(values_A, index=columns)
se_B = pd.Series(values_B, index=columns)
se_C = pd.Series(values_C, index=columns)
se_D = pd.Series(values_D, index=columns)
df = pd.DataFrame([se_A, se_B, se_C, se_D], index=index)

In [None]:
df#Seriesでのインデックスがカラムになります

In [None]:
print(type(df.index))
print(df.index)
print(type(df.columns))
print(df.columns)
print(type(df.values))
print(df.values)

## 4.4 CSVの保存と読み取り

In [None]:
df.to_csv("./csv/test.csv",index=True)

In [None]:
csv_df = pd.read_csv("./csv/test.csv", index_col=0 )

In [None]:
csv_df

## 4.5 データ処理実践

In [None]:
race_df = pd.read_csv("./csv/race.csv")

In [None]:
race_df

### 要らないデータを削除

In [None]:
race_df = race_df.drop(['race_title'], axis=1)#columnを指定し列を削除axis=1は列を削除することを指定）

In [None]:
race_df

In [None]:
print(race_df.shape)#データの形を確認

In [None]:
race_df['weather']#columnを指定し列を取得する

In [None]:
race_df['weather'].unique()#ユニークな要素だけを取得する

In [None]:
race_df['weather'] = race_df['weather'].str.strip('天候 : ')#strで文字列のを操作することができる　stripで指定した文字列を削除
race_df["weather"]

###  文字列を数値にする

In [None]:
race_df = pd.get_dummies(race_df, columns=["weather"])

In [None]:
race_df

# 5 今回作成したプログラム

## 5.1 プログラムの構造
### データ取得のプログラム
1. レース情報の検索画面をseleniumで自動操作しレース情報があるサイトのURLを取得
2. 取得したURLにリクエストを送りHTMLを取得します
3. HTMLからBeautifulSoupからを使用しレース情報と馬のデータを取得しCSVに保存する

### データ処理のプログラム
1. 余分な文字列を数値を削除
2. 過去の馬データを一つのデータにまとめる（５レース分）
3. レースデータと馬データを一つのデータにまとめる

## 5.2 データ取得プログラム実践

#### seleniumで自動操作しレース情報があるサイトのURLを取得

In [None]:
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select,WebDriverWait
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import chromedriver_binary
import sys
import re
import csv
import time

def get_urls(year, mon):
    urls = []
    options = Options()
    options.add_argument('--headless')
    ###
    #Colaboratory上でseleniumを動かす場合のみ実行
    #options = webdriver.ChromeOptions()
    #options.add_argument('--headless')
    #options.add_argument('--no-sandbox')
    #options.add_argument('--disable-dev-shm-usage')
    #driver = webdriver.Chrome('chromedriver',options=options)
    ####
    driver = webdriver.Chrome() #Colaboratory上でseleniumを動かす場合この行をコメントアウト
    wait = WebDriverWait(driver,10)
    URL = "https://db.netkeiba.com/?pid=race_search_detail"
    driver.get(URL)
    time.sleep(1)
    wait.until(EC.presence_of_all_elements_located)


    start_year = year
    start_mon = mon
    end_year = year
    end_mon = mon

    start_year_element = driver.find_element_by_name('start_year')
    start_year_select = Select(start_year_element)
    start_year_select.select_by_value(str(start_year))
    start_mon_element = driver.find_element_by_name('start_mon')
    start_mon_select = Select(start_mon_element)
    start_mon_select.select_by_value(str(start_mon))
    end_year_element = driver.find_element_by_name('end_year')
    end_year_select = Select(end_year_element)
    end_year_select.select_by_value(str(end_year))
    end_mon_element = driver.find_element_by_name('end_mon')
    end_mon_select = Select(end_mon_element)
    end_mon_select.select_by_value(str(end_mon))

    for i in range(1,11):
        terms = driver.find_element_by_id("check_Jyo_"+ str(i).zfill(2))
        terms.click()
    
    list_element = driver.find_element_by_name('list')
    list_select = Select(list_element)
    list_select.select_by_value("100")

    frm = driver.find_element_by_css_selector("#db_search_detail_form > form")
    frm.submit()
    wait.until(EC.presence_of_all_elements_located)
    while True:
        wait.until(EC.presence_of_all_elements_located)
        all_rows = driver.find_element_by_class_name('race_table_01').find_elements_by_tag_name("tr")
        for row in range(1, len(all_rows)):
            race_href=all_rows[row].find_elements_by_tag_name("td")[4].find_element_by_tag_name("a").get_attribute("href")
            urls.append(race_href)
        try:
            target = driver.find_elements_by_link_text("æ¬¡")[0]
            time.sleep(4)
            driver.execute_script("arguments[0].click();", target)
        except IndexError:
            break
    return urls


In [None]:
year =2020
mon = 1
urls = get_urls(year, mon)#2020年１月分のURL取得
urls

#### 取得したURLからサイトのデータを取得しCSVに保存する

In [None]:
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import os
import requests
import time


race_data_columns=[
    'race_id',
    'race_round',
    'race_title',
    'race_course',
    'weather',
    'ground_status',
    'time',
    'date',
    'where_racecourse',
    'total_horse_number',
    'frame_number_first',
    'horse_number_first',
    'frame_number_second',
    'horse_number_second',
    'frame_number_third',
    'horse_number_third',
    'tansyo',
    'hukusyo_first',
    'hukusyo_second',
    'hukusyo_third',
    'wakuren',
    'umaren',
    'wide_1_2',
    'wide_1_3',
    'wide_2_3',
    'umatan',
    'renhuku3',
    'rentan3'
    ]

horse_data_columns=[
    'race_id',
    'rank',
    'frame_number',
    'horse_number',
    'horse_id',
    'sex_and_age',
    'burden_weight',
    'rider_id',
    'goal_time',
    'goal_time_dif',
    'time_value',
    'half_way_rank',
    'last_time',
    'odds',
    'popular',
    'horse_weight',
    'tame_time',
    'tamer_id',
    'owner_id'
]


def scrape_race_and_horse_data_by_html(race_id, html):
    """
    HTMLファイルからレースと馬のデータを取得
    戻り値1: list型 レースデータ
    戻り値2: list型 馬データ
    """
    race_list = [race_id]
    horse_list_list = []
    soup = BeautifulSoup(html, 'html.parser')
    #####################
    # race_data
    #####################
    data_intro = soup.find("div", class_="data_intro")
    
    race_list.append(data_intro.find("dt").get_text().strip("\n")) # race_round
    race_list.append(data_intro.find("h1").get_text().strip("\n")) # race_title

    race_details1 = data_intro.find("p").get_text().strip("\n").split("\xa0/\xa0")
    race_list.append(race_details1[0]) # race_course
    race_list.append(race_details1[1]) # weather
    race_list.append(race_details1[2]) # ground_status
    race_list.append(race_details1[3][5:10]) # time

    race_details2 = data_intro.find("p", class_="smalltxt").get_text().strip("\n").split(" ")
    race_list.append(race_details2[0]) # date
    race_list.append(race_details2[1]) # where_racecourse


    result_rows = soup.find("table", class_="race_table_01 nk_tb_common").findAll('tr') 
    race_list.append(len(result_rows)-1) # total_horse_number
    for i in range(1,4):
        row = result_rows[i].findAll('td')
        race_list.append(row[1].get_text()) # frame_number_first or second or third
        race_list.append(row[2].get_text()) # horse_number_first or second or third


    pay_back_tables = soup.findAll("table", class_="pay_table_01")

    pay_back1 = pay_back_tables[0].findAll('tr')
    race_list.append(pay_back1[0].find("td", class_="txt_r").get_text()) #tansyo
    hukuren = pay_back1[1].find("td", class_="txt_r")
    tmp = []
    for string in hukuren.strings:
        tmp.append(string)
    for i in range(3):
        try:
            race_list.append(tmp[i]) # hukuren_first or second or third
        except IndexError:
            race_list.append("0")
    try:
        race_list.append(pay_back1[2].find("td", class_="txt_r").get_text())
    except IndexError:
        race_list.append("0")

    try:
        race_list.append(pay_back1[3].find("td", class_="txt_r").get_text())
    except IndexError:
        race_list.append("0")



    pay_back2 = pay_back_tables[1].findAll('tr')
    # wide 1&2
    wide = pay_back2[0].find("td", class_="txt_r")
    tmp = []
    for string in wide.strings:
        tmp.append(string)
    for i in range(3):
        try:
            race_list.append(tmp[i]) # hukuren_first or second or third
        except IndexError:
            race_list.append("0")

    # umatan
    race_list.append(pay_back2[1].find("td", class_="txt_r").get_text()) #umatan

    race_list.append(pay_back2[2].find("td", class_="txt_r").get_text()) #renhuku3
    try:
        race_list.append(pay_back2[3].find("td", class_="txt_r").get_text()) #rentan3
    except IndexError:
        race_list.append("0")
    ####################
    # horse data
    ####################
    for rank in range(1, len(result_rows)):
        horse_list = [race_id]
        result_row = result_rows[rank].findAll("td")
        # rank
        horse_list.append(result_row[0].get_text().strip())
        # frame_number
        horse_list.append(result_row[1].get_text().strip())
        # horse_number
        horse_list.append(result_row[2].get_text().strip())
        # horse_id
        horse_list.append(result_row[3].find('a').get('href').split("/")[-2].strip())
        # sex_and_age
        horse_list.append(result_row[4].get_text().strip())
        # burden_weight
        horse_list.append(result_row[5].get_text().strip())
        # rider_id
        horse_list.append(result_row[6].find('a').get('href').split("/")[-2].strip())
        # goal_time
        horse_list.append(result_row[7].get_text().strip())
        # goal_time_dif
        horse_list.append(result_row[8].get_text().strip())
        # time_value(premium)
        horse_list.append(result_row[9].get_text().strip())
        # half_way_rank
        horse_list.append(result_row[10].get_text().strip())
        # last_time
        horse_list.append(result_row[11].get_text().strip())
        # odds
        horse_list.append(result_row[12].get_text().strip())
        # popular
        horse_list.append(result_row[13].get_text().strip())
        # horse_weight
        horse_list.append(result_row[14].get_text().strip())
        # tame_time(premium)
        horse_list.append(result_row[15].get_text().strip())
        # tamer_id
        horse_list.append(result_row[18].find('a').get('href').split("/")[-2].strip())
        # owner_id
        horse_list.append(result_row[19].find('a').get('href').split("/")[-2].strip())

        horse_list_list.append(horse_list)

    return race_list, horse_list_list

def request_html(url):
    """
    URLからHTMLファイルを取得する
    戻り値: str型　HTMLのデータ
    """
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    html = response.text
    time.sleep(1)
    return html

def create_csv(urls):
    """
    URLからレースと馬のデータを取得しCSVに保存する
    戻り値1:list型 レース
    戻り値2:list型　馬のデータ
    """
    CSV_DIR = "csv"
    if not os.path.isdir(CSV_DIR):
        os.makedirs(CSV_DIR)
    save_race_csv = CSV_DIR+"/race.csv"
    horse_race_csv = CSV_DIR+"/horse.csv"
    race_df = pd.DataFrame(columns=race_data_columns )
    horse_df = pd.DataFrame(columns=horse_data_columns )

    count = 0

    for url in urls:
        print(url)
        list = url.split("/")
        race_id = list[-2]
        
        html = request_html(url)
        race_list, horse_list_list = scrape_race_and_horse_data_by_html(race_id, html)
        #horse_data
        for horse_list in horse_list_list:
            horse_se = pd.Series( horse_list, index=horse_df.columns)
            horse_df = horse_df.append(horse_se, ignore_index=True)
        #race_data
        race_se = pd.Series(race_list, index=race_df.columns )
        race_df = race_df.append(race_se, ignore_index=True )

        #250ごとにデータをCSVに変換しておく
        if count == 250:
            count = 0
            race_df.to_csv(save_race_csv, header=True, index=False)
            horse_df.to_csv(horse_race_csv, header=True, index=False)

        

    race_df.to_csv(save_race_csv, header=True, index=False)
    horse_df.to_csv(horse_race_csv, header=True, index=False)
    return race_list, horse_list_list

In [None]:
create_csv(urls[:10])

In [None]:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', 50)

### raceデータセット作成

In [None]:
race_df = pd.read_csv("csv/race.csv", sep=",")

In [None]:
print(race_df.shape)
race_df.tail(2)

## race_id変更なし

In [None]:
race_df['race_id'].head(3)

## race_round Rを削除

In [None]:
race_df['race_round'].unique()

In [None]:
race_df['race_round'] = race_df['race_round'].str.strip(' R')

In [None]:
race_df['race_round'].unique()

## dtypeがobjectなのでintに変換

In [None]:
race_df['race_round'] = race_df['race_round'].astype(int)
race_df['race_round'].head(3)

## race_title いらないので削除

In [None]:
race_df['race_title'].head(3)

In [None]:
race_df.drop(['race_title'], axis=1, inplace=True)

race_coursekから

In [None]:
race_df['race_course'].unique()

## 障害かどうかデータのobstacle 0=普通　1=障害

In [None]:
obstacle = race_df["race_course"].str.extract('(障)', expand=True)
obstacle.columns ={"obstacle"}
race_df = pd.concat([race_df, obstacle], axis=1)
race_df['obstacle'].unique()

## 'obstacle' 列の '障芝' を1に置き換え、Nanに0埋め

In [None]:
race_df['obstacle'] = race_df['obstacle'].replace('障', 1)
race_df.fillna(value={'obstacle': 0}, inplace=True)
race_df['obstacle'].unique()

## 芝かダートかのデータground_type

In [None]:
ground_type = race_df["race_course"].str.extract('(ダ|芝)', expand=True)
ground_type.columns ={"ground_type"}
race_df = pd.concat([race_df, ground_type], axis=1)
race_df['ground_type'].unique()

## 左周りか右回りか直線かのデータleft_right_straight

In [None]:
left_right_straight = race_df["race_course"].str.extract('(左|右|直線)', expand=True)
left_right_straight.columns = {"left_right_straight"}
race_df = pd.concat([race_df, left_right_straight], axis=1)
race_df['left_right_straight'].unique()

## コースの距離distance

In [None]:
distance = race_df["race_course"].str.extract('(\d+)m', expand=True)
distance.columns = {"distance"}
race_df = pd.concat([race_df, distance], axis=1)
race_df['distance'].unique()

## intに変換

In [None]:
race_df["distance"] = race_df["distance"].astype(int)
race_df['distance'].head(3)

## race_courseは不要になったので削除

In [None]:
race_df.drop(['race_course'], axis=1, inplace=True)

## weather　いらない文字列削除


In [None]:
race_df["weather"].unique()

In [None]:
race_df['weather'] = race_df['weather'].str.strip('天候 :')
race_df["weather"].head(3)

## ground_status いらない文字列削除

In [None]:
race_df["ground_status"].unique()

In [None]:
race_df['ground_status'] = race_df['ground_status'].str.extract('(稍重|重|不良|良)',expand=True)
race_df["ground_status"].unique()

## where_racecourse　場所以外の情報を削除

In [None]:
race_df["date"].head(3)

In [None]:
race_df["time"] = race_df["time"].str.replace('(\d\d):(\d\d)', r'\1時\2分')

In [None]:
race_df["date"] = race_df["date"] + race_df["time"]
race_df["date"] = pd.to_datetime(race_df['date'], format='%Y年%m月%d日%H時%M分')

In [None]:
race_df["date"].head(3)

In [None]:
race_df.drop(['time'], axis=1, inplace=True)

In [None]:
race_df["where_racecourse"].unique()

In [None]:
race_df["where_racecourse"] = race_df["where_racecourse"].str.replace('\d*回(..)\d*日目', r'\1')
race_df["where_racecourse"].unique()

In [None]:
race_df = pd.get_dummies(race_df, columns=["ground_status","weather",'where_racecourse','ground_type','left_right_straight'])

In [None]:
race_df.to_csv("csv/cleaned_race_data.csv", index=False )

## horse data の整形

In [None]:
horse_df = pd.read_csv("./csv/horse.csv", sep=",")
print(horse_df.shape)
print(horse_df.dtypes)
horse_df.head(2)

In [None]:
print(horse_df.shape)
print(horse_df.dtypes)

## 使わないデータ削除

In [None]:
horse_df.drop(['time_value'], axis=1, inplace=True)
horse_df.drop(['goal_time_dif'], axis=1, inplace=True)
horse_df.drop(['tame_time'], axis=1, inplace=True)

### データ分析のため、レース日時情報をmerge

In [None]:
race_tmp_df = race_df[["race_id", "date"]]
horse_df = pd.merge(horse_df, race_tmp_df, on='race_id')
horse_df.head()

### rank　数字と文字列を分ける 

In [None]:
horse_df["rank"].unique()

### 降格を別へ

In [None]:
is_down = horse_df["rank"].str.extract('(\(降\))', expand=True)
is_down.columns ={"is_down"}
horse_df = pd.concat([horse_df, is_down], axis=1)

horse_df.fillna(value={'is_down': 0}, inplace=True)
horse_df['is_down'] = horse_df['is_down'].replace('(降)', 1)

## 余分な文字を削除
horse_df['rank'] = horse_df['rank'].apply(lambda x: x.replace("(降)", ""))
horse_df['rank'] = horse_df['rank'].apply(lambda x: x.replace("(再)", ""))

In [None]:
"""- 取・除はそもそも参加していないので削除
- 失は順位が全く当てにならないので情報を削除
- 中は最後まで到達していないが参加はしている。ひとまず20位にしておく"""

horse_df = horse_df[(horse_df['rank'] != "取") & (horse_df['rank'] != "除") & (horse_df['rank'] != "失")]
horse_df['rank'] = pd.DataFrame(horse_df['rank'].mask(horse_df['rank'] == "中", 20))

In [None]:
horse_df["rank"].value_counts()

### 性別と年齢を別に

In [None]:
horse_df['sex_and_age'].unique()

In [None]:
# 性別を別へ

is_senba = horse_df["sex_and_age"].str.extract('(セ)', expand=True)
is_senba.columns ={"is_senba"}
horse_df = pd.concat([horse_df, is_senba], axis=1)

is_mesu = horse_df["sex_and_age"].str.extract('(牝)', expand=True)
is_mesu.columns ={"is_mesu"}
horse_df = pd.concat([horse_df, is_mesu], axis=1)

is_osu = horse_df["sex_and_age"].str.extract('(牡)', expand=True)
is_osu.columns ={"is_osu"}
horse_df = pd.concat([horse_df, is_osu], axis=1)

In [None]:
horse_df.fillna(value={'is_osu': 0}, inplace=True)
horse_df['is_osu'] = horse_df['is_osu'].replace('牡', 1)
horse_df.fillna(value={'is_mesu': 0}, inplace=True)
horse_df['is_mesu'] = horse_df['is_mesu'].replace('牝', 1)
horse_df.fillna(value={'is_senba': 0}, inplace=True)
horse_df['is_senba'] = horse_df['is_senba'].replace('セ', 1)
## 余分な文字を削除
horse_df['sex_and_age'] = horse_df['sex_and_age'].str.strip("牝牡セ")
horse_df['sex_and_age'] = horse_df['sex_and_age'].astype(int)

In [None]:
horse_df = horse_df.rename(columns={'sex_and_age': 'age'})

In [None]:
horse_df

In [None]:
# nullになるのは、レースで「中」になった馬
print(horse_df['goal_time'].isnull().sum())
print(horse_df['last_time'].isnull().sum())

In [None]:
horse_df['goal_time'] = pd.to_datetime(horse_df['goal_time'], format='%M:%S.%f') - pd.to_datetime('00:00.0', format='%M:%S.%f')
horse_df['goal_time'] = horse_df['goal_time'].dt.total_seconds()

In [None]:
# 欠損値を最大値で埋める
horse_df.fillna(value={'goal_time': horse_df['goal_time'].max()}, inplace=True)
horse_df.fillna(value={'last_time': horse_df['last_time'].max()}, inplace=True)

In [None]:
# レース距離情報をmerge
race_tmp_df = race_df[["race_id", "distance"]]
horse_df = pd.merge(horse_df, race_tmp_df, on='race_id')
horse_df["distance"] = horse_df["distance"].astype(int)
horse_df["avg_velocity"] = horse_df["distance"]/horse_df["goal_time"]

In [None]:
horse_weight_dif = horse_df["horse_weight"].str.extract('\(([-|+]?\d*)\)', expand=True)
horse_weight_dif.columns ={"horse_weight_dif"}

horse_df = pd.concat([horse_df, horse_weight_dif], axis=1)

horse_df['horse_weight'] = horse_df['horse_weight'].replace('\(([-|+]?\d*)\)', '', regex=True)


In [None]:
horse_df['horse_weight'] = horse_df['horse_weight'].replace('計不', np.nan)
horse_df['horse_weight'] = horse_df['horse_weight'].astype(float)
horse_df['horse_weight_dif'] = horse_df['horse_weight_dif'].astype(float)

In [None]:
horse_df['burden_weight_rate'] = horse_df['burden_weight']/horse_df['horse_weight']

In [None]:
horse_df['odds']= horse_df['odds'].astype(float)

In [None]:
print(horse_df.dtypes)
horse_df.head(3)

In [None]:
horse_df.to_csv("csv/cleaned_horse_data.csv", index=False )

データセット作成

In [None]:
horse_df.drop(['half_way_rank'], axis=1, inplace=True) 

In [None]:
horse_df['date'] = pd.to_datetime(horse_df['date'])
print(horse_df.dtypes)
horse_df.head(3)

In [None]:
# group by したデータフレームに対して行う処理
def make_one_horse_train_data(one_horse_data):
    one_horse_data = one_horse_data.sort_values('date',ascending=False)
    one_horse_data['pre_date_diff'] = one_horse_data['date'].diff(-1).dt.days
    one_horse_data['is_rider_same'] = (one_horse_data['rider_id'].shift(-1) == one_horse_data['rider_id']) * 1.0
    one_horse_data['is_tamer_same'] = (one_horse_data['tamer_id'].shift(-1) == one_horse_data['tamer_id']) * 1.0
    one_horse_data['is_owner_same'] = (one_horse_data['owner_id'].shift(-1) == one_horse_data['owner_id']) * 1.0

    #不要なので削除
    one_horse_data.drop(['horse_id'], axis=1, inplace=True) #horse_id はもう使わないので削除
    one_horse_data.drop(['rider_id'], axis=1, inplace=True)
    one_horse_data.drop(['tamer_id'], axis=1, inplace=True)
    one_horse_data.drop(['owner_id'], axis=1, inplace=True)


    #  数レース分の情報を結合
    result_df = one_horse_data.copy()
    
    for i in range(1,6):
        # i だけ shiftしたものを得る
        # race_id, sexはいらない
        shift_df = one_horse_data.drop(['race_id','is_senba','is_mesu','is_osu'], axis=1).shift(-i)
        # 目的のレースとどれだけの時間離れているか？
        shift_df['interval_date'] = (one_horse_data['date'] - shift_df['date']).dt.days
        shift_df.drop(['date'], axis=1, inplace=True)
        shift_df.columns = shift_df.columns + "_" + str(i)
        result_df = pd.concat([result_df, shift_df], axis=1)
    return result_df


# horse_id はもう使わないので削除

In [None]:
horse_id_df = horse_df["horse_id"].unique()

In [None]:
horse_id_df[1:]

In [None]:
# test
one_horse_data = horse_df[horse_df['horse_id'] == horse_id_df[0]].copy()
all_data = make_one_horse_train_data(one_horse_data).fillna(0)
for horse_id in horse_id_df[1:]:
        one_horse_data = horse_df[horse_df['horse_id'] ==horse_id].copy()
        one_horse_data_past = make_one_horse_train_data(one_horse_data).fillna(0)
        all_data = all_data.append(one_horse_data_past)

In [None]:
horse_df[horse_df['horse_id'] == horse_id_df[0]].copy()

In [None]:
all_data.drop(['rank'], axis=1, inplace=True)
all_data.drop(['date'], axis=1, inplace=True)
all_data.drop(['goal_time'], axis=1, inplace=True)

In [None]:
all_data.to_csv("csv/past_horse_data.csv", index=False )

In [None]:
cleaned_race_df = pd.read_csv("./csv/cleaned_race_data.csv", sep=",")
cleaned_horse_df = pd.read_csv("./csv/past_horse_data.csv", sep=",")

In [None]:

race_column = ["date","frame_number_first","horse_number_first","frame_number_second","horse_number_second","frame_number_third","horse_number_third","tansyo","hukusyo_first","hukusyo_second","hukusyo_third","wakuren","umaren","wide_1_2","wide_1_3","wide_2_3","umatan","renhuku3","rentan3"]
cleaned_race_df.drop(race_column,axis='columns', inplace=True)





In [None]:
# group by したデータフレームに対して行う処理
def make_one_horse_train_data(one_horse_data):
    #  数レース分の情報を結合
    result_df = one_horse_data[0:1].copy()
    
    for i in range(1,19):
        # i だけ shiftしたものを得る
        # race_id, sexはいらない
        shift_df = one_horse_data[0:i+1].copy().shift(-i)
        shift_df = shift_df[0:1].drop(['race_id'], axis=1)
        # 目的のレースとどれだけの時間離れているか？
        shift_df.columns = shift_df.columns + "_" + str(i)
        result_df = pd.concat([result_df, shift_df], axis=1)
    return result_df

In [None]:
df = cleaned_race_df["race_id"]
one_race_horse_data = cleaned_horse_df[cleaned_horse_df['race_id'] == df[0]].copy()
all_race_data = make_one_horse_train_data(one_race_horse_data).fillna(0)
df = cleaned_race_df["race_id"].shift(-1)
for race_id in df:
        one_race_horse_data = cleaned_horse_df[cleaned_horse_df['race_id'] == race_id].copy()
        one_race_horse_data = make_one_horse_train_data(one_race_horse_data).fillna(0)
        all_race_data = all_race_data.append(one_race_horse_data)

    

In [None]:
all_race_data

In [None]:
all_data = pd.merge(cleaned_race_df,all_race_data,on="race_id")

In [None]:

all_data.head(3)

In [None]:
all_data.to_csv("csv/train_data.csv", index=False )

# 6 予測モデルの紹介