# 競馬データ取得プログラム(Python)

# 1 クローリングとスクレイピングについて


## 1.1 クローリングとスクレイピングの定義

### クローリング 
Webページのハイパーリンクをたどって次々にWebページをダウンロードする作業。
### スクレイピング 
ダウンロードしたWebページから必要な情報を抜き出す作業。

## 1.2 クローリング・スクレイピングの方法
### プログラミング言語  
- python,PHP,java,C,Ruby
- シェルスクリプト(Unixコマンド)

### Webスクレイピングツール  
- ExcelやSpreadSheet  
- Octoparse   
- Scraper  

## 1.3 クローリング・スクレイピングでPythonを使うメリット
### 言語自体の特性  
読みやすく書きやすいPHP、Java、C / C ++と比べ、Pythonは最も簡単  
Pythonはプログラムを書いたらすぐに実行することができる対話型  
### 強力なライブラリの存在  
世界中の開発者が数多くのライブラリを公開しており、簡単に使うことができる  
lxmlやBeautifulSoupは有名なスクレイピングライブラリがある。  
### スクレイピング後の処理との親和性  
データ分析においてもPythonには優秀なライブラリのpandasなどが揃っている
Pythonでは数値計算や科学技術計算の分野で古くからNumPyやSciPyといったライブラリが有名　　
  
## 1.4 今回紹介するライブラリ
### Beautiful Soup 
シンプルかつわかりやすいAPIでデータを抜き出せるのが特徴で、古くから人気のあるライブラリです。  
内部のパーサーを目的に応じて切り替えられます。
### Selenium   
ブラウザーを自動操作するためのライブラリです。  
Pythonの他にJavaやJavaScriptなど様々な言語に対応しています。  
ブラウザーベンダーがWebDriverAPIを実装するドライバーを用意しており、これを経由して操作します。



# 2 Pythonの基礎知識
## 2.1 python実行方法
### インタラクティブシェルの使用
pythonコマンドを引数なしで実行すると、インタラクティブシェルが起動します。  
pythonのコードを対話的に実行できるので、ライブラリの使い方の確認などに便利です。

### スクリプトファイルの実行と構成
pythonのスクリプトは.pyという拡張子のファイルに保存します。  
pythonコマンドにpyファイルのpathを引数として渡すとスクリプトファイルを実行されます。

### Jupyter Notebook
ノートブックと呼ばれるファイルにプログラムや説明の文章、実行結果などをまとめて管理できるます。  
データ分析用のツールです。

In [None]:
# ソースコードを記述し、Shift+Enterで実行できます。
print(1+2)

このように、Jupyter Notebookでは、セルごとにソースコードを記述して、実行を行うことができます。  
実行結果はすぐ下に表示され、何度でも再実行できます。  
また、Jupyter Notebookでは、ノートブックにグラフを表示することもできます。

In [None]:
import matplotlib.pyplot as plt

price = [100, 250, 380, 500, 700]
number = [1, 2, 3, 4, 5]

# グラフを書く
plt.plot(price, number)

# グラフのタイトル
plt.title("price / number")

# x軸のラベル
plt.xlabel("price")

# y軸のラベル
plt.ylabel("number")

# 表示する
plt.show()

ソースコードと説明の文章、実行結果をまとめて保存しておくことができるので  
データ分析を試行錯誤しながら行うことがとても簡単に行うことができます。

## 2.2 python基本文法

### 2.2.1 データ構造 
Pythonでは数値、文字列、リスト、辞書などの基本的なデータ構造を手軽に扱えます。

#### 数値
整数と実数の基本的な四則演算が行えます。

In [None]:
a = 1
type(a) #整数はint型。type()関数でオブジェクトの型を確認

In [None]:
b = 3.14
type(b)#実数はfloat型。

In [None]:
print(1+1)

In [None]:
print(14/3)

In [None]:
print(14//3)

In [None]:
print(14%3)

#### 文字列
Unicode文字列を表すstr型とバイト列を表すbytes型があります。  
文字列操作は基本的にstr型で行い、ファイルやネットワーク越しのデータの読み書きなど  
Python以外との境界でbytes型に変換します。

In [None]:
type('abc')#文字列はstr型。<class'str'>  文字列は'または"で囲う。

In [None]:
print('abc\n123')#\nは改行文字

#### リスト 

複数の値の列をひとまとめに扱うためのデータ型としてリスト(list)があります。  
リストは文字列と同じく順序を持ち反復可能な型（シーケンスと呼ばれる）であり  
同様の操作をサポートしています。他の言語では配列やArrayと呼ばれるデータ型に対応します。

In [None]:
l = []
type(l) #[]でリスト（list型）を得る。

In [None]:
l = [1, 2, 3] #値はカンマで区切る。
print(l)

In [None]:
l = [1, 2, 'Three',4.0] #任意のオブジェクトを要素として含められる。
print(l)

In [None]:
print(l[0])#[n]でn番目の要素を取得する。
print(l[2])

In [None]:
print(l[1:3])

In [None]:
print(len(l)) # len()関数でリストの長さを取得する。

In [None]:
l = l + [5,6]#+演算子でリスト同士を結合したリストを得る。
print(l)

In [None]:
l.append(7)#append()メソッドで値を末尾に追加する。
print(l)

In [None]:
l.insert(1,1.5)#insert()メソッドで第1引数のインデックスに第2引数の値を挿入する。
print(l)

In [None]:
del l[1]#del文で指定したインデックスの要素を削除する。
print(l)

In [None]:
l.pop(0)#pop()で指定したインデックスの要素を取得し、リストから削除する。

In [None]:
print(l)

In [None]:
s = 'a,b,c'
l = s.split(',')#,で区切りそれぞれリストに入れる
print(l)

In [None]:
s = ','.join(['a','b','c'])#str型のjoin()メソッドでリストを結合した文字列を得る。
print(s)

### 2.2.2 制御構造と関数・クラス定義

Pythonではインデントが大きな意味を持ちます。  
Pythonでは読みにくくなることを避けるため  
正しくインデントされていないブロックがあるとIndentationErrorというエラーになり実行できません。  
インデントを増やす直前の行の末尾には:（コロン）を置きます  
制御構造文と関数・クラス定義を書く際に必要になってきます。


#### if文

In [None]:
a = 5 # if 文 で 処理 を 分岐 できる。 
if a == 1:
    print('aは1') # if 文 の 式 が 真 の とき に 実行 さ れる。
elif a == 2:
    print('aは2') # elif 節 の 式 が 真 の とき に 実行 さ れる（ elif 節 は なく ても 良い）。 
else:
    print('aは1でも2でもない') # どの 条件 にも 当てはまら なかっ た とき に 実行 さ れる（ else 節 は なく ても 良い

![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/1.png?raw=true)

#### for文とwhile文による繰り返し処理

In [None]:
for i in range(10):#回数を指定した繰り返しには組み込み関数range()を使う。
    print(i)

In [None]:
#変数iにinの右側のリストの要素が順に代入されて、ブロック内の処理が計7回実行される。
l = [1, 2, 'Three', 4.0, 5, 6, 7]
for i in l:
    print(i)

In [None]:
i = 1
while i<10:#while文で式が真の間繰り返し処理する。
    print(i)
    i+=1

#### 関数定義

In [None]:
#addという名前の関数を定義する。この関数はaとbの2つの引数を取り、加算した値を返す。 
def add(a,b):
    return a + b #return文で関数の戻り値を返す。 

In [None]:
a = add(1,2)#関数の呼び出しは、関数名の後に括弧で引数を指定する。
print(a)#3と表示される。 

#### クラス定義

In [None]:
#Squareという名前のクラスを定義する。 
class Square:
    #インスタンスが作成された直後に呼び出される特殊なメソッドを定義する(コンストラクタ)
    def __init__(self, width, height):
        self.width = width # width 属性 に 値 を 格納 する
        self.height = height # height 属性 に 値 を 格納 する。
    # 面積 を 計算 する メソッド を 定義 する。 
    def area(self):
        return self.width*self.height

In [None]:
square=Square(100,20)#Rectクラスのインスタンスを作成する。newなどのキーワードは不要。
print(type(square))
print(square.width) 
print(square.height)
print(square.area())

#### 組み込み関数  

Pythonにはいくつかの組み込み関数が存在し、特に宣言せずに使えます。  
これまでに使ったprint()関数やlen()関数も組み込み関数です。  

#### 代表的な組み込み関数
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/2.png?raw=true)

#### モジュール  
Pythonには豊富な標準ライブラリが付属しています。Pythonのライブラリはモジュールと呼ばれる単位で管理されます  
モジュールには複数のクラスや関数が含まれます。  
  
  
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/3.png?raw=true)

#### ライブラリインストール

PyPIで公開されているライブラリのインストールにはpipというツールを使用します
  
pip install ライブラリ 名 でインストールできます



In [None]:
!pip install requests

#### インポート文

ライブラリをインポートして利用可能にします　　

In [None]:
from datetime import datetime
date = datetime.now()
print(date)

# 3 スクレピング・クローリング実践 

## 3.1 スクレピング・クローリング注意事項
### 3.1.1 著作権について
著作物は著作権法によって保護されます。著作権法第2条では  
著作物の要件が「思想又は感情を創作的に表現したものであつて  
文芸、学術、美術又は音楽の範囲に属するもの」と定められています。  
Webページは基本的に著作物であると考えられるます。  
#### スクレピング・クローリングにおいて注意が特に必要な権利
- 複製権：収集したWebページを保存する権利
- 翻案権：収集したWebページから新たな著作物を創造する権利
- 公衆送信権：収集したWebページをサーバーから公開する権利  
  　 
これらの行為には基本的に著作権者の許諾が必要ですが、私的使用の範囲内の複製など、  
使用目的によっては著作権者の許諾なく自由に行うことが認められています。  
情報解析を目的とした複製や検索エンジンサービスの提供を目的とした複製・翻案・自動公衆送信が、  
著作権者の許諾なく行えるようになっています  

#### 利用についての一定の条件
- 会員のみが閲覧可能なサイトのクロールには著作権者の許諾が必要なこと
- robots.txtやrobotsmetaタグで拒否されているページをクロールしないこと
- クロールした後に拒否されたことがわかった場合は保存済みの著作物を消去すること
- 検索結果では元のWebページにリンクすること検索結果として表示する著作物は必要と認められる限度内であること
- 違法コンテンツであることを知った場合は公衆送信をやめること

### 3.1.2 サーバーの負荷
クローラーを実行する際には、クロール先のWebサイトの負荷を考慮する必要があります。  
あなたのクローラーがWebサーバーの処理能力の多くを占めてしまうと、  
他の人がそのWebサイトを閲覧できなくなってしまいます。  
商用サイトの場合は、業務妨害となる可能性もあります。
#### 同時接続数
1つのWebサーバーが同時に処理できる接続数は限られているので、  
同時接続数を増やすと、それだけあなたのクローラーがWebサーバーの処理能力を専有してしまいます。  
出来るだけ数を少なくし処理が終わったら接続を切るようにする。

#### リクエスト間隔
間隔を空けずに次々とWebページを取得すると相手のサーバーに負荷をかけます。  
常識的なクロールの間隔1秒以上を入れることが望ましいと考えられています。
### 3.1.3　robots.txtによる指示
robots.txtはWebサイトのトップディレクトリに配置されるテキストファイルです。  
例えば、https://www.python.org/ のrobots.txt は https://www.python.org/robots.txt に置かれます。  
robots.txtの中身はRobotsExclusionProtocolとして標準化されており、  
GoogleやBingなど主要な検索エンジンのクローラーはこの標準に従っていると表明しています。  
robots.txtが存在しない場合は、すべてのページのクロールが許可されているとみなします。
#### robots.txtのパース  
Pythonの標準ライブラリのurllib.robotparserにはrobots.txtをパースするためのRobotFileParserクラスが含まれています。次のようにrobots.txtを簡単に扱えます。


In [None]:
from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('https://www.netkeiba.com/robots.txt')#set_url()でrobots.txtのURLを設定する。
rp.read()# read() で robots. txt を 読み込む。 

In [None]:
print(rp.crawl_delay('*'))#クロール間隔表す。

数値またはNoneが返される  
返された値が数値ならばその秒数分間隔をあけなければならない  
今回はNoneであるのでクロール間隔についての指示はない

In [None]:
#そのURLのクロールが許可されているかどうかを取得できる。
print(rp.can_fetch('*',"https://db.netkeiba.com/horse/2017101835/"))

True または Falseが返されます  
Trueならばクロールが許可されている  
Falseならばクロールは許可されていません

## 3.2 スクレピング・クローリングでデータを取得

### 3.2.1 RequestsによるWebページの取得
Webページを取得するには、ライブラリのRequestsを使います。  
HTTPヘッダーの追加やBasic認証など面倒な処理もRequestsには簡単に使えるインターフェイスが用意されています。 

In [None]:
!pip install requests

In [None]:
import requests#ライブラリをインポートして利用可能にする。

In [None]:
response = requests.get('https://db.netkeiba.com/race/202006030811.html')#get()関数でWebページを取得できる。

In [None]:
print(type(response))#get()関数の戻り値はResponseオブジェクト。

In [None]:
print(response.status_code)#status_code属性でHTTPステータスコードを取得できる。

In [None]:
print(response.headers['content-type'])#headers属性でHTTPヘッダーの辞書を取得できる。

In [None]:
print(response.encoding)#encoding属性でHTTPヘッダーから得られたエンコーディングを取得できる。

In [None]:
response.text#text属性でstr型にデコードしたレスポンスボディを取得できる。

In [None]:
response.encoding = response.apparent_encoding #エンコードを変更

In [None]:
response.text

### 3.2.2 BeautifulSoupによるスクレイピング
#### 基本文法

In [None]:
!pip install beautifulsoup4

In [17]:
from bs4 import BeautifulSoup #bs4モジュールからBeautifulSoupクラスをインポートする。 
soup = BeautifulSoup(response.text, 'html.parser')# 

In [None]:
soup

In [None]:
print(type(soup))

In [None]:
soup.find("a")#タグ名の属性でh1要素を取得できる。一番先頭のタグのみ

In [None]:
print(type(soup.find("a").get_text))#要素はTagオブジェクト。

In [None]:
soup.find_all("a")#h1タグのすべての要素を取得できます

In [None]:
print(type(soup.find_all("a")))

In [None]:
rs = soup.find_all("a")
#list型と同様に扱えます
print(len(rs))
print(rs[3])


In [None]:
soup.find("a").name#Tagオブジェクトのname属性でタグ名を取得できる。 

In [None]:
soup.find("a").contents#contents属性で子要素（NavigableStringを含む）のリストを取得できる。

In [None]:
soup.find("div")

In [None]:
soup.div.get_text()

In [None]:
type(soup.h1.text)#text属性で得られる文字列はstrオブジェクト。<class'str'>

In [None]:
soup.find("div", class_="data_intro")#キーワード引数でclassなどの属性を指定できる。classは予約語なのでclass_を使うこと

In [None]:
soup.find("div", class_="data_intro").get_text()#text属性で要素内のすべての文字列を結合した文字列を取得できる。

In [None]:
print(type(soup.find("div", class_="data_intro").get_text()))

#### 目的の値をスクレイピングするまでの流れ  
  
  
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/4.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/5.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/6.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/7.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/8.png?raw=true)
![](https://github.com/Tomo-Horiuchi/predict_keiba/blob/master/image/9.png?raw=true)

目的の数値はclass属性が"race_table_01 nk_tb_common"のtableタグで囲まれた二番目のtrタグのにあります  
更にそのtrタグのに囲まれた１番目のaタグのにあります

In [27]:
response = requests.get('https://db.netkeiba.com/race/202006030811.html')
response.encoding = response.apparent_encoding 
html = response.text
soup = BeautifulSoup(html, 'html.parser')# 

In [22]:
soup_table = soup.find("table", class_="race_table_01 nk_tb_common")#class属性が"race_table_01 nk_tb_common"のtableタグ取得
soup_table 

ss="bml" nowrap="nowrap"><span>6</span></td>
<td nowrap="nowrap">516(-10)</td>
<diary_snap_cut>
<td class="txt_c" nowrap="nowrap">
<a href="/?pid=horse_training&amp;id=2017110026&amp;rid=202006030811"><img border="0" height="13" src="/style/netkeiba.ja/image/ico_oikiri.gif" width="13"/></a>
</td>
<td class="txt_c" nowrap="nowrap">
<a href="/?pid=horse_comment&amp;id=2017110026&amp;rid=202006030811"><img border="0" height="13" src="/style/netkeiba.ja/image/ico_comment.gif" width="13"/></a>
</td>
<td nowrap="nowrap">
</td>
</diary_snap_cut>
<td class="txt_l" nowrap="nowrap">
[東]
<a href="/trainer/01126/" title="木村哲也">木村哲也</a>
</td>
<diary_snap_cut>
<td class="txt_l w7ml" nowrap="nowrap">
<a href="/owner/003060/" title="ゴドルフィン">ゴドルフィン</a>
</td>
<td class="txt_r" nowrap="nowrap"></td>
</diary_snap_cut>
</tr><tr>
<td class="txt_r" nowrap="nowrap">7</td>
<td align="right" class="w2ml" nowrap="nowrap"><span>2</span></td>
<td class="txt_r" nowrap="nowrap">3</td>
<td class="txt_l" nowrap="nowra

In [24]:
soup_tr = soup_table.find_all('tr')[1]#二番目のtrタグ取得
soup_tr

<tr>
<td class="txt_r" nowrap="nowrap">1</td>
<td align="right" class="w1ml" nowrap="nowrap"><span>1</span></td>
<td class="txt_r" nowrap="nowrap">1</td>
<td class="txt_l" nowrap="nowrap">
<a href="/horse/2017101835/" id="umalink_202006030811" title="コントレイル">コントレイル</a>
</td>
<td class="txt_c" nowrap="nowrap">牡3</td>
<td class="txt_c" nowrap="nowrap">57</td>
<td class="txt_l" nowrap="nowrap">
<a href="/jockey/01014/" title="福永祐一">福永祐一</a>
</td>
<td class="txt_r" nowrap="nowrap">2:00.7</td>
<td class="txt_c" nowrap="nowrap"></td>
<diary_snap_cut>
<td class="speed_index bml" nowrap="nowrap">
</td>
<td nowrap="nowrap">12-12-12-7</td>
<td class="txt_c" nowrap="nowrap"><span>34.9</span></td>
</diary_snap_cut>
<td class="txt_r" nowrap="nowrap">2.7</td>
<td align="right" class="r1ml" nowrap="nowrap"><span>1</span></td>
<td nowrap="nowrap">462(0)</td>
<diary_snap_cut>
<td class="txt_c" nowrap="nowrap">
<a href="/?pid=horse_training&amp;id=2017101835&amp;rid=202006030811"><img border="0" height=

In [35]:
soup_a = soup_tr.find("a")#１番目のaタグを取得

<a href="/horse/2017101835/" id="umalink_202006030811" title="コントレイル">コントレイル</a>

In [29]:
soup_a.get_text()#タグの中のテキストを取得

'コントレイル'

In [36]:
soup.find("table", class_="race_table_01 nk_tb_common").find_all("tr")[1].find("a").get_text()

'コントレイル'

In [31]:
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import os
import requests
import time


race_data_columns=[
    'race_id',
    'race_round',
    'race_title',
    'race_course',
    'weather',
    'ground_status',
    'time',
    'date',
    'where_racecourse',
    'total_horse_number',
    'frame_number_first',
    'horse_number_first',
    'frame_number_second',
    'horse_number_second',
    'frame_number_third',
    'horse_number_third',
    'tansyo',
    'hukusyo_first',
    'hukusyo_second',
    'hukusyo_third',
    'wakuren',
    'umaren',
    'wide_1_2',
    'wide_1_3',
    'wide_2_3',
    'umatan',
    'renhuku3',
    'rentan3'
    ]

horse_data_columns=[
    'race_id',
    'rank',
    'frame_number',
    'horse_number',
    'horse_id',
    'sex_and_age',
    'burden_weight',
    'rider_id',
    'goal_time',
    'goal_time_dif',
    'time_value',
    'half_way_rank',
    'last_time',
    'odds',
    'popular',
    'horse_weight',
    'tame_time',
    'tamer_id',
    'owner_id'
]


def scrape_race_and_horse_data_by_html(race_id, html):
    """
    HTMLファイルからレースと馬のデータを取得
    戻り値1: list型 レースデータ
    戻り値2: list型 馬データ
    """
    race_list = [race_id]
    horse_list_list = []
    soup = BeautifulSoup(html, 'html.parser')
    #####################
    # race_data
    #####################
    data_intro = soup.find("div", class_="data_intro")
    
    race_list.append(data_intro.find("dt").get_text().strip("\n")) # race_round
    race_list.append(data_intro.find("h1").get_text().strip("\n")) # race_title

    race_details1 = data_intro.find("p").get_text().strip("\n").split("\xa0/\xa0")
    race_list.append(race_details1[0]) # race_course
    race_list.append(race_details1[1]) # weather
    race_list.append(race_details1[2]) # ground_status
    race_list.append(race_details1[3][5:10]) # time

    race_details2 = data_intro.find("p", class_="smalltxt").get_text().strip("\n").split(" ")
    race_list.append(race_details2[0]) # date
    race_list.append(race_details2[1]) # where_racecourse


    result_rows = soup.find("table", class_="race_table_01 nk_tb_common").findAll('tr') 
    race_list.append(len(result_rows)-1) # total_horse_number
    for i in range(1,4):
        row = result_rows[i].findAll('td')
        race_list.append(row[1].get_text()) # frame_number_first or second or third
        race_list.append(row[2].get_text()) # horse_number_first or second or third


    pay_back_tables = soup.findAll("table", class_="pay_table_01")

    pay_back1 = pay_back_tables[0].findAll('tr')
    race_list.append(pay_back1[0].find("td", class_="txt_r").get_text()) #tansyo
    hukuren = pay_back1[1].find("td", class_="txt_r")
    tmp = []
    for string in hukuren.strings:
        tmp.append(string)
    for i in range(3):
        try:
            race_list.append(tmp[i]) # hukuren_first or second or third
        except IndexError:
            race_list.append("0")
    try:
        race_list.append(pay_back1[2].find("td", class_="txt_r").get_text())
    except IndexError:
        race_list.append("0")

    try:
        race_list.append(pay_back1[3].find("td", class_="txt_r").get_text())
    except IndexError:
        race_list.append("0")



    pay_back2 = pay_back_tables[1].findAll('tr')
    # wide 1&2
    wide = pay_back2[0].find("td", class_="txt_r")
    tmp = []
    for string in wide.strings:
        tmp.append(string)
    for i in range(3):
        try:
            race_list.append(tmp[i]) # hukuren_first or second or third
        except IndexError:
            race_list.append("0")

    # umatan
    race_list.append(pay_back2[1].find("td", class_="txt_r").get_text()) #umatan

    race_list.append(pay_back2[2].find("td", class_="txt_r").get_text()) #renhuku3
    try:
        race_list.append(pay_back2[3].find("td", class_="txt_r").get_text()) #rentan3
    except IndexError:
        race_list.append("0")
    ####################
    # horse data
    ####################
    for rank in range(1, len(result_rows)):
        horse_list = [race_id]
        result_row = result_rows[rank].findAll("td")
        # rank
        horse_list.append(result_row[0].get_text().strip())
        # frame_number
        horse_list.append(result_row[1].get_text().strip())
        # horse_number
        horse_list.append(result_row[2].get_text().strip())
        # horse_id
        horse_list.append(result_row[3].find('a').get('href').split("/")[-2].strip())
        # sex_and_age
        horse_list.append(result_row[4].get_text().strip())
        # burden_weight
        horse_list.append(result_row[5].get_text().strip())
        # rider_id
        horse_list.append(result_row[6].find('a').get('href').split("/")[-2].strip())
        # goal_time
        horse_list.append(result_row[7].get_text().strip())
        # goal_time_dif
        horse_list.append(result_row[8].get_text().strip())
        # time_value(premium)
        horse_list.append(result_row[9].get_text().strip())
        # half_way_rank
        horse_list.append(result_row[10].get_text().strip())
        # last_time
        horse_list.append(result_row[11].get_text().strip())
        # odds
        horse_list.append(result_row[12].get_text().strip())
        # popular
        horse_list.append(result_row[13].get_text().strip())
        # horse_weight
        horse_list.append(result_row[14].get_text().strip())
        # tame_time(premium)
        horse_list.append(result_row[15].get_text().strip())
        # tamer_id
        horse_list.append(result_row[18].find('a').get('href').split("/")[-2].strip())
        # owner_id
        horse_list.append(result_row[19].find('a').get('href').split("/")[-2].strip())

        horse_list_list.append(horse_list)

    return race_list, horse_list_list

def request_html(url):
    """
    URLからHTMLファイルを取得する
    戻り値: str型　HTMLのデータ
    """
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    html = response.text
    time.sleep(1)
    return html

def create_csv(urls):
    """
    URLからレースと馬のデータを取得しCSVに保存する
    戻り値1:list型 レース
    戻り値2:list型　馬のデータ
    """
    CSV_DIR = "csv"
    if not os.path.isdir(CSV_DIR):
        os.makedirs(CSV_DIR)
    save_race_csv = CSV_DIR+"/race.csv"
    horse_race_csv = CSV_DIR+"/horse.csv"
    race_df = pd.DataFrame(columns=race_data_columns )
    horse_df = pd.DataFrame(columns=horse_data_columns )

    count = 0

    for url in urls:
        print(url)
        list = url.split("/")
        race_id = list[-2]
        
        html = request_html(url)
        race_list, horse_list_list = scrape_race_and_horse_data_by_html(race_id, html)
        #horse_data
        for horse_list in horse_list_list:
            horse_se = pd.Series( horse_list, index=horse_df.columns)
            horse_df = horse_df.append(horse_se, ignore_index=True)
        #race_data
        race_se = pd.Series(race_list, index=race_df.columns )
        race_df = race_df.append(race_se, ignore_index=True )

        #250ごとにデータをCSVに変換しておく
        if count == 250:
            count = 0
            race_df.to_csv(save_race_csv, header=True, index=False)
            horse_df.to_csv(horse_race_csv, header=True, index=False)

        

    race_df.to_csv(save_race_csv, header=True, index=False)
    horse_df.to_csv(horse_race_csv, header=True, index=False)
    return race_list, horse_list_list

In [34]:
urls = ["https://db.netkeiba.com/race/202006030811.html"]
race_list, horse_list_list = create_csv(urls)
print("------------------race_list-------------------")
print(race_list)
print("------------------horse_list_list-------------------")
print(horse_list_list)

https://db.netkeiba.com/race/202006030811.html
------------------race_list-------------------
['race', '11 R', '第80回皐月賞(G1)', '芝右2000m', '天候 : 晴', '芝 : 稍重', '15:40', '2020年4月19日', '3回中山8日目', 18, '1', '1', '4', '7', '8', '16', '270', '140', '170', '690', '640', '660', '330', '2,250', '2,610', '1,120', '9,150', '26,310']
------------------horse_list_list-------------------
[['race', '1', '1', '1', '2017101835', '牡3', '57', '01014', '2:00.7', '', '', '12-12-12-7', '34.9', '2.7', '1', '462(0)', '', '01075', '041002'], ['race', '2', '4', '7', '2017105327', '牡3', '57', '05585', '2:00.8', '1/2', '', '4-5-6-4', '35.4', '3.8', '3', '536(-2)', '', '01070', '506800'], ['race', '3', '8', '16', '2017102833', '牡3', '57', '05596', '2:01.4', '3.1/2', '', '11-11-10-9', '35.7', '41.2', '8', '498(+2)', '', '00423', '482002'], ['race', '4', '4', '8', '2017101429', '牡3', '57', '01075', '2:01.6', '1.1/4', '', '2-2-2-2', '36.5', '360.0', '17', '484(-2)', '', '01097', '494800'], ['race', '5', '3', '5', '20171

下のセルはColaboratory上でseleniumを動かす場合のみ実行

In [1]:
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium

'apt-get' �́A�����R�}���h�܂��͊O���R�}���h�A
����\�ȃv���O�����܂��̓o�b�` �t�@�C���Ƃ��ĔF������Ă��܂���B
'apt' �́A�����R�}���h�܂��͊O���R�}���h�A
����\�ȃv���O�����܂��̓o�b�` �t�@�C���Ƃ��ĔF������Ă��܂���B
'cp' �́A�����R�}���h�܂��͊O���R�}���h�A
����\�ȃv���O�����܂��̓o�b�` �t�@�C���Ƃ��ĔF������Ă��܂���B


In [12]:
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select,WebDriverWait
from selenium.webdriver.chrome.options import Options
from selenium import webdriver
import chromedriver_binary
import sys
import re
import csv
import time

def get_urls(year, mon):
    urls = []
    options = Options()
    options.add_argument('--headless')
    ###
    #Colaboratory上でseleniumを動かす場合のみ実行
    #options = webdriver.ChromeOptions()
    #options.add_argument('--headless')
    #options.add_argument('--no-sandbox')
    #options.add_argument('--disable-dev-shm-usage')
    #driver = webdriver.Chrome('chromedriver',options=options)
    ####
    driver = webdriver.Chrome() #Colaboratory上でseleniumを動かす場合この行をコメントアウト
    wait = WebDriverWait(driver,10)
    URL = "https://db.netkeiba.com/?pid=race_search_detail"
    driver.get(URL)
    time.sleep(1)
    wait.until(EC.presence_of_all_elements_located)


    start_year = year
    start_mon = mon
    end_year = year
    end_mon = mon

    start_year_element = driver.find_element_by_name('start_year')
    start_year_select = Select(start_year_element)
    start_year_select.select_by_value(str(start_year))
    start_mon_element = driver.find_element_by_name('start_mon')
    start_mon_select = Select(start_mon_element)
    start_mon_select.select_by_value(str(start_mon))
    end_year_element = driver.find_element_by_name('end_year')
    end_year_select = Select(end_year_element)
    end_year_select.select_by_value(str(end_year))
    end_mon_element = driver.find_element_by_name('end_mon')
    end_mon_select = Select(end_mon_element)
    end_mon_select.select_by_value(str(end_mon))

    for i in range(1,11):
        terms = driver.find_element_by_id("check_Jyo_"+ str(i).zfill(2))
        terms.click()
    
    list_element = driver.find_element_by_name('list')
    list_select = Select(list_element)
    list_select.select_by_value("100")

    frm = driver.find_element_by_css_selector("#db_search_detail_form > form")
    frm.submit()
    time.sleep(10)
    wait.until(EC.presence_of_all_elements_located)
    while True:
        time.sleep(10)
        wait.until(EC.presence_of_all_elements_located)
        all_rows = driver.find_element_by_class_name('race_table_01').find_elements_by_tag_name("tr")
        for row in range(1, len(all_rows)):
            race_href=all_rows[row].find_elements_by_tag_name("td")[4].find_element_by_tag_name("a").get_attribute("href")
            urls.append(race_href)
        try:
            target = driver.find_elements_by_link_text("æ¬¡")[0]
            time.sleep(4)
            driver.execute_script("arguments[0].click();", target)
        except IndexError:
            break
    return urls


In [13]:
year = 2020
mon = 1
urls = get_urls(year, mon)
create_csv(urls)

https://db.netkeiba.com/race/202006010901/
https://db.netkeiba.com/race/202006010902/
https://db.netkeiba.com/race/202006010903/
https://db.netkeiba.com/race/202006010904/
https://db.netkeiba.com/race/202006010905/
https://db.netkeiba.com/race/202006010906/
https://db.netkeiba.com/race/202006010907/
https://db.netkeiba.com/race/202006010908/
https://db.netkeiba.com/race/202006010909/
https://db.netkeiba.com/race/202006010910/
https://db.netkeiba.com/race/202006010911/
https://db.netkeiba.com/race/202006010912/
https://db.netkeiba.com/race/202008010901/
https://db.netkeiba.com/race/202008010902/
https://db.netkeiba.com/race/202008010903/
https://db.netkeiba.com/race/202008010904/
https://db.netkeiba.com/race/202008010905/
https://db.netkeiba.com/race/202008010906/
https://db.netkeiba.com/race/202008010907/
https://db.netkeiba.com/race/202008010908/
https://db.netkeiba.com/race/202008010909/
https://db.netkeiba.com/race/202008010910/
https://db.netkeiba.com/race/202008010911/
https://db.