In [2]:
import pandas as pd
import re
import time
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm

In [7]:
class Results:
    @staticmethod
    def scrape(race_id_list):
        """
        レース結果データをスクレイピングする関数

        Parameters:
        ----------
        race_id_list : list
            レースIDのリスト

        Returns:
        ----------
        race_results_df : pandas.DataFrame
            全レース結果データをまとめてDataFrame型にしたもの
        """

        #race_idをkeyにしてDataFrame型を格納
        race_results = {}
        for race_id in tqdm(race_id_list):
            time.sleep(1)
            try:
                url = "https://db.netkeiba.com/race/" + race_id
                #メインとなるテーブルデータを取得
                df = pd.read_html(url)[0]

                html = requests.get(url)
                html.encoding = "EUC-JP"
                soup = BeautifulSoup(html.text, "html.parser")

                #天候、レースの種類、コースの長さ、馬場の状態、日付をスクレイピング
                texts = (
                    soup.find("div", attrs={"class": "data_intro"}).find_all("p")[0].text
                    + soup.find("div", attrs={"class": "data_intro"}).find_all("p")[1].text
                )
                info = re.findall(r'\w+', texts)
                for text in info:
                    if text in ["芝", "ダート"]:
                        df["race_type"] = [text] * len(df)
                    if "障" in text:
                        df["race_type"] = ["障害"] * len(df)
                    if "m" in text:
                        df["course_len"] = [int(re.findall(r"\d+", text)[-1])] * len(df)
                    if text in ["良", "稍重", "重", "不良"]:
                        df["ground_state"] = [text] * len(df)
                    if text in ["曇", "晴", "雨", "小雨", "小雪", "雪"]:
                        df["weather"] = [text] * len(df)
                    if "年" in text:
                        df["date"] = [text] * len(df)

                #馬ID、騎手IDをスクレイピング
                horse_id_list = []
                horse_a_list = soup.find("table", attrs={"summary": "レース結果"}).find_all(
                    "a", attrs={"href": re.compile("^/horse")}
                )
                for a in horse_a_list:
                    horse_id = re.findall(r"\d+", a["href"])
                    horse_id_list.append(horse_id[0])
                jockey_id_list = []
                jockey_a_list = soup.find("table", attrs={"summary": "レース結果"}).find_all(
                    "a", attrs={"href": re.compile("^/jockey")}
                )
                for a in jockey_a_list:
                    jockey_id = re.findall(r"\d+", a["href"])
                    jockey_id_list.append(jockey_id[0])
                df["horse_id"] = horse_id_list
                df["jockey_id"] = jockey_id_list

                #インデックスをrace_idにする
                df.index = [race_id] * len(df)
                print(df)

                race_results[race_id] = df
            #存在しないrace_idを飛ばす
            except IndexError:
                continue
            except AttributeError: #存在しないrace_idでAttributeErrorになるページもあるので追加
                continue
                #wifiの接続が切れた時などでも途中までのデータを返せるようにする
            except Exception as e:
                print(e)
                break
                #Jupyterで停止ボタンを押した時の対処
            except:
                break

        #pd.DataFrame型にして一つのデータにまとめる
        race_results_df = pd.concat([race_results[key] for key in race_results])

        return race_results_df

In [10]:
x = ["201901010101 ", '201910121210']
results = Results.scrape(x)

 50%|██████████████████████████████                              | 1/2 [00:01<00:01,  1.51s/it]

               着順  枠番  馬番         馬名  性齢  斤量    騎手     タイム     着差     単勝  人気  \
201901010101    1   1   1      ゴルコンダ  牡2  54  ルメール  1:48.3    NaN    1.4   1   
201901010101    2   3   3   プントファイヤー  牡2  54  岩田康誠  1:50.1      大    3.5   2   
201901010101    3   4   4  ラグリマスネグラス  牡2  51  団野大成  1:50.9      5   46.6   6   
201901010101    4   8   9     キタノコドウ  牡2  51  菅原明良  1:51.5  3.1/2   56.8   7   
201901010101    5   5   5   ネモフィラブルー  牡2  54  川島信二  1:51.7  1.1/2  140.3   9   
201901010101    6   8   8  マイネルラクスマン  牡2  54  丹内祐次  1:52.1  2.1/2    9.7   3   
201901010101    7   2   2    サンモンテベロ  牝2  54   黛弘人  1:52.5  2.1/2  114.7   8   
201901010101    8   7   7   エスカレーション  牝2  54  藤岡佑介  1:52.5    アタマ   26.1   5   
201901010101    9   6   6   セイウンジュリア  牝2  54  池添謙一  1:52.6     クビ   16.4   4   

                    馬体重       調教師  course_len weather race_type ground_state  \
201901010101   518(-16)  [東] 木村哲也        1800       曇         芝            良   
201901010101    496(-8)  [東] 手塚貴久      

100%|████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.43s/it]


In [5]:
results

NameError: name 'results' is not defined

In [9]:
if __name__ == "__main__":
    race_id_list = []
    for place in range(1, 11, 1):
        for kai in range(1, 13, 1):
            for day in range(1, 13, 1):
                for r in range(1, 13, 1):
                    race_id = "2019" + str(place).zfill(2) + str(kai).zfill(2) + str(day).zfill(2) + str(r).zfill(2)
                    race_id_list.append(race_id)

    print(race_id_list)
    results = Results.scrape(race_id_list)

['201901010101', '201901010102', '201901010103', '201901010104', '201901010105', '201901010106', '201901010107', '201901010108', '201901010109', '201901010110', '201901010111', '201901010112', '201901010201', '201901010202', '201901010203', '201901010204', '201901010205', '201901010206', '201901010207', '201901010208', '201901010209', '201901010210', '201901010211', '201901010212', '201901010301', '201901010302', '201901010303', '201901010304', '201901010305', '201901010306', '201901010307', '201901010308', '201901010309', '201901010310', '201901010311', '201901010312', '201901010401', '201901010402', '201901010403', '201901010404', '201901010405', '201901010406', '201901010407', '201901010408', '201901010409', '201901010410', '201901010411', '201901010412', '201901010501', '201901010502', '201901010503', '201901010504', '201901010505', '201901010506', '201901010507', '201901010508', '201901010509', '201901010510', '201901010511', '201901010512', '201901010601', '201901010602', '201901

  0%|                                                      | 1/17280 [00:01<8:46:40,  1.83s/it]

              着順  枠番  馬番         馬名  性齢  斤量    騎手     タイム     着差     単勝  人気  \
201901010101   1   1   1      ゴルコンダ  牡2  54  ルメール  1:48.3    NaN    1.4   1   
201901010101   2   3   3   プントファイヤー  牡2  54  岩田康誠  1:50.1      大    3.5   2   
201901010101   3   4   4  ラグリマスネグラス  牡2  51  団野大成  1:50.9      5   46.6   6   
201901010101   4   8   9     キタノコドウ  牡2  51  菅原明良  1:51.5  3.1/2   56.8   7   
201901010101   5   5   5   ネモフィラブルー  牡2  54  川島信二  1:51.7  1.1/2  140.3   9   
201901010101   6   8   8  マイネルラクスマン  牡2  54  丹内祐次  1:52.1  2.1/2    9.7   3   
201901010101   7   2   2    サンモンテベロ  牝2  54   黛弘人  1:52.5  2.1/2  114.7   8   
201901010101   8   7   7   エスカレーション  牝2  54  藤岡佑介  1:52.5    アタマ   26.1   5   
201901010101   9   6   6   セイウンジュリア  牝2  54  池添謙一  1:52.6     クビ   16.4   4   

                   馬体重       調教師  course_len weather race_type ground_state  \
201901010101  518(-16)  [東] 木村哲也        1800       曇         芝            良   
201901010101   496(-8)  [東] 手塚貴久        1800       

  0%|                                                      | 2/17280 [00:03<7:45:11,  1.62s/it]

              着順  枠番  馬番         馬名  性齢  斤量    騎手     タイム     着差    単勝  人気  \
201901010102   1   7   7   イエスサンキュー  牝3  54  加藤祥太  0:59.2    NaN   4.3   4   
201901010102   2   1   1     ユキエチャン  牝3  53  横山武史  0:59.4  1.1/4  19.8   6   
201901010102   3   6   6  キョウエイメサイア  牝3  54  松岡正海  0:59.5    3/4  13.9   5   
201901010102   4   8   8  サウンドシュリット  牝3  54  松田大作  0:59.8      2  27.2   8   
201901010102   5   4   4  ローマノキュウジツ  牝3  51  団野大成  1:00.0      1   4.1   2   
201901010102   6   3   3    プリモパンサー  牝3  51  菅原明良  1:00.0    アタマ  27.0   7   
201901010102   7   2   2     ローブドール  牝3  54  ルメール  1:00.2  1.1/4   2.9   1   
201901010102   8   5   5      カーヴィー  牝3  54  藤岡康太  1:00.3    1/2   4.2   3   

                  馬体重       調教師  course_len weather race_type ground_state  \
201901010102  492(+2)  [西] 羽月友彦        1000       曇       ダート            良   
201901010102  474(+4)  [西] 須貝尚介        1000       曇       ダート            良   
201901010102   456(0)  [東] 伊藤伸一        1000       曇       ダート  

  0%|                                                      | 3/17280 [00:05<8:47:25,  1.83s/it]

              着順  枠番  馬番         馬名  性齢  斤量    騎手     タイム     着差    単勝  人気  \
201901010103   1   2   2      リヴィエラ  牡3  56  柴山雄一  2:34.6    NaN   4.5   3   
201901010103   2   6   6   オウケンランボー  牡3  56  岩田康誠  2:34.7    1/2   3.6   1   
201901010103   3   8  11  エイシンフォーラン  牡3  56  菱田裕二  2:35.0      2  14.0   7   
201901010103   4   8  10         ロズ  牝3  54   荻野極  2:35.3      2  59.1  11   
201901010103   5   5   5    スキンズマッチ  牡3  56  国分恭介  2:35.7  2.1/2   6.4   4   
201901010103   6   4   4    シナリオライン  牡3  56  丹内祐次  2:36.0  1.3/4  57.6  10   
201901010103   7   6   7   トラインコンパス  牡3  55  横山武史  2:36.7      4   9.2   5   
201901010103   8   1   1  ラドミュージシャン  牡3  53  団野大成  2:37.4      4  21.8   8   
201901010103   9   3   3   サングリーンベイ  牡3  56  横山和生  2:37.4     クビ  11.5   6   
201901010103  10   7   9    アオイハヤブサ  牝3  54  藤岡康太  2:41.4      大  53.3   9   
201901010103  11   7   8   デルマシャンティ  牡3  56  ルメール  2:43.5      大   4.1   2   

                   馬体重       調教師  course_len weather race_type 

  0%|                                                     | 3/17280 [00:07<12:24:57,  2.59s/it]

Length of values (14) does not match length of index (13)



