# インポート

In [1]:
import pandas as pd
from pathlib import Path

COMMON_DATA_DIR = Path("..","..","common","data")
RAWDF_DIR = COMMON_DATA_DIR/"rawdf"

##　データ加工

##　レース結果テーブルのデータ加工

In [2]:
df = pd.read_csv(RAWDF_DIR / "results.csv", sep="\t")

In [3]:
# ilocで行列の数を指定
df.iloc[:,0:10]

Unnamed: 0,race_id,着順,枠番,馬番,馬名,性齢,斤量,騎手,タイム,着差
0,202301010101,1,5,5,サトミノキラリ,牡2,55.0,横山武史,1:09.5,
1,202301010101,2,8,8,ベアゴーゴー,牝2,55.0,浜中俊,1:09.5,クビ
2,202301010101,3,6,6,ハピアーザンエバー,牡2,55.0,藤岡佑介,1:10.0,2.1/2
3,202301010101,4,4,4,デビルシズカチャン,牝2,55.0,ルメール,1:10.2,1.1/2
4,202301010101,5,1,1,ウィスピースノー,牝2,55.0,吉田隼人,1:10.3,1/2
...,...,...,...,...,...,...,...,...,...,...
47667,202310030812,8,1,1,リヴァーレ,牝3,53.0,太宰啓介,2:42.9,1.1/4
47668,202310030812,9,6,7,シュアーウィナー,牡5,55.0,川端海翼,2:43.5,3.1/2
47669,202310030812,10,2,2,アウローラシエル,牡3,55.0,和田竜二,2:43.6,3/4
47670,202310030812,11,4,4,ハイグッドエース,牡4,55.0,西塚洸二,2:43.7,3/4


In [4]:
#以下、各列において数値型になっている確認。そうでなければ加工していく
df["着順"]

0         1
1         2
2         3
3         4
4         5
         ..
47667     8
47668     9
47669    10
47670    11
47671    12
Name: 着順, Length: 47672, dtype: object

In [13]:
# dtyopeがobjectになっている。機械学習に通すには数字の型にする必要がある。
普通にやるとnumeric関数によりエラーを欠損値として処理するように指定
df["rank"] = pd.to_numeric(df["着順"], errors="coerce")
df["rank"].value_counts(dropna=False)

rank
3.0     3460
1.0     3459
2.0     3456
4.0     3456
5.0     3456
6.0     3443
7.0     3424
8.0     3367
9.0     3259
10.0    3101
11.0    2895
12.0    2637
13.0    2342
14.0    2047
15.0    1708
16.0    1279
NaN      399
17.0     280
18.0     204
Name: count, dtype: int64

In [15]:
df.dropna(subset=["rank"],inplace=True)

In [16]:
df["rank"].value_counts(dropna=False)

rank
3.0     3460
1.0     3459
2.0     3456
4.0     3456
5.0     3456
6.0     3443
7.0     3424
8.0     3367
9.0     3259
10.0    3101
11.0    2895
12.0    2637
13.0    2342
14.0    2047
15.0    1708
16.0    1279
17.0     280
18.0     204
Name: count, dtype: int64

In [17]:
df["馬番"].astype(int)

0        5
1        8
2        6
3        4
4        1
        ..
47667    1
47668    7
47669    2
47670    4
47671    5
Name: 馬番, Length: 47273, dtype: int64

In [19]:
df["性齢"].str[0].value_counts()

性齢
牡    25038
牝    19922
セ     2313
Name: count, dtype: int64

In [24]:
#ラベルエンコーディング：カテゴリ変数を整数にマッピングするデータ加工手法
sex_mapping = {"牡":0, "牝":1, "セ":2}

In [26]:
df["性齢"].str[0].map(sex_mapping).value_counts()

性齢
0    25038
1    19922
2     2313
Name: count, dtype: int64

In [27]:
df["性齢"].str[1:].astype(int)

0        2
1        2
2        2
3        2
4        2
        ..
47667    3
47668    5
47669    3
47670    4
47671    3
Name: 性齢, Length: 47273, dtype: int64

In [28]:
df["斤量"]

0        55.0
1        55.0
2        55.0
3        55.0
4        55.0
         ... 
47667    53.0
47668    55.0
47669    55.0
47670    55.0
47671    52.0
Name: 斤量, Length: 47273, dtype: float64

In [29]:
# １０列目意向を確認
df.iloc[:,10:20]

Unnamed: 0,単勝,人気,馬体重,調教師,horse_id,jockey_id,trainer_id,owner_id,rank
0,1.2,1.0,452(-4),[東] 鈴木伸尋,2021101429,1170,1026,1026,1.0
1,4.1,2.0,454(+2),[東] 杉浦宏昭,2021105872,1115,1008,1008,2.0
2,59.9,6.0,438(-6),[西] 羽月友彦,2021106854,1093,1091,1091,3.0
3,16.6,3.0,450(+2),[西] 武幸四郎,2021105553,5339,1160,1160,4.0
4,23.9,5.0,434(-10),[西] 今野貞一,2021100648,1095,1128,1128,5.0
...,...,...,...,...,...,...,...,...,...
47667,62.8,11.0,394(+2),[西] 松永幹夫,2020105644,1037,1092,1092,8.0
47668,125.6,12.0,470(-4),[西] 安田隆行,2018106584,1195,438,438,9.0
47669,9.8,5.0,496(+8),[西] 森田直行,2020101781,1018,1142,1142,10.0
47670,37.2,10.0,440(-2),[西] 大根田裕,2019106647,1200,1032,1032,11.0


In [30]:
df["単勝"]

0          1.2
1          4.1
2         59.9
3         16.6
4         23.9
         ...  
47667     62.8
47668    125.6
47669      9.8
47670     37.2
47671      6.2
Name: 単勝, Length: 47273, dtype: object

In [32]:
df["単勝"].astype(float)

0          1.2
1          4.1
2         59.9
3         16.6
4         23.9
         ...  
47667     62.8
47668    125.6
47669      9.8
47670     37.2
47671      6.2
Name: 単勝, Length: 47273, dtype: float64

In [33]:
df["人気"].astype(int)

0         1
1         2
2         6
3         3
4         5
         ..
47667    11
47668    12
47669     5
47670    10
47671     4
Name: 人気, Length: 47273, dtype: int64

In [37]:
df["weight"] = df["馬体重"].str.extract(r"(\d+)").astype(int)
df['weight']

0        452
1        454
2        438
3        450
4        434
        ... 
47667    394
47668    470
47669    496
47670    440
47671    442
Name: weight, Length: 47273, dtype: int64

In [40]:
# 馬体重増減の部分も抜き出す
df["馬体重"].str.extract(r"\((.+)\)").astype(int)
df["weight_diff"] = df["馬体重"].str.extract(r"\((.+)\)").astype(int)
df["weight_diff"]

0        -4
1         2
2        -6
3         2
4       -10
         ..
47667     2
47668    -4
47669     8
47670    -2
47671     6
Name: weight_diff, Length: 47273, dtype: int64

In [5]:
df["枠番"]

0        5
1        8
2        6
3        4
4        1
        ..
47667    1
47668    6
47669    2
47670    4
47671    5
Name: 枠番, Length: 47672, dtype: int64

In [7]:
# 馬テーブルのデータ抽出
df = pd.read_csv(RAWDF_DIR/"horse_results.csv", sep="\t")

In [None]:
df.iloc[:,10:20]

Unnamed: 0,オッズ,人気,着順,騎手,斤量,距離,馬場,馬場指数,タイム,着差
0,3.8,2.0,9,津村明秀,57.0,芝1400,良,**,1:21.8,0.2
1,1.9,1.0,1,津村明秀,56.0,芝1400,良,**,1:19.7,-0.5
2,3.0,2.0,2,津村明秀,55.0,芝1400,良,**,1:22.0,0.4
3,11.3,5.0,2,津村明秀,54.0,芝1400,良,**,1:20.3,0.0
4,75.3,11.0,13,内田博幸,57.0,芝1600,稍,**,1:35.3,0.9
...,...,...,...,...,...,...,...,...,...,...
212935,1.3,1.0,1,藤原幹生,56.0,ダ1400,良,**,1:33.1,-0.5
212936,8.2,4.0,3,藤原幹生,56.0,ダ1400,良,**,1:30.8,0.4
212937,9.8,4.0,5,藤原幹生,56.0,ダ800,重,**,0:51.1,2.3
212938,47.5,13.0,14,松若風馬,56.0,ダ1700,良,**,1:49.4,3.4


In [10]:
df.iloc[:,0:10]

Unnamed: 0,horse_id,日付,開催,天気,R,レース名,映像,頭数,枠番,馬番
0,2021101429,2024/11/09,5東京3,晴,10.0,奥多摩S(3勝クラス),,14,5.0,8
1,2021101429,2024/10/06,4東京2,曇,8.0,3歳以上2勝クラス,,13,6.0,8
2,2021101429,2024/09/01,3新潟8,晴,9.0,飯豊特別(2勝クラス),,7,7.0,7
3,2021101429,2024/08/10,3新潟1,晴,10.0,新発田城特別(2勝クラス),,14,8.0,13
4,2021101429,2024/04/06,3中山5,曇,11.0,ニュージーランドT(GII),,16,8.0,16
...,...,...,...,...,...,...,...,...,...,...
212935,2020102750,2023/12/27,笠松,晴,3.0,C21組,,7,5.0,5
212936,2020102750,2023/12/06,笠松,晴,2.0,マックル賞(C),,8,1.0,1
212937,2020102750,2023/11/07,笠松,曇,1.0,C24組,,7,4.0,4
212938,2020102750,2023/09/03,3小倉8,晴,6.0,3歳未勝利,,16,7.0,13


In [11]:
df["日付"]

0         2024/11/09
1         2024/10/06
2         2024/09/01
3         2024/08/10
4         2024/04/06
             ...    
212935    2023/12/27
212936    2023/12/06
212937    2023/11/07
212938    2023/09/03
212939    2023/09/03
Name: 日付, Length: 212940, dtype: object

In [12]:
pd.to_datetime(df["日付"])

0        2024-11-09
1        2024-10-06
2        2024-09-01
3        2024-08-10
4        2024-04-06
            ...    
212935   2023-12-27
212936   2023-12-06
212937   2023-11-07
212938   2023-09-03
212939   2023-09-03
Name: 日付, Length: 212940, dtype: datetime64[ns]

In [14]:
df["天気"].value_counts()

天気
晴     126248
曇      64863
雨      13240
小雨      7747
雪        176
小雪       174
Name: count, dtype: int64