# 03. kyiデータの前処理

【このノートで実施すること】</br>
　機械学習に使用するため、テーブルデータの中身を精査し、データ型を変更したり、欠損している値を補完したりします。</br>
　このノートではkyiデータについて処理します。</br>
</br>
【入力】</br>
　・data/02_format_data/df_kyi.plk</br>
</br>
【出力】</br>
　・data/03_preprocessed_data/df_kyi.pkl</br>
</br>

## 03.1. 準備

必要なモジュールをインポートしたり、データを分析するメソッドを用意したり、データを読み込んだりしています。

In [None]:
# 必要なモジュールをインポート
import pandas as pd
import pickle
import os

In [None]:
# データの分析結果を出すメソッドを用意
def make_analysis_df(df):

    # 分析用の情報を取得
    num_non_empty = df.count()
    num_empty = df.isna().sum()
    empty_percentage = (num_empty / len(df)) * 100
    data_types = df.dtypes
    unique_counts = df.nunique()
    
    # 新しいDataFrameを作成
    analysis_df = pd.DataFrame({
        'カラム名': df.columns,
        '空でないデータ数': num_non_empty.values,
        '空白データ数': num_empty.values,
        '空白率（％）': empty_percentage.values,
        'データ型': data_types.values,
        'ユニークな値の数': unique_counts.values
    })
    return analysis_df

In [None]:
# 全カラム、全レコードを表示するように設定
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [None]:
# データを読み込む
with open('data/02_format_data/df_kyi.pkl', 'rb') as file:
    df_kyi = pickle.load(file)

## 03.2. データを確認する

データの中身を確認します

In [None]:
# 先頭の数行を表示
df_kyi.head()

In [None]:
# 分析結果を表示する
df_kyi_analyzed_before = make_analysis_df(df_kyi)
df_kyi_analyzed_before

## 03.3. 前処理

必要に応じてデータを加工します。<br>
各項目の意味についてはJRDBの仕様書を参照ください。<br>
<br>
引用：<br>
　競走馬データ仕様　第11版：http://www.jrdb.com/program/Kyi/kyi_doc.txt<br>
　競走馬データ仕様書内容の説明：http://www.jrdb.com/program/Kyi/ky_siyo_doc.txt<br>
　ＪＲＤＢデータコード表：http://www.jrdb.com/program/jrdb_code.txt<br>

In [None]:
df_kyi['馬番'] = pd.to_numeric(df_kyi['馬番'], errors='coerce')
df_kyi['馬番'] = df_kyi['馬番'].astype(int)

df_kyi['IDM'] = pd.to_numeric(df_kyi['IDM'], errors='coerce')
df_kyi['IDM'] = df_kyi['IDM'].astype(float)

df_kyi['騎手指数'] = pd.to_numeric(df_kyi['騎手指数'], errors='coerce')
df_kyi['騎手指数'] = df_kyi['騎手指数'].astype(float)

df_kyi['情報指数'] = pd.to_numeric(df_kyi['情報指数'], errors='coerce')
df_kyi['情報指数'] = df_kyi['情報指数'].astype(float)

df_kyi['総合指数'] = pd.to_numeric(df_kyi['総合指数'], errors='coerce')
df_kyi['総合指数'] = df_kyi['総合指数'].astype(float)

df_kyi['脚質'] = df_kyi['脚質'].astype('category')

df_kyi['距離適性'] = df_kyi['距離適性'].astype('category')

df_kyi['上昇度'] = df_kyi['上昇度'].astype('category')

df_kyi['ローテーション'] = pd.to_numeric(df_kyi['ローテーション'], errors='coerce')
df_kyi['ローテーション'] = df_kyi['ローテーション'].fillna(0).astype(int)

df_kyi['基準オッズ'] = pd.to_numeric(df_kyi['基準オッズ'], errors='coerce')
df_kyi['基準オッズ'] = df_kyi['基準オッズ'].astype(float)

df_kyi['基準人気順位'] = pd.to_numeric(df_kyi['基準人気順位'], errors='coerce')
df_kyi['基準人気順位'] = df_kyi['基準人気順位'].astype(int)

df_kyi['基準複勝オッズ'] = pd.to_numeric(df_kyi['基準複勝オッズ'], errors='coerce')
df_kyi['基準複勝オッズ'] = df_kyi['基準複勝オッズ'].astype(float)

df_kyi['基準複勝人気順位'] = pd.to_numeric(df_kyi['基準複勝人気順位'], errors='coerce')
df_kyi['基準複勝人気順位'] = df_kyi['基準複勝人気順位'].astype(int)

df_kyi['特定情報◎'] = pd.to_numeric(df_kyi['特定情報◎'], errors='coerce')
df_kyi['特定情報◎'] = df_kyi['特定情報◎'].fillna(0).astype(int)

df_kyi['特定情報○'] = pd.to_numeric(df_kyi['特定情報○'], errors='coerce')
df_kyi['特定情報○'] = df_kyi['特定情報○'].fillna(0).astype(int)

df_kyi['特定情報▲'] = pd.to_numeric(df_kyi['特定情報▲'], errors='coerce')
df_kyi['特定情報▲'] = df_kyi['特定情報▲'].fillna(0).astype(int)

df_kyi['特定情報△'] = pd.to_numeric(df_kyi['特定情報△'], errors='coerce')
df_kyi['特定情報△'] = df_kyi['特定情報△'].fillna(0).astype(int)

df_kyi['特定情報×'] = pd.to_numeric(df_kyi['特定情報×'], errors='coerce')
df_kyi['特定情報×'] = df_kyi['特定情報×'].fillna(0).astype(int)

df_kyi['総合情報◎'] = pd.to_numeric(df_kyi['総合情報◎'], errors='coerce')
df_kyi['総合情報◎'] = df_kyi['総合情報◎'].fillna(0).astype(int)

df_kyi['総合情報○'] = pd.to_numeric(df_kyi['総合情報○'], errors='coerce')
df_kyi['総合情報○'] = df_kyi['総合情報○'].fillna(0).astype(int)

df_kyi['総合情報▲'] = pd.to_numeric(df_kyi['総合情報▲'], errors='coerce')
df_kyi['総合情報▲'] = df_kyi['総合情報▲'].fillna(0).astype(int)

df_kyi['総合情報△'] = pd.to_numeric(df_kyi['総合情報△'], errors='coerce')
df_kyi['総合情報△'] = df_kyi['総合情報△'].fillna(0).astype(int)

df_kyi['総合情報×'] = pd.to_numeric(df_kyi['総合情報×'], errors='coerce')
df_kyi['総合情報×'] = df_kyi['総合情報×'].fillna(0).astype(int)

df_kyi['人気指数'] = pd.to_numeric(df_kyi['人気指数'], errors='coerce')
df_kyi['人気指数'] = df_kyi['人気指数'].fillna(0).astype(int)

df_kyi['調教指数'] = pd.to_numeric(df_kyi['調教指数'], errors='coerce')
df_kyi['調教指数'] = df_kyi['調教指数'].fillna(0).astype(float)

df_kyi['厩舎指数'] = pd.to_numeric(df_kyi['厩舎指数'], errors='coerce')
df_kyi['厩舎指数'] = df_kyi['厩舎指数'].fillna(0).astype(float)

df_kyi['調教矢印コード'] = df_kyi['調教矢印コード'].astype('category')

df_kyi['厩舎評価コード'] = df_kyi['厩舎評価コード'].astype('category')

df_kyi['騎手期待連対率'] = pd.to_numeric(df_kyi['騎手期待連対率'], errors='coerce')
df_kyi['騎手期待連対率'] = df_kyi['騎手期待連対率'].fillna(0).astype(float)

df_kyi['激走指数'] = pd.to_numeric(df_kyi['激走指数'], errors='coerce')
df_kyi['激走指数'] = df_kyi['激走指数'].fillna(0).astype(int)

df_kyi['蹄コード'] = df_kyi['蹄コード'].astype('category')

df_kyi['重適正コード'] = df_kyi['重適正コード'].astype('category')

df_kyi['クラスコード'] = df_kyi['クラスコード'].astype('category')

df_kyi['ブリンカー'] = df_kyi['ブリンカー'].astype('category')

# float型にするとともに、0.1キログラム単位からキログラム単位に変換します
df_kyi['負担重量'] = pd.to_numeric(df_kyi['負担重量'], errors='coerce')
df_kyi['負担重量'] = df_kyi['負担重量'].astype(float) * 0.1

df_kyi['見習い区分'] = df_kyi['見習い区分'].astype('category')

df_kyi['調教師所属'] = df_kyi['調教師所属'].astype('category')

df_kyi['枠番'] = pd.to_numeric(df_kyi['枠番'], errors='coerce')
df_kyi['枠番'] = df_kyi['枠番'].fillna(0).astype(int)

df_kyi['印コード_総合印'] = df_kyi['印コード_総合印'].astype('category')
df_kyi['印コード_ＩＤＭ印'] = df_kyi['印コード_ＩＤＭ印'].astype('category')
df_kyi['印コード_情報印'] = df_kyi['印コード_情報印'].astype('category')
df_kyi['印コード_騎手印'] = df_kyi['印コード_騎手印'].astype('category')
df_kyi['印コード_厩舎印'] = df_kyi['印コード_厩舎印'].astype('category')
df_kyi['印コード_調教印'] = df_kyi['印コード_調教印'].astype('category')

df_kyi['印コード_激走印'] = df_kyi['印コード_激走印'].astype('category')

df_kyi['芝適性コード'] = df_kyi['芝適性コード'].astype('category')

df_kyi['ダ適性コード'] = df_kyi['ダ適性コード'].astype('category')

df_kyi['賞金情報_獲得賞金'] = pd.to_numeric(df_kyi['賞金情報_獲得賞金'], errors='coerce')
df_kyi['賞金情報_獲得賞金'] = df_kyi['賞金情報_獲得賞金'].fillna(0).astype(int)

df_kyi['賞金情報_収得賞金'] = pd.to_numeric(df_kyi['賞金情報_収得賞金'], errors='coerce')
df_kyi['賞金情報_収得賞金'] = df_kyi['賞金情報_収得賞金'].fillna(0).astype(int)

df_kyi['賞金情報_条件クラス'] = df_kyi['賞金情報_条件クラス'].astype('category')

df_kyi['性別コード'] = df_kyi['性別コード'].astype('category')

df_kyi['馬主会コード'] = df_kyi['馬主会コード'].astype('category')

df_kyi['馬記号コード'] = df_kyi['馬記号コード'].astype('category')

df_kyi['激走順位'] = pd.to_numeric(df_kyi['激走順位'], errors='coerce')
df_kyi['激走順位'] = df_kyi['激走順位'].fillna(99).astype(int)

df_kyi['LS指数順位'] = pd.to_numeric(df_kyi['LS指数順位'], errors='coerce')
df_kyi['LS指数順位'] = df_kyi['LS指数順位'].fillna(99).astype(int)

df_kyi['輸送区分'] = df_kyi['輸送区分'].astype('category')

df_kyi['万券指数'] = pd.to_numeric(df_kyi['万券指数'], errors='coerce')
df_kyi['万券指数'] = df_kyi['万券指数'].fillna(0).astype(int)

df_kyi['万券印'] = df_kyi['万券印'].astype('category')

df_kyi['降級フラグ'] = df_kyi['降級フラグ'].astype('category')

df_kyi['激走タイプ'] = df_kyi['激走タイプ'].astype('category')

## 03.4. 加工後のデータを確認する

データが意図した通りに加工されているか確認します

In [None]:
# 先頭の数行を表示
df_kyi.head()

In [None]:
# 分析結果を表示する
df_kyi_analyzed_after = make_analysis_df(df_kyi)
df_kyi_analyzed_after

## 03.5. データを保存する

加工したデータを保存します

In [None]:
# ファイルをpickle形式で保存する
def save_dataframe_to_pickle(dataframe, folder_path, file_name):
    
    print("前処理したデータをファイルに保存します")

    # フォルダが存在しない場合は作成
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)

    # ファイルのフルパスを構築
    file_path = os.path.join(folder_path, file_name + ".pkl")

    # DataFrame を pickle 形式で保存
    with open(file_path, 'wb') as file:
        pickle.dump(dataframe, file)

    print("保存しました")

In [None]:
dataframe = df_kyi
folder_path = "data/03_preprocessed_data"
file_name = "df_kyi"
save_dataframe_to_pickle(dataframe, folder_path, file_name)