# 03. hjcデータの前処理

【このノートで実施すること】</br>
　機械学習に使用するため、テーブルデータの中身を精査し、データ型を変更したり、欠損している値を補完したりします。</br>
　このノートではhjcデータについて処理します。</br>
</br>
【入力】</br>
　・data/02_format_data/df_hjc.plk</br>
</br>
【出力】</br>
　・data/03_preprocessed_data/df_hjc.pkl</br>
</br>

## 03.1. 準備

必要なモジュールをインポートしたり、データを分析するメソッドを用意したり、データを読み込んだりしています。

In [None]:
# 必要なモジュールをインポート
import pandas as pd
import pickle
import os

In [None]:
# データの分析結果を出すメソッドを用意
def make_analysis_df(df):

    # 分析用の情報を取得
    num_non_empty = df.count()
    num_empty = df.isna().sum()
    empty_percentage = (num_empty / len(df)) * 100
    data_types = df.dtypes
    unique_counts = df.nunique()
    
    # 新しいDataFrameを作成
    analysis_df = pd.DataFrame({
        'カラム名': df.columns,
        '空でないデータ数': num_non_empty.values,
        '空白データ数': num_empty.values,
        '空白率（％）': empty_percentage.values,
        'データ型': data_types.values,
        'ユニークな値の数': unique_counts.values
    })
    return analysis_df

In [None]:
# 全カラム、全レコードを表示するように設定
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [None]:
# データを読み込む
with open('data/02_format_data/df_hjc.pkl', 'rb') as file:
    df_hjc = pickle.load(file)

## 03.2. データを確認する

データの中身を確認します

In [None]:
# 先頭の数行を表示
df_hjc.head()

In [None]:
# 分析結果を表示する
df_hjc_analyzed_before = make_analysis_df(df_hjc)
df_hjc_analyzed_before

## 03.3. 前処理

必要に応じてデータを加工します。<br>
各項目の意味についてはJRDBの仕様書を参照ください。<br>
<br>
引用：<br>
　払戻情報データ仕様　第4版：http://www.jrdb.com/program/Hjc/hjcdata_doc.txt<br>

In [None]:
df_hjc['単勝払戻1_馬番'] = pd.to_numeric(df_hjc['単勝払戻1_馬番'], errors='coerce')
df_hjc['単勝払戻1_馬番'] = df_hjc['単勝払戻1_馬番'].fillna(0).astype(int)

df_hjc['単勝払戻1_払戻金'] = pd.to_numeric(df_hjc['単勝払戻1_払戻金'], errors='coerce')
df_hjc['単勝払戻1_払戻金'] = df_hjc['単勝払戻1_払戻金'].fillna(0).astype(int)

df_hjc['単勝払戻2_馬番'] = pd.to_numeric(df_hjc['単勝払戻2_馬番'], errors='coerce')
df_hjc['単勝払戻2_馬番'] = df_hjc['単勝払戻2_馬番'].fillna(0).astype(int)

df_hjc['単勝払戻2_払戻金'] = pd.to_numeric(df_hjc['単勝払戻2_払戻金'], errors='coerce')
df_hjc['単勝払戻2_払戻金'] = df_hjc['単勝払戻2_払戻金'].fillna(0).astype(int)

df_hjc['単勝払戻3_馬番'] = pd.to_numeric(df_hjc['単勝払戻3_馬番'], errors='coerce')
df_hjc['単勝払戻3_馬番'] = df_hjc['単勝払戻3_馬番'].fillna(0).astype(int)

df_hjc['単勝払戻3_払戻金'] = pd.to_numeric(df_hjc['単勝払戻3_払戻金'], errors='coerce')
df_hjc['単勝払戻3_払戻金'] = df_hjc['単勝払戻3_払戻金'].fillna(0).astype(int)

df_hjc['複勝払戻1_馬番'] = pd.to_numeric(df_hjc['複勝払戻1_馬番'], errors='coerce')
df_hjc['複勝払戻1_馬番'] = df_hjc['複勝払戻1_馬番'].fillna(0).astype(int)

df_hjc['複勝払戻1_払戻金'] = pd.to_numeric(df_hjc['複勝払戻1_払戻金'], errors='coerce')
df_hjc['複勝払戻1_払戻金'] = df_hjc['複勝払戻1_払戻金'].fillna(0).astype(int)

df_hjc['複勝払戻2_馬番'] = pd.to_numeric(df_hjc['複勝払戻2_馬番'], errors='coerce')
df_hjc['複勝払戻2_馬番'] = df_hjc['複勝払戻2_馬番'].fillna(0).astype(int)

df_hjc['複勝払戻2_払戻金'] = pd.to_numeric(df_hjc['複勝払戻2_払戻金'], errors='coerce')
df_hjc['複勝払戻2_払戻金'] = df_hjc['複勝払戻2_払戻金'].fillna(0).astype(int)

df_hjc['複勝払戻3_馬番'] = pd.to_numeric(df_hjc['複勝払戻3_馬番'], errors='coerce')
df_hjc['複勝払戻3_馬番'] = df_hjc['複勝払戻3_馬番'].fillna(0).astype(int)

df_hjc['複勝払戻3_払戻金'] = pd.to_numeric(df_hjc['複勝払戻3_払戻金'], errors='coerce')
df_hjc['複勝払戻3_払戻金'] = df_hjc['複勝払戻3_払戻金'].fillna(0).astype(int)

df_hjc['複勝払戻4_馬番'] = pd.to_numeric(df_hjc['複勝払戻4_馬番'], errors='coerce')
df_hjc['複勝払戻4_馬番'] = df_hjc['複勝払戻4_馬番'].fillna(0).astype(int)

df_hjc['複勝払戻4_払戻金'] = pd.to_numeric(df_hjc['複勝払戻4_払戻金'], errors='coerce')
df_hjc['複勝払戻4_払戻金'] = df_hjc['複勝払戻4_払戻金'].fillna(0).astype(int)

df_hjc['複勝払戻5_馬番'] = pd.to_numeric(df_hjc['複勝払戻5_馬番'], errors='coerce')
df_hjc['複勝払戻5_馬番'] = df_hjc['複勝払戻5_馬番'].fillna(0).astype(int)

df_hjc['複勝払戻5_払戻金'] = pd.to_numeric(df_hjc['複勝払戻5_払戻金'], errors='coerce')
df_hjc['複勝払戻5_払戻金'] = df_hjc['複勝払戻5_払戻金'].fillna(0).astype(int)

## 03.4. 加工後のデータを確認する

データが意図した通りに加工されているか確認します

In [None]:
# 先頭の数行を表示
df_hjc.head()

In [None]:
# 分析結果を表示する
df_hjc_analyzed_after = make_analysis_df(df_hjc)
df_hjc_analyzed_after

## 03.5. データを保存する

加工したデータを保存します

In [None]:
# ファイルをpickle形式で保存する
def save_dataframe_to_pickle(dataframe, folder_path, file_name):
    
    print("前処理したデータをファイルに保存します")

    # フォルダが存在しない場合は作成
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)

    # ファイルのフルパスを構築
    file_path = os.path.join(folder_path, file_name + ".pkl")

    # DataFrame を pickle 形式で保存
    with open(file_path, 'wb') as file:
        pickle.dump(dataframe, file)

    print("保存しました")

In [None]:
dataframe = df_hjc
folder_path = "data/03_preprocessed_data"
file_name = "df_hjc"
save_dataframe_to_pickle(dataframe, folder_path, file_name)