In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# 前処理

In [8]:
def pre_process_data(file_path, is_test=False):
    # データ読み込み
    data = pd.read_csv(file_path)
    
    if not is_test:
        #　odometerがマイナスの場合、対象レコードを削除
        data = data[data['odometer'] >= 0]
            
        # odometerが100万以上の場合、対象レコードを削除
        data = data[data['odometer'] < 1000000]

    # manufacturerの加工（空白の除去、小文字半角に統一）
    # TODO 省略されている値の変換もしてみる（文字コードの統一は不要なのか）
    data['manufacturer'] = data['manufacturer'].str.replace(' ', '').str.lower().str.normalize('NFKC')
        
    # sizeのハイフンの統一
    data['size'] = data['size'].str.replace('ー', '-').str.replace('−', '-')
    
    # fuel, typeの欠損値の処理
    data[['fuel', 'type']] = data[['fuel', 'type']].fillna('other')
    
    # title_status, stateは特徴量として使用しないので削除
    data = data.drop(columns = ['title_status', 'state'])
    
    #yearとodometerの値は標準化
    # TODO yearは標準化したほうがいいのかな。。
    scaler = StandardScaler()
    data[['year', 'odometer']] = scaler.fit_transform(data[['year', 'odometer']])
    
    return data

In [9]:
# trainデータの前処理
train_clean = pre_process_data('../data/train.csv')

# 前処理したtrainデータを出力
train_clean.to_csv('../data/preprocessed_data/train_clean.csv', index=False)

In [10]:
# testデータの前処理
test_clean = pre_process_data('../data/test.csv', is_test=True)

# 前処理したtestデータを出力
test_clean.to_csv('../data/preprocessed_data/test_clean.csv', index=False)