In [21]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os
import pickle
import joblib

#preprocess
from sklearn.model_selection import train_test_split

# modeling
import lightgbm as lgb
import itertools #grid search用
from sklearn.model_selection import KFold

#metrics
from sklearn.metrics import mean_squared_error

#progress bar
from tqdm.notebook import tqdm

#my util
import sys
sys.path.append('../src')

#plot setting
import myplot
myplot.setting_myplot()

from util import simple_preprocess

In [22]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows',100)
pd.set_option("display.max_seq_item",150)
pd.set_option("display.width",None)

In [23]:
#和暦 to 西暦
from preprocessing import wareki_to_seireki

In [24]:
import importlib,util
importlib.reload(util)

<module 'util' from '../src\\util.py'>

### train,testのカラム

- 用途：細分化してget_dummies

In [25]:
#データ読み込み
train = pd.read_csv('../raw_data/train_data.csv')
test = pd.read_csv('../raw_data/test_data.csv')

print(train.shape,test.shape)

#結合
train['adversarial'] = 0
test['adversarial'] = 1
full = pd.concat([train,test])
full = full.reset_index(drop=True)

print(full.shape)

(356344, 28) (34844, 27)
(391188, 29)


### trainのカラム

- 種類：['中古マンション等', '宅地(土地と建物)', '宅地(土地)', '林地', '農地']⇒ラベルエンコード
- 地域：['商業地', '住宅地', '工業地', '宅地見込地']⇒ラベルエンコード
- 市区町村コード：地区名と被ってない
- 都道府県名：東京しかないので削除
- 市区町村名：市区町村名と完全に一致、削除
- 地区名：市区町村コードとかぶってない
- 最寄駅：名称
- 最寄駅：距離（分）：〇〇分～〇〇分を数値に変換してfloat
- 間取り：numとLやDが含まれているかをone hot vector化
- 面積：2000以上などを数値に変換してfloat
- 土地の形状：順序変数に変換したものを作った
- 間口：float
- 延べ床面積：2000以上などを数値に変換してfloat
- 建築年：西暦に変換
- 建物の構造：⇒'、'でsplitしてダミー変数化した
- 用途：splitしてダミー変数化した
- 今後の利用目的：['住宅' 'その他' '事務所' nan '店舗' '倉庫' '工場']⇒ラベルエンコード
- 前面道路（方位）：ラベルエンコード
- 前面道路（種類）：ラベルエンコード
- 前面道路（幅員）：数値変換なしにfloatで
- 都市計画：ラベルエンコード
- 建ぺい率：数値変換なしにfloatで
- 容積率：同上
- 取引時点：何年か、四半期のいつかのカラムを作成
- 改装：改装したか否か⇒ラベルエンコード
- 取引の事情など：splitしてダミー変数化した

In [26]:
#いらないのを削除
full = full.drop(["都道府県名",'市区町村名'],axis=1)

In [27]:
#最寄駅：距離をFE
full['最寄駅：距離（分）'] = full["最寄駅：距離（分）"].replace({'30分?60分':'45',
                                               '1H?1H30':'75','1H30?2H':"105",'2H?':"150"}).astype(float)

In [28]:
#間取りFE
madori_dict = ['Ｌ','Ｄ','Ｋ','＋Ｓ','Ｒ','メゾネット','オープンフロア','スタジオ','＋Ｋ','missing']
for madori in madori_dict:
    full['間取り_'+madori] = full['間取り'].fillna('missing').str.contains(madori).astype("int64")
    
full['間取り_num'] = full['間取り'].replace({"オープンフロア":np.NaN,"スタジオ":np.NaN,"メゾネット":np.NaN}).replace({'(.*)Ｌ(.*)':r'\1','(.*)Ｋ(.*)':r'\1','(.*)Ｄ(.*)':r'\1','(.*)Ｒ(.*)':r'\1'},regex=True)
full['間取り_num'] = full['間取り_num'].astype(float)

In [29]:
#面積をFE
for sq in ['2000㎡以上']:
    full['面積（㎡）_'+sq] = 0
    full.loc[full['面積（㎡）'].str.contains(sq),'面積（㎡）_'+sq] = 1

full["面積（㎡）"] = full["面積（㎡）"].replace({'2000㎡以上':np.nan,'5000㎡以上':5000}).astype(float)

In [30]:
#土地の形状FE
keijou = ["正方形","長方形","ほぼ正方形","ほぼ長方形","ほぼ整形","台形","ほぼ台形","不整形","袋地等",np.nan]
ind = list(range(len(keijou)))
dic = dict(zip(keijou,ind))
full["土地の形状_rank"] = full["土地の形状"].replace(dic)
full['土地の形状_rank'] = full['土地の形状_rank'].astype(float)

In [31]:
#間口FE
full['間口'] = full['間口'].replace({'50.0m以上':50.0}).astype(float)

In [32]:
#延床面積をFE
full["延床面積（㎡）"] = full["延床面積（㎡）"].replace({'2000㎡以上':2000,'10m^2未満':10}).astype(float)

In [33]:
#建築年を西暦に
full['建築年'] = full["建築年"].replace({"戦前":'昭和20年'})
full['建築年_西暦'] = wareki_to_seireki(full['建築年'])

HBox(children=(FloatProgress(value=0.0, max=391188.0), HTML(value='')))




In [34]:
#建物の構造
full['建物の構造'] = full['建物の構造'].fillna('missing')
stract_dict = []
for i in train['建物の構造'].fillna('missing').unique():
    stract_dict.extend(i.split('、'))
stract_dict = list(set(stract_dict))

for stract in stract_dict:
    full['建物の構造_'+stract] = full['建物の構造'].str.contains(stract).astype("int64")

In [35]:
#取引時点をFE
full["取引時点"] = full["取引時点"].replace({"(.*)年第(.*)":r'\1 \2',"(.*)四半期":r'\1'},regex=True)
full = pd.concat([full,full["取引時点"].str.split(expand=True).rename(columns={0:"取引時点_年",1:"取引時点_四半期"})],axis=1)
full["取引時点_四半期"] = full["取引時点_四半期"].astype(float)
full["取引時点_年"] = full["取引時点_年"].astype(float)

In [36]:
#取引の事情などFE
full['取引の事情等'] = full['取引の事情等'].fillna('missing')
jijou_dict = []
for i in train['取引の事情等'].fillna('missing').unique():
    jijou_dict.extend(i.split('、'))
jijou_dict = list(set(jijou_dict))
for jijou in jijou_dict:
    full['取引の事情等_'+jijou] = full['取引の事情等'].str.contains(jijou).astype("int64")

#テストに存在しない分類
del full['取引の事情等_古屋付き・取壊し前提']

In [37]:
#用途FE
full['用途'] = full['用途'].fillna('missing')
youto_dict = []
for i in train['用途'].fillna('missing').unique():
    youto_dict.extend(i.split('、'))
youto_dict = list(set(youto_dict))
for youto in youto_dict:
    full['用途_'+youto] = full['用途'].str.contains(youto).astype("int64")

In [38]:
full['経過年月'] = full['取引時点_年'] - full['建築年_西暦']

In [39]:
with open('../features/base.pkl', 'wb') as f:
    pickle.dump(full , f)