In [1]:
import re
import pandas as pd
from tqdm import tqdm
import itertools
import numpy as np
import datetime
import matplotlib.pyplot as plt
import MeCab
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import seaborn as sns

#### ディレクトリ構造
root/  
　├ code/ here  
　├ data/   
　├ rawdata/  
　└ adddata/   

In [2]:
train_data = pd.read_csv('../rawdata/train.csv', index_col='id')
test_data = pd.read_csv('../rawdata/test.csv', index_col='id')

### 方向性（前処理）
- 所在地は丁目の前までにする（たぶんMeCabとか使えばできる）
- アクセスも分解して、'最寄り駅名'、'最寄り徒歩'、（この２つは3番目までくらいはあってもいいかも）、'複数徒歩圏内'とかに分ける
- 間取りはOne-hotベクトル化
- 築年数は月数に換算する
- 方角はOne-hotベクトル化（南東とかどうするかは検討）
- 面積はそのままでよい（数値化）
- 所在階は分解して'所在階'と'何階建て'にする
- バス・トイレも要素を分解してOne-hotベクトル化する
- キッチンも同様
- 放送・通信も同様
- 室内設備も同様
- 駐車場は値段が書いてある場合と書いてない場合でどうするか検討
- 周辺環境は隅付き括弧の内容をまず抜き出してOne-hotベクトル化
- 構造もOne-hotベクトル化
- 契約期間は、'契約期間'、'定期借家 or not'に分ける  
データ加工について
- 最寄り駅の平均賃料($1m^2$あたり)を算出
- 間取りは'部屋数', 'K', 'DK', 'LDK'に変換したほうが良いかも

他のデータ利用について
- geocodingを用いて緯度経度orX,Yに変換  
  近傍を探索し、近傍の部件の平均賃料と標準偏差($1m^2$あたり)を算出
- 住みたい駅ランキングとか引っ張ってきてもいいかも(結局賃料に加味されている気がしないことも無いが)
- レポート出すならVisualize頑張る
- お得物件とか探してもいいかも

In [6]:
# 半角全角が入り混じってるのでまず全て半角に変換
def zen2han(text):
    if str(text) != str(np.nan):
        return text.translate(str.maketrans({chr(0xFF01 + i): chr(0x21 + i) for i in range(94)}))
    else:
        return np.nan

# 駅名をきれいにする
def get_station_list(station_list):
    station_list = [re.sub('\(.+?\)', '', text.replace('「','').replace('」','').replace('『','').replace('』','')) for text in station_list]
    station_list = [re.sub('（.+?）', '', text.replace('・','')) for text in station_list]
    return np.array(station_list)

# 路線名をきれいにする
def get_route_list(route_list):
    route_list = [text.replace('JR','')
                      .replace('ＪＲ','')
                      .replace('東京メトロ','')
                      .replace('小田急電鉄','')
                      .replace('小田急','')
                      .replace('都営','')
                      .replace('メトロ','') for text in route_list]
    return np.array(list(route_list))


# 所要時間を計算する
def get_times(times):
    new_times = []
    for time in times:
        if 'バス' in time:
            time = time.replace('・','').replace('バス','').replace('徒歩','').replace('分','').replace('(','').replace(')','').split('下車')
            time = sum([int(re.sub("\\D", "", i)) if i != '' else int(0) for i in time])
        elif '車' in time:
            time = int(re.sub("\\D", "", re.sub('車.{0,5}km','',time)))
        else:
            #time = int(time.replace('まで','').replace('徒歩','').replace('・','').replace('分','').replace('(','').replace(')',''))
            time = re.sub("\D", "", time)
            if time != '':
                time = int(time)
            else:
                time = 60
        new_times.append(time)
    return new_times

In [7]:
# 色々含まれているカラムを分割する
def split_items(item_pd):
    # 含まれている内容を分割
    item_dict = item_pd.str.replace('\t/', '/').str.replace('/', '').str.split('\t').to_dict()
    
    # 内容のユニーク値を出す
    item_list = []
    for item in list(item_dict.values()):
        if str(item) != str(np.nan):
            item_list.extend(item)
            item_list = list(np.unique(item_list))
        else:
            pass
    
    # One-hotベクトル化
    new_item_pd = pd.DataFrame(index=item_pd.index, columns=item_list)
    for item in item_list:
        new_item_pd[item] = item_pd.str.contains(item, na=False)
    
    return new_item_pd

# 駐車場
def split_parking(parking_list):
    park = ['駐車場', '駐輪場', 'バイク置き場']
    park_type = True
    last_type = None
    car = np.nan
    bicycle = np.nan
    bike = np.nan
    car_place = np.nan
    car_price = np.nan
    
    if str(parking_list) != str(np.nan):
        for text in parking_list:
            if park_type == True:
                if text in park:
                    park_type = text
                    last_type = text
                else:
                    if last_type == '駐車場':
                        if text[:2] == '距離':
                            car_place = text
                        elif text[0] != '(' and 'ヶ月' not in text:
                            car_price = text
                    park_type = True
            elif park_type == '駐車場':
                if text == '近隣':
                    car = '空有'
                    park_type = '価格'
                else:
                    car = text
                    park_type = True
            elif park_type == '駐輪場':
                bicycle = text
                park_type = True
            elif park_type == 'バイク置き場':
                bike = text
                park_type = True
            elif park_type == '価格':
                car_price = text
                park_type = '距離'
            elif park_type == '距離':
                car_place = text
                park_type = True
            else:
                car = np.nan
                bicycle = np.nan
                bike = np.nan
                car_place = np.nan
                car_price = np.nan
    
    return car, bicycle, bike, car_place, car_price

In [798]:
# 所在地の処理
def get_location(data):
    #re.split('(.+?[都道府県])(.+?[市区町村])(.+?\d[丁目])', text)
    # 形態素解析を用いて区名等を判別
    new_pd = pd.DataFrame(index=data['所在地'].index, columns=['都道府県', '市区町村', '町丁字'])
    t = MeCab.Tagger('-Owakati')
    for i, text in tqdm(zip(data['所在地'].index, data['所在地'])):
        location = t.parse(text).split()[:5]
        if len(location) == 5:
            new_pd.loc[i] = ([location[0]+location[1], location[2]+location[3], location[4]])
        elif len(location) == 4:
            new_pd.loc[i] = ([location[0]+location[1], location[2]+location[3], np.nan])
        elif len(location) == 2:
            new_pd.loc[i] = ([location[0]+location[1], 'その他', 'その他'])
        else:
            new_pd.loc[i] = (['その他', 'その他', 'その他'])
    # 東京都のみなので都道府県名は気にしない
    #return pd.get_dummies(new_pd[['市区町村', '町丁字']], columns=['市区町村', '町丁字'])
    return new_pd[['市区町村', '町丁字']]


# アクセスの処理
def get_access(data):
    # ひたすら前処理
    # ミスと思われるものを修正
    access = data['アクセス'].str.split('\t\t').to_dict()
    data['アクセス'] = (data['アクセス'].str.replace('\t\t都営大江戸線\u3000西新宿五丁目駅駅', '').str.replace('.','')
                                    .str.replace('－','-').str.replace('都営大江戸線『六本木』', '都営大江戸線六本木駅')
                                    .str.replace('\t\t京王井の頭線\t永福町駅\t徒歩22分\t\t京王線井の頭線\u3000永福町駅','\t\t京王井の頭線\t永福町駅\t徒歩22分'))
    route_list = []
    station_list = []
    for i in tqdm(access.keys()):
        text = data['アクセス'].loc[i].replace('\t','').replace('\u3000','').replace(':','').replace('：','').replace('/','')
        text = text.replace('・東京メトロ銀座線『上野広小路』', '東京メトロ銀座線上野広小路駅')
        text = text.replace('・山手線『上野』', '山手線上野駅')
        text = (text.replace('日暮里・舎人ライナー', '日暮里・舎人ライナー* ')
                    .replace('ゆりかもめ', 'ゆりかもめ* ')
                    .replace('エクスプレス', 'エクスプレス* ')
                    .replace('ツリーライン', 'ツリーライン* ')
                    .replace('湘南新宿ライン', '湘南新宿ライン* ')
                    .replace('ディズニーリゾートライン', 'ディズニーリゾートライン* ')
                    .replace('線・', '・')
                    .replace('線)', ')')
                    .replace('線）', '）')
                    .replace('線', '線* ')
                    .replace('駅', '駅* ')
                    .replace('駅* 前駅* ', '駅前駅* '))
        text = re.sub('バス\((?P<time>\d+)分\).+?下車徒歩','バス(\g<time>分)下車徒歩',text)
        text = re.sub('バス(?P<time>\d+)分.+?下車徒歩','バス(\g<time>分)下車徒歩',text)
        text = re.sub('バス\((?P<time>\d+)分\).+?下車(?P<some>[^(徒歩)])','バス(\g<time>分)下車* \g<some>',text)
        text = re.sub('バス(?P<time>\d+)分.+?下車(?P<some>[^(徒歩)])','バス(\g<time>分)下車* \g<some>',text)
        text = re.sub('km\((?P<time>\d+)分\)','km(\g<time>分)* ',text)
        text = re.sub('\((?P<line1>.+?)線* -(?P<line2>.+?)\)','(\g<line1>線-\g<line2>線)',text)
        a = np.array(re.sub('徒歩(?P<time>\d+)分','徒歩\g<time>分* ',text).split('* '))
        a = np.delete(a, -1)
        access[i] = np.array([a[3*j:3*j+3] for j in range(int(len(a)/3))])
        route_list.extend(list(access[i][:, 0]))
        route_list = list(np.unique(route_list))
        #station_list.extend(list(access[i][:, 1]))
        #station_list = list(np.unique(station_list))

    # 駅名と路線名の一覧を取得
    #station_list = np.unique(get_station_list(station_list))
    route_list = np.unique(get_route_list(route_list))

    # 利用可能駅数を取得
    available_station = pd.DataFrame([len(access[i]) for i in access.keys()], index=data.index, columns=['利用可能駅数'])

    # 利用可能路線数を取得
    available_routes = pd.DataFrame([len(np.unique(get_route_list(access[i][:, 0]))) for i in access.keys()], index=data.index, columns=['利用可能路線数'])

    # バスが必要か
    need_bus = pd.DataFrame(data['アクセス'].str.contains('バス').values, index=data.index, columns=['バス利用'])

    # 車が必要か
    need_car = pd.DataFrame(((data['アクセス'].str.contains('車')) & (data['アクセス'].str.contains('km'))).values, index=data.index, columns=['車利用']) 

    routes = [get_route_list(access[i][:, 0]) for i in access.keys()]
    stations = [get_station_list(access[i][:, 1]) for i in access.keys()]
    times = [get_times(access[i][:, 2]) for i in access.keys()]

    # 所要時間を記したデータフレームの作成
    """
    station_pd = pd.DataFrame(index=data.index, columns=station_list)
    route_pd = pd.DataFrame(index=data.index, columns=route_list)

    i = 0
    for key in tqdm(access.keys()):
        station_pd.loc[key, stations[i]] = times[i]
        route_pd.loc[key, routes[i]] = times[i]
        i += 1
    """
    """
    count = 0
    dict_index = 0
    #station_pd = {}
    route_pd = {}
    while True:
        num = 0
        #station_pd[dict_index] = pd.DataFrame(columns=station_list)
        route_pd[dict_index] = pd.DataFrame(columns=route_list)
        while num < 1000: 
            i = list(access.keys())[count]
            #append_pd = pd.DataFrame(times[count], index=stations[count], columns=[i]).groupby(level=0).last().T
            #station_pd[dict_index] = station_pd[dict_index].append(append_pd, sort=True)
            append_pd = pd.DataFrame(times[count], index=routes[count], columns=[i]).groupby(level=0).last().T
            route_pd[dict_index] = route_pd[dict_index].append(append_pd, sort=True)
            count += 1
            num += 1
            #print(count, end=',')
            if count == len(access.keys()):
                break
        dict_index += 1
        if count == len(access.keys()):
            break
    """

    #station_pd = pd.concat([i for i in station_pd.values()], axis=0)
    #route_pd = pd.concat([i for i in route_pd.values()], axis=0)
    #route_pd = route_pd.fillna(60)

    new_pd = pd.concat([available_station, available_routes, need_bus, need_car, 
                        #station_pd, 
                        #route_pd
                       ], axis=1)
    new_pd['最小所要時間'] = [np.min(i) for i in times]
    new_pd['最大所要時間'] = [np.max(i) for i in times]
    new_pd['平均所要時間'] = [np.mean(i) for i in times]
    return new_pd


# 間取りの処理
def get_layout(data):
    # 納戸ありは少ないので最初から分割
    stock = pd.DataFrame(data['間取り'].str.contains('納戸').values, index=data['間取り'].index, columns=['納戸有無'] )
    data['間取り'] = data['間取り'].str.replace('\+S\(納戸\)', '')
    # あとはOne-hotベクトル化
    
    #return pd.concat([pd.get_dummies(data['間取り'], columns=['間取り']), stock], axis=1)
    data['間取り'] = data['間取り'].str.replace('LK', 'LDK')

    data['LDK'] = data['間取り'].str.contains('LDK')
    data['間取り'] = data['間取り'].str.replace('LDK', '')

    data['DK'] = data['間取り'].str.contains('DK')
    data['間取り'] = data['間取り'].str.replace('DK', '')

    data['K'] = data['間取り'].str.contains('K')
    data['間取り'] = data['間取り'].str.replace('K', '')

    data['R'] = data['間取り'].str.contains('R')
    data['間取り'] = data['間取り'].str.replace('R', '')

    data['部屋数'] = data['間取り'].astype('int')
    
    return pd.concat([data[['部屋数', 'LDK', 'DK', 'K', 'R']], stock], axis=1)


# 築年数の処理
def get_age(data):
    age_month = [int(i[0])*12 + int(i[1]) if len(i)==2 else int(i[0])*12 if i[0] != '新築' else 0 for i in data['築年数'].str.replace('ヶ月','').str.split('年')]
    return pd.DataFrame(age_month, index=data.index, columns=['築月数'])


# 方角の処理
def get_direction(data):
    # One-hotベクトル化
    return pd.get_dummies(data['方角'], columns=['方角'])


# 面積の処理
def get_area(data):
    # 数値化
    return pd.DataFrame(data['面積'].str.replace('m2','').astype(float).values, index=data.index, columns=['面積'])


# 所在階の処理
def get_floor(data):
    # 所在階と合計階数と地下階数に分ける
    floor = [int(re.findall('(\d+階[^建][^)])', i)[0][:-3]) if len(re.findall('(\d+階[^建][^)])', i)) != 0 else np.nan  for i in data['所在階'].astype(str)]
    total_floor = [int(re.findall('(\d+階建)', i)[0][:-2]) if len(re.findall('(\d+階建)', i)) != 0 else np.nan  for i in data['所在階'].astype(str)]
    under_floor = [int(re.findall('(地下\d+階)', i)[0][2:-1]) if len(re.findall('(地下\d+階)', i)) != 0 else 0  for i in data['所在階'].astype(str)]
    floor_pd = pd.DataFrame({'所在階': floor, '合計階数': total_floor, '地下階数': under_floor}, index=data.index)
    floor_pd = floor_pd.fillna(floor_pd.median())
    return floor_pd


# 駐車場の処理
def get_parking(data):
    parking = pd.DataFrame(index=data.index, columns=['駐車場', '駐輪場', 'バイク置き場', '駐車場(距離)', '駐車場(価格)'])
    for i, parking_list in zip(data.index, data['駐車場'].str.split('\t')):
        parking.loc[i] = split_parking(parking_list)
        
    parking.loc[parking['駐車場'][(parking['駐車場'].str.contains('有', na=False)) | (parking['駐車場'].str.contains('近隣', na=False))].index, '駐車場'] = True
    parking.loc[parking['駐車場'][parking['駐車場'].str.contains('無', na=False)].index, '駐車場'] = False
    parking.loc[parking['駐輪場'][(parking['駐輪場'].str.contains('有', na=False)) | (parking['駐輪場'].str.contains('近隣', na=False))].index, '駐輪場'] = True
    parking.loc[parking['駐輪場'][parking['駐輪場'].str.contains('無', na=False)].index, '駐輪場'] = False
    parking.loc[parking['バイク置き場'][(parking['バイク置き場'].str.contains('有', na=False)) | (parking['バイク置き場'].str.contains('近隣', na=False))].index, 'バイク置き場'] = True
    parking.loc[parking['バイク置き場'][parking['バイク置き場'].str.contains('無', na=False)].index, 'バイク置き場'] = False
    
    parking = parking.drop(['駐車場(距離)', '駐車場(価格)'], axis=1)
    parking = parking.fillna(False)
    return parking


# 周辺環境の処理
def get_around(data):
    new_dict = {}
    facility_list = []
    for i, item in zip(data.index, data['周辺環境']):
        if str(item) != str(np.nan):
            new_dict[i] = np.array([text.split() for text in item.split('\t')])
            facility_list.extend(new_dict[i][:,0])
            facility_list = list(np.unique(facility_list))
        else:
            new_dict[i] = np.nan

    new_pd = pd.DataFrame(index=data.index, columns=facility_list)
    for i in tqdm(new_dict.keys()):
        if str(new_dict[i]) != str(np.nan):
            new_pd.loc[i, new_dict[i][:,0]] = new_dict[i][:,1]
    new_pd.columns = new_pd.columns.str.replace('【','').str.replace('】','')
    for column in new_pd.columns:
        new_pd[column] = new_pd[column].str.replace('m','').astype(float)
    new_pd = new_pd.fillna(0)
    return new_pd


# 建物構造の処理
def get_structure(data):
    return pd.get_dummies(data['建物構造'], columns=['建物構造'])


# 契約期間の処理
def get_contract(data):
    regular = data['契約期間'].str.contains('\t※この物件は\t定期借家\tです。')
    data['契約期間'] = data['契約期間'].str.replace('\t※この物件は\t定期借家\tです。', '')

    month = []
    for text in data['契約期間']:
        if str(text) != str(np.nan):
            if 'まで' in text:
                contract = int((datetime.datetime.strptime(text, '%Y年%m月まで') + datetime.timedelta(days=30) - datetime.datetime.strptime('2019年1月', '%Y年%m月')).days/31)
            elif '年間' in text:
                contract = int(text[:-2])*12
            elif 'ヶ月間' in text:
                if '年' in text:
                    contract = int(text.replace('ヶ月間','').split('年')[0])*12 + int(text.replace('ヶ月間','').split('年')[1])
                else:
                    contract = int(text.replace('ヶ月間',''))

            month.append(contract)
        else:
            month.append(np.nan)

    new_pd = pd.DataFrame(index=data.index, columns=['契約期間(月)', '定期借家'])
    new_pd['契約期間(月)'] = month
    new_pd['定期借家'] = regular.values
    new_pd = new_pd.fillna(new_pd.median())
    return new_pd

In [803]:
def get_train_data(train):
    # 全角を半角に
    for column in ['所在地', 'アクセス', '間取り', '築年数', '面積', '所在階', 'バス・トイレ', 'キッチン', '放送・通信', '室内設備', '駐車場', '周辺環境', '建物構造', '契約期間']:
        train[column] = [zen2han(text) for text in train[column]]
    # 答えデータ
    y = train['賃料']
    #train_data = pd.DataFrame(index=train.index)

    location = get_location(train)  # 所在地
    #access = get_access(train)  # アクセス
    layout = get_layout(train)  # 間取り
    age = get_age(train)  # 築年（月）数
    direction = get_direction(train)  # 方角
    area = get_area(train)  # 面積
    floor = get_floor(train)  # 所在階
    bath_toilet = split_items(train['バス・トイレ'])  # バス・トイレ
    kitchen = split_items(train['キッチン'])  # キッチン
    broadcast = split_items(train['放送・通信'])  # 放送・通信
    facility = split_items(train['室内設備'])  # 室内設備　
    parking = get_parking(train)  # 駐車場
    around = get_around(train)  # 周辺環境
    structure = get_structure(train)  # 建物構造
    contract = get_contract(train)  # 契約期間
    
    X = pd.concat([location, #access,
                   layout, age, direction, area, floor, bath_toilet, kitchen, broadcast, facility, parking, around, structure, contract], axis=1)
    y_per_area = train['賃料'] / X['面積']
    
    # 前処理後の処理
    sample = X.copy()
    sample['target_per_面積'] = y_per_area
    
    city_mean = sample.groupby('市区町村')['target_per_面積'].mean()
    city_std = sample.groupby('市区町村')['target_per_面積'].std()

    town_mean = sample.groupby('町丁字')['target_per_面積'].mean()
    town_std = sample.groupby('町丁字')['target_per_面積'].std()

    X['市区町村_mean_per_area'] = sample['市区町村'].replace(dict(zip(city_mean.index, city_mean.values)))
    X['市区町村_std_per_area'] = sample['市区町村'].replace(dict(zip(city_std.index, city_std.values)))
    X['町丁字_mean_per_area'] = sample['町丁字'].replace(dict(zip(town_mean.index, town_mean.values)))
    X['町丁字_std_per_area'] = sample['町丁字'].replace(dict(zip(town_std.index, town_std.values)))
    
    X['市区町村_mean'] = X['市区町村_mean_per_area'] * X['面積']
    X['市区町村_std'] = X['市区町村_std_per_area'] * X['面積']
    X['町丁字_mean'] = X['町丁字_mean_per_area'] * X['面積']
    X['町丁字_std'] = X['町丁字_std_per_area'] * X['面積']
    
    X = X.drop(['市区町村', '町丁字'], axis=1)
    
    # testデータ用に保存
    city_mean.to_pickle('../data/city_mean.pkl')
    city_std.to_pickle('../data/city_std.pkl')
    town_mean.to_pickle('../data/town_mean.pkl')
    town_std.to_pickle('../data/town_std.pkl')
    
    return X, y, y_per_area

In [804]:
def get_test_data(test):
    # 全角を半角に
    for column in ['所在地', 'アクセス', '間取り', '築年数', '面積', '所在階', 'バス・トイレ', 'キッチン', '放送・通信', '室内設備', '駐車場', '周辺環境', '建物構造', '契約期間']:
        test[column] = [zen2han(text) for text in test[column]]
    
    #test_data = pd.DataFrame(index=test.index)

    location = get_location(test)  # 所在地
    #access = get_access(test)  # アクセス
    layout = get_layout(test)  # 間取り
    age = get_age(test)  # 築年（月）数
    direction = get_direction(test)  # 方角
    area = get_area(test)  # 面積
    floor = get_floor(test)  # 所在階
    bath_toilet = split_items(test['バス・トイレ'])  # バス・トイレ
    kitchen = split_items(test['キッチン'])  # キッチン
    broadcast = split_items(test['放送・通信'])  # 放送・通信
    facility = split_items(test['室内設備'])  # 室内設備　
    parking = get_parking(test)  # 駐車場
    around = get_around(test)  # 周辺環境
    structure = get_structure(test)  # 建物構造
    contract = get_contract(test)  # 契約期間
    
    test_data = pd.concat([location, #access, 
                           layout, age, direction, area, floor, bath_toilet, kitchen, broadcast, facility, parking, around, structure, contract], axis=1)
    
    # 前処理後の処理
    sample = test_data.copy()
    
    city_mean = pd.read_pickle('../data/city_mean.pkl')
    city_std = pd.read_pickle('../data/city_std.pkl')
    town_mean = pd.read_pickle('../data/town_mean.pkl')
    town_std = pd.read_pickle('../data/town_std.pkl')
    
    test_data['市区町村_mean_per_area'] = sample['市区町村'].replace(dict(zip(city_mean.index, city_mean.values)))
    test_data['市区町村_std_per_area'] = sample['市区町村'].replace(dict(zip(city_std.index, city_std.values)))
    test_data['町丁字_mean_per_area'] = sample['町丁字'].replace(dict(zip(town_mean.index, town_mean.values)))
    test_data['町丁字_std_per_area'] = sample['町丁字'].replace(dict(zip(town_std.index, town_std.values)))
    
    # trainになかった市区町村はnp.nanにして後で補完
    test_data.loc[test_data[test_data['市区町村_mean_per_area'].astype(str) > str(99999999)].index, ['市区町村_mean_per_area', '市区町村_std_per_area']] = np.nan
    test_data.loc[test_data[test_data['町丁字_mean_per_area'].astype(str) > str(99999999)].index, ['町丁字_mean_per_area', '町丁字_std_per_area']] = np.nan
    
    test_data['市区町村_mean_per_area'] = test_data['市区町村_mean_per_area'].fillna(test_data['市区町村_mean_per_area'].median())
    test_data['市区町村_std_per_area'] = test_data['市区町村_std_per_area'].fillna(test_data['市区町村_std_per_area'].median())
    test_data['町丁字_mean_per_area'] = test_data['町丁字_mean_per_area'].fillna(test_data['町丁字_mean_per_area'].median())
    test_data['町丁字_std_per_area'] = test_data['町丁字_std_per_area'].fillna(test_data['町丁字_std_per_area'].median())
    
    test_data['市区町村_mean'] = test_data['市区町村_mean_per_area'] * test_data['面積']
    test_data['市区町村_std'] = test_data['市区町村_std_per_area'] * test_data['面積']
    test_data['町丁字_mean'] = test_data['町丁字_mean_per_area'] * test_data['面積']
    test_data['町丁字_std'] = test_data['町丁字_std_per_area'] * test_data['面積']
    
    test_data = test_data.drop(['市区町村', '町丁字'], axis=1)
    
    return test_data

In [509]:
"""
data = train_data.copy()
for column in ['所在地', 'アクセス', '間取り', '築年数', '面積', '所在階', 'バス・トイレ', 'キッチン', '放送・通信', '室内設備', '駐車場', '周辺環境', '建物構造', '契約期間']:
        data[column] = [zen2han(text) for text in data[column]]
"""

"\ndata = train_data.copy()\nfor column in ['所在地', 'アクセス', '間取り', '築年数', '面積', '所在階', 'バス・トイレ', 'キッチン', '放送・通信', '室内設備', '駐車場', '周辺環境', '建物構造', '契約期間']:\n        data[column] = [zen2han(text) for text in data[column]]\n"

In [516]:
"""
data = test_data.copy()
for column in ['所在地', 'アクセス', '間取り', '築年数', '面積', '所在階', 'バス・トイレ', 'キッチン', '放送・通信', '室内設備', '駐車場', '周辺環境', '建物構造', '契約期間']:
        data[column] = [zen2han(text) for text in data[column]]
"""

"\ndata = test_data.copy()\nfor column in ['所在地', 'アクセス', '間取り', '築年数', '面積', '所在階', 'バス・トイレ', 'キッチン', '放送・通信', '室内設備', '駐車場', '周辺環境', '建物構造', '契約期間']:\n        data[column] = [zen2han(text) for text in data[column]]\n"

In [805]:
%%time
train, target, target_per_area = get_train_data(train_data)
test = get_test_data(test_data)

train_copy = train.copy()
target_copy = target.copy()
test_copy = test.copy()

31470it [01:55, 272.48it/s]
100%|██████████| 31470/31470 [04:51<00:00, 108.02it/s]
31262it [02:19, 224.79it/s]
100%|██████████| 31262/31262 [04:30<00:00, 115.71it/s]


CPU times: user 18min 9s, sys: 4.01 s, total: 18min 13s
Wall time: 18min 12s


In [789]:
"""
gam_fe = train.copy()
gam_fe.columns = 'gam_' + gam_fe.columns
gam_fe.to_csv('../data/gam_train_fe.csv')

gam_fe = test.copy()
gam_fe.columns = 'gam_' + gam_fe.columns
gam_fe.to_csv('../data/gam_test_fe.csv')
"""