## Basic preprocessing (Numerical Features)

In [118]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import plotly
import plotly.graph_objects as go
import seaborn as sns
from IPython.core.display import HTML, display
from ipywidgets import interact
from tqdm import tqdm_notebook as tqdm

plotly.offline.init_notebook_mode(connected=True)

display(HTML("<style>.container { width:88% !important; }</style>"))

In [317]:
def categorical_box_plot(df, col_name, target_col_name):
    fig = go.Figure()
    for col_value in df.groupby(col_name)[target_col_name].mean().sort_values().index:
        fig.add_trace(
            go.Violin(
                y=df[df[col_name] == col_value][target_col_name],
                box_visible=True,
                meanline_visible=True,
                name=col_value,
            )
        )
    fig.show()

In [120]:
col_names = {
    "アクセス": "access",
    "キッチン": "kitchen",
    "バス・トイレ": "bathroom",
    "周辺環境": "neighbor",
    "契約期間": "contract",
    "建物構造": "material",
    "所在階": "floor_stories",
    "放送・通信": "internet",
    "方角": "direction",
    "築年数": "age",
    "賃料": "target",
    "間取り": "layout",
    "面積": "area",
    "駐車場": "parking",
    "所在地": "address",
    "室内設備": "equipment",
}

# Read files
INPUT_FILE_PATH = "./../../input"
train_df = pd.read_csv(f"{INPUT_FILE_PATH}/train.csv").rename(columns=col_names)
test_df = pd.read_csv(f"{INPUT_FILE_PATH}/test.csv").rename(columns=col_names)

# Combine train and test dataframes
df = pd.concat([train_df, test_df], axis=0, sort=True)

In [121]:
df

Unnamed: 0,access,address,age,area,bathroom,contract,direction,equipment,floor_stories,id,internet,kitchen,layout,material,neighbor,parking,target
0,都営三田線\t西巣鴨駅\t徒歩4分\t\t埼京線\t板橋駅\t徒歩14分\t\t都電荒川線\...,東京都北区滝野川３丁目,9年9ヶ月,20.01m2,専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t浴室乾燥機\t／\t温水洗浄便座,2年間,南東,エアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t室内洗濯機置場／\t敷...,1階／12階建,1,インターネット対応／\tCATV／\tCSアンテナ／\tBSアンテナ,ガスコンロ／\tコンロ2口／\tシステムキッチン\t／\t給湯,1K,RC（鉄筋コンクリート）,【小学校】 495m\t【大学】 461m\t【小学校】 962m\t【公園】 1103m\...,駐輪場\t空有,75000.0
1,都営大江戸線\t勝どき駅\t徒歩5分\t\t有楽町線\t月島駅\t徒歩9分\t\t日比谷線\...,東京都中央区月島３丁目,44年10ヶ月,16.5m2,専用トイレ／\tシャワー／\t温水洗浄便座,2年間,,エアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t室内洗濯機置場／\t敷...,5階／10階建,2,インターネット対応,ガスコンロ／\tシステムキッチン\t／\t給湯,1R,鉄骨造,【スーパー】 1283m,駐輪場\t空有\t駐車場\t無\tバイク置き場\t無,76000.0
2,京王線\t笹塚駅\t徒歩6分\t\t京王線\t代田橋駅\t徒歩7分\t\t京王線\t明大前駅...,東京都渋谷区笹塚２丁目,8年6ヶ月,22.05m2,専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t浴室乾燥機\t／\t温水洗浄...,2年間,南,エアコン付\tウォークインクローゼット\tシューズボックス／\tバルコニー／\tフローリング...,12階／15階建,3,インターネット対応／\t光ファイバー／\tCSアンテナ／\tBSアンテナ,ガスコンロ／\tコンロ2口／\tシステムキッチン\t／\t給湯,1K,RC（鉄筋コンクリート）,【スーパー】 89m\t【コンビニ】 184m\t【コンビニ】 392m\t【スーパー】 492m,"駐輪場\t空有\tバイク置き場\t空有\t駐車場\t近隣\t30,000円(税込)\t距離100m",110000.0
3,総武線・中央線（各停）\t高円寺駅\t徒歩9分\t\t丸ノ内線(池袋－荻窪)\t新高円寺駅\...,東京都杉並区高円寺南２丁目23-2,29年4ヶ月,60.48m2,専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t温水洗浄便座／\t洗面台独立,2年間\t※この物件は\t定期借家\tです。,南,エアコン付\tシューズボックス／\tバルコニー／\t2面採光／\t室内洗濯機置場／\tエレベ...,3階／4階建,4,インターネット対応／\t光ファイバー,ガスコンロ／\t給湯,2LDK,RC（鉄筋コンクリート）,【スーパー】 225m\t【スーパー】 448m\t【スーパー】 619m\t【スーパー】 ...,駐車場\t無\t駐輪場\t無\tバイク置き場\t無,150000.0
4,京成金町線\t京成金町駅\t徒歩5分\t\t常磐線\t金町(東京都)駅\t徒歩7分\t\t京...,東京都葛飾区金町３丁目7-2,31年7ヶ月,39.66m2,専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t追焚機能,2年間,南,バルコニー／\tフローリング／\t室内洗濯機置場\t公営水道／\t下水,1階／2階建,5,,給湯／\t独立キッチン,2DK,木造,【スーパー】 193m\t【スーパー】 298m\t【スーパー】 660m\t【スーパー】 ...,"駐車場\t近隣\t17,000円(税込)\t距離300m\t駐輪場\t無\tバイク置き場\t無",74000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31257,埼京線\t板橋駅\t徒歩3分\t\t都営三田線\t新板橋駅\t徒歩9分\t\t東武東上線\t...,東京都豊島区上池袋４丁目,0年1ヶ月,25.66m2,専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t浴室乾燥機\t／\t温水洗浄...,2年間,東,エアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t室内洗濯機置場／\t敷...,6階／8階建,62728,インターネット対応／\t光ファイバー／\tCATV／\tCSアンテナ／\tBSアンテナ／\t...,ガスコンロ／\tコンロ2口／\tシステムキッチン\t／\t給湯,1K,RC（鉄筋コンクリート）,【コンビニ】 204m\t【スーパー】 284m\t【スーパー】 496m\t【コンビニ】 ...,駐車場\t無\t駐輪場\t無\tバイク置き場\t無,
31258,都営新宿線\t岩本町駅\t徒歩2分\t\t山手線\t秋葉原駅\t徒歩4分\t\t日比谷線\t...,東京都千代田区岩本町２丁目,15年6ヶ月,22.71m2,専用バス／\t専用トイレ／\tシャワー／\t浴室乾燥機,,南,冷房／\tエアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t24時間換気...,8階／15階建,62729,インターネット対応／\t高速インターネット／\t光ファイバー／\tCATV／\tCSアンテナ...,ガスコンロ／\tコンロ2口／\tシステムキッチン\t／\t独立キッチン,1R,RC（鉄筋コンクリート）,,"駐車場\t空有\t43,200円\t駐輪場\t空有",
31259,都営大江戸線\t新江古田駅\t徒歩10分\t\t西武池袋線\t江古田駅\t徒歩20分\t\t...,東京都中野区江古田３丁目14-3,1年0ヶ月,45.76m2,バス・トイレ別／\tシャワー／\t追焚機能／\t温水洗浄便座,2年間\t※この物件は\t定期借家\tです。,南東,エアコン付／\t床暖房\tフローリング／\t室内洗濯機置場／\t敷地内ごみ置き場\t／\tエ...,10階／14階建,62730,インターネット対応／\tCATV／\tインターネット使用料無料,ガスコンロ／\tコンロ3口／\t給湯,1LDK,RC（鉄筋コンクリート）,,"駐車場\t空有\t32,400円(税込)\t駐輪場\t空有\tバイク置き場\t無",
31260,有楽町線\t麹町駅\t徒歩3分\t\t丸ノ内線(池袋－荻窪)\t四ツ谷駅\t徒歩4分\t\t...,東京都千代田区二番町,15年4ヶ月,55.2m2,専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t追焚機能／\t浴室乾燥機\t...,,北,冷房／\tエアコン付／\t床暖房\tバルコニー／\tフローリング／\t24時間換気システム\...,14階／14階建,62731,インターネット対応／\t高速インターネット／\t光ファイバー／\tCATV／\tCSアンテナ...,IHコンロ\t／\tコンロ3口／\tシステムキッチン\t／\t独立キッチン,1K,SRC（鉄骨鉄筋コンクリート）,,駐輪場\t空有,


## address : Split into address_1,2, 3
ex) "東京都北区滝野川３丁目" -> { "address_1": "北",  "address_2": '"滝野川",  "address_3": "3丁目" }

In [122]:
df["address"].value_counts()

東京都世田谷区太子堂２丁目          106
東京都板橋区板橋３丁目1-8         102
東京都中野区白鷺２丁目1-21         92
東京都豊島区南長崎５丁目            85
東京都中央区日本橋馬喰町２丁目4-12     81
                      ... 
東京都品川区二葉４丁目1-9           1
東京都中央区日本橋堀留町１丁目３－１６      1
東京都港区南麻布１丁目16-2          1
東京都渋谷区笹塚２丁目25-2          1
東京都葛飾区柴又５丁目３２－７          1
Name: address, Length: 17199, dtype: int64

In [123]:
# address: split into address_1, 2, 3
def pp_address(df):
    address = df["address"]
    address = address.str.replace("東京都", "")

    address_1 = address.str.split("区", expand=True).iloc[:, 0]
    address_2_3 = address.str.split("区", expand=True).iloc[:, 1]

    def to_hankaku(text):
        return text.translate(
            str.maketrans({chr(0xFF01 + i): chr(0x21 + i) for i in range(94)})
        )

    # 全角 -> 半角
    address_2_3 = address_2_3.map(to_hankaku)

    # split into address_2
    address_2 = address_2_3.str.split(r"\d", n=1, expand=True).iloc[:, 0]

    # "滝野川3丁目23" -> "3丁目23"
    address_3 = pd.DataFrame(
        {"address_2": address_2, "address_2_3": address_2_3}
    ).apply(lambda x: x.address_2_3.replace(x.address_2, ""), axis=1)

    df.loc[:, "address_1"] = address_1
    df.loc[:, "address_2"] = address_2
    df.loc[:, "address_3"] = address_3
    return df

In [124]:
df = pp_address(df)

In [125]:
df["address_1"].value_counts()

世田谷    5971
足立     4364
大田     3965
杉並     3542
練馬     3522
江戸川    3399
板橋     3270
港      3073
江東     3046
豊島     2547
品川     2544
中央     2532
新宿     2500
葛飾     2387
中野     2380
北      2061
墨田     2018
渋谷     1978
目黒     1942
台東     1875
文京     1814
荒川     1135
千代田     867
Name: address_1, dtype: int64

In [126]:
df["address_2"].value_counts()

本町       626
中央       421
中葛西      323
東葛西      317
亀戸       310
        ... 
一之江町       1
天神町        1
神田岩本町      1
桐ヶ丘        1
東六月町       1
Name: address_2, Length: 845, dtype: int64

In [318]:
categorical_box_plot(df, "address_1", "target")

In [319]:
categorical_box_plot(df, "address_2", "target")

## access : to line_1,2,3, station_1,2,3, duration_1,2,3, is_bus_1,2,3

In [303]:
# access : to line_1,2,3, station_1,2,3, duration_1,2,3, is_bus_1,2,3
def pp_access(df):
    def to_hankaku(text):
        return text.translate(
            str.maketrans({chr(0xFF01 + i): chr(0x21 + i) for i in range(94)})
        )

    access = df["access"]
    access_split = access.str.split("\t", expand=True)
    line_1 = access_split.iloc[:, 0]
    station_1 = access_split.iloc[:, 1]
    station_1 = station_1.str.replace(r"\(.*\)", "")  # 町屋(東京メトロ)駅 -> 町屋駅
    duration_1 = access_split.iloc[:, 2]
    duration_1 = duration_1.map(to_hankaku)
    walk_1 = (
        duration_1.str.extract(r"(徒歩\d{1,3}分)")
        .iloc[:, 0]
        .fillna("")
        .str.extract(r"(\d{1,3})")
        .fillna(0)
        .astype(int)
        .iloc[:, 0]
    )
    bus_1 = (
        duration_1.str.extract(r"(\/バス\(\d{1,3}分\))")
        .iloc[:, 0]
        .fillna("")
        .str.extract(r"(\d{1,3})")
        .fillna(0)
        .astype(int)
        .iloc[:, 0]
    )
    is_bus_1 = (bus_1 != 0).astype(int)
    duration_1 = walk_1 + bus_1 * 10

    line_2 = access_split.iloc[:, 4].fillna(np.nan)
    station_2 = access_split.iloc[:, 5]
    station_2 = station_2.str.replace(r"\(.*\)", "")  # 町屋(東京メトロ)駅 -> 町屋駅
    station_2 = station_2.fillna(np.nan)
    duration_2 = access_split.iloc[:, 6]
    walk_2 = (
        duration_2.str.extract(r"(徒歩\d{1,3}分)")
        .iloc[:, 0]
        .fillna("")
        .str.extract(r"(\d{1,3})")
        .astype(float)
        .iloc[:, 0]
    )
    bus_2 = (
        duration_2.str.extract(r"(\/バス\(\d{1,3}分\))")
        .iloc[:, 0]
        .fillna("")
        .str.extract(r"(\d{1,3})")
        .fillna(0)
        .astype(int)
        .iloc[:, 0]
    )
    is_bus_2 = (bus_2 != 0).astype(int)
    duration_2 = walk_2 + bus_2 * 10

    line_3 = access_split.iloc[:, 8].fillna(np.nan)
    station_3 = access_split.iloc[:, 9]
    station_3 = station_3.str.replace(r"\(.*\)", "")  # 町屋(東京メトロ)駅 -> 町屋駅
    station_3 = station_3.fillna(np.nan)
    duration_3 = access_split.iloc[:, 6]
    walk_3 = (
        duration_3.str.extract(r"(徒歩\d{1,3}分)")
        .iloc[:, 0]
        .fillna("")
        .str.extract(r"(\d{1,3})")
        .astype(float)
        .iloc[:, 0]
    )
    bus_3 = (
        duration_3.str.extract(r"(\/バス\(\d{1,3}分\))")
        .iloc[:, 0]
        .fillna("")
        .str.extract(r"(\d{1,3})")
        .fillna(0)
        .astype(int)
        .iloc[:, 0]
    )
    is_bus_3 = (bus_3 != 0).astype(int)
    duration_3 = walk_3 + bus_3 * 10

    df.loc[:, "line_1"] = line_1
    df.loc[:, "station_1"] = station_1
    df.loc[:, "duration_1"] = duration_1
    df.loc[:, "is_bus_1"] = is_bus_1

    df.loc[:, "line_2"] = line_2
    df.loc[:, "station_2"] = station_2
    df.loc[:, "duration_2"] = duration_2
    df.loc[:, "is_bus_2"] = is_bus_2

    df.loc[:, "line_3"] = line_3
    df.loc[:, "station_3"] = station_3
    df.loc[:, "duration_3"] = duration_3
    df.loc[:, "is_bus_3"] = is_bus_3

    return df

In [304]:
df = pp_access(df)

In [320]:
categorical_box_plot(df, "is_bus_1", target_col_name)

## material

In [129]:
df["material"].value_counts()

RC（鉄筋コンクリート）                   34810
木造                             11062
鉄骨造                             7495
SRC（鉄骨鉄筋コンクリート）                 4792
軽量鉄骨                            3608
ALC（軽量気泡コンクリート）                  577
その他                              268
PC（プレキャスト・コンクリート（鉄筋コンクリート））      102
HPC（プレキャスト・コンクリート（重量鉄骨））          10
ブロック                               5
鉄筋ブロック                             3
Name: material, dtype: int64

In [130]:
categorical_box_plot(df, "material", "target")

## bathroom : One-Hot Encoding

In [131]:
df["bathroom"].value_counts()

専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t追焚機能／\t浴室乾燥機\t／\t温水洗浄便座／\t洗面台独立／\t脱衣所    9113
専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t浴室乾燥機\t／\t温水洗浄便座／\t洗面台独立／\t脱衣所           5785
専用バス／\t専用トイレ／\tシャワー                                                      4127
専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー                                            3093
専用バス／\t専用トイレ／\tバス・トイレ別／\tシャワー／\t追焚機能／\t浴室乾燥機\t／\t温水洗浄便座／\t洗面台独立          1760
                                                                         ... 
専用バス／\tシャワー／\t温水洗浄便座                                                        1
バスなし／\t専用トイレ／\tシャワー／\t浴室乾燥機\t／\t温水洗浄便座／\t洗面台独立／\t脱衣所                        1
バスなし／\t専用トイレ／\tバス・トイレ別／\t追焚機能／\t浴室乾燥機\t／\t洗面台独立                             1
バスなし／\tトイレなし                                                                1
共同バス／\t共同トイレ／\tバス・トイレ別／\tシャワー                                               1
Name: bathroom, Length: 404, dtype: int64

In [132]:
# bathroom: One-Hot Encoding
def pp_bathroom(df):
    bathroom = df["bathroom"]
    bathroom = bathroom.str.replace("／", "")

    # Create unique values list
    bathroom_unique = pd.Series(
        pd.Series(bathroom.str.split("\t", expand=True).values.flatten()).unique()
    )
    # drop None, NaN, and ''
    bathroom_unique = bathroom_unique[~bathroom_unique.isnull()]
    bathroom_unique = bathroom_unique[bathroom_unique != ""]

    # One-Hot Encoding
    for col_name in bathroom_unique:
        df.loc[:, "ohe_bathroom_" + col_name] = (
            df["bathroom"].fillna("").str.contains(col_name).astype(int)
        )

    return df

In [133]:
df = pp_bathroom(df)

## equipment : One-Hot Encoding

In [134]:
df["equipment"].value_counts()

エアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t24時間換気システム\t／\t室内洗濯機置場／\t敷地内ごみ置き場\t／\tエレベーター／\tタイル張り\t公営水道／\t下水／\t都市ガス                                   3063
エアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t室内洗濯機置場／\t敷地内ごみ置き場\t／\tエレベーター／\tタイル張り\t公営水道／\t下水／\t都市ガス                                                  1609
冷房／\tエアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t24時間換気システム\t／\t室内洗濯機置場／\t敷地内ごみ置き場\t／\tエレベーター／\tタイル張り\t公営水道／\t下水／\t都市ガス                              1211
エアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t24時間換気システム\t／\t2面採光／\t室内洗濯機置場／\t敷地内ごみ置き場\t／\tエレベーター／\tタイル張り\t公営水道／\t下水／\t都市ガス                            1140
エアコン付\tシューズボックス／\tバルコニー／\tフローリング／\t室内洗濯機置場／\t敷地内ごみ置き場\t／\tエレベーター\t公営水道／\t下水／\t都市ガス                                                           819
                                                                                                                                            ... 
冷房／\tエアコン付\t床下収納\tシューズボックス／\tバルコニー／\tルーフバルコニー\t／\tフローリング／\t24時間換気システム\t／\t2面採光／\t室内洗濯機置場／\t敷地内ごみ置き場\t／\tエレベーター／\tタイル張り\t公営水道／\t下水／

In [135]:
# equipment : Ont-Hot Encoding
def pp_equipment(df):
    equipment = df["equipment"]
    equipment = equipment.str.replace("／", "")

    # Create unique values list
    bathroom_unique = pd.Series(
        pd.Series(equipment.str.split("\t", expand=True).values.flatten()).unique()
    )
    # drop None, NaN, and ''
    bathroom_unique = bathroom_unique[~bathroom_unique.isnull()]
    bathroom_unique = bathroom_unique[bathroom_unique != ""]

    # One-Hot Encoding
    for col_name in bathroom_unique:
        df.loc[:, "ohe_equipment_" + col_name] = (
            df["equipment"].fillna("").str.contains(col_name).astype(int)
        )

    return df

In [136]:
df = pp_equipment(df)

## kitchen : One-Hot Encoding

In [137]:
df["kitchen"].value_counts()

ガスコンロ／\tコンロ2口／\tシステムキッチン\t／\t給湯              11953
ガスコンロ／\tコンロ2口／\t給湯                            4477
ガスコンロ／\tコンロ3口／\tシステムキッチン\t／\t給湯               3233
給湯                                            2636
ガスコンロ／\tコンロ2口／\tシステムキッチン\t／\t給湯／\t独立キッチン      2562
                                             ...  
IHコンロ\t／\tコンロ1口／\tカウンターキッチン                      1
ガスコンロ／\tコンロ3口／\t給湯／\t独立キッチン／\tL字キッチン             1
コンロ設置可（コンロ2口）／\tカウンターキッチン\t／\t給湯／\tL字キッチン        1
コンロ2口／\tシステムキッチン\t／\t冷蔵庫あり                       1
ガスコンロ／\tコンロ4口以上                                  1
Name: kitchen, Length: 447, dtype: int64

In [138]:
# kitchen : One-Hot Enfoding
def pp_kitchen(df):
    kitchen = df["kitchen"]
    kitchen = kitchen.str.replace("／", "")

    # Create unique values list
    bathroom_unique = pd.Series(
        pd.Series(kitchen.str.split("\t", expand=True).values.flatten()).unique()
    )
    # drop None, NaN, and ''
    bathroom_unique = bathroom_unique[~bathroom_unique.isnull()]
    bathroom_unique = bathroom_unique[bathroom_unique != ""]

    # One-Hot Encoding
    for col_name in bathroom_unique:
        df.loc[:, "ohe_kitchen_" + col_name] = (
            df["kitchen"].fillna("").str.contains(col_name).astype(int)
        )

    return df

In [139]:
df = pp_kitchen(df)

## internet : One-Hot Encoding

In [140]:
df["internet"].value_counts()

インターネット対応                                          5166
光ファイバー                                             4603
インターネット対応／\t光ファイバー                                 3122
光ファイバー／\tCATV                                      2840
インターネット対応／\t光ファイバー／\tCATV／\tCSアンテナ／\tBSアンテナ        2741
                                                   ... 
光ファイバー／\t有線放送／\tインターネット使用料無料                          1
CATV／\tCSアンテナ／\tBSアンテナ／\t有線放送                         1
インターネット対応／\t光ファイバー／\tCATV／\t有線放送／\tインターネット使用料無料       1
CSアンテナ／\tBSアンテナ／\t有線放送                                1
高速インターネット／\tCATV／\tCSアンテナ／\t有線放送                      1
Name: internet, Length: 150, dtype: int64

In [141]:
# internet : One-Hot Encoding
def pp_internet(df):
    internet = df["internet"]
    internet = internet.str.replace("／", "")

    # Create unique values list
    bathroom_unique = pd.Series(
        pd.Series(internet.str.split("\t", expand=True).values.flatten()).unique()
    )
    # drop None, NaN, and ''
    bathroom_unique = bathroom_unique[~bathroom_unique.isnull()]
    bathroom_unique = bathroom_unique[bathroom_unique != ""]

    # One-Hot Encoding
    for col_name in bathroom_unique:
        df.loc[:, "ohe_internet_" + col_name] = (
            df["internet"].fillna("").str.contains(col_name).astype(int)
        )

    return df

In [142]:
df = pp_internet(df)

## parking : One-Hot Encoding

In [143]:
df["parking"].value_counts()

駐車場\t無                                                 6392
駐輪場\t空有\t駐車場\t無\tバイク置き場\t無                             4853
駐車場\t無\t駐輪場\t無\tバイク置き場\t無                              3603
駐輪場\t空有                                                2473
駐輪場\t空有\tバイク置き場\t無                                     1931
                                                       ... 
駐車場\t近隣\t17,280円\t距離319m                                  1
駐車場\t空有\t18,000円\t距離0m\t(空き要確認)\t駐輪場\t空有                  1
駐車場\t空有\t21,600円\t駐輪場\t空有\t540円\tバイク置き場\t空有\t5,400円       1
駐輪場\t空有\tバイク置き場\t空有\t駐車場\t近隣\t32,400円(税込)\t距離20m          1
駐車場\t近隣\t21,000円\t距離250m\t駐輪場\t無\tバイク置き場\t無               1
Name: parking, Length: 5927, dtype: int64

In [144]:
def pp_parking(df):
    parking = df["parking"].fillna("")
    df.loc[:, "ohe_parking_駐車場"] = parking.str.contains("駐車場\t空有").astype(int)
    df.loc[:, "ohe_parking_駐輪場"] = parking.str.contains("駐輪場\t空有").astype(int)
    return df

In [145]:
df = pp_parking(df)

## Visualize Target Value of  One-Hot Encoding Features

In [146]:
target_col_name = "target"
ohe_mean_diff = {}
for col in df.filter(like="ohe_").columns:
    ohe_mean_diff[col] = abs(
        df[df[col] == 1]["target"].mean() - df[df[col] == 0]["target"].mean()
    )
ohe_cols = pd.Series(ohe_mean_diff).sort_values(ascending=False).index


@interact(col_name=ohe_cols)
def show_ohe_boxplot(col_name):
    print("mean_diff: ", ohe_mean_diff[col_name])
    print("count_0: ", df[df[col_name] == 0].shape[0])
    print("count_1: ", df[df[col_name] == 1].shape[0])

    fig = go.Figure()
    fig.add_trace(
        go.Violin(
            y=df[df[col_name] == 0][target_col_name],
            box_visible=True,
            meanline_visible=True,
            name=col_name + "_0",
        )
    )
    fig.add_trace(
        go.Violin(
            y=df[df[col_name] == 1][target_col_name],
            box_visible=True,
            meanline_visible=True,
            name=col_name + "_1",
        )
    )
    fig.show()

interactive(children=(Dropdown(description='col_name', options=('ohe_kitchen_コンロ4口以上', 'ohe_kitchen_コンロ設置可（コンロ…