# EDA(探索的データ分析)
このノートブックでは、LIFUL HOME様が提供している不動産物件のデータについて、EDAを行います。
ローカルでクローンして動かす場合は、データを公開できないので各自データのファイルパスを環境変数を用いて指定してください。

# ライブラリとデータをインポート

In [319]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [320]:
def distribution_plot(df, feature_str, kde=True,):
    """
    Plots the distribution of a continuous feature with optional KDE overlay.
    
    Parameters:
    - df: DataFrame containing the data.
    - feature_str: Column name of the feature to plot.
    - kde: Boolean, whether to overlay a KDE plot (default is True).
    """

    data = df[feature_str]
    mean = data.mean()
    median = data.median()
    std_dev = data.std()

    stats_text = (f'Mean: {mean:.2f}\n'
                  f'Median: {median:.2f}\n'
                  f'Std Dev: {std_dev:.2f}\n')
    
    plt.figure(figsize=(7, 6))
    sns.histplot(df[feature_str], kde=kde, color="skyblue", bins=40)
    plt.title('Distribution of ' + feature_str)
    plt.xlabel(feature_str)
    plt.ylabel('Frequency')
    plt.text(0.05, 0.95, stats_text, transform=plt.gca().transAxes,
                fontsize=10, verticalalignment='top', bbox=dict(facecolor='white', alpha=0.5))
    plt.show()

def boxplot_cont_cat(df, continuous_feature_str, categorical_feature_str=None, target_feature_str=None):
    if target_feature_str:
        fig, ax = plt.subplots(1, 2, figsize=(10,4), facecolor='gray')

        sns.boxplot(x=categorical_feature_str, y=continuous_feature_str, data=df, ax=ax[0])
        ax[0].set_title("Box Plot of "+ categorical_feature_str+" vs "+continuous_feature_str)
        ax[0].set_xlabel(categorical_feature_str)
        ax[0].set_ylabel(continuous_feature_str)

        sns.boxplot(x=categorical_feature_str, y=continuous_feature_str, data=df, hue=target_feature_str, ax=ax[1])
        ax[1].set_title("Box Plot of "+ categorical_feature_str+" vs "+continuous_feature_str+" with Hue")
        ax[1].set_xlabel(categorical_feature_str)
        ax[1].set_ylabel(continuous_feature_str)

    else:
        sns.boxplot(x=categorical_feature_str, y=continuous_feature_str, data=df)

In [321]:
# Path of rent_converted.tsv
RENT_CONV_PATH = r"C:\Users\Issei\Desktop\Class Documents\KEIO 2024 Fall\Data Science\Datasets\rent_converted.tsv"
TEST_SAMPLED_PATH = r"C:\Users\Issei\Desktop\Class Documents\KEIO 2024 Fall\Data Science\Datasets\output\test" 
TRAIN_SAMPLED_PATH = r"C:\Users\Issei\Desktop\Class Documents\KEIO 2024 Fall\Data Science\Datasets\Output\train"

In [322]:
# Column names
COLUMN_NAMES = [
    "物件ID", "作成日時", "公開日時", "修正日時", "自社物フラグ", "物件種別", "総戸数/総区画数", "空き物件数", "郵便番号",
    "都道府県", "市区郡町村", "路線1", "駅1", "バス停名1", "バス時間1", "徒歩距離1", "路線2", "駅2", "バス停名2", "バス時間2",
    "徒歩距離2", "その他交通", "用途地域", "都市計画", "建物構造", "建物面積/専有面積", "建物階数(地上)", "建物階数(地下)", "築年月",
    "新築・未入居フラグ", "管理人", "部屋階数", "向き", "間取部屋数", "間取部屋種類", "間取り備考", "物件の特徴", "賃料/価格",
    "共益費/管理費", "賃料＋管理費", "礼金", "敷金", "保証金", "更新料", "契約期間(年)", "契約期間(月)", "契約期間(区分)",
    "その他費用名目1", "その他費用1", "その他費用名目2", "その他費用2", "その他費用名目3", "その他費用3",
    "駐車場料金", "駐車場区分", "駐車場距離", "駐車場空き台数", "駐車場備考", "現況", "引渡/入居時期", "引渡/入居年月",
    "引渡/入居旬", "小学校名", "小学校距離", "中学校名", "中学校距離", "コンビニ距離", "スーパー距離", "総合病院距離",
    "取引態様", "仲介手数料"
]

# Load the original dataset
# full_df = pd.read_csv(RENT_CONV_PATH, sep='\t', header=None, names=COLUMN_NAMES)
# full_df.head()

## トレインとテストに分割、その後サンプリングを行う

In [323]:
# full_train_df = full_df.sample(frac=0.7, random_state=0)
# full_test_df = full_df.drop(full_train_df.index)

In [324]:
# train_df = full_train_df.sample(frac=0.1, random_state=0)
# test_and_target_df = full_test_df.sample(frac=0.1, random_state=0)
# test_df = test_and_target_df.drop("賃料/価格", axis=1)

In [325]:
# train_df.to_csv(r"C:\Users\Issei\Desktop\Class Documents\KEIO 2024 Fall\Data Science\Datasets\Output\train", index_label='index')
# test_df.to_csv(r"C:\Users\Issei\Desktop\Class Documents\KEIO 2024 Fall\Data Science\Datasets\Output\test", index_label='index')

In [326]:
# Load sample datasets
train_df = pd.read_csv(TRAIN_SAMPLED_PATH, index_col='index')
test_df = pd.read_csv(TEST_SAMPLED_PATH, index_col='index')

# Display the first 5 rows of the dataset
train_df.head()

Unnamed: 0_level_0,物件ID,作成日時,公開日時,修正日時,自社物フラグ,物件種別,総戸数/総区画数,空き物件数,郵便番号,都道府県,...,引渡/入居旬,小学校名,小学校距離,中学校名,中学校距離,コンビニ距離,スーパー距離,総合病院距離,取引態様,仲介手数料
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1284548,3d9cea6082089b4c13fb56dd90a992ae,2015-04-11,2015-04-11,2015-09-06,0,3102,0.0,0.0,329-2731,9,...,,大山小学校,1400.0,西那須野中学校,1400.0,300.0,1100.0,,6,100.0
3017745,90d741dc345a828c217637f0c5ad2e13,2015-05-29,2015-05-29,2015-09-02,1,3101,45.0,,602-8346,26,...,,仁和小学校,325.0,北野中学校,1103.0,500.0,225.0,212.0,4,
4423333,d458a04292c3208976128375163a5cb9,2015-04-24,2015-08-17,2015-09-06,0,3101,,,193-0836,13,...,,,,,,361.0,322.0,160.0,6,
199208,0995d90e1afa0525198ee05bc5b71e62,2015-05-07,2015-08-30,2015-09-06,0,3101,,,271-0096,12,...,,,,,,,,,6,
5112990,f55fb3ebfd869454585c3624b8d2984d,2015-08-16,2015-08-16,2015-09-06,1,3101,,,332-0031,11,...,,,,,,,,,5,


## Data Cleaning
* ターゲットは賃料/価格

In [327]:
null_cols = train_df.columns[train_df.isnull().any()]
null_df = train_df[null_cols].isnull().sum().to_frame()
null_df['Ratio(%)'] = null_df[0] / train_df.shape[0] * 100
null_df.sort_values('Ratio(%)', ascending=False)

Unnamed: 0,0,Ratio(%)
間取り備考,365409,97.858363
都市計画,354604,94.96473
駐車場備考,354264,94.873676
用途地域,353097,94.561148
バス停名2,351100,94.026341
その他費用名目3,341590,91.479516
その他費用3,340030,91.06174
バス停名1,319619,85.595572
駐車場空き台数,318471,85.288131
バス時間2,317606,85.05648


**ドロップするカラム**
* 間取り備考：備考表示、間取りについての詳細な備考がテキストとして入力されている。例：ロフト1.5帖、現況優先、等
* 都市計画：1～4のナンバーで都市計画が割り振られている。
* 駐車場備考：備考表示、駐車場について。
* 用途地域：用途地域について、番号で割り振られている。
* バス停名1,2:バス停の名前、テキスト、ドロップする前にバス停有りカラムを作成
* バス時間1,2：バス停２までの時間
* その他費用名1,2,3：その他費用の名前、テキスト
* 駐車場空き台数：空き台数の数、不明の場合null
* 管理人：1～4までのカテゴリカル、不明の場合null
* 引渡/入居年月：Datetime
* 引渡/入居旬:上中下(1,2,3)旬のどれか
* 建物階数(地下)：地下の階数、欠測値の意味は不明
* 仲介手数料：円、一般的に成約時の売値によって変動、データ漏れの恐れがあるので削除。
* 保証金：売値により変動
* 更新料：変動
* 中学校名：
* 中学校距離：
* 小学校名：
* 小学校距離：
* 総合病院距離：
* 総戸数/総区画数：上記6つは価格に対する影響が少ないと仮定、加えて代入も困難なため
* 物件の特徴：今回はテキストデータを予測に用いないことにする
* その他交通：
* 


**代入するカラム**
* その他費用1,2,3：その他費用、無い場合はnull
* 空き物件数：不明の場合欠測、しかし欠測値の場合はアパートやマンションで空きがあり、仲介や媒介の場合が多いので1と代入
* 契約期間(月)：
* 契約期間(年)：
* 契約期間(区分)：時間がかかるが代入可能
* 駐車場料金：駐車場が空き無しか、無しの場合 null
* 現況：予測に大きな影響を与えると思われるため
* 路線1,2：
* 駅1,2：-1と代入、路線マスタ参照
* 徒歩距離2：-1と代入、駅２が存在しない場合 null
* 駐車場区分：
* 向き：
* 部屋階数：
* 郵便番号：
* スーパー距離：
* コンビニ距離： 距離の度合いと無しで割り振り
* 残りのカラムすべて


In [328]:
train_df['建物階数(地下)'].value_counts()

建物階数(地下)
0.0     94472
1.0      4331
2.0       506
3.0       127
4.0        51
5.0        26
10.0        7
8.0         7
7.0         7
6.0         6
9.0         3
13.0        2
26.0        2
11.0        1
15.0        1
Name: count, dtype: int64

In [329]:
train_df['取引態様'].loc[train_df['仲介手数料'].isnull()].value_counts()

取引態様
6    195509
5     56036
4      7830
1      6568
2      4270
3       689
Name: count, dtype: int64

In [330]:
plt.figure(figsize=(12, 12))
#sns.heatmap(train_df.isnull(), cbar=False)
plt.show()

<Figure size 1200x1200 with 0 Axes>

In [331]:
# 賃料+管理費は賃料/価格と共益費/管理費の合計なので削除（データ漏れがあるため）
cols_drop = ['間取り備考', '都市計画', '駐車場備考', '用途地域', 'バス停名1', 'バス停名2', 'バス時間1','バス時間2',
              'その他費用名目1', 'その他費用名目2', 'その他費用名目3', '駐車場空き台数', '管理人', '引渡/入居年月',
              '引渡/入居旬', '物件の特徴', '建物階数(地下)', '仲介手数料', '保証金', '更新料', '中学校名', '小学校名',
              '中学校距離', '小学校距離', '総合病院距離', '総戸数/総区画数', '賃料＋管理費', 'その他交通', '駐車場距離', '契約期間(区分)']

バス停を落とす前にバス停有りのカラムを作成

In [332]:
train_df['バス停有り'] = train_df['バス停名1'].notnull() | train_df['バス停名2'].notnull()

In [333]:
# Drop Null Colums
train_df = train_df.drop(columns=cols_drop, axis=1)

In [338]:
train_df.isnull().sum().loc[train_df.isnull().sum() > 0]

Series([], dtype: int64)

In [335]:
# Impute missing values (Simple)
train_df[['その他費用1', 'その他費用2', 'その他費用3']] = train_df[['その他費用1', 'その他費用2', 'その他費用3']].fillna(0)
train_df['駐車場料金'] = train_df['駐車場料金'].fillna(0)
train_df[['駅1', '駅2', '路線1', '路線2', '徒歩距離2']] = train_df[['駅1', '駅2', '路線1', '路線2', '徒歩距離2']].fillna(-1)
train_df[['駐車場区分', '現況']] = train_df[['駐車場区分', '現況']].fillna(-1) # -1 is unknown
train_df['空き物件数'] = train_df['空き物件数'].fillna(1)

cols_mode = [['徒歩距離1', '築年月', '建物階数(地上)', '部屋階数', '向き', '間取部屋数', '間取部屋種類', '建物構造', '郵便番号']]
for col in cols_mode:
    train_df[col] = train_df[col].fillna(train_df[col].mode().iloc[0])
train_df['建物面積/専有面積'] = train_df['建物面積/専有面積'].fillna(train_df['建物面積/専有面積'].mean())

In [336]:
train_df[['契約期間(年)', '契約期間(月)']].describe()

Unnamed: 0,契約期間(年),契約期間(月)
count,205338.0,125532.0
mean,4.756548,0.486912
std,75.187568,3.386714
min,0.0,0.0
25%,2.0,0.0
50%,2.0,0.0
75%,2.0,0.0
max,2101.0,60.0


In [337]:
# Impute missing values (Advanced)
def label_distance(distance):
    if distance < 0:
        return -1
    elif distance < 100:
        return 1
    elif distance < 300:
        return 2
    elif distance < 700:
        return 3
    else:
        return 4
    
train_df[['コンビニ距離', 'スーパー距離']] = train_df[['コンビニ距離', 'スーパー距離']].fillna(-1)
train_df['コンビニ距離'] = train_df['コンビニ距離'].apply(label_distance)
train_df['スーパー距離'] = train_df['スーパー距離'].apply(label_distance)

train_df.loc[train_df['契約期間(月)'].isnull() & (train_df['契約期間(年)'] > 0), '契約期間(月)'] = (train_df['契約期間(年)'] * 12)
train_df.loc[train_df['契約期間(年)'].isnull() & (train_df['契約期間(月)'] > 0), '契約期間(年)'] = (train_df['契約期間(月)'] / 12)
median_contract = train_df['契約期間(月)'].median()
train_df['契約期間(月)'] = train_df['契約期間(月)'].fillna(median_contract)
train_df['契約期間(年)'] = train_df['契約期間(年)'].fillna(median_contract * 12)