# EDA(探索的データ分析)
このノートブックでは、LIFUL HOME様が提供している不動産物件のデータについて、EDAを行います。
ローカルでクローンして動かす場合は、データを公開できないので各自データのファイルパスを環境変数を用いて指定してください。

# ライブラリとデータをインポート

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import train_test_split
%matplotlib inline

In [5]:
# Path of rent_converted.tsv
RENT_CONV_PATH = r"C:\Users\Issei\Desktop\Class Documents\KEIO 2024 Fall\Data Science\Datasets\rent_converted.tsv"

In [8]:
# Column names
COLUMN_NAMES = [
    "物件ID", "作成日時", "公開日時", "修正日時", "自社物フラグ", "物件種別", "総戸数/総区画数", "空き物件数", "郵便番号",
    "都道府県", "市区郡町村", "路線1", "駅1", "バス停名1", "バス時間1", "徒歩距離1", "路線2", "駅2", "バス停名2", "バス時間2",
    "徒歩距離2", "その他交通", "用途地域", "都市計画", "建物構造", "建物面積/専有面積", "建物階数(地上)", "建物階数(地下)", "築年月",
    "新築・未入居フラグ", "管理人", "部屋階数", "向き", "間取部屋数", "間取部屋種類", "間取り備考", "物件の特徴", "賃料/価格",
    "共益費/管理費", "賃料＋管理費", "礼金", "敷金", "保証金", "更新料", "契約期間(年)", "契約期間(月)", "契約期間(区分)",
    "その他費用名目1", "その他費用1", "その他費用名目2", "その他費用2", "その他費用名目3", "その他費用3",
    "駐車場料金", "駐車場区分", "駐車場距離", "駐車場空き台数", "駐車場備考", "現況", "引渡/入居時期", "引渡/入居年月",
    "引渡/入居旬", "小学校名", "小学校距離", "中学校名", "中学校距離", "コンビニ距離", "スーパー距離", "総合病院距離",
    "取引態様", "仲介手数料"
]

full_df = pd.read_csv(RENT_CONV_PATH, sep='\t', header=None, names=COLUMN_NAMES)
full_df.head()

Unnamed: 0,物件ID,作成日時,公開日時,修正日時,自社物フラグ,物件種別,総戸数/総区画数,空き物件数,郵便番号,都道府県,...,引渡/入居旬,小学校名,小学校距離,中学校名,中学校距離,コンビニ距離,スーパー距離,総合病院距離,取引態様,仲介手数料
0,000001a8a09bac529563c00e71099276,2015-05-16,2015-05-16,2015-09-06,1,3102,,,230-0012,14,...,,,,,,270.0,,,5,31860.0
1,000003d67c168129876425c22a106dae,2015-08-07,2015-08-07,2015-09-06,0,3102,21.0,,260-0843,12,...,1.0,,,,,300.0,110.0,,6,
2,00000441bc94d33c6889477ea2b09941,2015-08-01,2015-08-01,2015-09-05,0,3101,,,114-0023,13,...,,,,,,,,,6,
3,0000055b093c4209d164a7f2204eff32,2015-07-21,2015-07-21,2015-09-06,1,3103,,,432-8052,22,...,,市立可美小学校,1600.0,市立可美中学校,2100.0,390.0,,,5,42120.0
4,0000081549d99cf1e3f5be593e560799,2015-02-12,2015-05-16,2015-09-06,1,3101,,0.0,065-0009,1,...,,札幌市立苗穂小学校,605.0,札幌市立美香保中学校,1057.0,121.0,267.0,,5,


In [9]:
full_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5334370 entries, 0 to 5334369
Data columns (total 71 columns):
 #   Column     Dtype  
---  ------     -----  
 0   物件ID       object 
 1   作成日時       object 
 2   公開日時       object 
 3   修正日時       object 
 4   自社物フラグ     int64  
 5   物件種別       int64  
 6   総戸数/総区画数   float64
 7   空き物件数      float64
 8   郵便番号       object 
 9   都道府県       int64  
 10  市区郡町村      int64  
 11  路線1        float64
 12  駅1         float64
 13  バス停名1      object 
 14  バス時間1      float64
 15  徒歩距離1      float64
 16  路線2        float64
 17  駅2         float64
 18  バス停名2      object 
 19  バス時間2      float64
 20  徒歩距離2      float64
 21  その他交通      object 
 22  用途地域       float64
 23  都市計画       float64
 24  建物構造       float64
 25  建物面積/専有面積  float64
 26  建物階数(地上)   float64
 27  建物階数(地下)   float64
 28  築年月        float64
 29  新築・未入居フラグ  int64  
 30  管理人        float64
 31  部屋階数       float64
 32  向き         float64
 33  間取部屋数      float64
 34  間取部屋種類     float64

## トレインとテストに分割、その後サンプリングを行う

In [11]:
full_train_df = full_df.sample(frac=0.7, random_state=0)
full_test_df = full_df.drop(full_train_df.index)

In [33]:
train_df = full_train_df.sample(frac=0.1, random_state=0)
test_and_target_df = full_test_df.sample(frac=0.1, random_state=0)
test_df = test_and_target_df.drop("賃料/価格", axis=1)

In [42]:
train_df.to_csv(r"C:\Users\Issei\Desktop\Class Documents\KEIO 2024 Fall\Data Science\Datasets\Output\train", index_label='index')
test_df.to_csv(r"C:\Users\Issei\Desktop\Class Documents\KEIO 2024 Fall\Data Science\Datasets\Output\test", index_label='index')