In [2]:
import pandas as pd
import os, sys

## 1. read in each tsv sheet

In [81]:
loan_house_01_root = os.getenv('LOAN_HOUSE_01_ROOT', '/home/wankun/yuan/rawdata/01_賃貸物件SNAP_SHOT_DATA')
main_key = '物件ID'

In [46]:
def create_df_from_raw_tsv(input_file, delimiter='\t', nrows=None, is_print=False, **kwargs): # func(input_file, names=None)
    # print(kwargs)
    df = pd.read_csv(input_file, delimiter=delimiter, nrows=nrows, names=kwargs['names'])
    print(f'Length of the data: {df.shape[0]}')
    if is_print:    
        print(df.head())
    return df

In [32]:
addr_names=[
    '住所コード',
    '都道府県名',
    '市区郡町村名',
    '都道府県よみ',
    '市区郡町村よみ',
    ]
df_addr = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'address.tsv'), names=addr_names)

Length of the data: 1953
   住所コード 都道府県名  市区郡町村名  都道府県よみ      市区郡町村よみ
0   1000   北海道     NaN  ホツカイドウ          NaN
1   1101   北海道  札幌市中央区  ホツカイドウ  サツポロシチユウオウク
2   1102   北海道   札幌市北区  ホツカイドウ     サツポロシキタク
3   1103   北海道   札幌市東区  ホツカイドウ    サツポロシヒガシク
4   1104   北海道  札幌市白石区  ホツカイドウ   サツポロシシロイシク


In [36]:
area_rosen_names=[
    '都道府県番号',
    '路線番号',
    '路線種別',
    ]
df_area_rosen = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'area_rosen.tsv'), names=area_rosen_names)

Length of the data: 838
   都道府県番号  路線番号  路線種別
0       1   378     1
1       1   380     1
2       1   381     1
3       1   383     1
4       1   385     1


In [33]:
rosen_names=[
    '路線番号',
    '路線名',
    '路線名フリガナ',
    ]
df_rosen = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'rosen.tsv'), names=rosen_names)

Length of the data: 560
   路線番号       路線名         路線名フリガナ
0    11  ＪＲ東海道新幹線  JRトウカイドウシンカンセン
1    12   ＪＲ山陽新幹線    JRサンヨウシンカンセン
2    15   ＪＲ東北新幹線    JRトウホクシンカンセン
3    17   ＪＲ上越新幹線   JRジョウエツシンカンセン
4    19   ＪＲ山形新幹線    JRヤマガタシンカンセン


In [34]:
eki_names = [
    '路線番号',
    '駅番号',
    '駅名',
    '駅名フリガナ',
    '路線中の駅順位',
    '都道府県番号',
    ]
df_eki = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'eki.tsv'), names=eki_names)

Length of the data: 10890
   路線番号  駅番号   駅名  駅名フリガナ  路線中の駅順位  都道府県番号
0    11    1   東京   トウキョウ        1      13
1    11  224   品川    シナガワ        2      13
2    11   12  新横浜  シンヨコハマ        3      14
3    11   13  小田原    オダワラ        4      14
4    11   14   熱海     アタミ        5      22


In [35]:
master_feature_names=[
    '設備/条件の項目コード',
    '設備/条件の状態コード',
    '項目名称',
    '状態名称',
    ]
df_master_feature = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'master_feature.tsv'), names=master_feature_names)

Length of the data: 254
   設備/条件の項目コード  設備/条件の状態コード   項目名称  状態名称
0          100            0  楽器相談   楽器相談
1          100            1   楽器相談     可
2          100            2   楽器不可    不可
3          101            0    事務所   事務所
4          101            1   事務所可     可


In [48]:
feature_rent_names=[
    '物件ID',
    '設備/条件の項目',
    '設備/条件の状態',
    ]
df_feature_rent = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'feature_rent.tsv'), nrows=50_000, names=feature_rent_names)
df_feature_rent.head()

Length of the data: 50000


Unnamed: 0,物件ID,設備/条件の項目,設備/条件の状態
0,000001a8a09bac529563c00e71099276,200,20001
1,000001a8a09bac529563c00e71099276,201,20101
2,000001a8a09bac529563c00e71099276,202,20201
3,000001a8a09bac529563c00e71099276,203,20301
4,000001a8a09bac529563c00e71099276,204,20401


In [47]:
madori_rent_names=[
    '物件ID',
    '間取り番号',
    '間取り種類',
    '間取り畳数',
    '間取り所在階',
    '間取り室数',
    ]
df_madori_rent = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'madori_rent.tsv'), nrows=50_000, names=madori_rent_names)
df_madori_rent.head()

Length of the data: 50000


Unnamed: 0,物件ID,間取り番号,間取り種類,間取り畳数,間取り所在階,間取り室数
0,000003d67c168129876425c22a106dae,1,7.0,2.0,,
1,000003d67c168129876425c22a106dae,4,2.0,7.2,,
2,00000441bc94d33c6889477ea2b09941,1,,0.0,,
3,00000441bc94d33c6889477ea2b09941,2,,0.0,,
4,00000441bc94d33c6889477ea2b09941,3,,0.0,,


In [63]:
# Initialize an empty list to store the rows
rent_converted_names = []
# Open the file and read it line by line
with open(os.path.join(loan_house_01_root, 'rent_converted_names.txt'), 'r') as file:
    for line in file:
        # Strip the newline character from the end of each line and add it to the list
        rent_converted_names.append(line.strip())
# Now rows_list contains all the lines from the file
df_rent_converted = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'rent_converted.tsv'), nrows=50_000, names=rent_converted_names)
df_rent_converted.head()

Length of the data: 50000


Unnamed: 0,物件ID,作成日時,公開日時,修正日時,自社物フラグ,物件種別,総戸数/総区画数,空き物件数,郵便番号,都道府県,...,引渡/入居旬,小学校名,小学校距離,中学校名,中学校距離,コンビニ距離,スーパー距離,総合病院距離,取引態様,仲介手数料
0,000001a8a09bac529563c00e71099276,2015-05-16,2015-05-16,2015-09-06,1,3102,,,230-0012,14,...,,,,,,270.0,,,5,31860.0
1,000003d67c168129876425c22a106dae,2015-08-07,2015-08-07,2015-09-06,0,3102,21.0,,260-0843,12,...,1.0,,,,,300.0,110.0,,6,
2,00000441bc94d33c6889477ea2b09941,2015-08-01,2015-08-01,2015-09-05,0,3101,,,114-0023,13,...,,,,,,,,,6,
3,0000055b093c4209d164a7f2204eff32,2015-07-21,2015-07-21,2015-09-06,1,3103,,,432-8052,22,...,,市立可美小学校,1600.0,市立可美中学校,2100.0,390.0,,,5,42120.0
4,0000081549d99cf1e3f5be593e560799,2015-02-12,2015-05-16,2015-09-06,1,3101,,0.0,065-0009,1,...,,札幌市立苗穂小学校,605.0,札幌市立美香保中学校,1057.0,121.0,267.0,,5,


In [53]:
photo_rent_names=[
    '物件ID',
    '画像番号',
    'ファイルパス',
    '画像種別',
    '画像コメント',
    ]
df_photo_rent = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'photo_rent.tsv'), nrows=200_000, names=photo_rent_names)
df_photo_rent.head()

Length of the data: 50000


Unnamed: 0,物件ID,画像番号,ファイルパス,画像種別,画像コメント
0,000001a8a09bac529563c00e71099276,1,00/00/01a8a09bac529563c00e71099276/0001.jpg,1.0,
1,000001a8a09bac529563c00e71099276,2,00/00/01a8a09bac529563c00e71099276/0002.jpg,2.0,
2,000001a8a09bac529563c00e71099276,3,00/00/01a8a09bac529563c00e71099276/0003.jpg,5.0,
3,000001a8a09bac529563c00e71099276,4,00/00/01a8a09bac529563c00e71099276/0004.jpg,5.0,
4,000001a8a09bac529563c00e71099276,5,00/00/01a8a09bac529563c00e71099276/0005.jpg,5.0,


## 2. merge sheets with useful columns

In [68]:
df_rent_converted = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'rent_converted.tsv'), nrows=50_000, names=rent_converted_names)
mask = [0,5] + [i for i in range(8, 21)] + [i for i in range(22, 44)] + [53, 54] + [58] + [i for i in range(62, 69)] + [70]
print(mask)
df_rent_converted = df_rent_converted.iloc[:, mask]
df_rent_converted.head()

Length of the data: 50000
[0, 5, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 53, 54, 58, 62, 63, 64, 65, 66, 67, 68, 70]


Unnamed: 0,物件ID,物件種別,郵便番号,都道府県,市区郡町村,路線1,駅1,バス停名1,バス時間1,徒歩距離1,...,駐車場区分,現況,小学校名,小学校距離,中学校名,中学校距離,コンビニ距離,スーパー距離,総合病院距離,仲介手数料
0,000001a8a09bac529563c00e71099276,3102,230-0012,14,101,93.0,606.0,,,1200.0,...,,2.0,,,,,270.0,,,31860.0
1,000003d67c168129876425c22a106dae,3102,260-0843,12,101,197.0,1948.0,,,960.0,...,3.0,1.0,,,,,300.0,110.0,,
2,00000441bc94d33c6889477ea2b09941,3101,114-0023,13,117,95.0,631.0,,,160.0,...,4.0,,,,,,,,,
3,0000055b093c4209d164a7f2204eff32,3103,432-8052,22,134,6000.0,9999.0,東若林,,160.0,...,1.0,2.0,市立可美小学校,1600.0,市立可美中学校,2100.0,390.0,,,42120.0
4,0000081549d99cf1e3f5be593e560799,3101,065-0009,1,103,601.0,6587.0,,,400.0,...,2.0,2.0,札幌市立苗穂小学校,605.0,札幌市立美香保中学校,1057.0,121.0,267.0,,


In [93]:
# print(len(df_rent_converted))
# print(df_rent_converted.dropna())

In [91]:
## group the duplications to list then merge
def aggregrate_df(df, key, as_index=False, agg_type=list):
    df_agg = df.groupby(key, as_index=as_index).agg(agg_type)
    print(f'The length after aggregation: {df_agg.shape[0]}, before: {df.shape[0]}')
    return df_agg

In [98]:
df_madori_rent = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'madori_rent.tsv'), nrows=50_000, names=madori_rent_names)
df_feature_rent = create_df_from_raw_tsv(os.path.join(loan_house_01_root, 'feature_rent.tsv'), nrows=300_000, names=feature_rent_names)
df_madori_rent_agg = aggregrate_df(df_madori_rent, key=main_key)
df_feature_rent_agg = aggregrate_df(df_feature_rent, key=main_key)
# merge with rent_converted using above agg df
df_rent_merge = df_rent_converted.merge(df_madori_rent_agg, on=main_key, how='inner').merge(df_feature_rent_agg, on=main_key, how='inner')
print(f'The length of the merged df: {df_rent_merge.shape[0]}')

Length of the data: 50000
Length of the data: 300000
The length after aggregation: 11689, before: 50000
The length after aggregation: 15301, before: 300000
The length of the merged df: 11665


In [99]:
df_rent_merge[madori_rent_names].head()
df_rent_merge.to_csv('rent_merge_LY.csv')

## 3. the most important filtering conditions