# Import packages

In [1]:
import pandas as pd
import numpy as np
import os
import glob

# Perform EDA on a dataset

In [2]:
os.chdir('/Users/chuwen/PycharmProjects/Cathay/data')

df = pd.read_csv('a_lvr_land_a.csv')
df = df.drop(0)  # remove english header
df.columns
# df.describe

Index(['鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區', '非都市土地使用分區',
       '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態', '主要用途', '主要建材',
       '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳', '建物現況格局-衛',
       '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別', '車位移轉總面積(平方公尺)',
       '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯', '移轉編號'],
      dtype='object')

In [3]:
# df['主要用途'].value_counts(dropna=False)  # Shows that "主要用途" contains rows with NaN values 
df['建物型態'].value_counts(dropna=False)  # There's no NaN values in "建物型態"
# df['總樓層數'].value_counts(dropna=False)  # Shows that "總樓層數" contains rows with NaN values 

住宅大樓(11層含以上有電梯)    263
公寓(5樓含以下無電梯)       177
華廈(10層含以下有電梯)      157
其他                  99
透天厝                 18
廠辦                   2
Name: 建物型態, dtype: int64

## Findings

1. There's no misspelling or confused conditions such like "住家 用", "住 家用"...etc
2. Utilize str.contains('住宅大樓') instead of == to cover all instances we would like to discuss
3. Need to convert Chinese characters to integer in advance...
   (Seriously?! Why does MOI choose to type in string instead of numeric types :???)

# Read files and concat into one dataframe

In [4]:
filename_list = glob.glob(r'*_lvr_land_a.csv')

df_list = [(pd.read_csv(filename)).drop(0) for filename in filename_list]  # remove english header
# df_list
df_all = pd.concat(df_list, axis=0, ignore_index=True)
df_all

Unnamed: 0,鄉鎮市區,交易標的,土地位置建物門牌,土地移轉總面積平方公尺,都市土地使用分區,非都市土地使用分區,非都市土地使用編定,交易年月日,交易筆棟數,移轉層次,...,車位類別,車位移轉總面積(平方公尺),車位總價元,備註,編號,主建物面積,附屬建物面積,陽台面積,電梯,移轉編號
0,桃園區,房地(土地+建物),桃園市桃園區縣府路２９２號七樓之二,30.87,都市：其他:住宅區,,,1100925,土地2建物1車位0,七層,...,,0.0,0,,RPSNMLPLRHGGFAH58DA,101.77,17.86,0.0,有,
1,桃園區,房地(土地+建物),桃園市桃園區正康三街２２６號二樓之２,16.41,都市：其他:住宅區,,,1100926,土地1建物1車位0,二層,...,,0.0,0,陽台外推；其他增建；,RPPNMLQLRHGGFAH38DA,76.02,8.29,0.0,有,
2,桃園區,房地(土地+建物)+車位,桃園市桃園區經國路７４１之１０號八樓,19.8,都市：其他:住宅區,,,1101017,土地1建物1車位1,八層,...,坡道平面,33.84,0,,RPWOMLTKIIGGFAH58DA,57.86,8.8,0.0,有,0001
3,桃園區,房地(土地+建物),桃園市桃園區水汴一路１２５號五樓之５,8.47,都市：其他:商業區,,,1101011,土地1建物1車位0,五層,...,,0.0,0,,RPOQMLTKIIGGFAH97DA,35.6,4.45,0.0,有,0002
4,桃園區,房地(土地+建物)+車位,桃園市桃園區春日路１６２９巷４３號,110.25,都市：其他:工業區,,,1100731,土地1建物1車位1,全,...,坡道平面,0.0,0,,RPPRMLLJJIGGFAH37DA,291.18,19.23,0.0,有,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7171,太平區,房地(土地+建物)+車位,臺中市太平區大富街２３號,53.0,,,,1100702,土地1建物1車位2,全,...,一樓平面,0.0,0,,RPPNMLSKJIGGFJB08DA,124.67,20.31,0.0,無,
7172,龍井區,房地(土地+建物),臺中市龍井區遠東街８１巷２８號,37.75,都市：其他:第二種住宅區,,,1100929,土地1建物1車位0,一層,...,,0.0,0,其他增建；,RPVNMLMLIIGGFKB18DA,70.96,0.0,0.0,無,
7173,南區,房地(土地+建物)+車位,臺中市南區工學一街１７３巷２０號,18.08,都市：其他:第三種住宅區。,,,1101029,土地1建物1車位3,一層,...,坡道平面,104.19,2700000,親友、員工、共有人或其他特殊關係間之交易；,RPQOMLQKJIGGFAB27EA,31.88,0.0,0.0,有,0286
7174,豐原區,房地(土地+建物),臺中市豐原區圓環東路３１２巷１９號四樓,30.87,都市：其他:第二種住宅區,,,1101013,土地1建物1車位0,四層,...,,0.0,0,,RPRNMLSKJIGGFDB77EA,72.7,9.08,0.0,有,


# Convert Chinese Characters in column named "總樓層數" to interger

In [5]:
from typing import Union
def conversion(floor: Union[str, float]) -> int:
    if pd.isna(floor): 
        return 0
    else:
        map_dict = {'一': 1, '二': 2, '三': 3, '四':4, '五':5, '六':6, '七':7, '八':8, '九':9, '十': 10}
        str_list = list(floor)
        
        if len(str_list) == 2: # <= 10
            return map_dict[str_list[0]] 
        elif str_list[0] == '十': # 11~19
            return map_dict[str_list[0]] + map_dict[str_list[1]]
        elif len(str_list) == 3: #20, 30, 40...
            return map_dict[str_list[0]] * 10 
        else: #2x, 3X, 4X...
            return map_dict[str_list[0]] * 10 + map_dict[str_list[2]]
    
df_all['總樓層數_int'] = df_all['總樓層數'].apply(conversion) 
df_all[['總樓層數_int', '總樓層數']]

Unnamed: 0,總樓層數_int,總樓層數
0,14,十四層
1,7,七層
2,13,十三層
3,14,十四層
4,5,五層
...,...,...
7171,4,四層
7172,4,四層
7173,12,十二層
7174,5,五層


# Slice the dataframe according to given conditions

(a) 

- 【主要用途】為【住家用】
- 【建物型態】為【住宅大樓】
- 【總樓層數】需【大於等於十三層】

In [6]:
filter_a = df_all.loc[(df_all['主要用途'] == '住家用') & (df_all['建物型態'].str.contains("住宅大樓")) & (df_all['總樓層數_int'] >= 13)]
filter_a = filter_a.sort_values(by=['總樓層數_int'])
filter_a[['主要用途', '建物型態', '總樓層數_int', '總樓層數']]
# filter_a.to_csv('filter_a.csv', index=False)

Unnamed: 0,主要用途,建物型態,總樓層數_int,總樓層數
2777,住家用,住宅大樓(11層含以上有電梯),13,十三層
2296,住家用,住宅大樓(11層含以上有電梯),13,十三層
2295,住家用,住宅大樓(11層含以上有電梯),13,十三層
6564,住家用,住宅大樓(11層含以上有電梯),13,十三層
4403,住家用,住宅大樓(11層含以上有電梯),13,十三層
...,...,...,...,...
6557,住家用,住宅大樓(11層含以上有電梯),41,四十一層
2280,住家用,住宅大樓(11層含以上有電梯),41,四十一層
3633,住家用,住宅大樓(11層含以上有電梯),42,四十二層
5247,住家用,住宅大樓(11層含以上有電梯),68,六十八層


(b)
- 計算【總件數】：即資料框長度
- 計算【總車位數】：依"交易筆棟數"新增"車位數”欄位
- 計算【平均總價元】
- 計算【平均車位總價元】

In [7]:
# df_all['交易筆棟數'].isna().sum() # 0
df_all['車位數'] = df_all['交易筆棟數'].apply(lambda x: list(x)[-1])
df_all[['交易筆棟數', '車位數']]

Unnamed: 0,交易筆棟數,車位數
0,土地2建物1車位0,0
1,土地1建物1車位0,0
2,土地1建物1車位1,1
3,土地1建物1車位0,0
4,土地1建物1車位1,1
...,...,...
7171,土地1建物1車位2,2
7172,土地1建物1車位0,0
7173,土地1建物1車位3,3
7174,土地1建物1車位0,0


In [8]:
df_all['總價元'].isna().sum() 

0

In [9]:
# df_all['車位總價元'].isna().sum() # 0
df_all[['車位數', '車位總價元']]  # 觀察到有物件「有車位但車位總價元為0」

Unnamed: 0,車位數,車位總價元
0,0,0
1,0,0
2,1,0
3,0,0
4,1,0
...,...,...
7171,2,0
7172,0,0
7173,3,2700000
7174,0,0


In [10]:
d = {'總件數': [df_all.shape[0]], 
     '總車位數': [df_all['車位數'].astype(int).sum()],
     '平均總價元': [df_all['總價元'].astype(int).mean()],
     '平均車位總價元': [df_all['車位總價元'].astype(int).mean()]}

filter_b = pd.DataFrame(data=d)
filter_b
# filter_b.to_csv('filter_b.csv', index=False)

Unnamed: 0,總件數,總車位數,平均總價元,平均車位總價元
0,7176,3684,15588350.0,486212.585006
