In [1]:
import pandas as pd

df = pd.read_csv('./data/real_estate_raw_NewTaipei_City.csv')
df.columns = ['鄉鎮市區',
              '交易標的',
              '土地區段位置建物區段門牌',
              '土地移轉總面積平方公尺',
              '都市土地使用分區',
              '非都市土地使用分區',
              '非都市土地使用編定',
              '交易年月日',
              '交易筆棟數',
              '移轉層次',
              '總樓層數',
              '建物型態',
              '主要用途',
              '主要建材',
              '建築完成年月',
              '建物移轉總面積平方公尺',
              '建物現況格局-房',
              '建物現況格局-廳',
              '建物現況格局-衛',
              '建物現況格局-隔間',
              '有無管理組織',
              '總價元',
              '單價元平方公尺',
              '車位類別',
              '車位移轉總面積平方公尺',
              '車位總價元',
              '備註',
              '編號',
              '主建物面積',
              '附屬建物面積',
              '陽台面積',
              '電梯']

print(df.dtypes)
print(df.shape)

# 找出'單價元平方公尺'的缺失值為'僅車位交易'
print(df.isnull().sum())
print(df[df['單價元平方公尺'].isnull()])

# 刪除'單價元平方公尺'中包含'僅車位交易'的欄位
a = df[~df['單價元平方公尺'].isnull()]
print(a.shape)

# 針對'建物型態'檢查是否有異常值或需重新分類-->看起來不需要處理
print(a['建物型態'])

# 針對'都市土地使用分區'檢查是否有異常值或需重新分類
print(a[a['都市土地使用分區'].isnull()])

# 用subset方法刪除'都市土地使用分區'為缺失值的行
b = a.dropna(subset = ['都市土地使用分區'])

# 針對'主要用途'檢查是否有異常值或需重新分類 -->看起來是對應到'交易標的'單純只有交易'土地'的欄位
print(b['主要用途'].head(50)) 
print(b[b['主要用途'].isnull()])
c = b.dropna(subset = ['主要用途'])
print(c)

# 將資料依鄉鎮市區進行排序
d = c.sort_values(by = '鄉鎮市區', ascending = True)
print(d.dtypes)


# '總價元'及'建物移轉總面積平方公尺'欄位的describe值(並將工程數字轉化格式為普通數字)
pd.set_option('display.float_format', lambda x: '%.5f' % x)
print(d[['單價元平方公尺', '建物移轉總面積平方公尺']].describe())

# 計算均價(按'鄉鎮市區)
d.groupby('鄉鎮市區').agg({'總價元': 'mean'})




# d.to_csv('./data/real_estate_raw_NewTaipei_City_cleaned.csv', index = 0, header = 1, encoding = 'utf-8')

鄉鎮市區             object
交易標的             object
土地區段位置建物區段門牌     object
土地移轉總面積平方公尺     float64
都市土地使用分區         object
非都市土地使用分區        object
非都市土地使用編定        object
交易年月日             int64
交易筆棟數            object
移轉層次             object
總樓層數             object
建物型態             object
主要用途             object
主要建材             object
建築完成年月          float64
建物移轉總面積平方公尺     float64
建物現況格局-房          int64
建物現況格局-廳          int64
建物現況格局-衛          int64
建物現況格局-隔間        object
有無管理組織           object
總價元               int64
單價元平方公尺         float64
車位類別             object
車位移轉總面積平方公尺     float64
車位總價元             int64
備註               object
編號               object
主建物面積           float64
附屬建物面積          float64
陽台面積            float64
電梯               object
dtype: object
(98897, 32)
鄉鎮市區                0
交易標的                0
土地區段位置建物區段門牌        0
土地移轉總面積平方公尺         0
都市土地使用分區         8219
非都市土地使用分區       92785
非都市土地使用編定       92818
交易年月日               0
交易筆棟數               0
移轉層次    

Unnamed: 0_level_0,總價元
鄉鎮市區,Unnamed: 1_level_1
三峽區,14056478.84124
三芝區,4639455.44218
三重區,17155662.67156
中和區,18456470.33134
五股區,13128608.93066
八里區,10748028.56977
土城區,15340429.43786
坪林區,15766666.66667
平溪區,8700000.0
新店區,19700942.78457
