In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
import re

In [2]:
df = pd.read_csv('csv/tainan_house_alldata.csv') 
print(df.columns)
print(df[['交易年月日', '建築完成年月']].dtypes)
print(df[['交易年月日', '建築完成年月']].head(10))

Index(['Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區',
       '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態',
       '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count'],
      dtype='object')
交易年月日      object
建築完成年月    float64
dtype: object
            交易年月日     建築完成年月
0  2022/9/2 00:00   840704.0
1  2022/8/1 00:00   640322.0
2  2022/8/4 00:00   890919.0
3  2022/8/1 00:00   650600.0
4  2022/8/1 00:00   510000.0
5  2022/8/2 00:00   810813.0
6  2022/8/2 00:00   850916.0
7  2022/8/2 00:00   960719.0
8  2022/8/1 00:00   820526.0
9  2022/8/1 00:00  1110412.0


  df = pd.read_csv('csv/tainan_house_alldata.csv')


In [3]:
# 計算 NaN 值的數量
nan_count = df['建築完成年月'].isna().sum()
total_count = len(df)

print(f"NaN 值數量: {nan_count}")
print(f"總數量: {total_count}")
print(f"NaN 值佔比: {nan_count / total_count:.2%}")

NaN 值數量: 27411
總數量: 240149
NaN 值佔比: 11.41%


In [4]:
# 將所有值轉換為字串類型(原建築完成年月-float64)，然後去除空白字符
df['建築完成年月'] = df['建築完成年月'].astype(str).str.strip()

# 排序 unique 值
column_values = sorted(df['建築完成年月'].unique())
print(column_values)


['0.0', '10000.0', '100000.0', '1000103.0', '1000104.0', '1000105.0', '1000106.0', '1000107.0', '1000110.0', '1000112.0', '1000113.0', '1000114.0', '1000117.0', '1000120.0', '1000121.0', '1000125.0', '1000126.0', '1000127.0', '1000131.0', '1000201.0', '1000210.0', '1000214.0', '1000217.0', '1000221.0', '1000222.0', '1000223.0', '1000224.0', '1000302.0', '1000303.0', '1000307.0', '1000308.0', '1000309.0', '1000310.0', '1000314.0', '1000315.0', '1000316.0', '1000317.0', '1000318.0', '1000321.0', '1000322.0', '1000324.0', '1000325.0', '1000328.0', '1000329.0', '1000330.0', '1000331.0', '1000401.0', '1000407.0', '1000411.0', '1000413.0', '1000414.0', '1000415.0', '1000418.0', '1000421.0', '1000422.0', '1000425.0', '1000426.0', '1000428.0', '1000429.0', '1000502.0', '1000503.0', '1000504.0', '1000505.0', '1000509.0', '1000512.0', '1000513.0', '1000516.0', '1000517.0', '1000518.0', '1000519.0', '1000520.0', '1000524.0', '1000525.0', '1000526.0', '1000527.0', '1000530.0', '1000531.0', '100060

In [5]:
# 填充 NaN 值為 '0'
df['建築完成年月'] = df['建築完成年月'].fillna('0')

# 提取小數點前的部分，去掉前四位，保留從第五位開始的數字作為「建築完成年」
df['建築完成年'] = df['建築完成年月'].apply(lambda x: str(int(float(x)))[0:-4] if pd.notna(x) and str(x).replace('.0', '').isdigit() else '0')

# 將空字串替換為 '0'
df['建築完成年'] = df['建築完成年'].replace('', '0')

# 將「建築完成年」轉換成整數類型
df['建築完成年'] = df['建築完成年'].astype(int)

# 查看結果
print(df[['建築完成年月', '建築完成年']].head(20))
print(df[['建築完成年']].dtypes)

       建築完成年月  建築完成年
0    840704.0     84
1    640322.0     64
2    890919.0     89
3    650600.0     65
4    510000.0     51
5    810813.0     81
6    850916.0     85
7    960719.0     96
8    820526.0     82
9   1110412.0    111
10   580520.0     58
11   831227.0     83
12  1060124.0    106
13   930521.0     93
14   660830.0     66
15   830518.0     83
16   960719.0     96
17   790102.0     79
18   960920.0     96
19   850813.0     85
建築完成年    int64
dtype: object


In [6]:
# 計算 NaN 值的數量
nan_count = df['交易年月日'].isna().sum()
total_count = len(df)

print(f"NaN 值數量: {nan_count}")
print(f"總數量: {total_count}")
print(f"NaN 值佔比: {nan_count / total_count:.2%}")

NaN 值數量: 2137
總數量: 240149
NaN 值佔比: 0.89%


In [7]:
# 過濾掉不符合日期格式的值
df['交易年月日'] = df['交易年月日'].apply(lambda x: x if pd.to_datetime(x, errors='coerce', format='%Y/%m/%d %H:%M') else None)

# 將日期欄位轉換為 datetime 格式，忽略錯誤
df['交易年月日'] = pd.to_datetime(df['交易年月日'], errors='coerce', format='%Y/%m/%d %H:%M')

# 提取年份，並轉換為民國年
df['交易年_民國'] = df['交易年月日'].dt.year - 1911

# 查看結果
print(df[['交易年月日', '交易年_民國']].head(20))
column_values = sorted(df['交易年_民國'].unique())
print(column_values)
print(df[['交易年_民國']].dtypes)


        交易年月日  交易年_民國
0  2022-09-02   111.0
1  2022-08-01   111.0
2  2022-08-04   111.0
3  2022-08-01   111.0
4  2022-08-01   111.0
5  2022-08-02   111.0
6  2022-08-02   111.0
7  2022-08-02   111.0
8  2022-08-01   111.0
9  2022-08-01   111.0
10 2022-08-01   111.0
11 2022-08-08   111.0
12 2022-08-03   111.0
13 2022-08-04   111.0
14 2022-08-01   111.0
15 2022-08-01   111.0
16 2022-08-06   111.0
17 2022-08-05   111.0
18 2022-08-01   111.0
19 2022-08-02   111.0
[11.0, 12.0, 14.0, 15.0, 84.0, 96.0, 97.0, 98.0, 99.0, 100.0, 101.0, 102.0, 103.0, 104.0, 105.0, 106.0, 107.0, 108.0, 109.0, 110.0, 111.0, 112.0, nan]
交易年_民國    float64
dtype: object


In [8]:
# 填充 NaT 為 0
df['交易年_民國'] = df['交易年_民國'].fillna(0)

# 將「交易年_民國」轉換成整數類型
df['交易年_民國'] = df['交易年_民國'].astype(int)

# 查看結果
print(df[['交易年月日', '交易年_民國']].head(20))
column_values = sorted(df['交易年_民國'].unique())
print(column_values)
print(df[['交易年_民國']].dtypes)


        交易年月日  交易年_民國
0  2022-09-02     111
1  2022-08-01     111
2  2022-08-04     111
3  2022-08-01     111
4  2022-08-01     111
5  2022-08-02     111
6  2022-08-02     111
7  2022-08-02     111
8  2022-08-01     111
9  2022-08-01     111
10 2022-08-01     111
11 2022-08-08     111
12 2022-08-03     111
13 2022-08-04     111
14 2022-08-01     111
15 2022-08-01     111
16 2022-08-06     111
17 2022-08-05     111
18 2022-08-01     111
19 2022-08-02     111
[0, 11, 12, 14, 15, 84, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112]
交易年_民國    int64
dtype: object


In [9]:
print(df.columns)

Index(['Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區',
       '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態',
       '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count', '建築完成年', '交易年_民國'],
      dtype='object')


In [10]:
df['屋齡'] = df['交易年_民國'] - df['建築完成年']

In [11]:
print(df.columns)

Index(['Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區',
       '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態',
       '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count', '建築完成年', '交易年_民國', '屋齡'],
      dtype='object')


In [12]:
print(df[['建築完成年', '交易年_民國', '屋齡']].head(20))

    建築完成年  交易年_民國  屋齡
0      84     111  27
1      64     111  47
2      89     111  22
3      65     111  46
4      51     111  60
5      81     111  30
6      85     111  26
7      96     111  15
8      82     111  29
9     111     111   0
10     58     111  53
11     83     111  28
12    106     111   5
13     93     111  18
14     66     111  45
15     83     111  28
16     96     111  15
17     79     111  32
18     96     111  15
19     85     111  26


In [13]:
# 篩選出屋齡等於 0 的資料
age_zero_df = df[df['屋齡'] == 0][['建築完成年', '交易年_民國', '屋齡']]

# 查看前 20 筆資料
print(age_zero_df.head(20))

     建築完成年  交易年_民國  屋齡
9      111     111   0
32     111     111   0
47     111     111   0
66     111     111   0
67     111     111   0
92     111     111   0
160    111     111   0
172    111     111   0
189    111     111   0
191    111     111   0
196    111     111   0
277    111     111   0
282    111     111   0
286    111     111   0
290    111     111   0
318    111     111   0
364    111     111   0
369    111     111   0
377    111     111   0
380    111     111   0


### 有34,364筆屋齡為0的房屋

In [14]:
# 計算屋齡
df['屋齡'] = df['交易年_民國'] - df['建築完成年']

# 篩選出屋齡為 0 的資料
df_age_zero = df[df['屋齡'] == 0]

# 查看結果
print(df_age_zero)


        Column1 鄉鎮市區          交易標的             土地位置建物門牌  土地移轉總面積平方公尺 都市土地使用分區  \
9             9  學甲區     房地(土地+建物)     臺南市學甲區華宗路４２４巷３０號       150.00        住   
32           32  下營區  房地(土地+建物)+車位  臺南市下營區新興里中華街５５號６樓之６        38.06        住   
47           47  鹽水區     房地(土地+建物)      臺南市鹽水區文武街７２巷１０號        72.79        住   
66           66  學甲區     房地(土地+建物)        臺南市學甲區興業路２５９號       462.45        工   
67           67  學甲區     房地(土地+建物)        臺南市學甲區興業路２６１號       499.00        工   
...         ...  ...           ...                  ...          ...      ...   
240144   240145  新市區  房地(土地+建物)+車位      臺南市新市區大社段2094地號        21.19      NaN   
240145   240146  永康區  房地(土地+建物)+車位       臺南市永康區市政段293地號        25.93        住   
240146   240147  永康區  房地(土地+建物)+車位       臺南市永康區市政段293地號        19.56        住   
240147   240148  安定區  房地(土地+建物)+車位      臺南市安定區港口段3212地號        29.73      NaN   
240148   240149  鹽水區     房地(土地+建物)    臺南市鹽水區義稠段646-29地號       136.33        住   

       非都市土地使用分區 非都市土地使用編定 

In [15]:
# 查看 '電梯' 欄位的數據類型
print("電梯欄位的數據類型:", df['電梯'].dtype)

# 查看 '電梯' 欄位的唯一值
print("電梯欄位的唯一值:", df['電梯'].unique())

nan_count = df['電梯'].isna().sum()
total_count = len(df)

print(nan_count)
print(f"總數量: {total_count}")
print(f"NaN 值佔比: {nan_count / total_count:.2%}")

電梯欄位的數據類型: object
電梯欄位的唯一值: ['有' '無' nan]
165618
總數量: 240149
NaN 值佔比: 68.96%


In [16]:
df_building = df[df['建物型態'].str.contains('住宅大樓', na=False)]
total_count = len(df)
building_count = len(df_building)

# 計算佔比
building_ratio = building_count / total_count

print(df_building)
print(f"building應該佔比: {building_ratio:.2%}")

        Column1 鄉鎮市區          交易標的               土地位置建物門牌  土地移轉總面積平方公尺  \
0             0  中西區     房地(土地+建物)  臺南市中西區金華路三段２１８號十五樓之１７         4.11   
5             5   東區     房地(土地+建物)       臺南市東區崇德路２６０號七樓之２         2.21   
6             6  佳里區  房地(土地+建物)+車位   臺南市佳里區新生路４４１巷１９號十樓之５        11.72   
7             7  安平區  房地(土地+建物)+車位       臺南市安平區永華八街２號五樓之２         6.81   
11           11  新營區     房地(土地+建物)      臺南市新營區新進路二段４９８號五樓        13.33   
...         ...  ...           ...                    ...          ...   
240131   240132  仁德區  房地(土地+建物)+車位        臺南市仁德區中洲西段175地號        29.76   
240132   240133  仁德區  房地(土地+建物)+車位        臺南市仁德區中洲西段175地號        29.99   
240136   240137  永康區  房地(土地+建物)+車位         臺南市永康區市政段293地號        25.93   
240145   240146  永康區  房地(土地+建物)+車位         臺南市永康區市政段293地號        25.93   
240146   240147  永康區  房地(土地+建物)+車位         臺南市永康區市政段293地號        19.56   

       都市土地使用分區 非都市土地使用分區 非都市土地使用編定      交易年月日      交易筆棟數  ...   建案名稱   棟及號  \
0             商       NaN       

## ['電梯'] NaN 做特殊處理，保留為另一個類別，例如 -1

In [17]:
# 將 '有' 轉換為 1，'無' 轉換為 0，NaN 轉換為 -1
df['電梯_數值化'] = df['電梯'].replace({'有': 1, '無': 0, np.nan: -1})

# 查看結果
print(df[['電梯_數值化']].head(20))
print(df[['電梯_數值化']].dtypes)


    電梯_數值化
0      1.0
1      0.0
2      0.0
3      0.0
4      0.0
5      1.0
6      1.0
7      1.0
8      1.0
9      0.0
10     0.0
11     1.0
12     1.0
13     1.0
14     0.0
15     0.0
16     1.0
17     1.0
18     1.0
19     0.0
電梯_數值化    float64
dtype: object


  df['電梯_數值化'] = df['電梯'].replace({'有': 1, '無': 0, np.nan: -1})


In [18]:
print(df.columns)

Index(['Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區',
       '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態',
       '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count', '建築完成年', '交易年_民國', '屋齡', '電梯_數值化'],
      dtype='object')


In [19]:
# 查看 '電梯' 欄位的數據類型
print("移轉層次欄位的數據類型:", df['移轉層次'].dtype)

# 查看 '電梯' 欄位的唯一值
print("移轉層次欄位的唯一值:", df['移轉層次'].unique())


移轉層次欄位的數據類型: object
移轉層次欄位的唯一值: ['十五層' '全' '七層' '十層，通道' '五層' '十四層' '一層' '三層' '二層' '一層，二層，三層' '六層' '二十二層'
 '三層，通道' '四層' '一層，二層' '八層' '十二層' '地下層' '十六層' '十層' '十一層，通道' '二十六層' '十三層'
 '十七層' '九層' '十八層' '一層，電梯樓梯間' '一層，二層，見其他登記事項' '見其他登記事項' '二十五層' '十一層'
 '一層，二層，騎樓' '一層，門廳' '一層，二層，騎樓，夾層' '一層，夾層' '五層，走廊' '四層，五層' '九層，十層，見其他登記事項'
 '六層，夾層' '八層，夾層' '二十四層' '三層，電梯樓梯間' '一層，二層，三層，屋頂突出物' '二十一層' '六層，走廊'
 '十三層，十四層' '十九層' '三層，四層' '八層，屋頂突出物' '五層，電梯樓梯間' '三層，四層，屋頂突出物，夾層' '一層，騎樓'
 '一層，二層，三層，夾層' '一層，二層，三層，騎樓' '十八層，十九層' '二十三層，二十四層' '七層，夾層' '三十五層' '三十一層'
 '一層，地下層' '四層，五層，夾層' nan '二層，夾層' '七層，陽台' '一層，二層，三層，四層，屋頂突出物'
 '一層，二層，三層，四層，騎樓，地下層' '十層，騎樓' '二十五層，二十六層' '二十層' '四層，夾層'
 '一層，二層，三層，屋頂突出物，騎樓，地下層' '一層，騎樓，夾層' '二層，三層，夾層' '二層，走廊'
 '一層，二層，三層，屋頂突出物，地下層' '十五層，十六層，見其他登記事項' '一層，二層，三層，四層，騎樓' '七層，走廊'
 '一層，屋頂突出物' '一層，二層，三層，四層，屋頂突出物，騎樓，地下層' '一層，二層，地下層' '一層，二層，三層，騎樓，地下層'
 '一層，二層，三層，四層，見其他登記事項' '一層，二層，陽台' '一層，二層，三層，四層，屋頂突出物，騎樓'
 '一層，二層，三層，屋頂突出物，夾層' '一層，二層，三層，見其他登記事項' '七層，騎樓'
 '一層，二層，三層，四層，屋頂突出物，見其他登記事項' '五層，六層' '二十三層' '屋頂突出物'
 '一層，二

In [20]:
import re

# 定义将中文数字转换为阿拉伯数字的函数
def chinese_to_arabic(chinese_num):
    chinese_digits = {
        '三十五': '35', '三十四': '34', '三十三': '33', '三十二': '32', '三十一': '31',
        '三十': '30', '二十九': '29', '二十八': '28', '二十七': '27', '二十六': '26',
        '二十五': '25', '二十四': '24', '二十三': '23', '二十二': '22', '二十一': '21',
        '二十': '20', '十九': '19', '十八': '18', '十七': '17', '十六': '16',
        '十五': '15', '十四': '14', '十三': '13', '十二': '12', '十一': '11',
        '十': '10', '九': '9', '八': '8', '七': '7', '六': '6',
        '五': '5', '四': '4', '三': '3', '二': '2', '一': '1'
    }
    
    # 处理单个楼层的中文数字
    if chinese_num in chinese_digits:
        return chinese_digits[chinese_num]
    
    # 处理两位数楼层的情况，如“十一” -> 11
    if '十' in chinese_num:
        parts = chinese_num.split('十')
        if parts[0] == '':
            result = 10
        else:
            result = int(chinese_digits[parts[0]]) * 10
        if len(parts) > 1 and parts[1] != '':
            result += int(chinese_digits[parts[1]])
        return str(result)
    
    return chinese_num  # 如果没有匹配，返回原始值

# 定义清理函数，处理每个用逗号分隔的部分
def clean_transfer_levels(levels):
    # 检查是否为空或非字符串类型
    if not isinstance(levels, str):
        return levels
    
    # 特殊情况的关键词列表
    special_cases = ["全", "騎樓", "夾層", "地下", "見其他登記事項", "屋頂突出物", "走廊"]
    
    # 分割字符串中的每个部分
    level_parts = re.split('[,，]', levels)  # 按中英文逗号分割
    
    # 清理并转换每个部分
    cleaned_parts = []
    for part in level_parts:
        # 去掉“層”字并处理中文数字
        part_cleaned = re.sub(r'[一二三四五六七八九十]+', lambda x: str(chinese_to_arabic(x.group())), part.replace("層", ""))
        
        # 如果清理后的部分是特殊情况，保留
        if any(case in part_cleaned for case in special_cases):
            cleaned_parts.append(part)
        else:
            cleaned_parts.append(part_cleaned)
    
    # 合并清理后的部分
    return ','.join(cleaned_parts)

# 应用到"移轉層次"字段
df['移轉層次_數字'] = df['移轉層次'].apply(clean_transfer_levels)

# 查看处理后的结果
print(df[['移轉層次', '移轉層次_數字']].head())

# 定义特殊情况的关键词列表
special_cases = ["全", "騎樓", "夾層", "地下", "見其他登記事項", "屋頂突出物", "走廊"]

# 创建一个空的字典来存储每个特殊情况的计数
special_case_counts = {case: 0 for case in special_cases}

# 统计每个特殊情况的出现次数
for case in special_cases:
    special_case_counts[case] = df['移轉層次'].str.contains(case, na=False).sum()

# 打印每个特殊情况的出现次数
for case, count in special_case_counts.items():
    print(f'{case}: {count} 次')



  移轉層次 移轉層次_數字
0  十五層      15
1    全       全
2    全       全
3    全       全
4    全       全
全: 103607 次
騎樓: 3187 次
夾層: 773 次
地下: 1064 次
見其他登記事項: 667 次
屋頂突出物: 1047 次
走廊: 432 次


In [21]:
print("移轉層次_數字的唯一值:", df['移轉層次_數字'].unique())
# print(df[['移轉層次', '移轉層次_數字']].head(20))

移轉層次_數字的唯一值: ['15' '全' '7' '10,通道' '5' '14' '1' '3' '2' '1,2,3' '6' '22' '3,通道' '4'
 '1,2' '8' '12' '地下層' '16' '10' '11,通道' '26' '13' '17' '9' '18' '1,電梯樓梯間'
 '1,2,見其他登記事項' '見其他登記事項' '25' '11' '1,2,騎樓' '1,門廳' '1,2,騎樓,夾' '1,夾' '5,走廊'
 '4,5' '9,10,見其他登記事項' '6,夾' '8,夾' '24' '3,電梯樓梯間' '1,2,3,屋頂突出物' '21' '6,走廊'
 '13,14' '19' '3,4' '8,屋頂突出物' '5,電梯樓梯間' '3,4,屋頂突出物,夾' '1,騎樓' '1,2,3,夾'
 '1,2,3,騎樓' '18,19' '23,24' '7,夾' '35' '31' '1,地下層' '4,5,夾' nan '2,夾'
 '7,陽台' '1,2,3,4,屋頂突出物' '1,2,3,4,騎樓,地下層' '10,騎樓' '25,26' '20' '4,夾'
 '1,2,3,屋頂突出物,騎樓,地下層' '1,騎樓,夾' '2,3,夾' '2,走廊' '1,2,3,屋頂突出物,地下層'
 '15,16,見其他登記事項' '1,2,3,4,騎樓' '7,走廊' '1,屋頂突出物' '1,2,3,4,屋頂突出物,騎樓,地下層'
 '1,2,地下層' '1,2,3,騎樓,地下層' '1,2,3,4,見其他登記事項' '1,2,陽台' '1,2,3,4,屋頂突出物,騎樓'
 '1,2,3,屋頂突出物,夾' '1,2,3,見其他登記事項' '7,騎樓' '1,2,3,4,屋頂突出物,見其他登記事項' '5,6' '23'
 '屋頂突出物' '1,2,3,4,5,屋頂突出物,騎樓,夾,地下層' '1,2,屋頂突出物,地下層' '地下二層' '5,夾'
 '2,3,4,5,見其他登記事項' '9,10' '4,電梯樓梯間' '1,2,3,騎樓,夾' '1,2,騎樓,地下層' '5,見其他登記事項'
 '1,2,3,4' '1,騎樓,地下層' '15,16' '1,2,走廊' '1,2,3,4,5,6,騎樓,地下層' '1,

In [22]:
df_arcade= df[df['移轉層次_數字'].str.contains('騎樓', na=False)]
print(df_arcade['移轉層次_數字'])

237                          1,2,騎樓
278                        1,2,騎樓,夾
322                          1,2,騎樓
345                          1,2,騎樓
820                          1,2,騎樓
                    ...            
237530                         1,騎樓
237769                       1,騎樓,夾
237834    1,2,3,4,屋頂突出物,騎樓,夾,走廊,地下層
237843                         1,騎樓
237956             1,2,3,騎樓,見其他登記事項
Name: 移轉層次_數字, Length: 3187, dtype: object


In [23]:
df_roof= df[df['移轉層次_數字'].str.contains('屋頂', na=False)]
print(df_roof['移轉層次_數字'])

440                     1,2,3,屋頂突出物
740                         8,屋頂突出物
804                     3,4,屋頂突出物,夾
1255                  1,2,3,4,屋頂突出物
1284                    1,2,3,屋頂突出物
                    ...            
237014               1,2,3,屋頂突出物,騎樓
237081                  1,2,3,屋頂突出物
237257                1,2,3,4,屋頂突出物
237626                1,2,3,4,屋頂突出物
237834    1,2,3,4,屋頂突出物,騎樓,夾,走廊,地下層
Name: 移轉層次_數字, Length: 1047, dtype: object


In [24]:
# 使用正則表達式判斷「移轉層次_數字」中是否包含「1層」或「2層」
df_floor = df[df['移轉層次_數字'].str.contains(r'\b1\b|\b2\b', na=False)]

# 查看結果
print(df_floor['移轉層次_數字'])

13            1
17            1
18            2
20            1
22        1,2,3
          ...  
240077        2
240081        2
240114        2
240115        1
240118        2
Name: 移轉層次_數字, Length: 23316, dtype: object


In [25]:
df['包含騎樓_編碼'] = df.apply(
    lambda row: 1 if '騎樓' in str(row['移轉層次_數字']) else 0, axis=1
)
# print(df.columns)
# print(df[['移轉層次','包含騎樓_編碼']].head(30))
print(df[df['包含騎樓_編碼'] == 1][['移轉層次', '包含騎樓_編碼']])


                                  移轉層次  包含騎樓_編碼
237                           一層，二層，騎樓        1
278                        一層，二層，騎樓，夾層        1
322                           一層，二層，騎樓        1
345                           一層，二層，騎樓        1
820                           一層，二層，騎樓        1
...                                ...      ...
237530                           一層，騎樓        1
237769                        一層，騎樓，夾層        1
237834  一層，二層，三層，四層，屋頂突出物，騎樓，夾層，走廊，地下層        1
237843                           一層，騎樓        1
237956             一層，二層，三層，騎樓，見其他登記事項        1

[3187 rows x 2 columns]


In [26]:
df['包含屋頂_編碼'] = df.apply(
    lambda row: 1 if '屋頂突出物' in str(row['移轉層次_數字']) else 0, axis=1
)
# print(df.columns)
# print(df[['移轉層次','包含騎樓_編碼']].head(30))
print(df[df['包含屋頂_編碼'] == 1][['移轉層次', '包含屋頂_編碼']])

                                  移轉層次  包含屋頂_編碼
440                     一層，二層，三層，屋頂突出物        1
740                           八層，屋頂突出物        1
804                     三層，四層，屋頂突出物，夾層        1
1255                 一層，二層，三層，四層，屋頂突出物        1
1284                    一層，二層，三層，屋頂突出物        1
...                                ...      ...
237014               一層，二層，三層，屋頂突出物，騎樓        1
237081                  一層，二層，三層，屋頂突出物        1
237257               一層，二層，三層，四層，屋頂突出物        1
237626               一層，二層，三層，四層，屋頂突出物        1
237834  一層，二層，三層，四層，屋頂突出物，騎樓，夾層，走廊，地下層        1

[1047 rows x 2 columns]


In [27]:
# df['包含騎樓'] = df['移轉層次_數字'].str.contains('騎樓', na=False).astype(int)
# df['包含屋頂'] = df['移轉層次_數字'].str.contains('屋頂突出物', na=False).astype(int)
df['包含一二樓'] = df['移轉層次_數字'].str.contains(r'\b1\b|\b2\b', na=False)
df = pd.get_dummies(df, columns=['包含一二樓'])

In [28]:
print(df.columns)

Index(['Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區',
       '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態',
       '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count', '建築完成年', '交易年_民國', '屋齡', '電梯_數值化', '移轉層次_數字', '包含騎樓_編碼',
       '包含屋頂_編碼', '包含一二樓_False', '包含一二樓_True'],
      dtype='object')


In [29]:
print(df[['移轉層次','包含一二樓_False','包含一二樓_True']])

       移轉層次  包含一二樓_False  包含一二樓_True
0       十五層         True       False
1         全         True       False
2         全         True       False
3         全         True       False
4         全         True       False
...     ...          ...         ...
240144   四層         True       False
240145   五層         True       False
240146   七層         True       False
240147   九層         True       False
240148    全         True       False

[240149 rows x 3 columns]


In [30]:
print(df.columns)

Index(['Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區',
       '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態',
       '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count', '建築完成年', '交易年_民國', '屋齡', '電梯_數值化', '移轉層次_數字', '包含騎樓_編碼',
       '包含屋頂_編碼', '包含一二樓_False', '包含一二樓_True'],
      dtype='object')


In [31]:
# floor_12 = df[df['包含一二樓_True'] == True]
# print(floor_12[['移轉層次','包含一二樓_True','包含一二樓_False']])
floor_12_f = df[df['包含一二樓_False'] == True]
print(floor_12_f[['移轉層次','包含一二樓_True','包含一二樓_False']])

       移轉層次  包含一二樓_True  包含一二樓_False
0       十五層       False         True
1         全       False         True
2         全       False         True
3         全       False         True
4         全       False         True
...     ...         ...          ...
240144   四層       False         True
240145   五層       False         True
240146   七層       False         True
240147   九層       False         True
240148    全       False         True

[216833 rows x 3 columns]


In [32]:
# 將 '包含一二樓_True' 欄位中的 True/False 替換為 1/0
df['包含一二樓_True'] = df['包含一二樓_True'].astype(int)

# 將 '包含一二樓_False' 欄位中的 True/False 替換為 1/0
df['包含一二樓_False'] = df['包含一二樓_False'].astype(int)

# 查看結果
print(df[['包含一二樓_True', '包含一二樓_False']].head())

floor_12_num = df[df['包含一二樓_True'] == 0]
print(floor_12_num[['移轉層次','包含一二樓_True','包含一二樓_False']])

   包含一二樓_True  包含一二樓_False
0           0            1
1           0            1
2           0            1
3           0            1
4           0            1
       移轉層次  包含一二樓_True  包含一二樓_False
0       十五層           0            1
1         全           0            1
2         全           0            1
3         全           0            1
4         全           0            1
...     ...         ...          ...
240144   四層           0            1
240145   五層           0            1
240146   七層           0            1
240147   九層           0            1
240148    全           0            1

[216833 rows x 3 columns]


In [33]:
print(df.columns)

Index(['Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區',
       '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態',
       '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count', '建築完成年', '交易年_民國', '屋齡', '電梯_數值化', '移轉層次_數字', '包含騎樓_編碼',
       '包含屋頂_編碼', '包含一二樓_False', '包含一二樓_True'],
      dtype='object')


In [34]:
columns_to_drop = ['包含一二樓_False']

# # 刪除指定欄位
df = df.drop(columns=columns_to_drop, errors='ignore')

In [35]:
print(df.columns)
df.rename(columns={'包含一二樓_True': '包含一二樓_編碼'}, inplace=True)

# 查看結果
print(df.head())

Index(['Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺', '都市土地使用分區',
       '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數', '建物型態',
       '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count', '建築完成年', '交易年_民國', '屋齡', '電梯_數值化', '移轉層次_數字', '包含騎樓_編碼',
       '包含屋頂_編碼', '包含一二樓_True'],
      dtype='object')
   Column1 鄉鎮市區       交易標的               土地位置建物門牌  土地移轉總面積平方公尺 都市土地使用分區  \
0        0  中西區  房地(土地+建物)  臺南市中西區金華路三段２１８號十五樓之１７         4.11        商   
1        1   北區  房地(土地+建物)     臺南市北區南園街１２７巷１５１弄３號        52.00        住   
2        2  佳里區  房地(土地+建物)        臺南市佳里區麻興路二段５３１號       314.27      NaN   
3        3  新化區  房地(土地+建物)       臺南市新化區中正路６６２巷２２號        61.00      NaN   
4        4  中西區  房地(土地+建物)        臺南市中西區南寧街１３６巷９

In [36]:
# roof = df[df['包含屋頂_1'] == True]
# print(roof[['移轉層次','包含屋頂_1']])

In [37]:
# arcade = df[df['包含騎樓_1'] == True]
# print(arcade[['移轉層次','包含騎樓_1']])

In [38]:
print(df.columns[-10:])
print(df['建物型態'].unique())

Index(['bad_count', 'good_count', '建築完成年', '交易年_民國', '屋齡', '電梯_數值化', '移轉層次_數字',
       '包含騎樓_編碼', '包含屋頂_編碼', '包含一二樓_編碼'],
      dtype='object')
['住宅大樓(11層含以上有電梯)' '透天厝' '華廈(10層含以下有電梯)' '公寓(5樓含以下無電梯)' '套房(1房1廳1衛)'
 '店面(店鋪)' '其他' '工廠' '辦公商業大樓' '廠辦' '農舍' '倉庫']


In [82]:
df2.loc[df2['建築型態清整'] == '住商大樓', '電梯_數值化'] = 1
df2.loc[(df2['建築型態清整'].str.strip() == '透天厝') | 
        (df2['建築型態清整'].str.strip() == '公寓')| (df2['建築型態清整'].str.strip() == '其他'),'電梯_數值化'] = 0
df_nan_elevator = df2[df2['建築型態清整'] == '住商大樓'][['建築型態清整','電梯_數值化','電梯']]
print(df_nan_elevator)

       建築型態清整  電梯_數值化   電梯
0        住商大樓     1.0    有
5        住商大樓     1.0    有
6        住商大樓     1.0    有
7        住商大樓     1.0    有
8        住商大樓     1.0    有
...       ...     ...  ...
240143   住商大樓     1.0  NaN
240144   住商大樓     1.0  NaN
240145   住商大樓     1.0  NaN
240146   住商大樓     1.0  NaN
240147   住商大樓     1.0  NaN

[116128 rows x 3 columns]


In [83]:
df_elevator = df2[(df2['建築型態清整'] == '透天厝') | (df2['建築型態清整'] == '公寓')][['建築型態清整','電梯_數值化','電梯']]
print(df_elevator)

       建築型態清整  電梯_數值化   電梯
1         透天厝     0.0    無
2         透天厝     0.0    無
3         透天厝     0.0    無
4         透天厝     0.0    無
9         透天厝     0.0    無
...       ...     ...  ...
240089    透天厝     0.0  NaN
240120    透天厝     0.0  NaN
240135    透天厝     0.0  NaN
240138    透天厝     0.0  NaN
240148    透天厝     0.0  NaN

[118578 rows x 3 columns]


In [84]:
df_nan_elevator = df2[df2['電梯_數值化'].isna()][['電梯_數值化','建築型態清整', '電梯','土地位置建物門牌','建物型態']]
print(df_nan_elevator)
df_nan_elevator.dtypes
print(df_nan_elevator['建築型態清整'].unique())
df_nan_elevator.to_csv('csv/elevator_check.csv', index=False)

Empty DataFrame
Columns: [電梯_數值化, 建築型態清整, 電梯, 土地位置建物門牌, 建物型態]
Index: []
[]


In [85]:
# 查看 '電梯' 欄位的數據類型
print("電梯欄位的數據類型:", df2['電梯_數值化'].dtype)

# 查看 '電梯' 欄位的唯一值
print("電梯欄位的唯一值:", df2['電梯_數值化'].unique())

nan_count = df2['電梯_數值化'].isna().sum()
total_count = len(df2)

print(nan_count)
print(f"總數量: {total_count}")
print(f"NaN 值佔比: {nan_count / total_count:.2%}")

電梯欄位的數據類型: float64
電梯欄位的唯一值: [1. 0.]
0
總數量: 240149
NaN 值佔比: 0.00%


In [86]:
print(df.columns)
print(df2.columns)

Index(['Unnamed: 0', 'Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺',
       '都市土地使用分區', '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數',
       '建物型態', '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建物現況格局-廳',
       '建物現況格局-衛', '建物現況格局-隔間', '有無管理組織', '總價元', '單價元平方公尺', '車位類別',
       '車位移轉總面積(平方公尺)', '車位總價元', '備註', '編號', '主建物面積', '附屬建物面積', '陽台面積', '電梯',
       '移轉編號', '車位移轉總面積平方公尺', '建案名稱', '棟及號', '解約情形', '緯度', '經度', 'bad_count',
       'good_count', '建築型態清整', '陽台有無', '是否含額外土地', '建築型態_住商大樓', '建築型態_公寓',
       '建築型態_其他', '建築型態_透天厝', '房地總價元', '格局比例_房', '格局比例_廳', '格局比例_衛', '格局比例_隔間',
       '是否包含車位', '建材_磚石', '建材_鋼筋', '建材_鋼骨', '建材_竹木', '住', '商', '工', '農',
       '電梯_數值化', '屋齡', '移轉層次_數字', '包含騎樓_編碼', '包含屋頂_編碼', '包含一二樓_編碼'],
      dtype='object')
Index(['Unnamed: 0', 'Column1', '鄉鎮市區', '交易標的', '土地位置建物門牌', '土地移轉總面積平方公尺',
       '都市土地使用分區', '非都市土地使用分區', '非都市土地使用編定', '交易年月日', '交易筆棟數', '移轉層次', '總樓層數',
       '建物型態', '主要用途', '主要建材', '建築完成年月', '建物移轉總面積平方公尺', '建物現況格局-房', '建

In [87]:
# 合併並檢查結果
df_concat = pd.concat([df2,df[['屋齡', '移轉層次_數字', '包含騎樓_編碼', '包含屋頂_編碼', '包含一二樓_編碼']]], axis=1)

# 查看合併後的 DataFrame
print(df_concat.head())
df_concat.to_csv('csv/house1004-2.csv', index=False)

   Unnamed: 0  Column1 鄉鎮市區       交易標的               土地位置建物門牌  土地移轉總面積平方公尺  \
0           0        0  中西區  房地(土地+建物)  臺南市中西區金華路三段２１８號十五樓之１７         4.11   
1           1        1   北區  房地(土地+建物)     臺南市北區南園街１２７巷１５１弄３號        52.00   
2           2        2  佳里區  房地(土地+建物)        臺南市佳里區麻興路二段５３１號       314.27   
3           3        3  新化區  房地(土地+建物)       臺南市新化區中正路６６２巷２２號        61.00   
4           4        4  中西區  房地(土地+建物)        臺南市中西區南寧街１３６巷９號        62.86   

  都市土地使用分區 非都市土地使用分區 非都市土地使用編定           交易年月日  ...  住  商  工  農 電梯_數值化  屋齡  \
0        商       NaN       NaN  2022/9/2 00:00  ...  0  1  0  0    1.0  27   
1        住       NaN       NaN  2022/8/1 00:00  ...  1  0  0  0    0.0  47   
2      NaN       鄉村區    乙種建築用地  2022/8/4 00:00  ...  0  0  0  0    0.0  22   
3      NaN     特定農業區    甲種建築用地  2022/8/1 00:00  ...  0  0  0  0    0.0  46   
4        住       NaN       NaN  2022/8/1 00:00  ...  1  0  0  0    0.0  60   

   移轉層次_數字  包含騎樓_編碼  包含屋頂_編碼  包含一二樓_編碼  
0       15        0  

In [88]:
df3 = pd.read_csv('csv/house1004-2.csv',) 
df3[df3.columns[-15:]].head(30)

  df3 = pd.read_csv('csv/house1004-2.csv',)


Unnamed: 0,是否包含車位,建材_磚石,建材_鋼筋,建材_鋼骨,建材_竹木,住,商,工,農,電梯_數值化,屋齡,移轉層次_數字,包含騎樓_編碼,包含屋頂_編碼,包含一二樓_編碼
0,0,0,1,0,0,0,1,0,0,1.0,27,15,0,0,0
1,0,1,1,0,0,1,0,0,0,0.0,47,全,0,0,0
2,0,0,0,1,0,0,0,0,0,0.0,22,全,0,0,0
3,0,1,1,0,0,0,0,0,0,0.0,46,全,0,0,0
4,0,1,0,0,0,1,0,0,0,0.0,60,全,0,0,0
5,0,0,1,0,0,0,1,0,0,1.0,30,7,0,0,0
6,1,0,1,0,0,1,0,0,0,1.0,26,"10,通道",0,0,0
7,1,0,1,0,0,0,1,0,0,1.0,15,5,0,0,0
8,1,0,1,0,0,1,0,0,0,1.0,29,5,0,0,0
9,0,0,1,0,0,1,0,0,0,0.0,0,全,0,0,0
