In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from hdbscan import HDBSCAN

# 讀取 Excel 檔案
df = pd.read_excel("distinct.xlsx")

# 建立交通便利度欄位
df["交通便利度"] = (df["捷運站數"] + df["輕軌站數"]) / df["土地面積"]

# 選擇分群用的欄位
features = df[["X座標", "Y座標", "平均人口密度", "平均年所得", "交通便利度"]].copy()

# 標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(features)

# 執行 HDBSCAN
hdb = HDBSCAN(min_cluster_size=3, min_samples=2)
cluster_labels = hdb.fit_predict(X_scaled)

# 加回原始資料
df["生活型態聚落分群"] = cluster_labels

# 輸出結果
# 輸出群組分佈
# 輸出結果
print(df["生活型態聚落分群"].value_counts().sort_index())
print(df[["行政區", "生活型態聚落分群"]])
###
#分群結果不好，調整參數

生活型態聚落分群
-1     8
 0     3
 1     3
 2    24
Name: count, dtype: int64
     行政區  生活型態聚落分群
0    鳳山區         1
1    鼓山區         0
2    左營區         1
3    楠梓區         2
4    三民區        -1
5    新興區        -1
6    前金區         0
7    苓雅區         0
8    前鎮區         1
9    旗津區        -1
10   小港區         2
11   林園區         2
12   大寮區         2
13   大樹區         2
14   大社區         2
15   仁武區         2
16   鳥松區        -1
17   岡山區         2
18   橋頭區         2
19   燕巢區         2
20   田寮區         2
21   阿蓮區         2
22   路竹區         2
23   湖內區         2
24   茄萣區         2
25   永安區         2
26   彌陀區         2
27   梓官區         2
28   鹽埕區        -1
29   旗山區         2
30   六龜區         2
31   內門區         2
32   美濃區         2
33   杉林區         2
34   甲仙區         2
35   茂林區        -1
36   桃源區        -1
37  那瑪夏區        -1




In [2]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from hdbscan import HDBSCAN

# 讀取資料
df = pd.read_excel("distinct.xlsx")

# 建立交通便利度欄位
df["交通便利度"] = (df["捷運站數"] + df["輕軌站數"]) / df["土地面積"]

# 選擇分群特徵欄位
features = df[["X座標", "Y座標", "平均人口密度", "平均年所得", "交通便利度"]]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(features)

# 執行 HDBSCAN（寬鬆參數）
hdbscan_model = HDBSCAN(min_cluster_size=2, min_samples=1)
cluster_labels = hdbscan_model.fit_predict(X_scaled)

# 加入分群結果
df["HDBSCAN_分群_寬鬆版"] = cluster_labels

# 輸出群組分佈
print(df["HDBSCAN_分群_寬鬆版"].value_counts().sort_index())
print(df[["行政區", "HDBSCAN_分群_寬鬆版"]])

HDBSCAN_分群_寬鬆版
-1     3
 0     2
 1     3
 2     5
 3    25
Name: count, dtype: int64
     行政區  HDBSCAN_分群_寬鬆版
0    鳳山區               2
1    鼓山區               2
2    左營區               2
3    楠梓區               3
4    三民區               2
5    新興區               1
6    前金區               1
7    苓雅區               1
8    前鎮區               2
9    旗津區              -1
10   小港區               3
11   林園區               3
12   大寮區               3
13   大樹區               3
14   大社區               3
15   仁武區               3
16   鳥松區              -1
17   岡山區               3
18   橋頭區               3
19   燕巢區               3
20   田寮區               3
21   阿蓮區               3
22   路竹區               3
23   湖內區               3
24   茄萣區               3
25   永安區               3
26   彌陀區               3
27   梓官區               3
28   鹽埕區              -1
29   旗山區               3
30   六龜區               3
31   內門區               3
32   美濃區               3
33   杉林區               3
34   甲仙區               3
35   茂林區      



In [3]:
# 篩選被分為離群的行政區
outliers = df[df["HDBSCAN_分群_寬鬆版"] == -1]

# 檢視它們的特徵分布
print(outliers[["行政區", "平均人口密度", "平均年所得", "交通便利度"]])
#重要行政區如鹽埕、旗津未被分群，改用KMeans

    行政區  平均人口密度  平均年所得     交通便利度
9   旗津區   17271    571  0.000000
16  鳥松區    1788   1038  0.000000
28  鹽埕區   15666    767  2.816901


In [4]:
import pandas as pd
from pyproj import Transformer
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# 載入資料
df = pd.read_excel("distinct.xlsx")

# 建立交通便利度欄位
df["交通便利度"] = (df["捷運站數"] + df["輕軌站數"]) / df["土地面積"]

# 經緯度 ➜ 平面座標 (TWD97)
transformer = Transformer.from_crs("epsg:4326", "epsg:3826", always_xy=True)
df["X_proj"], df["Y_proj"] = transformer.transform(df["X座標"].values, df["Y座標"].values)

# 選擇特徵並標準化
features = df[["X_proj", "Y_proj", "平均人口密度", "平均年所得", "交通便利度"]]
X_scaled = StandardScaler().fit_transform(features)

# KMeans 分群
kmeans = KMeans(n_clusters=3, random_state=42, n_init='auto')
df["KMeans_生活型態分群"] = kmeans.fit_predict(X_scaled)

# 顯示結果
print(df[["行政區", "KMeans_生活型態分群"]])


     行政區  KMeans_生活型態分群
0    鳳山區              2
1    鼓山區              2
2    左營區              2
3    楠梓區              0
4    三民區              2
5    新興區              2
6    前金區              2
7    苓雅區              2
8    前鎮區              2
9    旗津區              2
10   小港區              0
11   林園區              0
12   大寮區              0
13   大樹區              0
14   大社區              0
15   仁武區              0
16   鳥松區              0
17   岡山區              0
18   橋頭區              0
19   燕巢區              0
20   田寮區              0
21   阿蓮區              0
22   路竹區              0
23   湖內區              0
24   茄萣區              0
25   永安區              0
26   彌陀區              0
27   梓官區              0
28   鹽埕區              2
29   旗山區              0
30   六龜區              1
31   內門區              1
32   美濃區              1
33   杉林區              1
34   甲仙區              1
35   茂林區              1
36   桃源區              1
37  那瑪夏區              1


In [5]:
# 建立一個副本，避免直接修改原資料
df["KMeans_生活型態分群"] = df["KMeans_生活型態分群"].map({0: 1, 1: 0, 2: 2})

In [6]:
# 可先觀察每群的統計特性
group_stats = df.groupby("KMeans_生活型態分群")[["平均人口密度", "平均年所得", "交通便利度"]].mean()
group_stats

Unnamed: 0_level_0,平均人口密度,平均年所得,交通便利度
KMeans_生活型態分群,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,82.875,564.875,0.0
1,1794.9,675.35,0.017473
2,15167.3,861.1,0.824068


In [7]:
#轉存excel
file_name = "分群資訊.xlsx"
# saving the excelsheet
group_stats.to_excel(file_name)

In [8]:

# 人工作業：定義群組名稱對應（依 group_stats 結果手動判斷）
label_mapping = {
    0: "偏鄉自然群",
    1: "郊區住宅群",
    2: "都市核心群"
}

df["生活型態類別"] = df["KMeans_生活型態分群"].map(label_mapping)
df

Unnamed: 0,行政區,公園座數,捷運站數,輕軌站數,平均人口密度,平均年所得,X座標,Y座標,土地面積,交通便利度,X_proj,Y_proj,KMeans_生活型態分群,生活型態類別
0,鳳山區,147.0,5,4,13261,762,120.355436,22.613793,26.76,0.336323,183736.7863,2501662.0,2,都市核心群
1,鼓山區,46.0,2,8,9534,1053,120.274163,22.650195,14.75,0.677966,175401.029536,2505731.0,2,都市核心群
2,左營區,46.0,3,4,10206,925,120.295159,22.683957,19.38,0.361197,177576.706993,2509459.0,2,都市核心群
3,楠梓區,66.0,4,0,7554,778,120.300758,22.7211,25.83,0.154859,178171.4255,2513570.0,1,郊區住宅群
4,三民區,69.0,2,5,16645,831,120.317919,22.649899,19.79,0.353714,179898.091082,2505677.0,2,都市核心群
5,新興區,6.0,2,0,25045,999,120.306734,22.629929,1.98,1.010101,178738.196704,2503471.0,2,都市核心群
6,前金區,6.0,2,0,14796,981,120.294422,22.626991,1.86,1.075269,177471.042369,2503151.0,2,都市核心群
7,苓雅區,48.0,3,5,19939,901,120.32091,22.623594,8.15,0.981595,180192.279228,2502763.0,2,都市核心群
8,前鎮區,63.0,4,8,9310,821,120.314675,22.592697,19.12,0.627615,179535.550545,2499344.0,2,都市核心群
9,旗津區,13.0,0,0,17271,571,120.289154,22.585656,1.46,0.0,176907.696663,2498577.0,2,都市核心群


In [9]:
#轉存excel
file_name = "KMeans.xlsx"
# saving the excelsheet
df.to_excel(file_name)