## K-Means算法进行聚类

In [7]:
from sklearn.cluster import KMeans
import pandas as pd

### 读取源数据并构建特征矩阵

In [25]:
#读取源数据
data = pd.read_excel("../DataSource/result.xlsx")

In [26]:
print(data)

    source ID  T1548  T1548.002  T1548.004  T1548.001  T1548.003  T1134  \
0       G0099      0          0          0          0          0      0   
1       G0006      0          0          0          0          0      0   
2       G0005      0          0          0          0          0      0   
3       G0023      0          0          0          0          0      0   
4       G0025      0          0          0          0          0      0   
..        ...    ...        ...        ...        ...        ...    ...   
125     G0044      0          0          0          0          0      0   
126     G0102      0          0          0          0          0      0   
127     G0128      0          0          0          0          0      0   
128     G0018      0          0          0          0          0      0   
129     G0045      0          0          0          0          0      0   

     T1134.002  T1134.003  T1134.004  ...  T1497.002  T1600  T1600.002  \
0            0          0

In [27]:
# 提取特征列数据，构建特征矩阵
feature_columns = data.columns[1:]  # 选择除了第一列之外的所有列作为特征列
X = data[feature_columns].values

In [28]:
# 输出特征矩阵
print(X.shape)

(130, 594)


### 聚类

In [29]:
# 指定聚类数目
k = 3

# 创建K-Means模型并进行训练
kmeans = KMeans(n_clusters=k)
kmeans.fit(X)

# 获取聚类标签
labels = kmeans.labels_

# 获取聚类中心
centers = kmeans.cluster_centers_

# 将聚类标签和中心添加到数据集中
data['clustering_label'] = labels
data['clustering_center'] = [centers[label] for label in labels]



In [30]:
print(data)

    source ID  T1548  T1548.002  T1548.004  T1548.001  T1548.003  T1134  \
0       G0099      0          0          0          0          0      0   
1       G0006      0          0          0          0          0      0   
2       G0005      0          0          0          0          0      0   
3       G0023      0          0          0          0          0      0   
4       G0025      0          0          0          0          0      0   
..        ...    ...        ...        ...        ...        ...    ...   
125     G0044      0          0          0          0          0      0   
126     G0102      0          0          0          0          0      0   
127     G0128      0          0          0          0          0      0   
128     G0018      0          0          0          0          0      0   
129     G0045      0          0          0          0          0      0   

     T1134.002  T1134.003  T1134.004  ...  T1600.002  T1600.001  T1102  \
0            0          0

### 评估
评估聚类效果的常见算法和指标有以下几种：

轮廓系数（Silhouette Coefficient）：轮廓系数衡量样本与其所属聚类的相似性和与其他聚类的差异程度。它的取值范围在[-1, 1]之间，值越接近1表示聚类效果越好。

互信息（Mutual Information）：互信息度量聚类结果与真实类别之间的一致性。它的取值范围在[0, 1]之间，值越大表示聚类效果越好。

调整兰德指数（Adjusted Rand Index）：调整兰德指数度量聚类结果与真实类别之间的相似性。它的取值范围在[-1, 1]之间，值越大表示聚类效果越好。

均一性、完整性和V-measure：这些指标综合考虑了聚类结果的均一性和完整性。均一性衡量每个聚类是否只包含同一类别的样本，完整性衡量同一类别的样本是否被分配到同一个聚类中。V-measure是均一性和完整性的加权调和平均。

Dunn指数：Dunn指数度量聚类结果中簇间距离与簇内距离之间的关系。它的取值范围大于等于0，值越大表示聚类效果越好。

DB指数（Davies-Bouldin Index）：DB指数度量聚类结果中簇内的紧密度和簇间的分离度。它的取值范围大于等于0，值越小表示聚类效果越好。

这些评估聚类效果的算法和指标可用于对聚类结果进行定量评估，并选择最佳的聚类算法、参数设置或解释聚类结果的合理性。具体选择哪种评估算法取决于数据集的性质、聚类任务的目标以及您的需求和偏好。