# Python实现聚类算法

在Python上实现聚类算法，可以通过sklearn机器学习框架。   
[sklearn 官方网站](https://scikit-learn.org/stable/)  
[sklearn 中文翻译](https://www.cntofu.com/book/170/docs/22.md)  
其他的机器学习算法都可以在网站查询如何实现  
![常用聚类算法对比](https://scikit-learn.org/stable/_images/sphx_glr_plot_cluster_comparison_001.png)  
<center>常用聚类算法对比

## 1.K-Means实现  
## 2.有效性评价

### 1.1K-Means介绍

K-Means 通常被称为 Lloyd’s algorithm（劳埃德算法）。  
算法有三个步骤。   
·第一步是选择 initial centroids （初始质心），最基本的方法是从 X 数据集中选择k个样本。初始化完成后，K-Means 由两个其他步骤之间的循环组成。  
·第二步将每个样本分配到其 nearest centroid （最近的质心）。  
·第三步通过取分配给每个先前质心的所有样本的平均值来创建新的质心。计算旧的和新的质心之间的差异，并且算法重复这些最后的两个步骤，直到该值小于阈值。换句话说，算法重复这个步骤，直到质心不再显著移动。

### 1.2安装sklearn

cmd 指令 `pip install scikit-learn`  
安装之前需要numpy和scipy库

### 1.3数据导入

采用Pandas库导入数据  
[Pandas.read的详细介绍](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

In [1]:
import pandas as pd

In [2]:
datA=pd.read_excel(r'E:\Users\shanzard\Desktop\wind.xlsx') #数据集的地址

In [3]:
print(datA)

    Relative Humidity       Temp   Wind
0            0.534453   8.724232  3.029
1            0.512406  10.462069  2.679
2            0.495082  11.945053  2.439
3            0.490942  12.722790  2.438
4            0.499233  12.744945  2.574
5            0.510419  12.463970  2.681
6            0.533165   8.030420  3.344
7            0.516926   9.450432  3.011
8            0.499599  10.985850  2.648
9            0.492359  12.023987  2.450
10           0.501205  12.084157  2.522
11           0.505049  11.828141  2.684
12           0.512534   8.049999  3.402
13           0.513843   8.634794  3.184
14           0.511907   9.486630  2.847
15           0.513224  10.113642  2.585
16           0.519951  10.201105  2.597
17           0.522835  10.027741  2.824
18           0.541853   5.948747  3.698
19           0.543210   6.394309  3.476
20           0.533441   7.375385  3.157
21           0.529298   8.074839  2.881
22           0.529530   8.434062  2.828
23           0.520109   8.841874  3.059


In [4]:
data=datA['Wind']

In [5]:
print(data)

0     3.029
1     2.679
2     2.439
3     2.438
4     2.574
5     2.681
6     3.344
7     3.011
8     2.648
9     2.450
10    2.522
11    2.684
12    3.402
13    3.184
14    2.847
15    2.585
16    2.597
17    2.824
18    3.698
19    3.476
20    3.157
21    2.881
22    2.828
23    3.059
Name: Wind, dtype: float64


这样的数据K-Means函数是不能进行计算的，我们需要对数据进行处理

In [6]:
import numpy as np

In [7]:
data=np.array(data)
print(data)

[3.029 2.679 2.439 2.438 2.574 2.681 3.344 3.011 2.648 2.45  2.522 2.684
 3.402 3.184 2.847 2.585 2.597 2.824 3.698 3.476 3.157 2.881 2.828 3.059]


In [8]:
data=[[i] for  i in  data]   #数组转换成列表并且进行遍历

In [9]:
print(data)

[[3.029], [2.679], [2.439], [2.438], [2.574], [2.681], [3.344], [3.011], [2.648], [2.45], [2.522], [2.684], [3.402], [3.184], [2.847], [2.585], [2.597], [2.824], [3.698], [3.476], [3.157], [2.881], [2.828], [3.059]]


### 1.4K-Means聚类

In [10]:
from sklearn.cluster import KMeans

In [11]:
julei=KMeans(n_clusters=4) #进行kmeans聚类

In [12]:
julei.fit(data) #对聚类的数据进行聚类

KMeans(n_clusters=4)

In [13]:
label=julei.labels_ #获得聚类标签

In [14]:
center=julei.cluster_centers_ #聚类中心

In [15]:
print(label)

[2 1 3 3 3 1 0 2 1 3 3 1 0 2 1 3 3 1 0 0 2 1 1 2]


###  1.5二维聚类

In [16]:
data1=datA['Wind']
data1=np.array(data1)

In [17]:
data2=datA['Temp']
data2=np.array(data2)

In [18]:
DATA2= np.vstack((data1,data2)).T

In [19]:
print(DATA2)

[[ 3.029       8.72423221]
 [ 2.679      10.46206897]
 [ 2.439      11.94505337]
 [ 2.438      12.72278996]
 [ 2.574      12.74494513]
 [ 2.681      12.46396976]
 [ 3.344       8.03041981]
 [ 3.011       9.45043158]
 [ 2.648      10.9858503 ]
 [ 2.45       12.02398714]
 [ 2.522      12.08415681]
 [ 2.684      11.8281408 ]
 [ 3.402       8.04999891]
 [ 3.184       8.63479379]
 [ 2.847       9.48662972]
 [ 2.585      10.11364231]
 [ 2.597      10.20110523]
 [ 2.824      10.02774124]
 [ 3.698       5.94874726]
 [ 3.476       6.39430857]
 [ 3.157       7.37538492]
 [ 2.881       8.07483853]
 [ 2.828       8.4340624 ]
 [ 3.059       8.84187356]]


In [20]:
julei=KMeans(n_clusters=4) #进行kmeans聚类

In [21]:
julei.fit(DATA2) #对聚类的数据进行聚类

KMeans(n_clusters=4)

In [22]:
label=julei.labels_ 
print(label)

[1 0 2 2 2 2 1 0 0 2 2 2 1 1 0 0 0 0 3 3 1 1 1 1]


## 2.有效性评价

### 2.1有效性评价标准

聚类算法属于无监督学习方法，不同的聚类数对聚类结果影响很大。  
所以需要进行聚类有效性评价。  
聚类评价指标比较多，常用的有：Rand指数、轮廓系数（Silhouette Coefficient）、Calinski-Harabaz 指数等等

### 2.2轮廓系数进行聚类评价

轮廓系数处于-1至1，越大表示簇间相似度高而不同簇相似度低，即聚类效果越好。

In [23]:
from sklearn.metrics import silhouette_samples 

In [24]:
lkxs=silhouette_samples(DATA2,label)

In [25]:
print(lkxs)

[0.57478607 0.66104767 0.76142174 0.77629951 0.77554973 0.80455004
 0.68711533 0.29520784 0.187657   0.79378871 0.80974971 0.67563262
 0.67879682 0.63069369 0.38370257 0.73637444 0.74674376 0.70933117
 0.79282757 0.74086288 0.17954224 0.70503309 0.65549773 0.47339465]


In [26]:
means=np.mean(lkxs)
print(means)

0.6348169415589558


轮廓系数的均值就能表示不同聚类数的好坏，因为我们可以写一个循环来计算聚类数从2到n-1的轮廓系数进行聚类评价

In [27]:
def juleipingjia(n):
    julei=KMeans(n_clusters=n)
    julei.fit(DATA2)
    label=julei.labels_
    lkxs=silhouette_samples(DATA2,label,metric='euclidean')
    means=np.mean(lkxs)
    return means

In [28]:
y=[]
for n in range(2,23):
    means=juleipingjia(n)
    y.append(means)

In [29]:
print(y)

[0.5863559172178429, 0.585719367481774, 0.6348169415589558, 0.5677727335999418, 0.5369329684261525, 0.5544387207348928, 0.5597969331372351, 0.5423693511862495, 0.5691775859754941, 0.5195443657040357, 0.48169252912900956, 0.4500824708113917, 0.4087394907774617, 0.38297390474290466, 0.3819942539842412, 0.34647424688120015, 0.2875930655396251, 0.23802249810923315, 0.18995716871784105, 0.15580500443560544, 0.100402794254208]


分别计算轮廓系数就能看出最佳聚类数