# 聚类方法

   对于"监督学习"(supervised learning)，其训练样本是带有标记信息的，并且监督学习的目的是：对带有标记的数据集进行模型学习，从而便于对新的样本进行分类。而在“无监督学习”(unsupervised learning)中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。对于无监督学习，应用最广的便是"聚类"(clustering)。

聚类是一种无监督的学习，它将相似的对象归到同一簇中。聚类的方法几乎可以应用所有对象，簇内的对象越相似，聚类的效果就越好。K-means算法中的k表示的是聚类为k个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，或者称为质心，即用每一个的类的质心对该簇进行描述。

　　聚类和分类最大的不同在于，分类的目标是事先已知的，而聚类则不一样，聚类事先不知道目标变量是什么，类别没有像分类那样被预先定义出来，所以，聚类有时也叫无监督学习。

　　聚类分析试图将相似的对象归入同一簇，将不相似的对象归为不同簇，那么，显然需要一种合适的相似度计算方法，我们已知的有很多相似度的计算方法，比如欧氏距离，余弦距离，汉明距离等。事实上，我们应该根据具体的应用来选取合适的相似度计算方法。

“聚类算法”试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”(cluster)，通过这样的划分，每个簇可能对应于一些潜在的概念或类别。

图解

![TIM%E6%88%AA%E5%9B%BE20190624161010.png](attachment:TIM%E6%88%AA%E5%9B%BE20190624161010.png)

上图是未做标记的样本集，通过他们的分布，我们很容易对上图中的样本做出以下几种划分。

当需要将其划分为两个簇时，即 k=2 时：

![TIM%E6%88%AA%E5%9B%BE20190624161337.png](attachment:TIM%E6%88%AA%E5%9B%BE20190624161337.png)

当需要将其划分为四个簇时，即 k=4 时：

![TIM%E6%88%AA%E5%9B%BE20190624161417.png](attachment:TIM%E6%88%AA%E5%9B%BE20190624161417.png)

聚类方法

1.K-means

2.DBSCAN聚类

3.DBSCAN笑脸聚类

# k-means 

## 概念理解 

kmeans算法又名k均值算法。其算法思想大致为：先从样本集中随机选取 k 个样本作为簇中心，并计算所有样本与这 k 个“簇中心”的距离，对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算各个簇的新的“簇中心”。

根据以上描述，我们大致可以猜测到实现kmeans算法的主要三点：
  
  
  （1）簇个数 k 的选择
  
  
  （2）各个样本点到“簇中心”的距离
  
  
  （3）根据新划分的簇，更新“簇中心”

## k-means算法

### 前提准备 

（1）K值的选择

 k 的选择一般是按照实际需求进行决定，或在实现算法时直接给定 k 值。

（2）距离的度量

![TIM%E6%88%AA%E5%9B%BE20190624162809.png](attachment:TIM%E6%88%AA%E5%9B%BE20190624162809.png)

距离的度量的方法有以下几种

1.有序性距离度量

    （1）闵科夫斯基距离
    （2）欧式距离
    （3）曼哈顿距离
2.无序属性距离度量

VDM

3.混合属性距离度量

### 算法步骤 

1.给定初始质心：首先选取质心集合

2.样本聚类：计算每个样本和每个质心的距离，将样本聚类到距离最近的质心的簇里面

3.重新计算质心：每个簇的新志心的属性值等于此簇中所有样本的属性的平均值

4.是否停止K-means：给定loop最大次数looplimit以及所有质心变化距离最大值

5。结束则打印簇及质心否则重复上述过程

### 伪代码 

![TIM%E6%88%AA%E5%9B%BE20190624163704.png](attachment:TIM%E6%88%AA%E5%9B%BE20190624163704.png)

为避免运行时间过长，通常设置一个最大运行轮数或最小调整幅度阈值，若达到最大轮数或调整幅度小于阈值，则停止运行。

### 算法评价 

1.优点

（1）、是解决聚类问题的一种经典算法，简单、快速

（2）、对处理大数据集，该算法保持可伸缩性和高效性

（3）、当簇接近高斯分布时，它的效果较好。

2.缺点

(1)、在簇的平均值可被定义的情况下才能使用，可能不适用于某些应用；

(2)、在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适；

(3)、在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果；

(4)、该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的；

(5)、若簇中含有异常点，将导致均值偏离严重（即:对噪声和孤立点数据敏感）；

(6)、不适用于发现非凸形状的簇或者大小差别很大的簇。


3.改进

1、很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。通过类的自动合并和分裂，得到较为合理的类型数目 K，例如 ISODATA 算法。

2、针对上述(3)，可选用二分K-均值聚类；或者多设置一些不同的初值，对比最后的运算结果，一直到结果趋于稳定结束。

3、针对上述第(5)点，改成求点的中位数，这种聚类方式即K-Mediods聚类（K中值）


### 实例 