## 聚类方法

### 1. 聚类的基本概念

聚类：针对给定的样本，依据它们特定的相似度或者距离，将其归并到若干个"类"或者"簇"的数据分析问题。

#### 1.1 相似度或距离

（1）闵可夫斯基距离：

给定样本集合X，X是m维实数向量空间中的点的集合，其中$x_i,x_j\in X$, 样本$x_i$与样本$x_j$的闵可夫斯基距离(Minkowski distance)定义为：

$$d_{ij}=(\sum_{k=1}^m|x_{ki}-x_{kj}|^p)^{\frac{1}{p}}$$

当$p=1$时为曼哈顿距离，$p=2$时为欧氏距离，$p=\infty$时称为切比雪夫距离，取各个坐标数值差的绝对值的最大值

（2）马哈拉诺比斯距离（考虑各个分量之间的相关性并与各个分量的尺度无关）：

给定一个样本集合$X=[x_{ij}]_{m\times n}$,其协方差矩阵记作S。样本$x_i$与样本$x_j$之间的马氏距离$d_{ij}$定义为：

$$d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}}$$

当S为单位矩阵时，即样本数据的各个分量互相独立且各个分量的方差为1时，马氏距离等价于欧氏距离。

（3）相关系数（相关系数的绝对值越接近1，表示样本越相似）：

样本$x_i$与样本$x_j$之间的相关系数定义为：

$$r_{ij}=\frac{\sum^m_{k=1}(x_{ki}-\bar{x}_i)(x_{kj}-\bar{x}_j)}{[\sum_{k=1}^m(x_{ki}-\bar{x}_i)^2\sum_{k=1}^m(x_{kj}-\bar{x}_j)^2]^{\frac{1}{2}}}$$

其中：

$$\bar{x}_i=\frac{1}{m}\sum_{k=1}^m x_{ki}, \bar{x}_j=\frac{1}{m}\sum_{k=1}^m x_{kj}$$

（4）夹角余弦（值越接近1，表示样本越相似）：

样本$x_i$与样本$x_j$之间的夹角余弦定义为：

$$s_{ij}=\frac{\sum_{k=1}^m x_{ki}x_{kj}}{[\sum_{k=1}^m x^2_{ki}\sum_{k=1}^m x^2_{kj}]^{\frac{1}{2}}}$$

#### 1.2 类的定于与特征

如果一个聚类方法假定一个样本只能属于一个类，那么该方法称为硬聚类，如果一个样本可以属于多个类，那么该方法称为软聚类。这里只考虑硬聚类方法。

类的定义： 设T为给定的正数，$d_{ij}$表示样本之间的距离，若集合G中的任意两个样本$x_i,x_j$，有$d_{ij}\leq T$,则称G为一个类或簇。

类的常用特征有以下四种：

(1) 类的均值$\bar{x}_G$,又称为类的中心：$\bar{x}_G=\frac{1}{n}\sum_{i=1}^{n}x_i$

(2) 类的直径$D_G$,是类中任意两个样本之间的最大距离：$D_G=\max_{x_i,x_j\in G}d_{ij}$

(3) 类的样本散布矩阵$A_G$: $A_G=\sum_{i=1}^{n}(x_i-\bar{x}_G)(x_i-\bar{x}_G)^T$

(4) 类的协方差矩阵$S_G$: $S_G=\frac{1}{m-1}A_G$, m为样本向量的维数

#### 1.3 类与类之间的距离

(1) 最短距离或单连接：定义类$G_p$的样本与$G_q$的样本之间的最短距离为两类之间的距离

$$D_{pq}=\min{d_{ij}|x_i\in G_p,x_j \in G_q}$$

(2) 最长距离或完全连接：定义类$G_p$的样本与$G_q$的样本之间的最长距离为两类之间的距离


$$D_{pq}=\max{d_{ij}|x_i\in G_p,x_j \in G_q}$$

(3) 中心距离：定义类$G_p$与类$G_q$的中心$\bar{x}_p$与$\bar{x}_q$之间的距离为两类之间的距离

$$D_{pq}=d_{\bar{x}_p\bar{x}_q}$$

(4) 平均距离：定义类$G_p$与类$G_q$任意两个样本之间距离的平均值为两类之间的距离

$$D_{pq}=\frac{1}{n_p n_q}\sum_{x_i\in G_p}\sum_{x_j \in G_q} d_{ij}$$

### 2. 层次聚类

层次聚类假设类别之间存在层次结构，将样本聚到层次化的类中，其分为聚合聚类和分裂聚类两种。聚合聚类开始将每个样本各自分到一个类中，然后将距离最近的两类合并，建立一个新的类，重复此操作直到满足停止条件；分裂聚类开始将所有样本分到一个类，之后将已有类中相距最远的样本分到两个新的类，重复此操作直到满足停止条件。

聚合聚类需要预先确定三个要素：
- 距离或相似度
- 合并规则
- 停止条件

聚合聚类算法：

输入：n个样本组成的样本集合及样本之间的距离
输出：对样本集合的一个层次化聚类
(1) 计算n个样本两两之间的欧氏距离$d_{ij}$,记作矩阵$D=[d_{ij}]_{n\times n}$
(2) 构造n个类，每个类只包含一个样本
(3) 合并类间距最小的两个类，其中最短距离为类间距离，构建一个新类
(4) 计算新类与当前各类的距离。若类的个数为1，中止计算，否则回到步骤(3)

其复杂度为$O(n^3m)$,$m$为样本的维数，$n$是样本的个数。

### 3. k均值聚类

k均值聚类将样本集合划分为k个子集，构成k个类，将N个样本分到k个类中，每个样本到期所属类的中心的距离最小，类之间没有交集。k均值聚类的策略是通过损失函数的最小化选取最优的划分。采用欧氏距离的平方作为样本之间的距离，定义样本与其所属类的中心之间的距离的总和为损失函数，k均值聚类就是该损失函数的最优化问题。但这是一个组合优化问题，k均值聚类的最优解求解问题是NP困难问题。现实中采用迭代的方法求解。

k均值聚类算法：

输入: n个样本的集合X

输出：样本集合的聚类$c^*$

(1) 初始化。令$t=0$,随机选择k个样本点作为初始聚类中心$m^{(0)}=(m_1^{(0)},\dots,m_l^{(0)},\dots,m_k^{(0)})$。

(2) 对样本进行聚类。对固定的类中心$m^{(t)}=(m_1^{(t)},\dots,m_l^{(t)},\dots,m_k^{(t)})$，其中$m_l^{(t)}$为类$G_l$的中心，计算每个样本到类中心的距离，将每个样本指派到与其最近的中心的类中，构成聚类结果$C^{(t)}$。

(3) 计算新的类中心。对聚类结果$C^{(t)}$，计算当前各个类中的样本的均值，作为新的类中心$m^{(t+1)}=(m_1^{(t+1)},\dots,m_l^{(t+1)},\dots,m_k^{(t+1)})$。

(4) 如果迭代收敛或符合停止条件，输出$C^*=C^{(t)}$


k均值聚类算法特点：

(1) 总体特点
- 基于划分的聚类方法
- 类别数k事先指定
- 以欧式距离平方表示样本之间的距离
- 以中心或样本的均值表示类别
- 以样本和其所属类的中心之间的距离的总和为最优化的目标函数
- 得到的类别是平坦的、非层次化的
- 算法是迭代算法，不能保证得到全局最优

(2) 收敛性

属于启发式方法，不能保证收敛到全局最优，初始中心的选择会直接影响聚类结果。初始的类中心选定后，在后续的迭代过程中，会发生移动，但移动不是很大。

(3) 初始类的选择

选择不同的初始中心，会得到不同的聚类结果。

(4) 类别数k的选择

类别数k需要预先指定，而实际中最优的k值是不知道的。可通过尝试不同的k值来推测最优值，聚类结果的质量可以用类的平均直径来衡量，一般地，类别数变小时，平均直径会增加，类别数变大超过某个值以后，平均直径会不变，这个值正是最优的k值。