# 聚类


>以下内容参考了周志华《机器学习》 清华大学出版社 2016.

在无监督学习（unsupervised learning）中，训练样本的的标记信息是未知的。

无监督学习的目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。

此类学习任务中研究最多、应用最广的是聚类（clustering）。

![聚类示例](images/clustering/clusteringdemo.jpg)

## 聚类任务

聚类算法试图将数据集中的样本，划分为若干个通常是不相交的子集，每个子集称为一个“簇”（cluster）。

划分后，每个簇可能对应某个潜在的概念/类别，以西瓜为例：“本地瓜”、“外地瓜”等。

**需要注意：这些概念事先是未知的，聚类过程仅能够自动形成簇结构，簇所对应的概念语义需由使用者（聚类算法之外的程序或人）来把握和命名。**


形式化表示：

假定样本集 $D={x_1,x_2,...,x_m}$ 包含m个无标记样本，每个样本 $x_i = (x_{i1},x_{i2},...,x_{im}) $ 是一个n维特征向量，则聚类算法将样本集D划分为k个不相交地簇 $ \{C_l | l = 1,2,...,k \}$ ，其中 $ C_{l'} \cap _{l'\neq _l }C_l = \emptyset $ 且 $D= \cup ^k _{l=1} C_l $ 。

相应地，我们用 $\lambda_j \in {1,2,...,k} $ 表示样本$x_j$的“簇标记”（cluster label），即$x_j \in C_{\lambda_j}$。

于是，聚类的结果可用包含m个元素的簇标记向量$\lambda = (\lambda_1;\lambda_2;...;\lambda_m)$表示。


### 聚类的应用意义

聚类即能作为一个单独过程，用于寻找数据的潜在分布结构，也可以作为分类等其他学习任务的前驱过程。

例如，在一些商业应用中需要对新用户的类型进行判别（用户画像），但定义“用户类型”对商家来说却不太容易，这时可以借助聚类工具对用户数据进行分析，根据聚类结果将每个簇定义为一个类，然后再基于这些类训练分类模型，用于判别新用户的类型。

![用户画像的要素](images/clustering/用户画像的要素.jpg)

#### 用户画像

- Step1：准确识别用户
  + 用户识别的目的是为了区分用户、单点定位；
  + 用户识别的方式有很多种，如cookie、注册ID、邮箱、微信/微博/QQ等第三方登录、手机号等；
  + 手机号是目前移动端最为准确的用户标识；
  + **微博/微信/QQ等第三方登录成企业识别用户的折中选择。**
  
- Step2：动态跟踪用户行为轨迹
  + 动态行为数据可以确认用户不同场景下的不同访问轨迹，助力广告主跨端控频营销。
  + 用户网络行为动态跟踪主要包括三个维度：**场景+媒体+路径**
  + 应用到互联网中，场景主要包括访问设备、访问时段；
  + 媒体指某一时段下用户具体访问的媒体，如资讯类、视频类、游戏类、社交类等；
  + 路径指用户进入和离开某媒体的路径，可以简单理解为用户的站内与站外行为，如是通过搜索导航进入还是直接打开该APP，离开时是站内跳转到其他网页还是直接关闭。
  + 一方面有助于媒体自身优化流量运营，另一方面帮助广告主有效控制不同页面的投放频次，避免产生用户倦怠。
  
- Step3：结合静态数据评估用户价值
  + 静态数据获取后，需要对人群进行因子和聚类分析；
  + 不同的目的分类依据不同：
    + 如对于产品设计来说，按照使用动机或使用行为划分是最为常见的方式；
    + 而对于营销类媒体来说，依据消费形态来区分人群是最为直接的分类方式。
  + **静态数据主要包括用户的人口属性、商业属性、消费特征、生活形态、CRM五大维度。**
    + 其获取方式存在多种，数据挖掘是最为常见也是较为精准的一种方式；
    + 如果数据有限，则需要定性与定量结合补充，定性方法如小组座谈会、用户深访、日志法、Laddering 阶梯法、透射法等；
    + 主要是通过开放性的问题潜入用户真实的心理需求，具象用户特征。
    + 定量更多是通过定量问卷调研的方式进行，关键在于后期定量数据的建模与分析，目的是通过封闭性问题一方面对定性假设进行验证，另一方面获取市场的用户分布规律。
    
- Step4：用户标签定义与权重
  + 根据特征值对群体进行定义，有助于广告主一目了然掌握该群体的特性。
  + 一个群体会有多个标签，不同的群体之间也会有标签的重合，此时标签的权重反映了不同群体的核心特征。
  + 通常，一个好的用户画像，不同人群之间的标签重合度较小，只有在那些权重较小的标签上会有些许重合。
  + **需要从繁杂的数据中抽取共同的特征值**

- Step5：不同人群优先级排列
  + **根据企业自身情况排列不同组合。**
  + 大部分画像只完成上述4步就结束了，然而最后一步决定了最终效果的落地。
  + 对于广告主来说可以理解为媒介的组合策略。组合策略可以按照频率的高低、市场的大小、收益的潜力、竞争优势等，根据企业自身情况排列不同组合。
  + 例如：品牌刚刚建立，需要快速提升知名度，可以按照不同媒体目标人群覆盖率的高低进行预算分配；当品牌具备一定知名度，企业核心领域营收处于快速增长期时，可以按照不同媒体目标人群贡献的市场大小进行分配；当企业想开拓新市场时，可以按照不同媒体目标人群的收益潜力进行分配，另外如企业品牌需增强差异化的竞争优势时，可按照不同媒体目标人群的竞争优势进行投放。

#### 用户画像示例
![用户画像示例](images/clustering/用户画像示例.jpg)

基于不同的学习策略，有多种不同的聚类算法。下面先考虑算法涉及的两个基本问题：性能度量和距离计算。

## 聚类算法的性能度量

聚类性能度量亦称为聚类“有效性指标”（validity index）。

与监督学习中的性能度量作用相似，对聚类结果，我们需要通过某种性能来度量或评估其好坏。

另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果。

聚类是将样本集D划分维若干互不相交的子集，即样本簇。那么，什么样的聚类结果比较好呢？

直观上看，我们希望“物以类聚”，即同一簇的样本尽可能彼此相似，不同簇尽可能不同。

即“簇内相似度”（intra-cluster similarity）高，而“蔟间相似度”（inter-cluster similarity）低。


### 聚类性能度量类型

度量类型常见地有两类：

- 第一种：将聚类结果与某个“参考模型”（reference model）进行比较，称为“外部指标”（external index）；
- 第二种：直接考察聚类结果，而不利用任何参考模型，称为“内部指标”（internal index）。

对数据集 $D=\{x_1,x_2,...,x_m\}$，假定通过聚类给出的簇，划分为 $ C=\{C_1,C_2,...,C_k\}$，参考模型给出的簇划分为 $ C^*=\{C_1^*,C_2^*,...,C_s^*\}$。

相应地，令$\lambda$与$\lambda^*$分别表示与$ C$和$ C^*$对应的簇标记向量。


我们将样本两两配对考虑，定义：

$a = |SS|, SS = \{ (x_i,x_j)  |  \lambda_i = \lambda_j ,\lambda_i^* = \lambda_j^*,i<j \},$   —— 式（1）

$b = |SD|, SD = \{ (x_i,x_j) | \lambda_i = \lambda_j ,\lambda_i^* \neq \lambda_j^*,i<j \},$   —— 式（2）

$c = |DS|, DS = \{ (x_i,x_j) | \lambda_i \neq \lambda_j ,\lambda_i^* = \lambda_j^*,i<j \},$   —— 式（3）

$d = |DD|, DD = \{ (x_i,x_j) | \lambda_i \neq \lambda_j ,\lambda_i^* \neq \lambda_j^*,i<j \},$   —— 式（4）

其中：
- 集合SS包含了在C中隶属于相同簇,且在$C^*$中也隶属于相同簇的样本对；
- 集合SD包含了在C中隶属于相同簇,但在$C^*$中不隶属于相同簇的样本对；
- 集合DS包含了在C中不隶属于相同簇,但在$C^*$中隶属于相同簇的样本对；
- 集合DD包含了在C中不隶属于相同簇,且在$C^*$中不隶属于相同簇的样本对；

由于每个样本对$(x_i,x_j) ,（i<j）$，仅能出现在上面某一个集合中，因此有$a+b+c+d = m(m-1)/2$成立。

#### 聚类性能度量的外部指标

基于上面的（1）到（4）式，可以推导出下面这些常用的聚类性能度量外部指标：

- Jaccard系数（Jaccard Coefficient，简称JC)

> $JC = \frac{a}{a+b+c}$   —— 式(5)

- FM指数（Fowlkes and mallows Index，简称FMI)

> $FMI = \sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}$   —— 式(6)

- Rand指数（Rand Index，简称RI)

> $RI = \frac{2(a+d)}{m(m-1)}$   —— 式（7）

显然，上述性能度量的结果值均在[0,1]区间，值越大越好。


#### 聚类性能度量的内部指标

考虑聚类结果的簇划分 $C=\{C_1,C_2,...,C_k\}$，定义：

> 簇C内样本间的平均距离： $avg(C) = \frac{2}{|C|(|C|-1)} \sum_{1\leq i<j\leq|C|}dist(x_i,x_j)$   —— 式(8)

> 簇C内样本间的最远距离：$diam(C) = max_{1\leq i<j\leq|C|}dist(x_i,x_j)$  —— 式(9)

> 簇$C_i$与簇$C_j$最近样本间的距离：$d_{min}(C_i,C_j) = min_{x_i \in C_i,x_j \in C_j} dist(x_i,x_j)$  —— 式(10)

> 簇$C_i$与簇$C_j$中心点间的距离：$d_{cen}(C_i,C_j) = dist(\mu_i ,\mu_j)$   —— 式(11)

其中：
- dist(.,.)用于计算两个样本之间的距离(具体计算方法见后文)；
- $\mu$ 代表簇C的中心点$\mu = \frac{1}{|C|}\sum_{1 \leq i \leq |C|}x_i$ 。


基于式（8）~（11)可导出下面这些常用的聚类性能度量内部指标：

- DB指数（Davies-Bouldin Index，简称DBI)

> $ DBI = \frac{1}{k} \sum_{i=1}^{k}max_{j \neq i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})$  —— 式(12)

- Dunn指数（Dunn Index，简称DI)

> $DI = min_{1 \leq i \leq k}{min_{j \neq i} (\frac{d_{min}(C_i,C_j)}{max_{1 \leq l \leq k}diam(C_l)})}$   —— 式(13)

显然，DBI的值越小越好，而DI则相反，越大越好。

## 距离计算

对函数dist(.,.),若它是一个“距离向量”（distance measure），则需要满足一些基本性质：

- 非负性：$ dist(x_i,x_j) \geq 0$ —— 式(14)
- 同一性：$ dist(x_i,x_j) = 0 $当前仅当$x_i= x_j$ ——式(15)
- 对称性：$ dist(x_i,x_j) = dist(x_j,x_i) $ —— 式(16)
- 直递性：$ dist(x_i,x_j) \leq dist(x_i,x_k) + dist(x_k,x_j)$ —— 式(17)

### 闵可夫斯基距离

给定样本$x_i = (x_{i1};x_{i2};...;x_{in})$ 与$x_j = (x_{j1};x_{j2};...;x_{jn})$，最常用的式“闵可夫斯基距离”（Minkowski distance）：

> $dist_{mk}(x_i,x_j) = (\sum_{u=1}^n|x_{iu} - x_{ju}|^p)^\frac{1}{p}$  —— 式(18)

对$p \geq 1$，式（18）显然满足式（14）~式（18）的距离度量基本性质。其实，式（18）即为$x_i-x_j$的$L_p$范数$||x_i-x_j||_p$

> L-P范数是一组范数，$L_p = ||X||_p = \sqrt[p]{\sum_{i=1}^{n} |x_i|^p}, X = (x_1,x_2,...,x_n)$ 


根据$dist_{mk}(x_i,x_j) = (\sum_{u=1}^n|x_{iu} - x_{ju}|^p)^\frac{1}{p}$ 

- p=2时，即为欧式距离（Euclidean distance）
- p=1时，即为曼哈顿距离（Manhattan distance)，也称为“街区距离”（city block distance）

我们常将属性划分为：
- “连续属性”（continuous attribute）或“数值属性”（numerical attribute）
- “离散数学”（categorical attribute）或“列命属性”（nominal attribute）

连续属性在定义域上有无穷多个可能的取值，而离散属性在定义域上是有限个取值。

然而在讨论距离计算时，属性上是否定义了“序”关系更为重要。

例如定义域为{1，2，3}的离散属性与连续属性的性质更接近一些，能直接在属性值上计算距离：“1”与“2”比较接近、与“3”比较远，这样的属性称为“有序”属性（ordinal attribute）；而定义域为{飞机，火车，轮船}这样的离散属性则不能直接在属性值上计算距离，称为“无序属性”（non-ordinal attribute）。

显然，**闵可夫斯基距离可用于有序属性。**

#### VDM距离

对于无序属性，可采用VDM（Value Difference Metric）。

令$m_{u,a}$表示在属性u上取值为a的样本数，$m_{u,a,i}$表示在第i个样本属性u上取值为a的样本数，k为样本簇数，则属性u上两个离散值a与b之间的VDM距离为：

> $VDM_p(a,b) = \sum_{i=1}^k|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,b}}|^p$ —— 式（21）

于是，**将闵可夫斯基距离和VDM结合即可处理混合属性。**

假定有$n_c$个有序属性、$n-n_c$个无序属性，不失一般性，令有序属性排列在无序属性之前，则有：

> $MinkovDM_p(x_i,x_j) = (\sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p + \sum_{u=n_c+1}^n VDM_p(x_{iu},x_{ju}))^\frac{1}{p}$  ——式（22）


#### 加权距离

当样本空间中不同属性的重要性不同时，可使用“加权距离”（weighted distance）。以加权闵可夫斯基距离为例：

$dist_{wmk}(x_i,x_j) = (\sum_{u=1}^n \omega_u|x_{iu} - x_{ju}|^p)^\frac{1}{p}$  —— 式(23)

其中，权重$\omega_u \geq 0 (i = 1,2,...n)$表征不同属性的重要性，通常$\sum_{u=1}^n \omega_u = 1$。

需要注意的是，通常我们是基于某种形式的距离来定义“相似度度量”（similarity measure），距离越大，相似度越小。然而，用于相似度度量的距离未必一定要满足距离度量的所有基本性质，尤其是直递性（式17）。

例如：可能要“人”“马”分别与“人马”相似，但“人”与“马”很不相似。要达到这个目的可令“人”、“马”与“人马”之间的距离都比较小，但“人”与“马”之间的距离很大。**此时该距离不再满足直递性，这样的距离称为“非度量距离”（non-metric distance）**。

此外，本节介绍的距离计算式都是事先定义好的，但有些任务中，有必要基于数据样本来确定合适的距离计算式，或者可通过“距离度量学习”（distance metric learning）来实现。

#### “非度量距离”（non-metric distance）举例
![ “非度量距离”（non-metric distance）举例](images\clustering\非度量距离例子.png)

## 原型聚类

原型聚类亦称为“基于原型的聚类”（prototype-based clustering），此类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用。

通常情形下，算法先对原型进行初始化，然后对原型进行迭代更新求解。

采用不同的原型表示、不同的求解方式，将产生不同的算法。下面是一些著名的原型聚类算法：

- k均值算法
- 学习向量量化
- 高斯混合聚类

### K-MEANS算法

K-Means算法是一种典型的聚类算法。

#### 一般形式：

给定样本集 $ D = \{x_1,x_2,...，x_m\}$，“k均值”（k-means）算法针对聚类所得簇划分 $ C = \{C_1,C_2,...,C_k\}$ 最小化平方误差：

$ E = \sum_{i=1}^k \sum_{x \in C_i}||x- \mu_i||_2^2$ ——式（24）

其中，$\mu_i = \frac{1}{|C_i|}\sum_{x \in C_i}x$ 是簇$C_i$的均值向量。

直观来看，式（24）在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，E值越小则簇内样本相似度越高。

#### 最小化

求式（24）的最小化并不容易，找到它的最优解需要考查样本集D所有可能的簇划分，这是一个NP难题（Aloise et al. 2009)。

因此，k均值算法采用了贪心策略，通过迭代优化来近似求解式（24）。

#### k均值算法流程（贪心策略）

![k均值算法流程](images\clustering\k均值算法流程.png)

#### 贪心算法

在每一步求解的步骤中，它要求“贪婪”的选择最佳操作，并希望通过一系列的最优选择，能够产生一个问题的（全局的）最优解。

贪心算法每一步必须满足一下条件：

- 可行的：即它必须满足问题的约束。

- 局部最优：他是当前步骤中所有可行选择中最佳的局部选择。

- 不可取消：即选择一旦做出，在算法的后面步骤就不可改变了。

例如：

【活动选择问题】这是《算法导论》上的例子，也是一个非常经典的问题。有n个需要在同一天使用同一个教室的活动a1,a2,…,an，教室同一时刻只能由一个活动使用。每个活动ai都有一个开始时间si和结束时间fi 。一旦被选择后，活动ai就占据半开时间区间[si,fi)。如果[si,fi]和[sj,fj]互不重叠，ai和aj两个活动就可以被安排在这一天。该问题就是要安排这些活动使得尽量多的活动能不冲突的举行。例如下图所示的活动集合S，其中各项活动按照结束时间单调递增排序。

用贪心法的话思想很简单：活动越早结束，剩余的时间是不是越多？那我就早最早结束的那个活动，找到后在剩下的活动中再找最早结束的不就得了？

虽然贪心算法的思想简单，但是贪心法不保证能得到问题的最优解，如果得不到最优解，那就不是我们想要的东西了，所以我们现在要证明的是在这个问题中，用贪心法能得到最优解。

### K-means算法示例

注：以下内容参考了中国大学MOOC网-礼欣、嵩天讲的“Python机器学习应用”：https://www.icourse163.org/learn/BIT-1001872001

K-means聚类算法以k为参数，把n各对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。它的基本思想有以下几点：

  - 随机选择k个点，作为初始的聚类中心；
  - 对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇；
  - 对每个簇,计算所有点的均值作为新的聚类中心；
  - 重复上述两步直到聚类中心不再发生改变。

请看下面图示：
图1：给定一个数据集；
![图1](images\clustering\example1.jpg)
图2：根据K = 5初始化聚类中心，保证　聚类中心处于数据空间内；
![图2](images\clustering\example2.jpg)
图3：根据计算类内对象和聚类中心之间的相似度指标，将数据进行划分；
![图3](images\clustering\example3.jpg)
图4：将类内之间数据的均值作为聚类中心，更新聚类中心。
![图4](images\clustering\example4.jpg)
最后判断算法结束与否即可，目的是为了保证算法的收敛。

### k-means的应用案例

- 数据介绍
现有1999年全国31个省份城镇居民家庭平均每人全年消费性支出的八个主要变量数据，这8个变量分别是：**食品、衣着、家庭设备用品及服务、医疗保健、交通和通信、娱乐教育文化服务、居住以及杂项商品和服务**。利用已有数据，对31个省份进行聚类。
- 实验目的
通过聚类，了解1999年各个省份的消费水平在国内的情况。
- 技术路线
sklearn.cluster.Kmeans
- 实验过程
  + step 1 建立程序，导入sklearn.cluster.Kmeans
  + step 2 导入数据
  + step 3 训练模型，确定k的数目
  
> sklearn中每个聚类方法有两个变体：一个类用于实现fit学习训练数据;一个函数用于对给定训练数据，返回对应于不同聚类的整数标签数组。对于这个类，可以在labels_属性中找到训练数据上的标签。


In [15]:
import numpy as np
from sklearn.cluster import KMeans 

def loadData(filePath):
    fr = open(filePath,'r+')
    lines = fr.readlines()
    retData = []
    retCityName = []
    for line in lines:
        items = line.strip().split(",")
        retCityName.append(items[0])
        retData.append([float(items[1])])
    for i in range(1,len(items)):
        return retData,retCityName
loadData('data/clustering/31city.txt')

([[2959.19],
  [2459.77],
  [1495.63],
  [1406.33],
  [1303.97],
  [1730.84],
  [1561.86],
  [1410.11],
  [3712.31],
  [2207.58],
  [2629.16],
  [1844.78],
  [2709.46],
  [1563.78],
  [1675.75],
  [1427.65],
  [1942.23],
  [1783.43],
  [3055.17],
  [2033.87],
  [2057.86],
  [2303.29],
  [1974.28],
  [1673.82],
  [2194.25],
  [2646.61],
  [1472.95],
  [1525.57],
  [1654.69],
  [1375.46],
  [1608.82]],
 ['北京',
  '天津',
  '河北',
  '山西',
  '内蒙古',
  '辽宁',
  '吉林',
  '黑龙江',
  '上海',
  '江苏',
  '浙江',
  '安徽',
  '福建',
  '江西',
  '山东',
  '河南',
  '湖南',
  '湖北',
  '广东',
  '广西',
  '海南',
  '重庆',
  '四川',
  '贵州',
  '云南',
  '西藏',
  '陕西',
  '甘肃',
  '青海',
  '宁夏',
  '新疆'])

In [23]:
"""数据概览
"""
import pandas as pd
d  = pd.read_csv('data/clustering/31city.txt',encoding='gb2312')
d


Unnamed: 0,北京,2959.19,730.79,749.41,513.34,467.87,1141.82,478.42,457.64
0,天津,2459.77,495.47,697.33,302.87,284.19,735.97,570.84,305.08
1,河北,1495.63,515.9,362.37,285.32,272.95,540.58,364.91,188.63
2,山西,1406.33,477.77,290.15,208.57,201.5,414.72,281.84,212.1
3,内蒙古,1303.97,524.29,254.83,192.17,249.81,463.09,287.87,192.96
4,辽宁,1730.84,553.9,246.91,279.81,239.18,445.2,330.24,163.86
5,吉林,1561.86,492.42,200.49,218.36,220.69,459.62,360.48,147.76
6,黑龙江,1410.11,510.71,211.88,277.11,224.65,376.82,317.61,152.85
7,上海,3712.31,550.74,893.37,346.93,527.0,1034.98,720.33,462.03
8,江苏,2207.58,449.37,572.4,211.92,302.09,585.23,429.77,252.54
9,浙江,2629.16,557.32,689.73,435.69,514.66,795.87,575.76,323.36
