# 聚类分析

# 引子：
我们思考这样一个问题：在餐饮行业中，  

1) 如何通过对餐饮客户消费行为数据，对餐饮客户进行细分，找到有价值的客户群和需关注的客户群？  
2) 如何合理对菜品进行分析，以便区分哪些菜品畅销毛利又高，哪些菜品滞销毛利又低？  

餐饮企业遇到的这些问题，可以通过**聚类分析**解决。  

聚类分析是一种无监督学习，而我们前面介绍的Logistic回归和决策树算法这两种分类算法则属于有监督学习。这两者的区别是什么呢？  
回答这个问题其实很简单，就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。  

今天我们介绍以下几个问题：  

** 1. 聚类分析思想**  
**2. 主要聚类方法**  
**3. 类间、类内距离的度量**   
**4. 层次聚类（谱系聚类）**  
**5. 划分聚类法（快速聚类法）**  
  - K-Mean算法  
  
  
**6. 其他问题**  
**7. 用python具体实现** 
  
# 1. 聚类分析的基本思想 

- 对没有目标变量的数据集根据数据的相似性给出 “自然的”分组。
- 聚类分析的目标是：类内对象相似性尽量大，类间对象相似性尽量小。

那么，什么是类内对象相似性、类间对象相似性呢？又该如何度量它们呢？这个我们放在第三部分讨论，这里我们先来看看主要的聚类方法。

# 2. 主要聚类方法
聚类的方法有：
-  划分的方法
 
- 层次的方法
 
- 基于密度的方法
 
- 基于网格的方法

- 基于模型的方法

# 3. 类间、类内距离的度量

刚才我们说到，聚类分析的目标是：类内对象相似性尽量大，类间对象相似性尽量小。

那么，什么是类内对象相似性、类间对象相似性呢？又该如何度量它们呢？
首先我们介绍：  

# 3.1 类的质心（或重心）  
若类$G_p$中有对象$x_1, x_2, ...,x_n$,则其均值$$\bar{x}_p=\frac{1}{n_p}\sum_{i=1}^{n_p}x_i$$称为类$G_p$的质心（或重心）。    

# 3.2 类间距离  
类的形式和形状多种多样，所以类与类之间的距离有多种定义与计算方法。如果我们定义类$G_p$和$G_q$之间的距离为$D_{pq}$


1. 最短距离
  $$D_{pq}=\min\limits_{i\in{G_F},j\in{G_q}}d_{ij}$$
<img src="picture/pic2.png">  

2. 最长距离  
$$D_{pq}=\max\limits_{i\in{G_F},j\in{G_q}}d_{ij}$$

3. 类平均距离  
$$D_{pq}=\frac{1}{n_pn_q}\sum_{i\in{G_F}}\sum_{j\in{G_q}}d_{ij}$$

4. 重心距离
$$D_{pq}=d(\bar{x}_p,\bar{x}_q)$$其中，$\bar{x}_p$和$\bar{x}_q$分别是两个类的重心，即计算两个中心之间的距离 

5. 离差平方和距离  
$$D_1=\sum_{x_i\in{G_F}}(x_i-\bar{x}_p)'(x_i-\bar{x}_p),D_2=\sum_{x_j\in{G_q}}(x_j-\bar{x}_q)'(x_j-\bar{x}_q)$$  $$D_{1+2}=\sum_{k\in{G_F}\bigcup{G_q}}(x_k-\bar{x})'(x_k-\bar{x})\Rightarrow{D_{pq}=D_{1+2}-D_1-D_2}$$离差平方和距离：计算每个类的离差平方和，将两个类看做一个类计算离差平方和，再计算二者之间的差额。  


假定观测样品之间的距离皆采用欧式平方距离，即$$d_{ij}=d^2(x_i,x_j)^{T}(x_i,x_j)=\parallel{x_i-x_j}\parallel^2$$则类间距离递推公式有统一的形式：$$D_{kr}^2=\alpha_pD_{kp}^2+\alpha_qD_{kq}+\beta{D_{pq}^2}+\gamma\mid{D_{kp}^2-D_{kq}^2}\mid$$

# 3.3 类内距离
我们用类内平方和来定义类内距离。  

设某层次水平上类的个数是G。类$G_{k}(k=1..G)$的类内离差平方和记为：$S_{k}=\sum_{i\in{G_k}}(x_i-\bar{x}_k)^T(x_i-\bar{x}_k)=\sum_{i\in{G_k}}\parallel{x_i-x_k}\parallel^2$

其中$\bar{x}_k$是类$G_k$的重心。$S_{k}$越小，说明$G_k$中各样品越相似。  

令$$P_{G}=\sum_{K=1}^{G}S_k$$  

以T记所有样品的总离差平方和，$$T=\sum_{i=1}^{n}(x_i-\bar{x})^T(x_i-\bar{x})=\sum_{i=1}^{n}\parallel{x_i-\bar{x}}\parallel^2$$其中$$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i$$类间离差平方和=$T-P_G$


# 4. 层次聚类（谱系聚类）  
层次聚类又分为两种，分别为：
- 凝聚方法（自底向上)：将每个对象作为单独的一类，然后合并最近的两个类为一个类，如此循环，直到合成一个类，或达到终止条件为止。
- 分裂方法（自顶向下）：将所有的对象看做一个类，然后分解成两个离得最远的类，对新类循环分解，直到一个类只包含一个对象，或达到终止条件为止。   

比如，这张图从左到右就是凝聚方法，从右到左就是分裂方法。   

<img src="picture/pic1.png">
下面我们介绍凝聚式层次聚类的步骤：
-  n个样品开始时作为n个类，计算两两之间的距 离，构成一个对称距离矩阵
<img src="picture/pic3.png">
-  选择$G_{(0)}$中的非对角线上的最小元素，设这个最小元素是$G_{pq}$。   这时$G_{p}=\{x_p\},G_{q}=\{x_q\}$。将$G_{p}$$G_{q}$合并成一个新类$G_{r}$。在$G_{(0)}$中消去$G_{p}$$G_{q}$所对应的行与列，并加入由新类$G_{r}=\{G_p,G_q\}$与剩下的其他未聚合的类间的距离组成的一行和一列，得到一个新的距离矩阵$G_{(1)}$，它是n-1阶方阵。
-  从$G_{(1)}$出发重复步骤2的作法得$G_{(2)}$。再由$G_{(2)}$出发重复上述步骤，直到n个样品聚为1个大类为止。  

在合并过程中要记下合并样品的编号及两类合并时的距离，并绘制聚类层次图。  

# 例子
某年5省城镇居民月均消费（单位：元/人）
<img src="picture/pic4.png">
- 分别用1，2，3，4，5表示辽宁、浙江、河南、甘肃、青海5个省。将距离矩阵记为  $G_{(0)}$ 。  
<img src="picture/pic5.png">
- 我们的聚类过程如下：
<img src="picture/pic6.png">
<img src="picture/pic7.png">
这就得到了我们的分类结果。可是，我们应该如何度量结果呢？  


- 一个较好的聚类应该在类内各样品尽可能相似的前提下，使得类的个数尽可能少。
- 主要用到以下几种统计量
    - $R^2$统计量
    - 半偏相关统计量
    - 伪F统计量
    - 伪$t^2$统计量

比如，用$R^2$统计量来度量时，
$$R^2=1-\frac{P_G}{T}$$
- n个样品各为一类时，$R^2=1$；
- n个样品合并成一类时，$R^2=0$。
- $R^2$的值总是随着分类数目的减少而减小，取快速下降的上一层。  


# 5. 划分聚类法（快速聚类法）
快速聚类法先将样品粗糙地分一下类，然后再按照某种原则进行修正，直至分类比较合理为止。  

其步骤如下图所示:
<img src="picture/pic8.png">
# K-Means算法
其算法步骤如下：
- 选择K个对象作为每个类的初始质心，然后计算其它每个对象与每个质心的距离，与距离最小的质心归为一类。
- 指派到一个质心的对象集合为一个类，更新每个类的质心。
- 重复上述指派和更新质心的步骤，直至类不发生变化为止。
<img src="picture/pic9.png">
<img src="picture/pic10.png">
<img src="picture/pic11.png">
<img src="picture/pic12.png">
<img src="picture/pic13.png">


# 6. 其他问题
1.  初始质心如何选择？
    - 经验选择：如果对研究对象比较了解，根据以往的经验定下k个对象作为聚点。
    - 随机选定k个对象作为聚点
    - 将n个样品随机地分成k类，以每类的重心作为聚点。
    - 最小最大原则。先选择所有样品中距离最远的两个样品$x_i1,x_i2$为前两个聚点，然后，选择第3个聚点$x_i1$，使得其与前两个聚点的距离较小者最大。用公式表示为  
    $$min\{d(x_i,x_j),r=1,2\}=max\{min[d(x_j,x_i),r=1,2],j\neq{i_i,i_2}\}$$   


然后按相同的原则选取xi4   ，依次下去，直至选定k个聚点

2. K如何确定？
    - 经验方法：$\sqrt{\frac{n}{2}}$(假定数据集包含N个对象)
    - 肘方法:  
    对不同的K进行快速聚类，做出类内离差和关于不同K的曲线，第一个（或最显著的）拐点暗示合理的K值
    - 交叉验证法：
    将数据集分成m份，用m-1份进行聚类，剩下的1份进行验证。对每个可能的K值，计算m个类内离差和的平均，选择拟合最好的K值
    - 轮廓系数法
    - 增量聚类法，…
3. 划分方法有何特点？
    - 效率高
    - 适合发现球形簇，大小、密度均匀的簇，明显分离的簇
    - 需要预先指定簇数k
    - 可能对噪声数据和孤立点数据敏感（例如K均值法）
例如：一维数据集X:  1, 2, 3, 8, 9, 10, 25.
令K等于2，可能划分结果为{1, 2, 3, 8},{9, 10, 25}。其均值分别为3.5和14.67

4. 对任何数据集是否一定可以得到聚类结果？ 
    答案是否定的。如下图这种情况就不能得到很好的聚类结果。
    <img src="picture/pic14.png">
    我们可以利用**霍普斯金统计量H**判断数据集的聚类趋势：
    - 均匀的从数据集D中抽取n个点，对每个点Pi，计算其与D中最近邻的距离xi$$x_i=\min\limits{v\in{D}}\{dist(p_i,v)\}$$ 
    - 再次均匀的从数据集D中抽取n个点，对每个点qi，计算其与D中除抽出对象外的最近邻的距离yi $$y_i=\min\limits{v\in{D}}\{dist(q_i,v)\}$$

    - 计算霍普金斯统计量H$$H=\frac{\sum_{i=1}^{n}y_i}{\sum_{i=1}^{n}x_i+\sum_{i=1}^{n}y_i}$$
     如果H近似0.5  则D不具有显著的聚类趋势   

5. 影响聚类结果的因素

    - 所选择变量的影响
        - 去掉或者增加某些变量,结果可能不同.因此，必须选择合适的变量。
        - 变量之间的相关性也会影响聚类结果，聚类之前可以采用主成分分析等方法进行预处理。
        - 如果各变量的重要性不同，可以根据需要调整权重。权重可以用专家法确定。 
    - 采用的聚类方法的影响
        - 可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。
        - 作为一种探索性技术，聚类方法基本上是用于产生一些假设而不是检验假设。

6. 聚类结果如何评价？
    - 外在评价方法
    - 内在评价方法
        - 考察簇的分离性和紧凑性  
        令a(o)表示任一对象o与同簇内其它对象的平均距离；  
        b(o)表示对象o与其它簇内对象的最小平均距离；  
        轮廓系数：
        $$s(o)=\frac{b(o)-a(o)}{max\{a(o),b(o)\}}$$
        $$-1<s(o)<1$$

        取所有对象轮廓系数的平均值 ，接近1则结果佳。     


# 7. 用python具体实现  
我们对引子中的问题进行解决，使用K-Means算法进行聚类分析

In [1]:
#使用K-Means算法聚类消费行为特征数据
import pandas as pd
#参数初始化
inputfile = 'data/consumption_data.xls' #销量及其他属性数据
data = pd.read_excel(inputfile, index_col = 'Id') #读取数据

In [2]:
data.head()

Unnamed: 0_level_0,R,F,M
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,27,6,232.61
2,3,5,1507.11
3,4,16,817.62
4,3,11,232.81
5,14,7,1913.05


其中R表示最近一次的消费时间间隔，F表示消费频率，M表示消费总金额  

首先对数据进行标准化处理

In [3]:
data_zs = 1.0*(data - data.mean())/data.std() #数据标准化

In [4]:
from sklearn.cluster import KMeans

In [5]:
k = 3 #聚类的类别
iteration = 500 #聚类最大循环次数
model = KMeans(n_clusters = k, n_jobs = 4, max_iter = iteration) #分为k类，并发数4

In [6]:
model.fit(data_zs) #开始聚类

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=500,
    n_clusters=3, n_init=10, n_jobs=4, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [7]:
# 简单输出结果
r1 = pd.Series(model.labels_).value_counts() #统计各个类别的数目
r2 = pd.DataFrame(model.cluster_centers_) #找出聚类中心
r = pd.concat([r2, r1], axis = 1) #横向连接（0是纵向），得到聚类中心对应的类别下的数目
r.columns = list(data.columns) + [u'类别数目'] #重命名表头
print(r)

          R         F         M  类别数目
0 -0.149353 -0.658893 -0.271780   559
1 -0.160451  1.114802  0.392844   341
2  3.455055 -0.295654  0.449123    40


In [9]:
#详细输出原始数据及其类别
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1)
#详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别'] #重命名表头

In [11]:
r.head()

Unnamed: 0_level_0,R,F,M,聚类类别
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,27,6,232.61,0
2,3,5,1507.11,0
3,4,16,817.62,1
4,3,11,232.81,0
5,14,7,1913.05,0
