# 机器学习之聚类性能评估指标

#### 【简介】

在做聚类任务时怎样评估当前模型好不好，通常会使用外部指标或者内部指标来进行评估。

本章内容是基于Python语言聚类性能相关指标，并学会使用sklearn来评估聚类模型的好坏。

#### 【目录】

1. [外部指标](#1.-外部指标)
2. [内部指标](#2.-内部指标)
3. [sklearn中的聚类性能评估指标](#3.-sklearn中的聚类性能评估指标)

## 1. 外部指标

### 任务描述

填写python代码，完成calc_JC函数、calc_FM函数和calc_Rand函数分别实现计算JC系数、FM指数和Rand指数。

### 相关知识

为了完成本任务，需要掌握：

- JC系数
- FM指数
- Rand指数

#### 外部指标

聚类的性能度量大致分为两类：一类是将**聚类结果**与某个**参考模型**作为参照进行**比较**，也就是所谓的**外部指标**；另一类是则是**直接度量聚类的性能**而不使用参考模型进行比较，也就是**内部指标**。**外部指标**通常使用Jaccard Coefficient(**JC系数**)、Fowlkes and Mallows Index(**FM指数**)以及Rand index（**Rand指数**）。

想要计算上述指标来度量聚类的性能，首先需要计算出$a,b,c,d$。假设数据集$E=x_1,x_2,...,x_m$，通过聚类模型给出的簇划分为$C=C_1,C_2,...,C_k$，参考模型给出的簇划分为$D=D_1,D_2,...,D_s$。$\lambda$与$\lambda^*$分别表示$C$与$D$对应的簇标记，则有：

$$
a = |(x_i, x_j)|\lambda_i = \lambda_j, \lambda_i^* = \lambda_j^* , i < j| \\
b = |(x_i, x_j)|\lambda_i = \lambda_j, \lambda_i^* \neq \lambda_j^* , i < j| \\
c = |(x_i, x_j)|\lambda_i \neq \lambda_j, \lambda_i^* = \lambda_j^* , i < j| \\
d = |(x_i, x_j)|\lambda_i \neq \lambda_j, \lambda_i^* \neq \lambda_j^* , i < j| \\
$$

举个例子，参考模型给出的簇与聚类模型给出的簇划分如下：

| 编号 | 参考簇($ \lambda^* $) | 聚类簇($ \lambda$) |
|:-- |:-- |:-- |
| 1 | 0 | 0 |
| 2 | 0 | 0 |
| 3 | 0 | 1 |
| 4 | 1 | 1 |
| 5 | 1 | 2 |
| 6 | 1 | 2 |

那么满足$a$的样本对为：

1. (1, 2)，因为1号样本与2号样本的参考簇都为0，聚类簇都为0
2. (5, 6)，因为5号样本与6号样本的参考簇都为1，聚类簇都为2

总共有2个样本对满足$a$，因此$a = 2$。

满足$b$的样本对为：

1. (3, 4)，因为3号样本与4号样本的参考簇不同，但聚类簇都为1

总共有1个样本对满足$b$，因此$b = 1$。

满足$c$的样本对为：

1. (1, 3)，因为1号样本与3号样本的聚类簇不同，但参考簇都为0
2. (2, 3)，因为2号样本与3号样本的聚类簇不同，但参考簇都为0
3. (4, 5)，因为4号样本与5号样本的聚类簇不同，但参考簇都为1
4. (4, 6)，因为4号样本与6号样本的聚类簇不同，但参考簇都为1

总共有4个样本对满足$c$，因此$c=4$。

满足d的样本对为：

1. (1, 4)，因为1号样本与4号样本的参考簇不同，聚类簇也不同
2. (1, 5)，因为1号样本与5号样本的参考簇不同，聚类簇也不同
3. (1, 6)，因为1号样本与6号样本的参考簇不同，聚类簇也不同
4. (2, 4)，因为2号样本与4号样本的参考簇不同，聚类簇也不同
5. (2, 5)，因为2号样本与5号样本的参考簇不同，聚类簇也不同
6. (2, 6)，因为2号样本与6号样本的参考簇不同，聚类簇也不同
7. (3, 5)，因为3号样本与5号样本的参考簇不同，聚类簇也不同
8. (3, 6)，因为3号样本与6号样本的参考簇不同，聚类簇也不同

总共有8个样本对满足$d$，因此$d=8$。

#### JC系数

**JC系数**根据上面所提到的$a, b, c$来计算，并且值域为`[0, 1]`，值**越大**说明聚类**性能越好**，公式如下：
$$
JC = \frac{a}{a + b + c}
$$

对于上述例子，$JC = \frac{1}{2 + 1 + 4} = \frac{2}{7}$

#### FM指数

**FM指数**根据上面所提到的$a, b, c$来计算，并且值域为`[0, 1]`，值**越大**说明聚类性能**越好**，公式如下：

$$
FMI = \sqrt{\frac{a}{a + b} \times \frac{a}{a + c}}
$$

对于上述例子，$FMI = \sqrt{\frac{2}{2+1} \times \frac{2}{2+4}} = \sqrt{\frac{4}{18}}$

#### Rand指数

**Rand指数**根据上面所提到的$a$和$d$来计算，并且值域为`[0, 1]`，值**越大**说明聚类性能**越好**，假设$m$为样本数量，公式如下：

$$
RandI = \frac{2(a+d)}{m(m-1)}
$$

对于上述例子，$RandI = \frac{2 \times (2+8)}{6 \times (6-1)} = \frac{2}{3}$

### 实操练习

#### 编程要求

根据提示，填写python代码，完成calc_JC函数、calc_FM函数和calc_Rand函数分别实现计算JC系数、FM指数和Rand指数并返回。

`calc_JC`函数中的参数:

- `y_true`：参考模型给出的簇，类型为`ndarray`
- `y_pred`：聚类模型给出的簇，类型为`ndarray`

`calc_FM`函数中的参数:

- `y_true`：参考模型给出的簇，类型为`ndarray`
- `y_pred`：聚类模型给出的簇，类型为`ndarray`

`calc_Rand`函数中的参数:

- `y_true`：参考模型给出的簇，类型为`ndarray`
- `y_pred`：聚类模型给出的簇，类型为`ndarray`

#### 测试说明

测试输入：`{'y_true':[0, 0, 0, 1, 1, 1], 'y_pred':[0, 0, 1, 1, 2, 2]}`

预期输出：`0.285714 0.471405 0.666667`

In [4]:
import numpy as np

def calc_JC(y_true, y_pred):
    '''
    计算并返回JC系数
    :param y_true: 参考模型给出的簇，类型为ndarray
    :param y_pred: 聚类模型给出的簇，类型为ndarray
    :return: JC系数
    '''
    #******** Begin *******#
    def a(y_true, y_pred):
        result = 0
        for i in range(len(y_true)):
            for j in range(len(y_pred)):
                if i < j:
                    if y_true[i] == y_true[j] and y_pred[i] == y_pred[j]:
                        result += 1
        return result
    
    def b(y_true, y_pred):
        result = 0
        for i in range(len(y_true)):
            for j in range(len(y_pred)):
                if i < j:
                    if y_true[i] != y_true[j] and y_pred[i] == y_pred[j]:
                        result += 1
        return result
    
    def c(y_true, y_pred):
        result = 0
        for i in range(len(y_true)):
            for j in range(len(y_pred)):
                if i < j:
                    if y_true[i] == y_true[j] and y_pred[i] != y_pred[j]:
                        result += 1
        return result
    
    return a(y_true, y_pred)/(a(y_true, y_pred)+b(y_true, y_pred)+c(y_true, y_pred))
    #******** End *******#
    
def calc_FM(y_true, y_pred):
    '''
    计算并返回FM指数
    :param y_true: 参考模型给出的簇，类型为ndarray
    :param y_pred: 聚类模型给出的簇，类型为ndarray
    :return: FM指数
    '''
    #******** Begin *******#
    def a(y_true, y_pred):
        result = 0
        for i in range(len(y_true)):
            for j in range(len(y_pred)):
                if i < j:
                    if y_true[i] == y_true[j] and y_pred[i] == y_pred[j]:
                        result += 1
        return result
    
    def b(y_true, y_pred):
        result = 0
        for i in range(len(y_true)):
            for j in range(len(y_pred)):
                if i < j:
                    if y_true[i] != y_true[j] and y_pred[i] == y_pred[j]:
                        result += 1
        return result
    
    def c(y_true, y_pred):
        result = 0
        for i in range(len(y_true)):
            for j in range(len(y_pred)):
                if i < j:
                    if y_true[i] == y_true[j] and y_pred[i] != y_pred[j]:
                        result += 1
        return result
    return a(y_true, y_pred)/np.sqrt((a(y_true, y_pred)+b(y_true, y_pred))*(a(y_true, y_pred)+c(y_true, y_pred)))
    #******** End *******#
    
def calc_Rand(y_true, y_pred):
    '''
    计算并返回Rand指数
    :param y_true: 参考模型给出的簇，类型为ndarray
    :param y_pred: 聚类模型给出的簇，类型为ndarray
    :return: Rand指数
    '''
    #******** Begin *******#
    def a(y_true, y_pred):
        result = 0
        for i in range(len(y_true)):
            for j in range(len(y_pred)):
                if i < j:
                    if y_true[i] == y_true[j] and y_pred[i] == y_pred[j]:
                        result += 1
        return result
    
    def d(y_true, y_pred):
        result = 0
        for i in range(len(y_true)):
            for j in range(len(y_pred)):
                if i < j:
                    if y_true[i] != y_true[j] and y_pred[i] != y_pred[j]:
                        result += 1
        return result
    
    m = len(y_true)
    return (2 * (a(y_true, y_pred) + d(y_true, y_pred))) / (m * (m - 1))
    #******** End *******#

In [6]:
# 测试代码
input_data = {'y_true':[0, 0, 0, 1, 1, 1], 'y_pred':[0, 0, 1, 1, 2, 2]}

print(
    calc_JC(np.array(input_data['y_true']),np.array(input_data['y_pred'])), 
    calc_FM(np.array(input_data['y_true']),np.array(input_data['y_pred'])), 
    calc_Rand(np.array(input_data['y_true']),np.array(input_data['y_pred']))
)

0.2857142857142857 0.47140452079103173 0.6666666666666666


## 2. 内部指标

### 任务描述

填写python代码，完成calc_DBI函数和calc_DI函数分别实现计算**DB指数**和**Dunn指数**。

### 相关知识

为了完成本任务，需要掌握：

- DB指数
- Dunn指数

#### 内部指标

**聚类的性能度量**大致分为**两类**：一类是将聚类结果与某个参考模型作为参照进行比较，也就是所谓的**外部指标**；另一类是则是**直接度量聚类的性能**而不使用参考模型进行比较，也就是**内部指标**。内部指标通常使用Davies-Bouldin Index(**DB指数**)以及Dunn Index（**Dunn指数**）。

#### DB指数

**DB指数**又称**DBI**，计算公式如下：

$$
DBI = \frac{1}{k}\sum_{i=1}^k \max(\frac{avg(C_i) + avg(C_j)}{d_c(\mu_i, \mu_j)}), i \neq j
$$

其中$k$代表聚类有多少个簇，$\mu_i$代表第i个簇的中心点，$avg(C_i)$代表$C_i$（第i个簇）中所有数据与第i个簇的中心点的**平均距离**。$d_c(\mu_i,\mu_j)$代表第$i$个簇的中心点与第$j$个簇的中心点的**距离**。

举个例子，现在有6条西瓜数据${x_1,x_2,...,x_6}$，这些数据已经聚类成了2个簇。

| 编号 | 体积 | 重量 | 簇 |
|:-- |:-- |:-- |:-- |
| 1 | 3 | 4 | 1 |
| 2 | 6 | 9 | 2 |
| 3 | 2 | 3 | 1 |
| 4 | 3 | 4 | 1 |
| 5 | 7 | 10 | 2 |
| 6 | 8 | 11 | 2 |

从表格可以看出：

$$
k = 2
$$

$$
\mu_1 = (\frac{3 + 2 + 3}{3}, \frac{4 + 3 + 4}{3}) = (2.67, 3.34)
$$

$$
\mu_2 = (\frac{6 + 7 + 8}{3}, \frac{9 + 10 + 11}{3}) = (7, 10)
$$

$$
d_c(\mu_1, \mu_2) = \sqrt{(2.67 - 7)^2 + (3.34 - 10)^2} = 7.674
$$

$$
avg(C_1) = \left(\sqrt{(3 - 2.67)^2 + (4 - 3.34)^2} + 
\sqrt{(2 - 2.67)^2 + (3 - 3.34)^2} + \sqrt{(3 - 2.67)^2 + (4 - 3.34)^2}\right)/3 = 0.6285
$$

$$
avg(C_2) = \left(\sqrt{(6 - 7)^2 + (9 - 10)^2} + 
\sqrt{(7 - 7)^2 + (10 - 10)^2} + \sqrt{(8 - 7)^2 + (11 - 10)^2}\right)/3 = 0.9428 
$$

因此有：

$$
DBI = \frac{1}{k}\sum_{i=1}^k max(\frac{avg(C_i) + avg(C_j)}{d_c(\mu_i, \mu_j)}) = 0.204765
$$

**DB指数越小**就越就意味着**簇内距离越小**同时**簇间距离越大**，也就是说**DB指数越小越好**。

#### Dunn指数

**Dunn指数**又称**DI**，计算公式如下：

$$
DI = min_{1 \leq i \leq k} min_{i \leq j} (\frac{d_{min} (C_i, Cj)}{max_{1 \leq l \leq k} diam(C_l) })
$$

其中，$k$代表聚类有多少个簇，$d_{min}(C_i, C_j)$代表第$i$个簇中的样本与第$j$个簇中的样本之间的**最短距离**，$diam(C_l)$代表第$l$个簇中**相距最远**的样本之间的**距离**。

还是西瓜的例子，现在有6条西瓜数据${x_1,x_2,\ldots,x_6}$，这些数据已经聚类成了2个簇。

| 编号 | 体积 | 重量 | 簇 |
|:-- |:-- |:-- |:-- |
| 1 | 3 | 4 | 1 |
| 2 | 6 | 9 | 2 |
| 3 | 2 | 3 | 1 |
| 4 | 3 | 4 | 1 |
| 5 | 7 | 10 | 2 |
| 6 | 8 | 11 | 2 |

从表格可以看出：

$$
k = 2
$$

$$
d_{min}(C_1, C_2) = \sqrt{(3-6)^2 + (4-9)^2} = 5.831
$$

$$
diam(C_1) = \sqrt{(3-2)^2 + (4-3)^2} = 1.414
$$

$$
diam(C_2) = \sqrt{(6-8)^2 + (9-11)^2} = 2.828
$$

因此有：

$$
DI = min_{1 \leq i \leq k} min_{i \leq j} (\frac{d_{min} (C_i, Cj)}{max_{1 \leq l \leq k} diam(C_l) }) = 2.061553
$$

**Dunn指数越大**意味着**簇内距离越小**同时**簇间距离越大**，也就是说**Dunn指数越大越好**。

### 实操练习

#### 编程要求

根据提示，填写python代码，完成`calc_DBI`函数和`calc_DI`函数分别实现计算**DB指数**和**Dunn指数**。

`calc_DBI`函数中的参数:

- `feature`：待聚类数据的特征，类型为`ndarray`
- `pred`：聚类后数据所对应的簇，类型为`ndarray`

`calc_DI`函数中的参数:

- `feature`：待聚类数据的特征，类型为`ndarray`
- `pred`：聚类后数据所对应的簇，类型为`ndarray`

#### 测试说明

测试输入：`{'feature':[[3,4],[6,9],[2,3],[3,4],[7,10],[8,11]], 'pred':[1, 2, 1, 1, 2, 2]}`

预期输出：`0.204765 2.061553`

In [7]:
import numpy as np

def calc_DBI(feature, pred):
    '''
    计算并返回DB指数
    :param feature: 待聚类数据的特征，类型为`ndarray`
    :param pred: 聚类后数据所对应的簇，类型为`ndarray`
    :return: DB指数
    '''
    #********* Begin *********#
    label_set = np.unique(pred)
    mu = {}
    label_count = {}
    #计算簇的中点
    for label in label_set:
        mu[label] = np.zeros([len(feature[0])])
        label_count[label] = 0
    for i in range(len(pred)):
        mu[pred[i]] += feature[i]
        label_count[pred[i]] += 1
    for key in mu.keys():
        mu[key] /= label_count[key]
    #算数据到中心点的平均距离
    avg_d = {}
    for label in label_set:
        avg_d[label] = 0
    for i in range(len(pred)):
        avg_d[pred[i]] += np.sqrt(np.sum(np.square(feature[i] - mu[pred[i]])))
    for key in mu.keys():
        avg_d[key] /= label_count[key]
    #算两个簇的中点之间的距离
    cen_d = []
    for i in range(len(label_set)-1):
        t = {'c1':label_set[i], 'c2':label_set[i+1], 'dist':np.sqrt(np.sum(np.square(mu[label_set[i]] - mu[label_set[i+1]])))}
        cen_d.append(t)
    dbi = 0
    for k in range(len(label_set)):
        max_item = 0
        for i in range(len(label_set)):
            for j in range(i, len(label_set)):
                for p in range(len(cen_d)):
                    if cen_d[p]['c1'] == label_set[i] and cen_d[p]['c2'] == label_set[j]:
                        d = (avg_d[label_set[i]] + avg_d[label_set[j]])/cen_d[p]['dist']
                        if d > max_item:
                            max_item = d
        dbi += max_item
    dbi /= len(label_set)
    return dbi
    #********* End *********#
    
def calc_DI(feature, pred):
    '''
    计算并返回Dunn指数
    :param feature: 待聚类数据的特征，类型为`ndarray`
    :param pred: 聚类后数据所对应的簇，类型为`ndarray`
    :return: Dunn指数
    '''
    #********* Begin *********#
    label_set = np.unique(pred)
    min_d = []
    for i in range(len(label_set)-1):
        t = {'c1': label_set[i], 'c2': label_set[i+1], 'dist': np.inf}
        min_d.append(t)
    #计算两个簇之间的最短距离
    for i in range(len(feature)):
        for j in range(i, len(feature)):
            for p in range(len(min_d)):
                if min_d[p]['c1'] == pred[i] and min_d[p]['c2'] == pred[j]:
                    d = np.sqrt(np.sum(np.square(feature[i] - feature[j])))
                    if d < min_d[p]['dist']:
                        min_d[p]['dist'] = d
    #计算同一个簇中距离最远的样本对的距离
    max_diam = 0
    for i in range(len(feature)):
        for j in range(i, len(feature)):
            if pred[i] == pred[j]:
                d = np.sqrt(np.sum(np.square(feature[i] - feature[j])))
                if d > max_diam:
                    max_diam = d
    di = np.inf
    for i in range(len(label_set)):
        for j in range(i, len(label_set)):
            for p in range(len(min_d)):
                d = min_d[p]['dist']/max_diam
                if d < di:
                    di = d
    return d
    #********* End *********#

In [8]:
#测试代码
input_data = {
    'feature':[[3,4],[6,9],[2,3],[3,4],[7,10],[8,11]], 
    'pred':[1, 2, 1, 1, 2, 2]
}

print(
    calc_DBI(np.array(input_data['feature']), np.array(input_data['pred'])),
    calc_DI(np.array(input_data['feature']), np.array(input_data['pred']))
)

0.2047650389446504 2.0615528128088303


## 3. sklearn中的聚类性能评估指标

### 任务描述

使用sklearn完成对模型聚类性能的评估

### 相关知识

sklearn提供了很多聚类指标的接口，这里只介绍两个常用的接口`adjusted_rand_score`和`fowlkes_mallows_score`。

为了完成本任务，需要掌握如何使用sklearn提供的：

- `adjusted_rand_score`：计算Rand指数
- `fowlkes_mallows_score`：计算FM指数

#### adjusted_rand_score

`sklearn`提供了计算**Rand指数**的接口`adjusted_rand_score`。其中参数

- `labels_true`：参考模型给出的簇划分，类型为一维的`ndarray`或者`list`
- `labels_pred`：聚类模型给出的簇划分，类型为一维的`ndarray`或者`list`

示例代码如下：

In [11]:
from sklearn.metrics.cluster import adjusted_rand_score
#y_true为参考模型给出的簇划分，y_pred为聚类模型给出的簇划分
y_true = [1, 0, 0, 1]
y_pred = [1, 0, 1, 0]
print(adjusted_rand_score(y_true, y_pred))

-0.49999999999999994


#### fowlkes_mallows_score

sklearn提供了计算**FM指数**的接口`fowlkes_mallows_score`。其中参数

- `labels_true`：参考模型给出的簇划分，类型为一维的`ndarray`或者`list`
- `labels_pred`：聚类模型给出的簇划分，类型为一维的`ndarray`或者`list`

示例代码如下：

In [12]:
from sklearn.metrics.cluster import fowlkes_mallows_score
#y_true为参考模型给出的簇划分，y_pred为聚类模型给出的簇划分
y_true = [1, 0, 0, 1]
y_pred = [1, 0, 1, 0]
print(fowlkes_mallows_score(y_true, y_pred))

0.0


### 实操练习

#### 编程要求

填写cluster_performance(y_true, y_pred)函数分别计算模型的**Rand指数**和**FM指数**并将其返回，其中：

- `y_true`：参考模型给出的簇划分，类型为一维的`list`
- `y_pred`：聚类模型给出的簇划分，类型为一维的`list`

#### 测试说明

根据输入来按顺序返回正确的**Rand指数**和**FM指数**，以下为其中一个测试用例：

测试输入：`{'y_true':[0, 0, 1, 1],'y_pred':[1, 0, 1, 1]}`

预期输出：`0.408248, 0.000000`

In [13]:
def cluster_performance(y_true, y_pred):
    '''
    返回Rand指数和FM指数
    :param y_true:参考模型的簇划分，类型为`ndarray`
    :param y_pred:聚类模型给出的簇划分，类型为`ndarray`
    :return: Rand指数，FM指数
    '''
    #********* Begin *********#
    return (
        fowlkes_mallows_score(y_true, y_pred), 
        adjusted_rand_score(y_true, y_pred)
    )
    #********* End *********#

In [16]:
# 测试代码
input_data = {'y_true':[0, 0, 1, 1],'y_pred':[1, 0, 1, 1]}

print(cluster_performance(
    np.array(input_data['y_true']), np.array(input_data['y_pred'])
))

(0.408248290463863, 0.0)
