## 文献阅读 - Clustering by Fast Search and Find of Density Peaks
---
聚类(clustering)是一类典型的无监督学习（unsupervised learning）方法，它通过对无标记训练样本的学习将数据集中的样本划分为若干个通常是不想交的子集（簇/cluster）。聚类分析的目标是基于元素的相似性进行归类，在生物信息学和模式识别等领域有着广泛的应用，常用的聚类算法有：knn、K-means、K-medoids、DBSCAN等。

---
### 作者主要做了什么工作？

---
首先，作者提出了一个核心假设：类簇中心（cluster center）周围都是低局部密度（low local density）的点，并且与任何一个局部密度较高（a higher local density）的点保持相对较远的距离；基于这个假设，作者提出了一种新的、不需要迭代的快速聚类方法（paper中没有给这个方法命名，这里暂且称之为*Fast-Cluster*）。

---
### Fast-Cluster算法有哪些优点？

---
1. 不需要进行迭代计算，求解速度快，不存在不收敛的情况
2. 可以对非球形数据进行聚类

---




### Fast-Cluster算法描述

---
#### 1. 符号列表
---
| 符号      |    含义 | 
| :--------: | :--------| 
| ![][f01]  | 截断距离 |
| ![][f02]  | 点$i$与点$j$之间的距离|
| ![][f03] |  局部密度 |
| ![][f04] |  与其他具有更高局部密度点集的最小距离 |


[f01]: http://latex.codecogs.com/svg.latex?d_{c}
[f02]: http://latex.codecogs.com/svg.latex?d_{ij}
[f03]: http://latex.codecogs.com/svg.latex?\rho_{i}
[f04]: http://latex.codecogs.com/svg.latex?\delta_{i}

---

#### 2. 基本概念
---
##### 局部密度（local density）$\rho_{i}$

直观的理解，某点的局部密度等于其周围相距小于截断距离$d_{c}$的点的数量。

局部密度计算方法：

$\rho_{i}=\sum_{j}\chi(d_{ij}-d_{c})$

其中，

$\chi(x)=\left\{\begin{matrix}1,x<0\\0,x=0\end{matrix}\right.$

$d_{c}$ 表示截断距离，是一个可调的参数

---

##### 最小距离$\delta_{i}$

这里的最小距离指的是点$i$与其他具有更高局部密度点集的最小距离（原文：The minimum distance between the point i and any other point with higher density）。

最小距离计算方法：

$\delta_{i}=min_{j:\rho_{j}>\rho_{i}}(d_{ij})$

对于具有最高局部密度的点，通常定义:  $\delta_{i}=max_{j}(d_{ij})$

---
##### 决策图（decision graph）

辅助识别类簇中心，它是一张以$\rho_{i}$作为横轴，$\delta_{i}$作为纵轴的图形。

注：当类簇的数量特别多的时候，可以将$\rho_{i}$和$\delta_{i}$的乘积$\gamma$作为纵轴，$n$作为横轴作图，这种方式可以更直观的看到数据集中有多少个类簇中心（cluster center）。


---
###### 类簇中心（cluster center）
基于$\rho_{i}$和$\delta_{i}$，Fast-Cluster算法中将类簇中心（cluster center）定义为：同时具有较大的$\rho_{i}$和$\delta_{i}$的点（原文：the only points of high $\delta_{i}$ and relatively high $\rho_{i}$ arethe cluster centers）。


---


#### 3. 算法流程
---
给定数据集$D=\begin{Bmatrix}x_{1},x_{2},\cdots ,x_{m}\end{Bmatrix}$，使用Fast-Cluster进行聚类的过程如下：

step 1. 根据距离计算公式（针对不同的数据集，距离计算公式不一样），计算每一个数据点$x_{i}$与其他数据点$\begin{Bmatrix}x_{1},x_{2},x_{i-1},\cdots,x_{i+1},x_{m}\end{Bmatrix}$的距离，得到整个数据集的距离矩阵（矩阵中第$i$行第$j$列的元素表示$x_{i}$与$x_{j}$的距离$d_{ij}$）；

step 2. 由距离矩阵，分别计算每个点的局部密度$\rho_{i}$（local density）以及与具有更高局部密度点集的最小距离$\delta_{i}$；

step 3. 以所有数据点的$\rho_{i}$为横轴、$\delta_{i}$为纵轴作决策图（decision graph），确定cluster的数量以及类簇中心（cluster center）；

step 4. 将每一个数据点$x_{i}$归入距离其最近的一个类簇中心（cluster center）所在的cluster中，聚类完成。

---

### 相关资源整理
---
1、JDPlus博客（含python实现）：[Science论文"Clustering by fast search and find of density peaks"学习笔记][1]

2、[Paper专属页面][2],包含一些样例数据和matlab代码，[原始matlab代码的python实现在这里][5]

3、[jasonwbw做的python实现][3]，star数量129，参考价值较高

4、[cwehmeyer做的python实现][4]


[1]: http://blog.csdn.net/jdplus/article/details/40351541
[2]: http://people.sissa.it/~laio/Research/Res_clustering.php
[3]: https://github.com/jasonwbw/DensityPeakCluster
[4]: https://github.com/cwehmeyer/pydpc
[5]: http://nbviewer.jupyter.org/gist/tclarke/54ed4c12e8344e4b5ddb