# <center>常用距离定义与计算</center>
* 绝对值越小，越相似。
* 源码[https://github.com/scipy/scipy/blob/v1.6.0/scipy/spatial/distance.py#L534-L587]
* from scipy.spatial import distance

## 一.数值向量距离

### 1.欧氏距离（Euclidean distance）
在数学中，欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”（即直线）距离。使用这个距离，欧氏空间成为度量空间。相关联的范数称为欧几里得范数。计算公式为：
$$||X-Y||_2$$
* dis = distance.euclidean(x, y)


### 2.布雷柯蒂斯相异度（Bray-Curtis distance）
Bray-Curtis 相异度（Bray-Curtis dissimilarity）是生态学中用来衡量不同样地物种组成差异的测度。由J. Roger Bray and John T. Curtis 提出。其计算基于样本中不同物种组成的数量特征（多度，盖度，重要值等）。计算公式为：
$$\frac{\sum_{i=1}^n|x_i-y_i|}{\sum_{i=1}^n|x_i+y_i| }$$
* dis = distance.braycurtis(x,y)

### 3.坎贝拉距离（Canberra distance）
Canberra distance是用来衡量两个向量空间的居间，1966年被提出，1977年被G. N. Lance和 W. T. Williams重新提出。是Manhattan distance的加权版本，Canberra distance已被用作比较排名列表和计算机安全中的入侵检测的测量。计算公式为：
$$\frac{\sum_{i=1}^n|x_i-y_i|}{\sum_{i=1}^n|x_i|+|y_i| }$$
* dis = distance.canberra(x, y)

### 4.切比雪夫距离（Chebyshev distance）
切比雪夫距离（Chebyshev distance）是向量空间中的一种度量，二个点之间的距离定义是其各坐标数值差绝对值的最大值。以数学的观点来看，切比雪夫距离是由一致范数（uniform norm）（或称为上确界范数）所衍生的度量，也是超凸度量（injective metric space）的一种。计算公式为:
$$max|x_i-y_i|$$
* dis = distance.chebyshev(x, y)

### 5.曼哈顿距离（Manhattan／cityblock distance）
曼哈顿距离（Manhattan Distance）是由十九世纪的赫尔曼·闵可夫斯基所创词汇，是种使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和。曼哈顿距离的命名原因是从规划为方型建筑区块的城市（如曼哈顿）间，最短的行车路径而来（忽略曼哈顿的单向车道以及只存在于3、14大道的斜向车道）。任何往东三区块、往北六区块的的路径一定最少要走九区块，没有其他捷径。计算公式为：
$${\sum_{i=1}^n|x_i-y_i|}$$
* dis = distance.cityblock(x, y)

### 6.相关系数距离（Correlation distance）
相关系数距离是1与相关系数p(x,y)的差,计算公式为:
$$1-p(x,y)$$
* dis = distance.correlation(x, y)


### 7.余弦相似度距离（Cosine distance）
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。余弦相似度距离为1与余弦相似度的差,计算公式为：
$$1-\frac{X·Y}{||X||·||y||}$$
* dis = distance.cosine(x, y)

### 8.马氏距离（Mahalanobis distance）
协方差矩阵记为S，则马式距离计算公式为：
$$\sqrt{(X-Y)S^-(X-Y)^T}$$

* dis = distance.mahalanobis(x, y, iv)


### 9.闵可夫斯基距离（Minkowski distance）
闵氏距离不是一种距离，而是一组距离的定义，将以下形式的距离都定义为Minkowski distance。
$$||X-Y||_p$$
* dis = distance.minkowski(x, y, 2)

### 10.标准欧式距离（standardized Euclidean distance）
标准化欧氏距离是针对简单欧氏距离的缺点（量纲差异）而作的一种改进方案，计算方法为：
$$\sqrt{\sum_{i=1}^n\frac{(X_i-Y_i)}{s_i}}$$
* dis = distance.seuclidean(x, y, s)

### 11.平方欧式距离（squared Euclidean distance）
$$||X-Y||_2^2$$
* dis = distance.sqeuclidean(x, y)


### 12.加权闵可夫斯基距离（Minkowski distance）
$$||X-Y||_p^p$$
* dis = distance.wminkowski(x, y, 2, np.ones(3))


## 二.布尔向量距离

### 1.Dice系数（Dice dissimilarity）
Dice系数是一种集合相似度度量函数，通常用于计算两个样本的相似度
$$\frac{C_ {TF}+C_ {FT}}{2C_ {TT}+C_ {TF}+C_{FT}}$$
* dis = distance.dice(x, y)

### 2.汉明距离（Hamming distance）
两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。
* dis = distance.hamming(x, y)


### 3.杰卡德差异（Jaccard-Needham dissimilarity）
两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数。
$$\frac{C_ {TF}+C_ {FT}}{C_ {TT}+C_ {TF}+C_{FT}}$$
* dis = distance.jaccard(x, y)

### 4.库尔辛斯基差异（Kulsinski dissimilarity）
$$\frac{C_ {TF}+C_ {FT}-C_ {TT}+n}{C_ {TF}+C_ {FT}+n}$$
* dis = distance.kulsinski(x, y)

### 5.田本罗杰斯差异（Rogers-Tanimoto dissimilarity）

$$\frac{R}{C_{TT}+C_{FF}+R}  , R=2(C_{TF}+C_{FT})        $$ 
* dis = distance.rogerstanimoto(x, y)

### 6.拉塞尔差异（Russell-Rao dissimilarity）
$$\frac{n-C_{TT}}{n}        $$ 
* dis = distance.russellrao(x, y)

### 7.索卡尔米切纳差异（Sokal-Michener dissimilarity）
$$\frac{R}{R+S}  , R=2(C_{TF}+C_{FT})   , S=C_{FF}+C_{TT}     $$
* dis = distance.sokalmichener(x, y)

### 8.索卡尔雪差异（Sokal-Sneath dissimilarity）
$$\frac{R}{R+C_{TF}}  , R=2(C_{TF}+C_{FT})      $$ 
* dis = distance.sokalsneath(x, y)

### 9.Yule差异（Yule dissimilarity）
$$\frac{R}{C_{TT}+C_{FF}+\frac{R}{2}}  , R=2*C_{TF}*C_{FT}     $$ 
* dis = distance.yule(x, y)

