## 距离余弦
余弦夹角也可以叫做余弦相似度。几何中夹角余弦可以用来衡量两个向量方向的差异，机器学习中借用这一概念衡量样本之间的差异。
### 公式化描述
$$cos\theta=\frac{\vec{\pmb{a}}\times\vec{\pmb b}}{|\vec{\pmb a}|\times|\vec{\pmb b}|}$$
在二维空间中，向量$\pmb{A}(x_1, y_1)$与向量$\pmb{B}(x_2, y_2)$的夹角余弦公式为：
$$cos\theta=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2}\sqrt{x_2^2+y_2^2}}$$

In [30]:
# 方法一：根据公式求解
import numpy as np
vec1 = [1, 2, 3, 3]
vec2 = [5, 6, 7, 8]
# 点乘结果
dot = np.dot(vec1, vec2)
# 标量相乘
norm = np.linalg.norm(vec1)*np.linalg.norm(vec2)
# 余弦距离测试结果
print("余弦距离测试结果是:\t", dot/norm)
# 方法二：根据scipy库求解
from scipy.spatial.distance import pdist
Vec = np.vstack([vec1, vec2])
dist0 = 1-pdist(Vec, 'cosine')
print("余弦距离测试结果是:\t", dist0[0])

余弦距离测试结果是:	 0.9800610899989526
余弦距离测试结果是:	 0.9800610899989526


## 欧氏距离
欧几里得距离是欧几里得空间中两点之间“普通”(即直线)距离。使用这个距离，欧式空间成为度量空间。相关联的范数称为欧几里得范数。
### 公式化描述
1. 二维平面上两点$a(x_1, y_1)$与$b(x_2, y_2)$间的欧式距离
$$d_{12}=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$$
2. 三维空间两点$a(x_1, y_1, z_1)$与$b(x_2, y_2, z_2)$间的欧式距离
$$d_{12}=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2}$$
3. 两个n维向量$\pmb a(x_1, x_2, ..., x_n)$与$\pmb b(y_1, y_2, ..., y_n)$ 之间的欧氏距离
$$d_{12}=\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+...+(x_n-y_n)^2}=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}$$
表示成向量运算得到形式
$$d_{12}=\sqrt{(\pmb{a} - \pmb{b})(\pmb{a} - \pmb{b})^T}$$

In [46]:
import numpy as np
vec1 = [1, 2, 3, 3]
vec2 = [5, 6, 7, 8]
# vec1 = np.array(vec1)
# vec2 = np.array(vec2)
# 将列表转换成矩阵
vec1 = np.mat(vec1)
vec2 = np.mat(vec2)
# 方法一：根据公式求解
dist1 = np.sqrt(np.sum(np.square(vec1 - vec2)))
print("欧氏距离的测试结果为:\t", dist1)
# 方法二：根据scipy库求解
from scipy.spatial.distance import pdist
Vec = np.vstack([vec1, vec2])
dist2 = pdist(Vec)
print("欧氏距离的测试结果为:\t", dist2[0])
# 方法一：根据公式求解
dist3 = np.sqrt((vec1 - vec2)*(vec1 - vec2).T)
print("欧氏距离的测试结果为:\t", np.array(dist3)[0][0])

欧氏距离的测试结果为:	 8.54400374531753
欧氏距离的测试结果为:	 8.54400374531753
欧氏距离的测试结果为:	 8.54400374531753


##  曼哈顿距离
曼哈顿从一个十字路口开车到另一个十字路口，驾驶距离不是两点之间的直线距离。时间驾驶距离就是这个“曼哈顿距离”。<br>
1. 二维平面两点$a(x_1, y_1)$和$b(x_2, y_2)$之间的曼哈顿距离
$$d_{12}=|(x_1-x_2)|+|y_1-y_2|$$
2. 两个n维向量$a(x_1, x_2, ..., x_n)$与$b(y_1, y_2, ..., y_n)$之间的曼哈顿距离
$$d_{12}=\sum_{i=1}^n|x_i-y_i|$$

In [48]:
import numpy as np
vec1 = np.mat([1, 2, 3, 4])
vec2 = np.mat([5, 6, 7, 8])
# 方法一：根据公式求解
dist1 = np.sum(np.abs(vec1 - vec2))
print("曼哈顿距离测试结果为:\t", dist1)
# 方法二：根据scipy库求解
from scipy.spatial.distance import pdist
Vec = np.vstack([vec1, vec2])
dist2 = pdist(Vec, 'cityblock')
print("曼哈顿距离测试结果为:\t", dist2[0])


曼哈顿距离测试结果为:	 16
曼哈顿距离测试结果为:	 16.0


## 明可夫斯基距离
明式距离又称作明可夫斯基距离，是欧氏距离中的一种测度，被看作欧氏距离和曼哈顿距离的一种推广。

两个n维向量$a(x_1, x_2, ..., x_n)$与$b(y_1, y_2, ..., y_n)$之间的曼哈顿距离

$$d_{12}=p\sqrt{\sum_{i=1}^n|x_i-y_i|^2} $$
也可以写成
$$d_{12}=(\sum_{i=1}^n|x_i-y_i|^p)^{\frac{1}{p}}$$
其中$p$是一个参数。<br>
(1)当$p=1$时，就是曼哈顿距离。<br>
(2)当$p=2$时，就是欧氏距离。<br>
(3)当$p\to\infty$时，就是切比雪夫距离。

## 切比雪夫距离
切比雪夫距离是向量空间中的一种度量，两个点之间的距离定义为其各坐标数值差的最大值。以$(x_1, y_1)和(x_2, y_2)$两点为例，其切比雪夫距离为$max(|x_2-x_1|, |y_2-y_1|)$。
###  公式化描述
$\circledcirc$二维平面两点$a(x_1, y_1)$与$b(x_2, y_2)$之间的切比雪夫距离
$$d_{12}=max(|x_1-x_2|, |y_1-y_2|)$$
$\circledcirc$两个$n$维向量$a(x_1, x_2, ..., x_n)$与$b(y_1, y_2, ..., y_n)$之间的切比雪夫距离
$$d_{12}=\max_{i}(|x_i-y_i|)$$
还可以表示为
$$d_{12}=\lim_{k\to\infty}(\sum_{i=1}^n|x_i-y_i|^k)^{\frac{1}{k}}$$

In [7]:
import numpy as np
vec1 = np.mat([1, 2, 3, 4])
vec2 = np.mat([5, 6, 7, 8])
# 方法一：根据公式求解
dist1=np.max(np.abs(vec1-vec2))
print("切比雪夫距离测试结果是：", dist1)
# 方法二：根据scipy库求解
from scipy.spatial.distance import pdist
Vec=np.vstack([vec1, vec2])
dist2 = pdist(Vec, 'chebyshev')
print("切比雪夫距离测试结果是：", dist2[0])


切比雪夫距离测试结果是： 4
切比雪夫距离测试结果是： 4.0


## 杰卡德距离
杰卡德相似系数：两个集合A和B的交集在A、B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号$J(A, B)$表示。可将杰卡德相似系数用在衡量样本的相似度上。<br>
杰卡德距离：与杰卡德相似系数相反的概念，即杰卡德距离用这两个集合中的不同元素占所有元素的比例来衡量两个集合的区分度。这是杰卡德距离。<br>
杰卡德相似系数用公式描述：
$$J(A, B)=\frac{A\cap B}{A\cup B}$$
杰卡德距离可用如下公式描述：
$$J_{\delta}(A, B)=1-J(A, B)=\frac{A\cup B - A\cap B}{A\cup B}$$

In [17]:
import numpy as np
v1 = np.random.random(10)>0.5
v2 = np.random.random(10)>0.5
vec1 = np.asarray(v1, np.int32)
vec2 = np.asarray(v2, np.int32)
print(np.vstack((vec1, vec2)))
# 方法一：根据公式求解
up = np.double(np.bitwise_and((vec1 != vec2), np.bitwise_or(vec1 != 0, vec2 != 0)).sum())
down = np.double(np.bitwise_or(vec1 != 0, vec2 != 0).sum())
dist1 = up / down
print("杰卡德距离测试结果是：", dist1)
print(up, down)
# 方法二：根据scipy库求解
from scipy.spatial.distance import pdist
Vec = np.vstack((vec1, vec2))
dist2 = pdist(Vec, 'jaccard')
print("杰卡德距离测试结果是：", dist2[0])

[[1 1 0 1 0 1 1 0 1 1]
 [0 1 0 0 1 0 1 1 0 0]]
杰卡德距离测试结果是： 0.7777777777777778
7.0 9.0
杰卡德距离测试结果是： 0.7777777777777778


## 汉明距离
在信息论中，两个等长字符串的汉明距离是两个字符串对应位置的不同字符的个数。换句话说，它就是将一个字符串变换成另一个字符串所需要替换的字符个数。<br>
范例描述:<br>
1. 1011101 与 1001001 之间的汉明距离是2
2. 2143896 与 2233796 之间的汉明距离是3
3. "toned" 与 "roses" 之间的汉明距离是3

In [19]:
import numpy as np
v1 = np.random.random(10)>0.5
v2 = np.random.random(10)>0.5
vec1 = np.asarray(v1, np.int32)
vec2 = np.asarray(v2, np.int32)
print(np.vstack((vec1, vec2)))
# 方法一：根据公式求(只适用与二值化类型，对于单词，句子则需要用算法)
dist1 = np.mean(vec1 != vec2)
print("汉明距离测试结果是：", dist1)

# 方法二：根据scipy库求解
from scipy.spatial.distance import pdist
Vec = np.vstack((vec1, vec2))
dist2 = pdist(Vec, 'hamming')
print("杰卡德距离测试结果是：", dist2[0])

[[1 0 0 1 1 0 1 0 1 0]
 [0 0 0 0 1 1 1 1 1 1]]
汉明距离测试结果是： 0.5
杰卡德距离测试结果是： 0.5


##  标准化欧式距离
标准化欧氏距离是针对简单欧氏距离的缺点而做的一种改进方案。标准欧式距离的思路：既然数据各维分量的分布不一样，那先将各个分量都"标准化"到均值、方差相等。<br>
假设样本集$X$的均值为$m$,标准差为$s$,那么$X$的"标准化变量"表示为
$$X^*= \frac{X-m}{s}$$
标准化后的值 = (标准化前的值-分量的均值)/分量的标准差<br>
### 公式化描述
两个$n$维向量$a(x_1, x_2, ..., x_n)$与$b(y_1, y_2, ..., y_n)$之间的标准化欧氏距离的公式：
$$d_{12}=\sqrt{\sum_{k=1}^n(\frac{x_i-y_i}{S_k})^2}$$

In [24]:
import numpy as np
vec1 = np.array([1, 2, 3, 4])
vec2 = np.array([5, 6, 7, 8])
Vec = np.array([vec1, vec2])

# 方法一：根据公式求解
sk = np.var(Vec, axis=0, ddof=1)
dist1 = np.sqrt(((vec1 - vec2)**2 / sk).sum())
print("标准化欧氏距离测试结果是：", dist1)
# 方法二：根据scipy库求解
from scipy.spatial.distance import pdist
dist2 = pdist(Vec, 'seuclidean')
print("标准化欧式距离测试结果：", dist2[0])

标准化欧氏距离测试结果是： 2.8284271247461903
标准化欧式距离测试结果： 2.8284271247461903


## 皮尔逊相关系数
在统计学中，皮尔逊矩阵相关系数用于度量两个变量X和Y之间的相关性程度(线性相关)，其值介于-1与1之间。在自然科学领域中，该系数广泛用于度量两个变量之间的相关性程度。
### 公式化描述
计算相关系数
$$Corr(x, y)=\frac{\sum_i{(x_i-\vec x)(y_i-\vec y)}}{\sqrt{\sum{(x_i-\vec x)^2}}\sqrt{\sum{(y_i-\vec y)^2}}}=\frac{<\pmb x - \vec x , \pmb y - \vec y>}{||\pmb x - \vec x||||\pmb y - \vec y||}$$

In [26]:
import numpy as np
vec1 = np.array([1, 2, 3, 4])
vec2 = np.array([5, 6, 7, 8])

# 方法一：根据公式求解
vec1_=vec1 - np.mean(vec1)
vec2_=vec2 - np.mean(vec2)
dist1 = np.dot(vec1_, vec2_)/(np.linalg.norm(vec1_)*np.linalg.norm(vec2_))
print("皮尔逊相关系数测试结果是：", dist1)

# 方法二：根据numpy 库求解
Vec = np.vstack([vec1, vec2])
dist2 = np.corrcoef(Vec)[0][1]
print("皮尔逊相关系数测试结果是：", dist2)

皮尔逊相关系数测试结果是： 0.9999999999999998
皮尔逊相关系数测试结果是： 1.0
