# 😵 相似性度量

在机器学习领域，经常需要度量两组数据之间的相似度，这就涉及到相似度的度量方法。

对于两个向量$𝑋 = (x_1, x_2, ..., x_n)$和$Y = (y_1, y_2, ..., y_n)$，有以下方法进行度量：

1. 欧氏距离（Euclidean Distance）
2. 曼哈顿距离（Manhattan Distance）
3. 闵可夫斯基距离（Minkowski Distance）
4. 余弦相似度（Cosine Similarity）
5. 皮尔逊相关系数（Pearson Correlation Coefficient）


初始化设置：

# 🦮 相似性度量

In [2]:
import numpy as np
from scipy.spatial import distance

In [3]:
np.random.seed(22)

x = np.random.random(10) * 10
y = np.random.random(10) * 10
print(f'X = {x}\nY = {y}')

X = [2.08460537 4.81681062 4.20538035 8.59181999 1.71161554 3.38863961
 2.70532833 6.9104135  2.20404517 8.11950921]
Y = [0.10526874 5.61203697 8.13726187 7.45100296 1.89111355 0.06140866
 7.72043871 9.57832168 7.01937884 2.97578267]


### 1. 欧氏距离（Euclidean Distance）

欧氏距离（L2范数）是计算两个向量之间的直线距离，即两个向量之间对应元素差的平方和的平方根。它在处理连续数据时常被使用。

$$dist = \sqrt{\sum_{i=1}^n(x_i-y_i)^2}$$

In [8]:
def euclidean_dist(x, y):
    return np.sqrt(np.sum(np.square(x - y)))


dist = euclidean_dist(x, y)
print(f'欧氏距离 = {dist}')
dist = np.linalg.norm(x - y)
print(f'L2范数 = {dist}')
dist = distance.euclidean(x, y)
print(f'Scipy欧式距离 = {dist}')

欧氏距离 = 10.692447183086724
L2范数 = 10.692447183086724
Scipy欧式距离 = 10.692447183086724


### 2. 曼哈顿距离（Manhattan Distance）

曼哈顿距离（也称城市街区距离、L1范数）是计算两个向量之间的城市街区距离，即两个向量之间对应元素差的绝对值之和。它在处理离散数据或稀疏数据时常被使用。

$$dist = \sum_{i=1}^n|x_i-y_i|$$

In [9]:
def manhattan_dist(x, y):
    return sum(np.abs(x - y))


dist = manhattan_dist(x, y)
print(f'曼哈顿距离 = {dist}')
dist = np.linalg.norm(x - y, ord=1)
print(f'L1范数 = {dist}')
dist = distance.cityblock(x, y)
print(f'Scipy曼哈顿距离 = {dist}')

曼哈顿距离 = 28.99606925332795
L1范数 = 28.99606925332795
Scipy曼哈顿距离 = 28.99606925332795


### 3. 闵可夫斯基距离（Minkowski Distance）

闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广，可以通过调整参数来控制距离的计算方式。
$$
d(X, Y) = (|x_1-y_1|^p + |x_2-y_2|^p + ... + |x_n-y_n|^p)^{1/p}
$$
其中，$p$是控制距离计算方式的参数，当$p=2$时，退化为欧氏距离；当$p=1$时，退化为曼哈顿距离

In [13]:
def minkowski_dist(x, y, p=1):
    return np.linalg.norm(x - y, ord=p)


p = 3
dist = minkowski_dist(x, y, p=p)
print(f'闵可夫斯基距离 = {dist}')
dist = distance.minkowski(x, y, p=p)
print(f'Scipy闵可夫斯基距离 = {dist}')

闵可夫斯基距离 = 7.93828244203566
Scipy闵可夫斯基距离 = 7.93828244203566


### 4. 余弦相似度（Cosine Similarity）

余弦相似度衡量的是两个向量之间的夹角，而不是直线距离。它在处理文本数据、稀疏数据或高维数据时常被使用。

$$dist = 1-\frac{x \cdot y}
            {||x||_2 ||y||_2} 
$$
$$ similarity= \frac{\Sigma_ix_iy_i}
            {\sqrt{\Sigma_ix_i^2}\sqrt{\Sigma_iy_i^2}} 
$$

其中，$X·Y$表示点积（内积），$||X||$和$||Y||$表示L2范数（长度）

余弦相似度的取值范围在 -1 到 1 之间，值越接近 1 表示两个向量越相似，值越接近 -1 表示两个向量越不相似，值为 0 表示两个向量正交（无相似性）

In [23]:
def cosine_similarity(x, y):
    x = np.asarray(x)
    y = np.asarray(y)
    return np.dot(x, y) / (np.linalg.norm(x) * np.linalg.norm(y))


sim = cosine_similarity(x, y)
print(f'余弦相似距离 = {1 - sim}, 余弦相似度 = {sim}')
dist = distance.cosine(x, y)
print(f'Scipy余弦相似距离 = {dist}, 余弦相似度 = {1 - dist}')

余弦相似距离 = 0.017127813065678232, 余弦相似度 = 0.9828721869343218
Scipy余弦相似距离 = 0.01712781306567812, 余弦相似度 = 0.9828721869343219


### 5. 皮尔逊相关系数（Pearson Correlation Coefficient）

皮尔逊相关系数衡量的是两个向量之间的线性相关性，取值范围在-1到1之间。它在处理线性相关性问题时常被使用。

$$dist =  1 - \frac{(x - \bar{x}) \cdot (y - \bar{y})}
           {{||(x - \bar{x})||}_2 {||(y - \bar{y})||}_2}
$$

$$coor = \frac{(x - \bar{x}) \cdot (y - \bar{y})}
           {{||(x - \bar{x})||}_2 {||(y - \bar{y})||}_2}
$$


In [31]:
def pearson_r(x, y):
    return np.corrcoef(x, y)[0, 1]


def pearson_dist(x, y):
    return 1 - np.corrcoef(x, y)[0, 1]


dist = pearson_dist(x, y)
r = pearson_r(x, y)
print(f'皮尔逊距离 = {dist}, 皮尔逊相关性 = {r}')
dist = distance.correlation(x, y)
print(f'Scipy皮尔逊距离 = {dist}, 皮尔逊相关性 = {1 - dist}')

皮尔逊距离 = 0.6357804085261578, 皮尔逊相关性 = 0.36421959147384214
Scipy皮尔逊距离 = 0.6357804085261578, 皮尔逊相关性 = 0.3642195914738422


### 6. 杰卡德相似度（Jaccard Similarity）

杰卡德相似系数(Jaccard similarity coefficient)，也称杰卡德指数(Jaccard Index)，用于计算两个集合之间的相似性，它衡量的是两个集合交集的大小与并集的大小之间的比例。

杰卡德距离(Jaccard Distance) 是用来衡量两个集合差异性的一种指标，它是杰卡德相似系数的补集，被定义为1减去Jaccard相似系数。

$$dist = \frac{c_{TF} + c_{FT}}
        {c_{TT} + c_{FT} + c_{TF}}
$$



In [36]:
dist = distance.jaccard(x, y)
print(f'Scipy杰卡德距离 = {dist}, 杰卡德相关性 = {1 - dist}')

Scipy杰卡德距离 = 1.0, 杰卡德相关性 = 0.0


### 7. 马氏距离（Mahalanobis Distance）

马氏距离是一种用于衡量两个样本点之间的距离的度量方法。与欧氏距离不同，马氏距离考虑了数据的协方差结构，可以有效地处理特征之间的相关性。

$$dist = \sqrt{(x-y)^T\Sigma^{-1}(x-y)}$$
$$dist = \sqrt{ (u-v) V^{-1} (u-v)^T } $$

其中，(x-y)、(u-v)是样本点之间的差向量，$\Sigma^{-1}$是协方差矩阵$\Sigma$的逆矩阵，$T$表示向量的转置运算。

马氏距离的计算考虑了特征之间的相关性，通过协方差矩阵$\Sigma$的逆矩阵来对特征进行缩放和旋转，使得距离计算更加准确。当协方差矩阵$\Sigma$为单位矩阵时，马氏距离退化为欧氏距离。

马氏距离常用于聚类分析、异常检测和模式识别等领域，特别是在处理具有相关特征的数据时，能够更好地捕捉数据之间的真实距离。

> 这里我对马氏距离的理解不是很深入，协方差矩阵的计算应该基于总体样本，样本量应该大于特征数，才能保证协方差矩阵逆矩阵存在

In [54]:
def mahalanobis_dist(x, y, inv_cov):
    return np.sqrt(np.dot(np.dot(x-y, inv_cov), (x-y).T))


a = np.random.random(10) * 10
b = np.random.random(10) * 10
c = np.random.random(10) * 10
d = np.random.random(10) * 10
e = np.random.random(10) * 10
f = np.random.random(10) * 10
g = np.random.random(10) * 10
h = np.random.random(10) * 10
mat = np.asarray([x, y, a, b, c, d, e, f, g, h]).T
# 计算总体样本的协方差
cov = np.cov(mat)
# 计算协方差逆矩阵
VI = np.linalg.inv(np.matrix(cov))
# 计算马氏距离


dist = mahalanobis_dist(x, y, VI)
print(f'马氏距离 = {dist}')
dist = distance.mahalanobis(x, y, VI)
print(f'Scipy马氏距离距离 = {dist}')

马氏距离 = [[4.19164339]]
Scipy马氏距离距离 = [[4.19164339]]


### 8. 汉明距离

两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数

例如：1011101与1001001之间的汉明距离是2/7。

$$ \frac{c_{01} + c_{10}}{n} $$

In [55]:
x = np.array([0,1,0,1,0])
y = np.array([1,1,1,1,1])
print("汉明距离:",distance.hamming(x,y))

汉明距离: 0.6


## 参考

[1] 知乎，@马东什么，[点积相似度、余弦相似度、欧几里得相似度
](https://zhuanlan.zhihu.com/p/159244903)

[2] CSDN，@川川1212，[协方差、协方差矩阵、马氏距离与欧式距离的理解
](https://blog.csdn.net/chuanchuanmama/article/details/106938512)

[3] CSDN，@lijfrank，[马氏距离-协方差矩阵
](https://blog.csdn.net/Frank_LJiang/article/details/102686135)

[4] 知乎，@Ph0en1x，[马氏距离(Mahalanobis Distance)
](https://zhuanlan.zhihu.com/p/46626607)