### 主要记载了机器学习中常用的数学距离

In [None]:
欧几里得距离或欧几里得度量是欧几里得空间中两点间的即直线距离。使用这个距离，欧氏空间成为度量空间，相关联的范数称为欧几里得范数。

In [5]:
import numpy as np

def EuclideanDistance(x, y):
    x = np.array(x)
    y = np.array(y)
    return np.sqrt(np.sum(np.square(x - y)))

print('EuclideanDistance(1, 5)：', EuclideanDistance(1, 5))
print('EuclideanDistance([1, 5], [4, 7])：', EuclideanDistance([1, 5], [4, 7]))

EuclideanDistance(1, 5)： 4.0
EuclideanDistance([1, 5], [4, 7])： 3.605551275463989


曼哈顿距离是种使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和

In [9]:
import numpy as np

def ManhattanDistance(x, y):
    x = np.array(x)
    y = np.array(y)
    return np.sum(np.abs(x - y))

print('ManhattanDistance(1, 5)：', ManhattanDistance(1, 5))
print('ManhattanDistance([1, 5], [4, 7])：', ManhattanDistance([1, 5], [4, 7]))

ManhattanDistance(1, 5)： 4
ManhattanDistance([1, 5], [4, 7])： 5


In [None]:
闵可夫斯基距离不是一种距离，而是一组距离的定义，是对多个距离度量公式的概括性的表述，它包含了欧几里得距离p=2，曼哈顿距离:p=1

In [7]:
import numpy as np
import math
def MinkowskiDistance(x, y, p):
    zipped_coordinate = zip(x, y)
    return math.pow(np.sum([math.pow(np.abs(i[0] - i[1]), p) for i in zipped_coordinate]), 1 / p)

print('MinkowskiDistance([1, 5], [4, 7],2)：', MinkowskiDistance([1, 5], [4, 7],2))

MinkowskiDistance([1, 5], [4, 7],2)： 3.605551275463989


切比雪夫距离（Chebyshev Distance）为$L\infty$度量，是向量空间中的一种度量，二个点之间的距离定义是其各坐标数值差绝对值的最大值。以数学的观点来看，切比雪夫距离是由一致范数（或称为上确界范数）所衍生的度量，也是超凸度量的一种

In [8]:
import numpy as np

def ChebyshevDistance(x, y):
    x = np.array(x)
    y = np.array(y)
    return np.max(np.abs(x - y))


print('ChebyshevDistance：', ChebyshevDistance([1, 5], [4, 7]))

ChebyshevDistance： 3


标准化的欧几里得距离是针对简单欧几里得距离的缺点而作的一种改进方案
思路为：将各个分量都“标准化”到均值、方差相等的区间，即 $X^* = \frac{X - m}{s}$
其中$X^*$为标准化后的值，X为原值，m为分量的均值，s为分量的标准差

In [3]:
import numpy as np

def StandardizedEuclideanDistance(x, y):
    x = np.array(x)
    y = np.array(y)

    X = np.vstack([x, y])
    sigma = np.var(X, axis=0, ddof=1)
    return np.sqrt(((x - y) ** 2 / sigma).sum())


print('StandardizedEuclideanDistance： ', StandardizedEuclideanDistance([1, 5], [4, 7]))
print('StandardizedEuclideanDistance： ', StandardizedEuclideanDistance(2, 4))

StandardizedEuclideanDistance：  2.0
StandardizedEuclideanDistance：  1.4142135623730951


马氏距离（Mahalanobis Distance）是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系并且是尺度无关的，即独立于测量尺度。对于一个均值为μ，协方差矩阵为$Σ \Sigma$的多变量向量，其n维空间中的马氏距离为：$d(x,y) = \sqrt{(x-y)^{T} \sum^{-1} (x-y)}$若协方差矩阵为单位矩阵，那么马氏距离就简化为欧几里得距离（Euclidean Distance）。若协方差矩阵为对角阵，则其转为标准化的欧几里得距离（Standardized Euclidean Distance）。

In [14]:
def MahalanobisDistance(x, y):
    '''
    马氏居立中的(x,y)与欧几里得距离的(x,y)不同,欧几里得距离中的(x,y)指2个样本，每个样本的维数为x或y的维数；这里的(x,y)指向量是2维的，样本个数为x或y的维数，若要计算n维变量间的马氏距离则需要改变输入的参数如(x,y,z)为3维变量。
    '''
    import numpy as np
    x = np.array(x)
    y = np.array(y)
    
    X = np.vstack([x,y])
    X_T = X.T
    sigma = np.cov(X)
    sigma_inverse = np.linalg.inv(sigma)
    
    d1=[]
    for i in range(0, X_T.shape[0]):
        for j in range(i+1, X_T.shape[0]):
            delta = X_T[i] - X_T[j]
            d = np.sqrt(np.dot(np.dot(delta,sigma_inverse),delta.T))
            d1.append(d)
        
    return d1
print('MahalanobisDistance： ', MahalanobisDistance([1, 5], [4, 7]))
print('MahalanobisDistance： ', MahalanobisDistance(2, 4))

LinAlgError: Singular matrix