## 1.距离度量
在机器学习算法中，我们经常需要计算样本之间的相似度，通常的做法是计算样本之间的距离。

设$x$和$y$为两个向量，求它们之间的距离。

这里用Numpy实现，设和为`ndarray <numpy.ndarray>`，它们的shape都是`(N,)`

$d$为所求的距离，是个浮点数（`float`）。

In [3]:
import numpy as np  #注意：运行代码时候需要导入NumPy库。

### 欧氏距离(Euclidean distance)

欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义，指在$m$维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

距离公式：

$$
d\left( x,y \right) = \sqrt{\sum_{i}^{}(x_{i} - y_{i})^{2}}
$$

In [10]:
def euclidean(x, y):

    return np.sqrt(np.sum((x - y)**2))

In [9]:
x = np.asarray([1,3,2,4])
y = np.asarray([2,5,3,1])
euclidean(x,y)

3.872983346207417

In [13]:
def manhattan(x, y):

    return np.sum(np.abs(x - y))

In [14]:
x = np.asarray([1,3,2,4])
y = np.asarray([2,5,3,1])
manhattan(x,y)

7

In [15]:
def chebyshev(x, y):

    return np.max(np.abs(x - y))

In [17]:
x = np.asarray([1,3,2,4])
y = np.asarray([2,5,3,1])
chebyshev(x,y)

3

In [21]:
def minkowski(x, y, p):

    return np.sum(np.abs(x - y)**p)**(1 / p)

In [20]:
x = np.asarray([1,3,2,4])
y = np.asarray([2,5,3,1])
minkowski(x,y,p=1)

7.0

In [27]:
def cosine_dis(x, y):
    num = sum(map(float, x * y))
    denom = np.linalg.norm(x) * np.linalg.norm(y)
    return round(num / float(denom), 3)

In [28]:
x = np.asarray([1,3,2,4])
y = np.asarray([2,5,3,1])
cosine_dis(x,y)

0.789