# 第3章 k近邻法

**算法3.1（k近邻法）**

输入：
- 训练数据集
$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$，
其中，$x_i \in \mathcal{X} \subseteq R^n$为实例的特征向量，$y_i \in \mathcal{Y} = \{c_1,c_2,...,c_K\}$为实例的类别，$i=1,2,...,N$
- 实例特征向量$x$

输出：
- 实例$x$所属的类$y$

(1)根据给定的距离度量，在训练集$T$中找出与$x$最近邻的$k$个点，涵盖这$k$个点的$x$的邻域记作$N_k(x)$

(2)在$N_k(x)$中根据分类决策规则（如多数表决）决定$x$的类别$y$:
$$y=\arg \max_{c_j} \sum_{x_i \in N_k(x)} I(y_i = c_j), i=1,2,...,N;j=1,2,...,K$$
其中$I$为指示函数，当$y_i = c_j$时$I$为1，否则为0。

## k近邻模型

三个基本要素

### 1. 距离度量

设特征空间$x$是$n$维实数向量空间 ，$x_{i}, x_{j} \in \mathcal{X}$,$x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$,$x_{j}=\left(x_{j}^{(1)}, x_{j}^{(2)}, \cdots, x_{j}^{(n)}\right)^{\mathrm{T}}$
，则：$x_i$,$x_j$的$L_p$距离定义为:


$L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{i=1}^{n}\left|x_{i}^{(i)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{1}{p}}$

- $p= 1$  曼哈顿距离
- $p= 2$  欧氏距离
- $p= inf$   闵式距离minkowski_distance 

### 2. k值的选择

- k值的减小意味着整体模型变得复杂，容易发生过拟合
- k值的增大意味着整体的模型变得简单

### 3. 分类决策规则

多数表决规则

**例3.1**

求$p$不同时，$L_p$距离下$x_1$的最近邻点

In [4]:
import math

In [1]:
x1 = [1, 1]
x2 = [5, 1]
x3 = [4, 4]

In [2]:
# 计算向量x和y的p范数
def L(x, y, p=2):
    if len(x) == len(y) and len(x) > 1:
        sum = 0
        for i in range(len(x)):
            sum += math.pow(abs(x[i] - y[i]), p)
        return math.pow(sum, 1 / p)
    return 0

In [10]:
for p in range(1, 5):
    ret = {'x2':L(x1, x2, p), 'x3':L(x1, x3, p)}
    print(min(zip(ret.values(), ret.keys())))

(4.0, 'x2')
(4.0, 'x2')
(3.7797631496846193, 'x3')
(3.5676213450081633, 'x3')
