### k近邻算法

给定一个训练数据集，对于新的输入实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测：在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。

### 模型

k近邻法使用的模型实际上对应特征空间的划分，模型由三个基本要素--距离度量，k值的选择和分类决策规则决定

![](https://raw.githubusercontent.com/liuzhaoo/markdown_pics/master/img/kjinlin.png)

特征空间中，对每个训练实例点$x_i$,所有距离该点比其他点更近的点组成的区域叫做单元（cell）每个训练实例点拥有一个单元，所有训练实例点的单元构成对特征空间的一个划分。



#### 距离度量
使用欧氏距离

设特征空间$x$是$n$维实数向量空间 ，$x_{i}, x_{j} \in \mathcal{X}$,$x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$,$x_{j}=\left(x_{j}^{(1)}, x_{j}^{(2)}, \cdots, x_{j}^{(n)}\right)^{\mathrm{T}}$ ，则：$x_i$,$x_j$的$L_p$距离定义为:

$$L_{p}\left(x_{i}, x_{j}\right)=\left(\sum_{l=1}^{n}\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^{p}\right)^{\frac{1}{p}}$$

p = 2时为欧式距离
#### k值的选择

k值较小，近似误差会减小，估计误差会增大。容易受近邻点噪声的影响，也就是容易发生过拟合。k值较大时，与输入实例较远的训练实例也会对预测起作用，容易发生错误，这时的整体的模型简单。

#### 分类决策规则

k近邻法中的分类决策规则往往是多数表决，即由输入实例的k个临近的训练实例中的多数类决定输入实例的类

In [1]:
# 距离计算函数

import math
from itertools import combinations

def L(x,y,p=2):
    if len(x) == len(y) and len(x) > 1:
        sum = 0
        for i in range(len(x)):
            sum += math.pow(abs(x[i]-y[i]),p)
        return math.pow(sum,1/p)
    
    else:
        return 0

**例3.1**  已知二维空间的三个点x1 x2 x3  试求在p取不同值时，$L_p$ 距离下x1 的最近邻点

In [9]:
x1 = [1,1]
x2 = [5, 1]
x3 = [4, 4]

for i in range(1,5):
    for c in [x2,x3]:
        r = L(x1,c,i)
        print('p={}时，x1与{}间的距离为{}'.format(i,c,r))

p=1时，x1与[5, 1]间的距离为4.0
p=1时，x1与[4, 4]间的距离为6.0
p=2时，x1与[5, 1]间的距离为4.0
p=2时，x1与[4, 4]间的距离为4.242640687119285
p=3时，x1与[5, 1]间的距离为3.9999999999999996
p=3时，x1与[4, 4]间的距离为3.7797631496846193
p=4时，x1与[5, 1]间的距离为4.0
p=4时，x1与[4, 4]间的距离为3.5676213450081633
