**k-近邻**（k-Nearest Neighbor, 简称 kNN）是一种常见的监督学习算法，它是 Cover T 和 Hart P 在 1967 年提出的一种既可以用于分类，也可以用于回归的学习方法。它的工作原理非常简单：用一句古话来说就是，“近朱者赤，近墨者黑”，给定测试样本，基于某种距离度量找出训练集中与其最靠近的 k 个训练样本，这 k 个距离最近的样本就是 k-Nearest Neighbor。如果是在分类任务中，我们把这 k 个样本中出现最多的类别作为预测结果；如果是在回归任务中，我们把这 k 个样本的平均值作为预测结果。一般情况下，用 kNN 处理回归问题比较少见，我们这一节使用 kNN 解决分类问题。

要注意的是，kNN 算法没有显式的训练过程，它的训练开销为零，这种学习算法又被称为 **懒惰学习**（lazy learning），相反的，那些有训练过程的算法被称为 **急切学习**（eager learning）。

kNN 算法中有两个关键点：首先是参数 k，它是一个超参数，它的取值对分类结果有着显著的影响，所以一般会选择不同的 k 值进行计算，最后取一个分类结果最好的 k 值；其次是距离度量方法，最常用的是欧氏距离，除此之外，还有切比雪夫距离、马氏距离、巴氏距离等，要根据实际求解的问题来选择。

### kNN 实例

1. 电影分类：根据电影中出现的打斗镜头数和接吻镜头数判断电影的类别

![](../images/knn-movie.png)

2. 海伦约会：根据对方每年的飞行里程公里数、每周玩游戏所花费的小时数、每周吃掉的零食的斤数来判断对方是不是自己喜欢的类型

3. 手写数字识别

### 归一化

欧氏距离公式会极大地受到数值大小的影响，比如上面海伦约会的例子中，两个人的飞行里程可能很容易就相差2000，但吃掉的零食斤数最多可能也就差10，这样算出来的距离就几乎只受飞行里程影响，而对于海伦来说，3个特征是同等重要的。为了解决这个问题，我们需要对这三个特征的特征值进行 **归一化** （Normalization）处理，使得它们的取值范围都落在0到1之间。

$$
x_i := \frac{x_i-min(x_i)}{max(x_i)-min(x_i)}
$$

### kNN 优缺点

* 优点
  * 简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归；
  * 可用于数值型数据和离散型数据；
  * 训练时间复杂度为O(n)；无数据输入假定；
  * 对异常值不敏感
* 缺点
  * 计算复杂性高；空间复杂性高；
  * 样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；
  * 一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分。
  * 最大的缺点是无法给出数据的内在含义。

### sklearn 实战

```
from sklearn.neighbors import KNeighborsClassifier
```

### 距离度量

欧氏距离、切比雪夫距离、马氏距离、巴氏距离

### kd 树

快速k近邻搜索算法，默认参数为auto，可以理解为算法自己决定合适的搜索算法。除此之外，用户也可以自己指定搜索算法ball_tree、kd_tree、brute方法进行搜索，brute是蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时。kd_tree，构造kd树存储数据以便对其进行快速检索的树形数据结构，kd树也就是数据结构中的二叉树。以中值切分构造的树，每个结点是一个超矩形，在维数小于20时效率高。ball tree是为了克服kd树高纬失效而发明的，其构造过程是以质心C和半径r分割样本空间，每个节点是一个超球体。