# K近邻法
声明：只考虑用于分类问题的KNN。
## 简介
k近邻法的输入为实例的特征向量，对于特征空间的点：输出为实例的类别，可以取多类。
> 取多类的意思是，在决策过程中，以多数表决为例，可以取表决数最多的K个类。

k近邻法假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此，**k近邻法不具有显式的学习过程**。k近邻法实际上利用训练数据集对特征向量空间进行划分，并作为其分类的“模型”。k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。
## 实现
### 伪代码
```
对未知类别属性的数据集中的每个点依次执行以下操作
1. 计算已知类型数据集中的点与当前点之间的距离；
2. 按照距离递增次序排序；
3. 选取与当前点距离最小的k个点；--> 当然第2步和第3步可以使用最小堆排序合并(这是一道经典算法题）
4. 确定前k个点所在类别的出现频率；
5. 返回前k个点出现频率最高的类别作为当前点的预测分类。
```
### 代码

In [1]:
import numpy as np

In [2]:
def create_dataset():
    dataset = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return dataset, labels

In [11]:
import operator

In [12]:
def classify0(x, dataset, labels, k):
    n_dataset = dataset.shape[0]
    diff_matrix = np.tile(x, (n_dataset, 1)) - dataset
    dist = (diff_matrix ** 2).sum(axis=1)  # 这是一个一维距离向量，表示x与各个数据点的距离
    sorted_dist = dist.argsort()
    
    class_count = {}
    for i in range(k):
        vote = labels[sorted_dist[i]]
        class_count[vote] = class_count.get(vote, 0) + 1
    sorted_class_count = sorted(class_count.items(), 
                                key=operator.itemgetter(1), 
                                reverse=True)
    return sorted_class_count[0][0]

### 测试

In [3]:
dataset, labels = create_dataset()

In [4]:
dataset

array([[ 1. ,  1.1],
       [ 1. ,  1. ],
       [ 0. ,  0. ],
       [ 0. ,  0.1]])

In [5]:
labels

['A', 'A', 'B', 'B']

In [13]:
classify0([0, 0], dataset, labels, 3)

'B'

In [14]:
classify0([0, 0], dataset, labels, 2)

'B'

In [15]:
classify0([0, 0], dataset, labels, 1)

'B'