# KNN算法
## 准备：使用Python导入数据

In [5]:
import KNN
import numpy as np

In [2]:
group, labels = KNN.createDataSet()
print("group = {}".format(group))
print("labels = {}".format(labels))

group = [[ 1.   1.1]
 [ 1.   1. ]
 [ 0.   0. ]
 [ 0.   0.1]]
labels = ['A', 'A', 'B', 'B']


## 实施KNN算法
### k-近邻算法
距离计算采用欧氏距离
$$d = \sqrt{(A_{1} - B_{1})^{2} + (A_{2} - B_{2})^{2}}$$

In [16]:
def classify0(inX, dataSet, labels, k):
    """
    k近邻算法函数，分为三部分：计算距离，选择最近的k个点，排序
    参数：
        inX -- 需要判断的输入向量
        dataSet -- 输入的训练样本
        labels -- 标签向量
        k -- 近邻点的个数
    """
    #（1）计算距离
    #求数据集大小，要求样例垂直排列
    dataSetSize = dataSet.shape[0]
    #求差矩阵，向量化，一次对所有训练样本求差
    #np.tile()相当于MATLAB的repmat，周期延拓矩阵
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    #差矩阵平方
    sqDiffMat = np.power(diffMat, 2)
    #对平方求和，沿水平方向
    sqDistances = np.sum(sqDiffMat, axis = 1, keepdims = True)
    #再开方
    distances = np.sqrt(sqDistances)
    #(2)选择距离最小的k个点
    #排序用np.argsort()能返回升序排序后的索引
    sortedDistIndicies = np.argsort(distances, axis = 0)
    #类计数器，是一个Python字典
    classCount = {}
    #距离最小的点最近，优先找
    for i in range(k):
        #取得第i近的点的类型
        voteIlabel = labels[np.int(sortedDistIndicies[i])]
        #该类型计数+1
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    #按照键值从大到小排列类计数器
    sortedClassCount = np.array(sorted(classCount, key = lambda x:classCount[x], reverse = True)).tolist()
    return sortedClassCount[0]

## 用最开始生成的数据小小地测试一下

In [17]:
classify0([0, 0], group, labels, 3)

'B'