## k-近邻算法的一般流程
1. 收集数据：可以使用任何方法。
1. 准备数据：距离计算所需要的数值，最好是结构化的数据格式。
1. 分析数据：可以使用任何方法。
1. 训练算法：此步骤不适用于k-近邻算法。
1. 测试算法： 计算错误率。
1. 使用算法： 首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

### 准备：导入数据

In [4]:
import numpy as np
import operator

def creatDataSet():
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels


In [5]:
group,labels = creatDataSet()


array([[1. , 1.1],
       [1. , 1. ],
       [0. , 0. ],
       [0. , 0.1]])

In [15]:
group,labels

(array([[1. , 1.1],
        [1. , 1. ],
        [0. , 0. ],
        [0. , 0.1]]), ['A', 'A', 'B', 'B'])

### 从文本文件中解析数据
* 对未知类别属性的数据集中的每个点依次执行以下操作：
  1. 计算已知类别数据集中的每个点与当前点之间的距离
  1. 按照距离递增次序排序
  1. 选取与当前点距离最小的k个点
  1. 确定前k个点所在类别的出现频率
  1. 返回前k个点出现频率最高的类别作为当前点的预测分类

### 准备数据：将图像转换为测试向量

为了使用前面两个例子的分类器，我们必须将图像格式化处理为一个向量。我们将把一个 32x32 的二进制图像矩阵转换为 1x1024 的向量，这样前两节使用的分类器就可以处理数字图像信息了。

我们首先编写一段函数 img2vector，将图像转换为向量：该函数创建 1x1024 的 NumPy 数组，然后打开给定的文件，循环读出文件的前 32 行，并将每行的头 32 个字符值存储在 NumPy 数组中，最后返回数组。

In [7]:
def img2vector(filename):
    # 创建向量
    returnVect = np.zeros((1, 1024))
    # 打开数据文件，读取每行内容
    fr = open(filename)
    for i in range(32):
        # 读取每一行
        lineStr = fr.readline()
        # 将每行前 32 字符转成 int 存入向量
        for j in range(32):
            returnVect[0, 32*i+j] = int(lineStr[j])

    return returnVect

然后，测试 img2vector 函数：

In [8]:
img2vector('digits/testDigits/0_1.txt')

array([[0., 0., 0., ..., 0., 0., 0.]])

### 分析数据

K 近邻算法我们在理论学习部分已经有所了解，本节内容将实现这个算法的核心部分：计算「距离」。

当我们有一定的样本数据和这些数据所属的分类后，输入一个测试数据，就可以根据算法得出该测试数据属于哪个类别，此处的类别为 0-9 十个数字，就是十个类别。

算法实现过程：

 1. 计算已知类别数据集中的点与当前点之间的距离；
 1. 按照距离递增次序排序；
 1. 选取与当前点距离最小的 k 个点；
 1. 确定前 k 个点所在类别的出现频率；
 1. 返回前 k 个点出现频率最高的类别作为当前点的预测分类。

In [9]:
import operator


def classify0(inX, dataSet, labels, k):

    """
    参数: 
    - inX: 用于分类的输入向量
    - dataSet: 输入的训练样本集
    - labels: 样本数据的类标签向量
    - k: 用于选择最近邻居的数目
    """

    # 获取样本数据数量
    dataSetSize = dataSet.shape[0]

    # 矩阵运算，计算测试数据与每个样本数据对应数据项的差值
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet

    # sqDistances 上一步骤结果平方和
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)

    # 取平方根，得到距离向量
    distances = sqDistances**0.5

    # 按照距离从低到高排序
    sortedDistIndicies = distances.argsort()
    classCount = {}

    # 依次取出最近的样本数据
    for i in range(k):
        # 记录该样本数据所属的类别
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    # 对类别出现的频次进行排序，从高到低
    sortedClassCount = sorted(
        classCount.items(), key=operator.itemgetter(1), reverse=True)

    # 返回出现频次最高的类别
    return sortedClassCount[0][0]

计算完所有点之间的距离后，可以对数据按照从小到大的次序排序。然后，确定前 kk 个距离最小元素所在的主要分类，输入 kk 总是正整数；最后，将 classCount 字典分解为元组列表，然后使用程序第二行导入运算符模块的 itemgetter 方法，按照第二个元素的次序对元组进行排序。

此处的排序为逆序，即按照从最大到最小次序排序，最后返回发生频率最高的元素标签。

为了预测数据所在分类，在 Python 提示符中输入下列命令：

In [11]:
group, labels = creatDataSet()
classify0([0, 0], group, labels, 3)

'B'

### 测试算法：使用 K 近邻算法识别手写数字

我们已经将数据处理成分类器可以识别的格式。接下来，我们将这些数据输入到分类器，检测分类器的执行效果。在写入这些代码之前，我们必须确保将 from os import listdir 写入文件的起始部分，这段代码的主要功能是从 os 模块中导入函数 listdir，它可以列出给定目录的文件名。

测试的步骤：

  1. 读取训练数据到向量（手写图片数据），从数据文件名中提取类别标签列表（每个向量对应的真实的数字）
  1. 读取测试数据到向量，从数据文件名中提取类别标签
  1. 执行K 近邻算法对测试数据进行测试，得到分类结果
  1. 与实际的类别标签进行对比，记录分类错误率
  1. 打印每个数据文件的分类数据及错误率作为最终的结果

In [12]:
from os import listdir


def handwritingClassTest():
    # 样本数据的类标签列表
    hwLabels = []

    # 样本数据文件列表
    trainingFileList = listdir('digits/trainingDigits')
    m = len(trainingFileList)

    # 初始化样本数据矩阵（M*1024）
    trainingMat = np.zeros((m, 1024))

    # 依次读取所有样本数据到数据矩阵
    for i in range(m):
        # 提取文件名中的数字
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)

        # 将样本数据存入矩阵
        trainingMat[i, :] = img2vector(
            'digits/trainingDigits/%s' % fileNameStr)

    # 循环读取测试数据
    testFileList = listdir('digits/testDigits')

    # 初始化错误率
    errorCount = 0.0
    mTest = len(testFileList)

    # 循环测试每个测试数据文件
    for i in range(mTest):
        # 提取文件名中的数字
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])

        # 提取数据向量
        vectorUnderTest = img2vector('digits/testDigits/%s' % fileNameStr)

        # 对数据文件进行分类
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

        # 打印 K 近邻算法分类结果和真实的分类
        print("测试样本 %d, 分类器预测: %d, 真实类别: %d" %
              (i+1, classifierResult, classNumStr))

        # 判断K 近邻算法结果是否准确
        if (classifierResult != classNumStr):
            errorCount += 1.0

    # 打印错误率
    print("\n错误分类计数: %d" % errorCount)
    print("\n错误分类比例: %f" % (errorCount/float(mTest)))

上面的代码中，将 trainingDigits 目录中的文件内容存储在列表中，然后可以得到目录中有多少文件，并将其存储在变量 m 中。接着，代码创建一个 m 行 1024 列的训练矩阵，该矩阵的每行数据存储一个图像。

我们可以从文件名中解析出分类数字。该目录下的文件按照规则命名，如文件 9_45.txt 的分类是 9，它是数字 9 的第 45 个实例。然后我们可以将类代码存储在 hwLabels 向量中，使用前面讨论的 img2vector 函数载入图像。

在下一步中，我们对 testDigits 目录中的文件执行相似的操作，不同之处是我们并不将这个目录下的文件载入矩阵中，而是使用 classify0() 函数测试该目录下的每个文件。

最后，我们输入 handwritingClassTest()，测试该函数的输出结果。

In [13]:
handwritingClassTest()

测试样本 1, 分类器预测: 0, 真实类别: 0
测试样本 2, 分类器预测: 0, 真实类别: 0
测试样本 3, 分类器预测: 0, 真实类别: 0
测试样本 4, 分类器预测: 0, 真实类别: 0
测试样本 5, 分类器预测: 0, 真实类别: 0
测试样本 6, 分类器预测: 0, 真实类别: 0
测试样本 7, 分类器预测: 0, 真实类别: 0
测试样本 8, 分类器预测: 0, 真实类别: 0
测试样本 9, 分类器预测: 0, 真实类别: 0
测试样本 10, 分类器预测: 0, 真实类别: 0
测试样本 11, 分类器预测: 0, 真实类别: 0
测试样本 12, 分类器预测: 0, 真实类别: 0
测试样本 13, 分类器预测: 0, 真实类别: 0
测试样本 14, 分类器预测: 0, 真实类别: 0
测试样本 15, 分类器预测: 0, 真实类别: 0
测试样本 16, 分类器预测: 0, 真实类别: 0
测试样本 17, 分类器预测: 0, 真实类别: 0
测试样本 18, 分类器预测: 0, 真实类别: 0
测试样本 19, 分类器预测: 0, 真实类别: 0
测试样本 20, 分类器预测: 0, 真实类别: 0
测试样本 21, 分类器预测: 0, 真实类别: 0
测试样本 22, 分类器预测: 0, 真实类别: 0
测试样本 23, 分类器预测: 0, 真实类别: 0
测试样本 24, 分类器预测: 0, 真实类别: 0
测试样本 25, 分类器预测: 0, 真实类别: 0
测试样本 26, 分类器预测: 0, 真实类别: 0
测试样本 27, 分类器预测: 0, 真实类别: 0
测试样本 28, 分类器预测: 0, 真实类别: 0
测试样本 29, 分类器预测: 0, 真实类别: 0
测试样本 30, 分类器预测: 0, 真实类别: 0
测试样本 31, 分类器预测: 0, 真实类别: 0
测试样本 32, 分类器预测: 0, 真实类别: 0
测试样本 33, 分类器预测: 0, 真实类别: 0
测试样本 34, 分类器预测: 0, 真实类别: 0
测试样本 35, 分类器预测: 0, 真实类别: 0
测试样本 36, 分类器预测: 0, 真实类别: 0
测试样本 37, 分类器预测: 0, 真实类别: 0
测试样本 38, 分

测试样本 298, 分类器预测: 3, 真实类别: 3
测试样本 299, 分类器预测: 3, 真实类别: 3
测试样本 300, 分类器预测: 3, 真实类别: 3
测试样本 301, 分类器预测: 3, 真实类别: 3
测试样本 302, 分类器预测: 3, 真实类别: 3
测试样本 303, 分类器预测: 3, 真实类别: 3
测试样本 304, 分类器预测: 3, 真实类别: 3
测试样本 305, 分类器预测: 3, 真实类别: 3
测试样本 306, 分类器预测: 3, 真实类别: 3
测试样本 307, 分类器预测: 3, 真实类别: 3
测试样本 308, 分类器预测: 3, 真实类别: 3
测试样本 309, 分类器预测: 3, 真实类别: 3
测试样本 310, 分类器预测: 3, 真实类别: 3
测试样本 311, 分类器预测: 3, 真实类别: 3
测试样本 312, 分类器预测: 3, 真实类别: 3
测试样本 313, 分类器预测: 3, 真实类别: 3
测试样本 314, 分类器预测: 3, 真实类别: 3
测试样本 315, 分类器预测: 3, 真实类别: 3
测试样本 316, 分类器预测: 3, 真实类别: 3
测试样本 317, 分类器预测: 3, 真实类别: 3
测试样本 318, 分类器预测: 3, 真实类别: 3
测试样本 319, 分类器预测: 3, 真实类别: 3
测试样本 320, 分类器预测: 3, 真实类别: 3
测试样本 321, 分类器预测: 3, 真实类别: 3
测试样本 322, 分类器预测: 3, 真实类别: 3
测试样本 323, 分类器预测: 3, 真实类别: 3
测试样本 324, 分类器预测: 3, 真实类别: 3
测试样本 325, 分类器预测: 3, 真实类别: 3
测试样本 326, 分类器预测: 3, 真实类别: 3
测试样本 327, 分类器预测: 3, 真实类别: 3
测试样本 328, 分类器预测: 3, 真实类别: 3
测试样本 329, 分类器预测: 3, 真实类别: 3
测试样本 330, 分类器预测: 3, 真实类别: 3
测试样本 331, 分类器预测: 3, 真实类别: 3
测试样本 332, 分类器预测: 3, 真实类别: 3
测试样本 333, 分类器预测: 3, 

测试样本 591, 分类器预测: 6, 真实类别: 6
测试样本 592, 分类器预测: 6, 真实类别: 6
测试样本 593, 分类器预测: 6, 真实类别: 6
测试样本 594, 分类器预测: 6, 真实类别: 6
测试样本 595, 分类器预测: 6, 真实类别: 6
测试样本 596, 分类器预测: 6, 真实类别: 6
测试样本 597, 分类器预测: 6, 真实类别: 6
测试样本 598, 分类器预测: 6, 真实类别: 6
测试样本 599, 分类器预测: 6, 真实类别: 6
测试样本 600, 分类器预测: 6, 真实类别: 6
测试样本 601, 分类器预测: 6, 真实类别: 6
测试样本 602, 分类器预测: 6, 真实类别: 6
测试样本 603, 分类器预测: 6, 真实类别: 6
测试样本 604, 分类器预测: 6, 真实类别: 6
测试样本 605, 分类器预测: 6, 真实类别: 6
测试样本 606, 分类器预测: 6, 真实类别: 6
测试样本 607, 分类器预测: 6, 真实类别: 6
测试样本 608, 分类器预测: 6, 真实类别: 6
测试样本 609, 分类器预测: 6, 真实类别: 6
测试样本 610, 分类器预测: 6, 真实类别: 6
测试样本 611, 分类器预测: 6, 真实类别: 6
测试样本 612, 分类器预测: 6, 真实类别: 6
测试样本 613, 分类器预测: 6, 真实类别: 6
测试样本 614, 分类器预测: 6, 真实类别: 6
测试样本 615, 分类器预测: 6, 真实类别: 6
测试样本 616, 分类器预测: 6, 真实类别: 6
测试样本 617, 分类器预测: 6, 真实类别: 6
测试样本 618, 分类器预测: 6, 真实类别: 6
测试样本 619, 分类器预测: 6, 真实类别: 6
测试样本 620, 分类器预测: 6, 真实类别: 6
测试样本 621, 分类器预测: 6, 真实类别: 6
测试样本 622, 分类器预测: 6, 真实类别: 6
测试样本 623, 分类器预测: 6, 真实类别: 6
测试样本 624, 分类器预测: 6, 真实类别: 6
测试样本 625, 分类器预测: 6, 真实类别: 6
测试样本 626, 分类器预测: 6, 

测试样本 888, 分类器预测: 9, 真实类别: 9
测试样本 889, 分类器预测: 9, 真实类别: 9
测试样本 890, 分类器预测: 9, 真实类别: 9
测试样本 891, 分类器预测: 9, 真实类别: 9
测试样本 892, 分类器预测: 9, 真实类别: 9
测试样本 893, 分类器预测: 9, 真实类别: 9
测试样本 894, 分类器预测: 9, 真实类别: 9
测试样本 895, 分类器预测: 9, 真实类别: 9
测试样本 896, 分类器预测: 9, 真实类别: 9
测试样本 897, 分类器预测: 9, 真实类别: 9
测试样本 898, 分类器预测: 9, 真实类别: 9
测试样本 899, 分类器预测: 9, 真实类别: 9
测试样本 900, 分类器预测: 9, 真实类别: 9
测试样本 901, 分类器预测: 9, 真实类别: 9
测试样本 902, 分类器预测: 9, 真实类别: 9
测试样本 903, 分类器预测: 9, 真实类别: 9
测试样本 904, 分类器预测: 9, 真实类别: 9
测试样本 905, 分类器预测: 9, 真实类别: 9
测试样本 906, 分类器预测: 9, 真实类别: 9
测试样本 907, 分类器预测: 9, 真实类别: 9
测试样本 908, 分类器预测: 9, 真实类别: 9
测试样本 909, 分类器预测: 9, 真实类别: 9
测试样本 910, 分类器预测: 9, 真实类别: 9
测试样本 911, 分类器预测: 9, 真实类别: 9
测试样本 912, 分类器预测: 9, 真实类别: 9
测试样本 913, 分类器预测: 9, 真实类别: 9
测试样本 914, 分类器预测: 9, 真实类别: 9
测试样本 915, 分类器预测: 7, 真实类别: 9
测试样本 916, 分类器预测: 9, 真实类别: 9
测试样本 917, 分类器预测: 9, 真实类别: 9
测试样本 918, 分类器预测: 9, 真实类别: 9
测试样本 919, 分类器预测: 9, 真实类别: 9
测试样本 920, 分类器预测: 9, 真实类别: 9
测试样本 921, 分类器预测: 9, 真实类别: 9
测试样本 922, 分类器预测: 9, 真实类别: 9
测试样本 923, 分类器预测: 9, 

K 近邻算法识别手写数字数据集，错误率为 1.05%。改变变量 k 的值、修改函数 handwritingClassTest 随机选取训练样本、改变训练样本的数目，都会对 K 近邻算法的错误率产生影响，感兴趣的话可以改变这些变量值，观察错误率的变化。