手写数字识别
KNN：在模式识别领域中，最近邻居法（KNN算法，又译K-近邻算法）是一种用于分类和回归的非参数统计方法。在这两种情况下，输入包含特征空间中的k个最接近的训练样本。在k-NN分类中，输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的。k个最近邻居（k为正整数，通常较小）中最常见的分类决定了赋予该对象的类别。若k = 1，则该对象的类别直接由最近的一个节点赋予。在k-NN回归中，输出是该对象的属性值。该值是其k个最近邻居的值的平均值。
数据下载地址：http://labfile.oss.aliyuncs.com/courses/777/digits.zip

将图像转化为测试向量，由于二进制图像矩阵为32*32，所以向量定位1*1024，打开数据文件，循环读取文件的前32行，并且每行的头32个字符值存储在numpy数组中，最后返回数组

In [86]:
import numpy as np
import operator
def JZ(name):
    rv = np.zeros((1,1024))
    fr = open(name)
    for i in range(32):
        ls = fr.readline()
        for j in range(32):
            rv[0,32*i+j] = int(ls[j])
    return rv

算法实现过程：1.计算已知类别的数据集中的点与当前点之间的距离；2.按照距离递增次序排序；3：选取与当前点距离最小的k个点；4确定前k个点所在类别的出现
频率；5.返回前k个点出现频率最高的类别作为当前点的预测分类
算法实现函属distinguish(),函数的参数包括1.a用于分类的输入向量 2.ds:输入的训练样本集 3.labels样本数据的类标签向量 4.k:用于选择最近邻居的数目

In [87]:
def distinguish(a,ds,labels,k):
    dss = ds.shape[0]
    b = np.tile(a,(dss,1)) - ds
    c = b**2
    d = c.sum(axis=1)
    distances = d**0.5
    e = distances.argsort()
    f = {}
    for i in range(k):
        v = labels[e[i]]
        f[v] = f.get(v,0)+1
    sortedClassCount = sorted(f.items(),key = operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

我们使用欧式距离公式，计算向量点之间的距离，计算完所有点之间的距离后，可以对数据按照从小到大的次序排列，然后，确定前k个距离最小元素所在的主要分类，输入k总是正整数；最后，将classCount字典分解为元组列表，然后使用程序第二行导入运算符模块的itemgetter方法，按照第二个元素的次序对元组进行排序，此处的排序为逆序，即按照最大到最小的次序排序，最后返回发生频率最高的标签。

我们已经将数据处理成分类器可以识别的格式，接下来，我们将这些数据输入到分类器，检测分类器的执行效果，在写入这些代码之前，我们必须确保将from os import listdir写入文件的起始部分，这段代码的主要功能是从os模块中导入函数listdir，它可以列出给定目录的文件名。
测试步骤：
1.读取训练数据到向量（手写图片数据），从数据文件名中提取类别标签列表（每个向量对应真实的数字）
2.读取测试数据到向量，从数据文件名中提取列别标签
3.执行KNN算法对测试数据进行测试，得到分类结果
4.与实际的类别标签进行比对，记录分类错误率
5.打印每个数据文件的分类数据及错误率作为最红的结果


In [88]:
from os import listdir
def test():
    Lab = []
    TL = listdir('D:/digits/trainingDigits')
    m = len(TL)
    tm = np.zeros((m,1024))
    for i in range(m):
        fileNameStr = TL[i]
        fileStr = fileNameStr.split('.')[0]
        real = int(fileStr.split('_')[0])
        Lab.append(real)
        tm[i,:] = JZ('D:/digits/trainingDigits/%s'%fileNameStr)
    tl = listdir('D:/digits/testDigits')
    errorCount = 0.0
    mTest = len(tl)
    for i in range(mTest):
        fileNameStr = tl[i]
        fileStr = fileNameStr.split('.')[0]
        real = int(fileStr.split('_')[0])
        vectorUnderTest = JZ('D:/digits/testDigits/%s'%fileNameStr)
        classifierResult = distinguish(vectorUnderTest,tm,Lab,3)
        print(" %d,   %d"%(classifierResult,real))
        if (classifierResult != real):errorCount += 1.0
    print("\nthe total number of errors is:%d"%errorCount)
    print("\nthe total error rate is:%f"%(errorCount/float(mTest)))

以上代码，将trainingDigits目录中的文件内容存储在列表中，然后可以得到目录中有多少文件，并将其存储在变量m中，接着，代码创建一个m行1024列的训练矩阵，该矩阵的每行数据存储一个图像。我们可以从文件名中解析出分类的数字。该目录下的文件按照规则命名，如文件9——45.txt的分类是9，它是数字9的第45个实例。然后我们可以将类代码存储在Lab向量中，使用前面讨论的JZ函数载入图像，在下一步中，我们对testDigits目录中的文件执行相似的操作，不同之处是我们并不将这个目录下的文件载入矩阵中，而是使用distinguish()函数测试该目录下的每个文件，最后，我们输入test()，测试该函数的输出结果

In [89]:
test()

 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 0,   0
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1
 1,   1



k-近邻算法识别手写数字数据集，当
k=1, 错误率约为1.37%
k=2, 错误率约为1.37%
k=3，错误率约为1.05%，
k=4，错误率约为1.16%。
k=5, 错误率约为1.79%
....
k=20,错误率约为2.74%
经测试，当k=3时，错误率最小，改变变量k的值，会对K近邻算法的错误率产生影响