# KNN手写数字识别
### Sklearn实现K-近邻算法[官网英文文档地址](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)

In [52]:
import numpy as np
from os import listdir
from sklearn.neighbors import KNeighborsClassifier as KNN

## 处理文本数据

In [53]:
# 将32*32的二进制转为1*1024
def img2Vector(fileName):
    returnVec = np.zeros((1,1024))
    # 打开文件
    fr = open(fileName)
    # 按行读取
    for i in range(32):
        # 读取一行
        lineStr = fr.readline()
        # 每一行的前32个元素依次添加进returnVec中
        for j in range(32):
            returnVec[0,32 * i + j] = int(lineStr[j])
    # 返回转换后的1*1024向量
    return returnVec

## 手写数字分类测试

In [57]:
def handWriteClassTest():
    '''
    训练集
    '''
    # 测试集的Label
    hwLabels = []
    # 返回traingDigits目录下的文件名
    traingFileList = listdir("Data/trainingDigits")
    # 返回文件夹下的文件个数
    m = len(traingFileList)
    # 初始化训练的Mat矩阵
    traingMat = np.zeros((m,1024))
    # 从文件名中解析出训练集的类别
    for i in range(m):
        # 获得文件的名字
        fileNameStr = traingFileList[i]
        # 获得数字Label
        classNumber = int(fileNameStr.split('_')[0])
        # 将获得的Label添加到hwLabels中
        hwLabels.append(classNumber)
        # 将每一个文件的1*1024数据存到traingMat中
        traingMat[i,:] = img2Vector("Data/trainingDigits/%s" % (fileNameStr))
    
    # 构建KNN分类器
    neigh = KNN(n_neighbors=3,algorithm='auto') # 可以适当调参
    # 拟合模型，traingMat为测试矩阵，hwLabels为对应的标签
    neigh.fit(traingMat,hwLabels)
    
    '''
    测试集
    '''
    # 返回testDigits目录下的文件列表
    testFileList = listdir("Data/testDigits")
    # 错误检测计数
    errorCount = 0.0
    # 测试数据的数量
    mTest = len(testFileList)
    # 从文件解析出Label并进行测试
    for i in range(mTest):
        # 获得文件的名字
        fileNameStr = testFileList[i]
        # 获得分类的数字
        classNumber = int(fileNameStr.split('_')[0])
        # 获得测试集的1*1024向量用于训练
        vectorUnderTest = img2Vector("Data/testDigits/%s" % (fileNameStr))
        # 获得预测结果
        classifierResult = neigh.predict(vectorUnderTest)
        print("分类返回的结果为%d\t真实结果为%d" % (classifierResult, classNumber))
        if classifierResult != classNumber:
            errorCount += 1.0
    print("总共错了%d个数据\n错误率为%f%%" % (errorCount, errorCount / mTest * 100))

In [58]:
handWriteClassTest()

分类返回的结果为6	真实结果为6
分类返回的结果为5	真实结果为5
分类返回的结果为0	真实结果为0
分类返回的结果为5	真实结果为5
分类返回的结果为2	真实结果为2
分类返回的结果为2	真实结果为2
分类返回的结果为5	真实结果为5
分类返回的结果为9	真实结果为9
分类返回的结果为4	真实结果为4
分类返回的结果为5	真实结果为5
分类返回的结果为9	真实结果为9
分类返回的结果为1	真实结果为1
分类返回的结果为9	真实结果为9
分类返回的结果为3	真实结果为3
分类返回的结果为9	真实结果为9
分类返回的结果为5	真实结果为5
分类返回的结果为5	真实结果为5
分类返回的结果为4	真实结果为4
分类返回的结果为5	真实结果为5
分类返回的结果为4	真实结果为4
分类返回的结果为0	真实结果为0
分类返回的结果为8	真实结果为8
分类返回的结果为1	真实结果为1
分类返回的结果为2	真实结果为2
分类返回的结果为2	真实结果为2
分类返回的结果为6	真实结果为6
分类返回的结果为4	真实结果为4
分类返回的结果为9	真实结果为9
分类返回的结果为2	真实结果为2
分类返回的结果为5	真实结果为5
分类返回的结果为1	真实结果为1
分类返回的结果为7	真实结果为7
分类返回的结果为1	真实结果为1
分类返回的结果为7	真实结果为7
分类返回的结果为9	真实结果为9
分类返回的结果为5	真实结果为5
分类返回的结果为8	真实结果为8
分类返回的结果为1	真实结果为1
分类返回的结果为3	真实结果为3
分类返回的结果为3	真实结果为3
分类返回的结果为5	真实结果为5
分类返回的结果为2	真实结果为2
分类返回的结果为4	真实结果为4
分类返回的结果为9	真实结果为9
分类返回的结果为4	真实结果为4
分类返回的结果为2	真实结果为2
分类返回的结果为8	真实结果为8
分类返回的结果为4	真实结果为4
分类返回的结果为3	真实结果为3
分类返回的结果为6	真实结果为6
分类返回的结果为5	真实结果为5
分类返回的结果为0	真实结果为0
分类返回的结果为9	真实结果为9
分类返回的结果为8	真实结果为8
分类返回的结果为8	真实结果为8
分类返回的结果为2	真实结果为2
分类返回的结果为5	真实结果为5
分类返回的结果为6	真实结果为6
分类返回的结果为5	真实结果

分类返回的结果为8	真实结果为8
分类返回的结果为3	真实结果为3
分类返回的结果为6	真实结果为6
分类返回的结果为7	真实结果为7
分类返回的结果为4	真实结果为4
分类返回的结果为2	真实结果为2
分类返回的结果为4	真实结果为4
分类返回的结果为5	真实结果为5
分类返回的结果为7	真实结果为7
分类返回的结果为2	真实结果为2
分类返回的结果为6	真实结果为6
分类返回的结果为1	真实结果为1
分类返回的结果为3	真实结果为3
分类返回的结果为4	真实结果为4
分类返回的结果为3	真实结果为3
分类返回的结果为8	真实结果为8
分类返回的结果为4	真实结果为4
分类返回的结果为0	真实结果为0
分类返回的结果为1	真实结果为1
分类返回的结果为9	真实结果为9
分类返回的结果为9	真实结果为9
分类返回的结果为0	真实结果为0
分类返回的结果为1	真实结果为1
分类返回的结果为2	真实结果为2
分类返回的结果为0	真实结果为0
分类返回的结果为1	真实结果为1
分类返回的结果为5	真实结果为5
分类返回的结果为9	真实结果为9
分类返回的结果为2	真实结果为2
分类返回的结果为1	真实结果为1
分类返回的结果为7	真实结果为7
分类返回的结果为4	真实结果为4
分类返回的结果为6	真实结果为6
分类返回的结果为9	真实结果为9
分类返回的结果为4	真实结果为4
分类返回的结果为3	真实结果为3
分类返回的结果为1	真实结果为1
分类返回的结果为1	真实结果为1
分类返回的结果为1	真实结果为1
分类返回的结果为7	真实结果为7
分类返回的结果为1	真实结果为1
分类返回的结果为7	真实结果为7
分类返回的结果为3	真实结果为3
分类返回的结果为3	真实结果为3
分类返回的结果为9	真实结果为9
分类返回的结果为4	真实结果为4
分类返回的结果为7	真实结果为7
分类返回的结果为7	真实结果为7
分类返回的结果为9	真实结果为9
分类返回的结果为4	真实结果为4
分类返回的结果为9	真实结果为9
分类返回的结果为5	真实结果为5
分类返回的结果为7	真实结果为7
分类返回的结果为1	真实结果为1
分类返回的结果为8	真实结果为8
分类返回的结果为8	真实结果为8
分类返回的结果为7	真实结果为7
分类返回的结果为2	真实结果为2
分类返回的结果为2	真实结果