# KNN手写数字识别
## 调包

In [2]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from KNN import *
from os import listdir

## 读取数据
### 函数img2vector

In [2]:
def img2vector(filename):
    """
    将图像转化为向量
    参数：
        filename -- 文件名
    返回：
        returnVect -- 转化后的向量
    """
    #为转换向量分配空间
    returnVect = np.zeros((1, 1024))
    #打开文件
    fr = open(filename)
    #遍历图像的32行
    for i in range(32):
        #读一行数据
        lineStr = fr.readline()
        #遍历每行的32列
        for j in range(32):
            #把每个像素存入向量中
            returnVect[0, 32*i+j] = np.int(lineStr[j])
    return returnVect

## 测试img2vector函数

In [3]:
testVector = img2vector('testDigits/0_13.txt')
print("digit1 = {}".format(testVector[0, 0:32]))
print("digts2 = {}".format(testVector[0, 32:64]))

digit1 = [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  1.  1.  1.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
digts2 = [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  1.  1.  1.  1.  1.
  1.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]


## 测试算法：使用k-近邻算法识别手写数字
### 手写数字识别系统的测试代码

In [3]:
def handwritingClassTest():
    """
    手写数字分类测试代码
    参数：
        无
    返回：
        无
    """
    #手写数字标签列表
    hwLabels = []
    #读取‘trainingDigits’目录
    trainingFileList = listdir('./trainingDigits')
    #得到目录下文件个数
    m = len(trainingFileList)
    #建立训练矩阵，初始化为全零阵，分配空间
    trainingMat = np.zeros((m, 1024))
    #遍历所有训练样本文件
    for i in range(m):
        #文件名
        fileNameStr = trainingFileList[i]
        #文件名格式为0_1.txt
        #去掉.txt拓展名
        fileStr = fileNameStr.split('.')[0]
        #得到类序号，也就是_前的数字
        classNumStr = np.int(fileNameStr.split('_')[0])
        #加入标签序列
        hwLabels.append(classNumStr)
        #转换图像为向量，并存在矩阵对应行中
        trainingMat[i, :] = img2vector('./trainingDigits/'+fileNameStr)
    #读取‘testDigits’目录
    testFileList = listdir('./trainingDigits')
    #错误计数
    errorCount = 0.0
    
    #测试样本数
    mTest = len(testFileList)
    #遍历所有测试文件
    for i in range(mTest):
        #文件名
        fileNameStr = testFileList[i]
        #格式同训练样本
        #去掉拓展名
        fileStr = fileNameStr.split('.')[0]
        #得到类序号
        classNumStr = np.int(fileStr.split('_')[0])
        #被测序列
        vectorUnderTest = img2vector('./trainingDigits/'+fileNameStr)
        #分类结果
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        #结果太多了，不打印了
        #print("分类器得到的结果：{}， 真实结果：{}".format(classifierResult, classNumStr))
        #统计错误数
        if (classifierResult != classNumStr):
            errorCount += 1.0
        #打印结果
    print("\n错误总数为：{}".format(errorCount))
    print("\n准确率为：{}".format(1-errorCount/np.float(mTest)))

### KNN手写数字识别测试

In [4]:
handwritingClassTest()


错误总数为：23.0

准确率为：0.9881075491209927
