#### 项目案例2: 手写数字识别系统
项目概述

构造一个能识别数字 0 到 9 的基于 KNN 分类器的手写数字识别系统。

需要识别的数字是存储在文本文件中的具有相同的色彩和大小:宽高是 32 像素 * 32 像素的黑白图像。

步骤
1. 收集数据:提供文本文件。
2. 准备数据:编写函数 img2vector(), 将图像格式转换为分类器使用的向量格式 
3. 分析数据:在 Python 命令提示符中检查数据，确保它符合要求 
4. 训练算法:此步骤不适用于 KNN 
5. 测试算法:编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本的
      区别在于测试样本是已经完成分类的数据，如果预测分类与实际类别不同，
      则标记为一个错误
6. 使用算法:本例没有完成此步骤，若你感兴趣可以构建完整的应用程序，从图像中提取
      数字，并完成数字识别，美国的邮件分拣系统就是一个实际运行的类似系统

In [1]:
### 准备数据: 编写函数 img2vector(), 将图像文本数据转换为分类器使用的向量
import numpy as np
def img2vector(filename):
    """
    para:
        filename: 文件路径+名称
    return:
        retVec: 一维数组，按行读入文件内容
    """
    retVec = np.zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        line = fr.readline()
        for j in range(32):
            retVec[0, 32*i+j] = int(line[j])
    return retVec


In [2]:
## 分类算法
def classify(inputData, dataSet, label, k):
    """
    para:
        inputData: 被分类的输入数据
        dataSet: 数据集
        label：对应的标签
        k：取k个最近的
    """
    dataSize = dataSet.shape[0]
    ## 计算欧式距离
    diff = np.tile(inputData, (dataSize, 1)) - dataSet
    sqdiff = diff ** 2
    # 将矩阵的每一行相加
    sqDistance = np.sum(sqdiff, axis=1)
    distance = np.sqrt(sqDistance)
    
    ## 对距离进行排序
    sortedDistIndex = np.argsort(distance) # argsort()根据元素的值从大到小对元素进行排序，返回下标
    
    ## 选择距离最小的k个点
    classCount={}
    for i in range(k):
        voteLabel = label[sortedDistIndex[i]]
        ## 对选取的K个样本所属的类别个数进行统计
        ## list.get(k,d) 其中 get相当于一条if...else...语句,
        ## 参数k在字典中，字典将返回list[k];如果参数k不在字典中则返回参数d,如果K在字典中则返回k对应的value值
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
    ## 选取出现的类别次数最多的类别
    maxCount = 0
    for key,value in classCount.items():
        if value > maxCount:
            maxCount = value
            classes = key

    return classes   

In [3]:
### 测试算法:编写函数使用提供的部分数据集作为测试样本，如果预测分类与实际类别不同，则标记为一个错误
from os import listdir
def handwritingClassTest():
    # 1. 导入训练数据
    hwLabels = []
    trainFileList = listdir("../data/knn/trainingDigits")
    m = len(trainFileList)
    trainingMat = np.zeros((m, 1024))
    for i in range(m):
        fileName = trainFileList[i]
        file = fileName.split('.')[0] # take off .txt
        classNumStr = int(file.split('_')[0])
        hwLabels.append(classNumStr)
        # 将 32*32的矩阵->1*1024的矩阵
        trainingMat[i, :] = img2vector('../data/knn/trainingDigits/%s' % fileName)

    # 2. 测试
    testFileList = listdir("../data/knn/testDigits")
    mTest = len(testFileList)
    errCount = 0.0
    for i in range(mTest):
        testFileName = testFileList[i]
        testFile = testFileName.split('.')[0]
        testClassNum = int(testFile.split('_')[0])
        vectorUnderTest = img2vector('../data/knn/testDigits/%s' % testFileName)
        classifierResult = classify(vectorUnderTest, trainingMat, hwLabels, 3)
        # print("Classify to {} real is {}".format(classifierResult, testClassNum))
        if(classifierResult != testClassNum):
            errCount += 1
    print("Total error is {}".format(errCount))
    print("Error rate is {}".format(errCount/mTest))
    

In [4]:
handwritingClassTest()

Total error is 12.0
Error rate is 0.012684989429175475
