# 使用 k-近邻算法识别手写数字

In [1]:
import numpy as np
from os import listdir
import operator

#### 将图片转换为向量

In [2]:
def img2vector(filename):
    returnVect = np.zeros((1, 1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0, 32 * i + j] = int(lineStr[j])
    return returnVect

#### kNN分类器函数

In [3]:
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.5
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

#### 测试分类器

In [4]:
def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('digits/trainingDigits')
    m = len(trainingFileList)
    trainingMat = np.zeros((m, 1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i, :] = img2vector('digits/trainingDigits/%s' % fileNameStr)
    testFileList = listdir('digits/testDigits')  # iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]  # take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('digits/testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print("分类器返回值: %d, 真实值: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0
    print("\n总错误数: %d" % errorCount)
    print("\n总错误率: %f" % (errorCount / float(mTest)))

In [5]:
handwritingClassTest()

分类器返回值: 4, 真实值: 4
分类器返回值: 4, 真实值: 4
分类器返回值: 3, 真实值: 3
分类器返回值: 9, 真实值: 9
分类器返回值: 0, 真实值: 0
分类器返回值: 0, 真实值: 0
分类器返回值: 9, 真实值: 9
分类器返回值: 7, 真实值: 7
分类器返回值: 7, 真实值: 7
分类器返回值: 0, 真实值: 0
分类器返回值: 3, 真实值: 3
分类器返回值: 2, 真实值: 2
分类器返回值: 2, 真实值: 2
分类器返回值: 5, 真实值: 5
分类器返回值: 5, 真实值: 5
分类器返回值: 5, 真实值: 5
分类器返回值: 2, 真实值: 2
分类器返回值: 6, 真实值: 6
分类器返回值: 6, 真实值: 6
分类器返回值: 9, 真实值: 9
分类器返回值: 8, 真实值: 8
分类器返回值: 1, 真实值: 8
分类器返回值: 1, 真实值: 1
分类器返回值: 8, 真实值: 8
分类器返回值: 1, 真实值: 1
分类器返回值: 3, 真实值: 8
分类器返回值: 9, 真实值: 9
分类器返回值: 6, 真实值: 6
分类器返回值: 6, 真实值: 6
分类器返回值: 5, 真实值: 5
分类器返回值: 2, 真实值: 2
分类器返回值: 5, 真实值: 5
分类器返回值: 5, 真实值: 5
分类器返回值: 2, 真实值: 2
分类器返回值: 2, 真实值: 2
分类器返回值: 9, 真实值: 9
分类器返回值: 3, 真实值: 3
分类器返回值: 0, 真实值: 0
分类器返回值: 7, 真实值: 7
分类器返回值: 7, 真实值: 7
分类器返回值: 0, 真实值: 0
分类器返回值: 9, 真实值: 9
分类器返回值: 9, 真实值: 9
分类器返回值: 0, 真实值: 0
分类器返回值: 3, 真实值: 3
分类器返回值: 4, 真实值: 4
分类器返回值: 4, 真实值: 4
分类器返回值: 4, 真实值: 4
分类器返回值: 3, 真实值: 3
分类器返回值: 4, 真实值: 4
分类器返回值: 3, 真实值: 3
分类器返回值: 1, 真实值: 1
分类器返回值: 9, 真实值: 9
分类器返回值: 0, 真实值: 0
分类器返回值: 0, 真实值: 0
分类器返回值: 7,

分类器返回值: 8, 真实值: 8
分类器返回值: 1, 真实值: 1
分类器返回值: 1, 真实值: 1
分类器返回值: 8, 真实值: 8
分类器返回值: 6, 真实值: 6
分类器返回值: 0, 真实值: 0
分类器返回值: 1, 真实值: 1
分类器返回值: 1, 真实值: 1
分类器返回值: 1, 真实值: 1
分类器返回值: 7, 真实值: 1
分类器返回值: 0, 真实值: 0
分类器返回值: 1, 真实值: 1
分类器返回值: 6, 真实值: 6
分类器返回值: 8, 真实值: 8
分类器返回值: 8, 真实值: 8
分类器返回值: 1, 真实值: 1
分类器返回值: 6, 真实值: 6
分类器返回值: 8, 真实值: 8
分类器返回值: 6, 真实值: 6
分类器返回值: 1, 真实值: 1
分类器返回值: 2, 真实值: 2
分类器返回值: 5, 真实值: 5
分类器返回值: 5, 真实值: 5
分类器返回值: 2, 真实值: 2
分类器返回值: 2, 真实值: 2
分类器返回值: 4, 真实值: 4
分类器返回值: 7, 真实值: 7
分类器返回值: 0, 真实值: 0
分类器返回值: 7, 真实值: 7
分类器返回值: 9, 真实值: 9
分类器返回值: 0, 真实值: 0
分类器返回值: 9, 真实值: 9
分类器返回值: 7, 真实值: 7
分类器返回值: 3, 真实值: 3
分类器返回值: 6, 真实值: 6
分类器返回值: 3, 真实值: 3
分类器返回值: 3, 真实值: 3
分类器返回值: 4, 真实值: 4
分类器返回值: 4, 真实值: 4
分类器返回值: 3, 真实值: 3
分类器返回值: 8, 真实值: 8
分类器返回值: 4, 真实值: 4
分类器返回值: 4, 真实值: 4
分类器返回值: 4, 真实值: 4
分类器返回值: 3, 真实值: 3
分类器返回值: 3, 真实值: 3
分类器返回值: 6, 真实值: 6
分类器返回值: 4, 真实值: 4
分类器返回值: 3, 真实值: 3
分类器返回值: 9, 真实值: 9
分类器返回值: 9, 真实值: 9
分类器返回值: 0, 真实值: 0
分类器返回值: 7, 真实值: 7
分类器返回值: 7, 真实值: 7
分类器返回值: 4, 真实值: 4
分类器返回值: 2,

分类器返回值: 2, 真实值: 2
分类器返回值: 5, 真实值: 5
分类器返回值: 5, 真实值: 5
分类器返回值: 9, 真实值: 9
分类器返回值: 3, 真实值: 3
分类器返回值: 7, 真实值: 7
分类器返回值: 7, 真实值: 7
分类器返回值: 9, 真实值: 9
分类器返回值: 0, 真实值: 0
分类器返回值: 0, 真实值: 0
分类器返回值: 4, 真实值: 4
分类器返回值: 9, 真实值: 9
分类器返回值: 7, 真实值: 7
分类器返回值: 7, 真实值: 7
分类器返回值: 1, 真实值: 1
分类器返回值: 5, 真实值: 5
分类器返回值: 4, 真实值: 4
分类器返回值: 3, 真实值: 3
分类器返回值: 3, 真实值: 3

总错误数: 11

总错误率: 0.011628
