## KNN识别手写数字

In [1]:
from os import listdir
import numpy as np
import operator
import time

### knn算法

In [2]:
def KNN(test_data,train_data,train_label,k): # 按行来存储样本
    #已知分类的数据集（训练集）的行数
    dataSetSize = train_data.shape[0]
    #求所有距离：先tile函数将输入点拓展成与训练集相同维数的矩阵，计算测试样本与每一个训练样本的距离
    all_distances = np.sqrt(np.sum(np.square(np.tile(test_data,(dataSetSize,1))-train_data), axis=1))
    #print("所有距离：",all_distances)
    #按all_distances中元素进行升序排序后得到其对应索引的列表
    sort_distance_index = all_distances.argsort()
    #print("文件索引排序：",sort_distance_index)
    #选择距离最小的k个点
    classCount = {}
    for i in range(k):
        #返回最小距离的训练集的索引(预测值)
        voteIlabel = train_label[sort_distance_index[i]]
        #print('第',i+1,'次预测值',voteIlabel)
        classCount[voteIlabel] = classCount.get(voteIlabel, 0)+1
    #求众数：按classCount字典的第2个元素（即类别出现的次数）从大到小排序
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)
    return sortedClassCount[0][0]

### 将32x32的矩阵变成1x1024的行向量

In [3]:
#def img2vector(filename):
#    returnVect = []
#    fr = open(filename)
#    for i in range(32):
#        lineStr = fr.readline()
#        for j in range(32):
#            returnVect.append(int(lineStr[j]))
#    return returnVect

def img2vector(filename):
    # 创建向量
    returnVect = np.zeros((1, 1024))
    # 打开数据文件，读取每行内容
    fr = open(filename, 'r')
    for i in range(32):
        # 读取每一行
        lineStr = fr.readline()
        # 将每行前 32 字符转成 int 存入向量
        for j in range(32):
            returnVect[0, 32*i+j] = int(lineStr[j])
    return returnVect

### 从文件名中解析样本的类别

In [4]:
def classnumCut(fileName):
    #参考文件名格式为：0_3.txt
    fileStr = fileName.split('.')[0]
    classNumStr = int(fileStr.split('_')[0])
    return classNumStr

### 构建训练集数据向量，及对应分类标签向量

In [5]:
def trainingDataSet():
    train_label = []
    trainingFileList = listdir('trainingDigits')
    m = len(trainingFileList)
    train_data = np.zeros((m, 1024))
    #获取训练集的标签
    for i in range(m):
        # fileNameStr:所有训练集文件名
        fileNameStr = trainingFileList[i]
        # 得到训练集索引
        train_label.append(classnumCut(fileNameStr))
        train_data[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    return train_label,train_data

### 主函数

In [6]:
def main():
    t1 = time.time()  # 计时开始
    Nearest_Neighbor_number = int(input('选取最邻近的K个值，K='))
    train_label,train_data = trainingDataSet()
    testFileList = listdir('testDigits')
    error_sum = 0
    error_File = []
    test_number = len(testFileList)
    for i in range(test_number):
        # 逐个读取测试集的名字
        fileNameStr = testFileList[i] 
        # 从测试集的名字中读取测试集的类别
        classNumStr = classnumCut(fileNameStr)
        # 将测试集变成1X1024的数据
        test_data = img2vector('testDigits/%s' % fileNameStr)
        #调用knn算法进行测试
        classifierResult = KNN(test_data, train_data, train_label, Nearest_Neighbor_number)
        print ("第", i+1, "组：", "预测值:", classifierResult, "真实值:", classNumStr)
        if (classifierResult != classNumStr):
            error_sum += 1.0
            error_File.append(fileNameStr)
    print ("\n测试集总数为:",test_number)
    print ("\n测试出错总数:",error_sum)
    print ("\n错误率:{:.2f}%".format(error_sum/float(test_number)*100))
    print ("\n测试出错文件:", error_File)
    t2 = time.time()
    print('\n耗 时:{:.2f}秒'.format(t2 - t1))

In [7]:
main()

选取最邻近的K个值，K=3
第 1 组： 预测值: 4 真实值: 4
第 2 组： 预测值: 4 真实值: 4
第 3 组： 预测值: 3 真实值: 3
第 4 组： 预测值: 9 真实值: 9
第 5 组： 预测值: 0 真实值: 0
第 6 组： 预测值: 0 真实值: 0
第 7 组： 预测值: 9 真实值: 9
第 8 组： 预测值: 7 真实值: 7
第 9 组： 预测值: 7 真实值: 7
第 10 组： 预测值: 0 真实值: 0
第 11 组： 预测值: 3 真实值: 3
第 12 组： 预测值: 2 真实值: 2
第 13 组： 预测值: 2 真实值: 2
第 14 组： 预测值: 5 真实值: 5
第 15 组： 预测值: 5 真实值: 5
第 16 组： 预测值: 5 真实值: 5
第 17 组： 预测值: 2 真实值: 2
第 18 组： 预测值: 6 真实值: 6
第 19 组： 预测值: 6 真实值: 6
第 20 组： 预测值: 9 真实值: 9
第 21 组： 预测值: 8 真实值: 8
第 22 组： 预测值: 1 真实值: 8
第 23 组： 预测值: 1 真实值: 1
第 24 组： 预测值: 8 真实值: 8
第 25 组： 预测值: 1 真实值: 1
第 26 组： 预测值: 3 真实值: 8
第 27 组： 预测值: 9 真实值: 9
第 28 组： 预测值: 6 真实值: 6
第 29 组： 预测值: 6 真实值: 6
第 30 组： 预测值: 5 真实值: 5
第 31 组： 预测值: 2 真实值: 2
第 32 组： 预测值: 5 真实值: 5
第 33 组： 预测值: 5 真实值: 5
第 34 组： 预测值: 2 真实值: 2
第 35 组： 预测值: 2 真实值: 2
第 36 组： 预测值: 9 真实值: 9
第 37 组： 预测值: 3 真实值: 3
第 38 组： 预测值: 0 真实值: 0
第 39 组： 预测值: 7 真实值: 7
第 40 组： 预测值: 7 真实值: 7
第 41 组： 预测值: 0 真实值: 0
第 42 组： 预测值: 9 真实值: 9
第 43 组： 预测值: 9 真实值: 9
第 44 组： 预测值: 0 真实值: 0
第 45 组： 预测值: 3 真实值: 3
第 46 

第 362 组： 预测值: 8 真实值: 8
第 363 组： 预测值: 2 真实值: 2
第 364 组： 预测值: 2 真实值: 2
第 365 组： 预测值: 5 真实值: 5
第 366 组： 预测值: 0 真实值: 0
第 367 组： 预测值: 9 真实值: 9
第 368 组： 预测值: 0 真实值: 0
第 369 组： 预测值: 7 真实值: 7
第 370 组： 预测值: 4 真实值: 4
第 371 组： 预测值: 4 真实值: 4
第 372 组： 预测值: 6 真实值: 6
第 373 组： 预测值: 4 真实值: 4
第 374 组： 预测值: 4 真实值: 4
第 375 组： 预测值: 3 真实值: 3
第 376 组： 预测值: 8 真实值: 8
第 377 组： 预测值: 3 真实值: 3
第 378 组： 预测值: 3 真实值: 3
第 379 组： 预测值: 8 真实值: 8
第 380 组： 预测值: 3 真实值: 3
第 381 组： 预测值: 4 真实值: 4
第 382 组： 预测值: 4 真实值: 4
第 383 组： 预测值: 3 真实值: 3
第 384 组： 预测值: 4 真实值: 4
第 385 组： 预测值: 4 真实值: 4
第 386 组： 预测值: 4 真实值: 4
第 387 组： 预测值: 7 真实值: 7
第 388 组： 预测值: 9 真实值: 9
第 389 组： 预测值: 9 真实值: 9
第 390 组： 预测值: 0 真实值: 0
第 391 组： 预测值: 0 真实值: 0
第 392 组： 预测值: 7 真实值: 7
第 393 组： 预测值: 4 真实值: 4
第 394 组： 预测值: 5 真实值: 5
第 395 组： 预测值: 2 真实值: 2
第 396 组： 预测值: 2 真实值: 2
第 397 组： 预测值: 5 真实值: 5
第 398 组： 预测值: 2 真实值: 2
第 399 组： 预测值: 1 真实值: 1
第 400 组： 预测值: 8 真实值: 8
第 401 组： 预测值: 6 真实值: 6
第 402 组： 预测值: 8 真实值: 8
第 403 组： 预测值: 1 真实值: 1
第 404 组： 预测值: 8 真实值: 8
第 405 组： 预测

第 727 组： 预测值: 7 真实值: 7
第 728 组： 预测值: 7 真实值: 7
第 729 组： 预测值: 4 真实值: 4
第 730 组： 预测值: 0 真实值: 0
第 731 组： 预测值: 9 真实值: 9
第 732 组： 预测值: 9 真实值: 9
第 733 组： 预测值: 0 真实值: 0
第 734 组： 预测值: 4 真实值: 4
第 735 组： 预测值: 1 真实值: 1
第 736 组： 预测值: 3 真实值: 3
第 737 组： 预测值: 3 真实值: 3
第 738 组： 预测值: 5 真实值: 5
第 739 组： 预测值: 4 真实值: 4
第 740 组： 预测值: 5 真实值: 5
第 741 组： 预测值: 4 真实值: 4
第 742 组： 预测值: 3 真实值: 3
第 743 组： 预测值: 3 真实值: 3
第 744 组： 预测值: 4 真实值: 4
第 745 组： 预测值: 1 真实值: 1
第 746 组： 预测值: 9 真实值: 9
第 747 组： 预测值: 0 真实值: 0
第 748 组： 预测值: 4 真实值: 4
第 749 组： 预测值: 4 真实值: 4
第 750 组： 预测值: 0 真实值: 0
第 751 组： 预测值: 7 真实值: 7
第 752 组： 预测值: 9 真实值: 9
第 753 组： 预测值: 7 真实值: 7
第 754 组： 预测值: 0 真实值: 0
第 755 组： 预测值: 7 真实值: 7
第 756 组： 预测值: 9 真实值: 9
第 757 组： 预测值: 9 真实值: 9
第 758 组： 预测值: 3 真实值: 3
第 759 组： 预测值: 7 真实值: 7
第 760 组： 预测值: 7 真实值: 7
第 761 组： 预测值: 2 真实值: 2
第 762 组： 预测值: 5 真实值: 5
第 763 组： 预测值: 2 真实值: 2
第 764 组： 预测值: 5 真实值: 5
第 765 组： 预测值: 5 真实值: 5
第 766 组： 预测值: 2 真实值: 2
第 767 组： 预测值: 5 真实值: 5
第 768 组： 预测值: 5 真实值: 5
第 769 组： 预测值: 5 真实值: 5
第 770 组： 预测