# K-近邻手写识别系统

源代码及数据集下载:https://www.manning.com/books/machine-learning-in-action  

In [36]:
# 导入模块
# -*- coding: utf-8 -*-
import numpy as np  # 科学计算包
import matplotlib.pyplot as plt  # 可视化绘图
from os import listdir  # 列出给定目录的文件名
import KNN  # 自定义的KNN算法

|    |                          |
| :--------  | ----------------------------------------------:|
| 收集数据      |      提供文本文件           | 
|准备数据     |     编写img2vector,将图像格式转换为分类器使用的list格式          |  
| 分析数据      |       在python中检查数据是否符合要求           | 
| 训练算法      | 不适合于K-近邻算法      | 
| 测试算法   |     编写函数使用提供的部分数据集做测试样本，标记错误数，测试样本已完成分类          | 
|  使用算法   |有兴趣可以完成此步骤 | 

## 准备数据：将图像转化为测试向量

将已经处理成32\*32的二进制图像矩阵转换为1\*1024的向量

In [27]:
def img2vector(filename):
    returnVect = np.zeros(1024)
    fr = open(filename)
    lineStr = fr.readlines()
    for i in range(32):
        for j in range(32):
            returnVect[32*i+j]=int(lineStr[i][j])
    return returnVect

In [31]:
testVector=img2vector('testDigits/0_13.txt')
testVector[0:31]
testVector[32:63]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1.,
       1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

## 测试算法：使用K-近邻算法识别手写数字

将数据输入到分类器，检测分类器执行效果。从os模块中导入listdir，它可以列出给定目录下的文件名

In [41]:
def handwritingClassTest():
    hwLabels = []
    trainingFilelist = listdir('trainingDigits')
    m = len(trainingFilelist)
    trainingMat = np.zeros((m, 1024))
    for i in range(m):
        fileNameStr = trainingFilelist[i]
        fileStr = fileNameStr.split('.')[0]  # 如0_17.txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)  # 添加到列表末尾
        trainingMat[i, :] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = KNN.classify0(
            vectorUnderTest, trainingMat, hwLabels, 4)
        # print('The classifier came back with: %d, the real answer is: %d' %(classifierResult, classNumStr))
        if classifierResult != classNumStr:
            errorCount += 1.0
    print('\nthe total number of errors is: %d' % errorCount)
    print('\nthe total error rate is: %f' % (errorCount/float(mTest)))


handwritingClassTest()


the total number of errors is: 11

the total error rate is: 0.011628


改变K的值，修改函数handwritingclassTest随机选取训练样本，改变训练样本的数目，都会对K-近邻算法错误率产生影响。此算法执行效率不高  
是否存在一种减少存储空间和计算时间的开销呢？K决策树就是K-近邻算法的优化版

## 本章小结

**k近邻算法是分类数据最简单最有效的算法**。k近邻算法是基于实例的学习，使用算法时我们必须有**接近实际数据的训练样本数据**。k近邻算法必须保存全部数据集，如果训练数据集的很大，必须使用**大量的存储空间**。此外，由于必须对数据集中的每个数据计算距离值，**实际使用时可能非常耗时**。

K近邻算法的另一个**缺陷**是它**无法给出任何数据的基础结构信息**，因此我们也**无法知晓平均实例样本和典型实例样本具有什么特征**。下一章将使用概率测量方法处理分类问题，该算法可以解决这个问题