# 手写识别系统

**说明：**

将数据集文件 'digits.zip' 解压至当前文件夹

In [45]:

import os
import numpy as np

def get_data_matrix(path):
    files=os.listdir(path)
    n_sample=len(files)
    dataResult=np.zeros(shape=(n_sample,32*32+1))
    iters=0
    for i in files:
        file=path+'/'+i
        ylabel=i[0]
        with open(file,mode='r') as file:

            dataList=[]
            dataLines=file.readlines()
            for line in dataLines:
                line=line.strip()
                dataList=dataList+list(line)

            dataList.append(ylabel)
            dataResult[iters,:]=dataList
        iters+=1    
    return dataResult
        
#****************************************************
def get_point_distance(point1,point2,p=2):
    '''
    计算样本点之间的距离
    
    '''
    distance=np.abs(point1-point2)
    distance=np.power(distance,p)
    distance=np.sum(distance)
    distance=np.power(distance,1/p)
    
    return distance
    
#***************************************************

def knn_model(data_train,data_test,feature_cnt=1024,k=10,p=2):
    
    pre_list=list()
    for i in data_test:
        distance_list=list()
        for j in data_train:
            distance_list.append(get_point_distance(i[0:feature_cnt],j[0:feature_cnt],p=2))

        idx=np.argsort(distance_list)[0:k]
        pre_label=data_train[idx,feature_cnt].astype(int)
        pre_label=np.argmax(np.bincount(pre_label))
        pre_list.append(pre_label)
    
    return pre_list    

In [48]:
path='data/trainingDigits'
data_train=get_data_matrix(path)
path='data/testDigits'
data_test=get_data_matrix(path)
print("训练集:",data_train.shape)
print("测试集:",data_test.shape)

训练集: (1934, 1025)
测试集: (946, 1025)


In [46]:
for i in range(1,21):
    y_pre=knn_model(data_train,data_test,k=i,p=2)
    error_rate=1-np.sum(data_test[:,1024]==np.array(y_pre))/len(y_pre)
    error_rate=round(error_rate,3)
    print('p=2(欧式距离),k={0}时，error_rate:{1}'.format(i,error_rate))


p=2(欧式距离),k=1时，error_rate:0.014
p=2(欧式距离),k=2时，error_rate:0.022
p=2(欧式距离),k=3时，error_rate:0.011
p=2(欧式距离),k=4时，error_rate:0.017
p=2(欧式距离),k=5时，error_rate:0.019
p=2(欧式距离),k=6时，error_rate:0.023
p=2(欧式距离),k=7时，error_rate:0.023
p=2(欧式距离),k=8时，error_rate:0.022
p=2(欧式距离),k=9时，error_rate:0.025
p=2(欧式距离),k=10时，error_rate:0.024
p=2(欧式距离),k=11时，error_rate:0.022
p=2(欧式距离),k=12时，error_rate:0.023
p=2(欧式距离),k=13时，error_rate:0.025
p=2(欧式距离),k=14时，error_rate:0.029
p=2(欧式距离),k=15时，error_rate:0.026
p=2(欧式距离),k=16时，error_rate:0.029
p=2(欧式距离),k=17时，error_rate:0.024
p=2(欧式距离),k=18时，error_rate:0.029
p=2(欧式距离),k=19时，error_rate:0.027
p=2(欧式距离),k=20时，error_rate:0.031


In [50]:

for i in range(1,21):
    y_pre=knn_model(data_train,data_test,k=i,p=1)
    error_rate=1-np.sum(data_test[:,1024]==np.array(y_pre))/len(y_pre)
    error_rate=round(error_rate,3)
    print('p=1(曼哈顿距离),k={0}时，error_rate:{1}'.format(i,error_rate))
    

p=1(曼哈顿距离),k=1时，error_rate:0.014
p=1(曼哈顿距离),k=2时，error_rate:0.022
p=1(曼哈顿距离),k=3时，error_rate:0.011
p=1(曼哈顿距离),k=4时，error_rate:0.017
p=1(曼哈顿距离),k=5时，error_rate:0.019
p=1(曼哈顿距离),k=6时，error_rate:0.023
p=1(曼哈顿距离),k=7时，error_rate:0.023
p=1(曼哈顿距离),k=8时，error_rate:0.022
p=1(曼哈顿距离),k=9时，error_rate:0.025
p=1(曼哈顿距离),k=10时，error_rate:0.024
p=1(曼哈顿距离),k=11时，error_rate:0.022
p=1(曼哈顿距离),k=12时，error_rate:0.023
p=1(曼哈顿距离),k=13时，error_rate:0.025
p=1(曼哈顿距离),k=14时，error_rate:0.029
p=1(曼哈顿距离),k=15时，error_rate:0.026
p=1(曼哈顿距离),k=16时，error_rate:0.029
p=1(曼哈顿距离),k=17时，error_rate:0.024
p=1(曼哈顿距离),k=18时，error_rate:0.029
p=1(曼哈顿距离),k=19时，error_rate:0.027
p=1(曼哈顿距离),k=20时，error_rate:0.031
