In [6]:
import numpy as np
from os import listdir

In [7]:
# 读取图像数据并转换为向量
def img2vector(file_name):
    returnVect = np.zeros((1,1024))
    fr = open(file_name)
    # 原始数据32 x 32,将其拼接为一行的行向量
    for i in range(32):
        lineStr=fr.readline()
        for j in range(32):
            # 将每个字符放入向量中
            returnVect[0, 32 * i + j] = int(lineStr[j])
    return returnVect        

In [8]:
# 导入数据,文件名为真实的标签信息
def createVector(file_path):
    labels=[]
    fileList=listdir(file_path)
    # 生成矩阵,每个文件为一个行向量
    vector=np.zeros((len(fileList),1024))
    for i in range(len(fileList)):
        fileName=fileList[i]
        lable=fileName.split('.')[0].split('_')[0]
        labels.append(lable)
        vector[i,:]=img2vector(file_path+'/'+fileName)
    return vector,labels

In [9]:
from sklearn.neighbors import KNeighborsClassifier
# 倒入测试数据和训练数据并生成向量
train_path='./handwritingClass/trainingDigits'
test_path='./handwritingClass/testDigits'
X_train,y_train=createVector(train_path)
X_test,y_test=createVector(test_path)
model=KNeighborsClassifier(n_neighbors=3)
model.fit(X_train,y_train)
model.score(X_test,y_test)

0.9894291754756871

In [10]:
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold
# 网格搜索 k值选取从1到10
#scikit-learn在KNN算法中还提供了另一个权重的参数（weights），它有两个取值，一个是“uniform”，
#每个相邻点与观测点的距离的权重都是相同的。另一个取值为“distance”,权重点按其距离的倒数表示。
#在这种情况下，查询点的近邻比远处的近邻具有更大的影响力。
param=[{'n_neighbors':[i for i in range(1,11)],'weights':['uniform']},
      {'n_neighbors':[i for i in range(1,11)],'weights':['distance']}]
cv=GridSearchCV(estimator=KNeighborsClassifier(),param_grid=param,cv=KFold(n_splits=5))
cv.fit(X_train,y_train)

GridSearchCV(cv=KFold(n_splits=5, random_state=None, shuffle=False),
       error_score='raise-deprecating',
       estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform'),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid=[{'n_neighbors': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'weights': ['uniform']}, {'n_neighbors': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'weights': ['distance']}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

In [11]:
cv.best_estimator_

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=4, p=2,
           weights='distance')

In [12]:
cv.best_score_

0.967425025853154

In [13]:
# 取出在训练集上超参数组合最好的一组,评价测试集
best_model=cv.best_estimator_
best_model.score(X_test,y_test)

0.9894291754756871

In [14]:
predict=best_model.predict(X_test)
for i in range(len(predict)):
    print('预测值为:%s'%predict[i]+"\t"+"真实值为:%s"%y_test[i])

预测值为:4	真实值为:4
预测值为:4	真实值为:4
预测值为:3	真实值为:3
预测值为:9	真实值为:9
预测值为:0	真实值为:0
预测值为:0	真实值为:0
预测值为:9	真实值为:9
预测值为:7	真实值为:7
预测值为:7	真实值为:7
预测值为:0	真实值为:0
预测值为:3	真实值为:3
预测值为:2	真实值为:2
预测值为:2	真实值为:2
预测值为:5	真实值为:5
预测值为:5	真实值为:5
预测值为:5	真实值为:5
预测值为:2	真实值为:2
预测值为:6	真实值为:6
预测值为:6	真实值为:6
预测值为:9	真实值为:9
预测值为:8	真实值为:8
预测值为:1	真实值为:8
预测值为:1	真实值为:1
预测值为:8	真实值为:8
预测值为:1	真实值为:1
预测值为:3	真实值为:8
预测值为:9	真实值为:9
预测值为:6	真实值为:6
预测值为:6	真实值为:6
预测值为:5	真实值为:5
预测值为:2	真实值为:2
预测值为:5	真实值为:5
预测值为:5	真实值为:5
预测值为:2	真实值为:2
预测值为:2	真实值为:2
预测值为:9	真实值为:9
预测值为:3	真实值为:3
预测值为:0	真实值为:0
预测值为:7	真实值为:7
预测值为:7	真实值为:7
预测值为:0	真实值为:0
预测值为:9	真实值为:9
预测值为:9	真实值为:9
预测值为:0	真实值为:0
预测值为:3	真实值为:3
预测值为:4	真实值为:4
预测值为:4	真实值为:4
预测值为:4	真实值为:4
预测值为:3	真实值为:3
预测值为:4	真实值为:4
预测值为:3	真实值为:3
预测值为:1	真实值为:1
预测值为:9	真实值为:9
预测值为:0	真实值为:0
预测值为:0	真实值为:0
预测值为:7	真实值为:7
预测值为:9	真实值为:9
预测值为:7	真实值为:7
预测值为:0	真实值为:0
预测值为:7	真实值为:7
预测值为:9	真实值为:9
预测值为:0	真实值为:0
预测值为:2	真实值为:2
预测值为:5	真实值为:5
预测值为:2	真实值为:2
预测值为:5	真实值为:5
预测值为:5	真实值为:5
预测值为:2	真实值为:2
预测值为:2	真实值为:2
预测值为:6	真实值为:6
预测值为:6	真实值为:6
预测值为:1