In [1]:
import numpy as np
from os import listdir
from sklearn.neural_network import MLPClassifier 

In [2]:
def readDataSet(path):
    fileList = listdir(path) #获取文件夹下的所有文件
    numFiles = len(fileList) #统计需要读取的文件的数目
    featureList = [] #用于存放所有的特征值
    labelList = [] #用于存放所有的标签
    for i in range(numFiles):
        filePath = fileList[i] #获取文件名称/路径
        digit = int(filePath.split('_')[0]) #通过文件名获取标签
        labelList.append(digit) #将标签存储到列表中
        with open(path + '/' + filePath) as f:
            content = f.read() #读取文件内容
            #除去文件中的换行符
            content = content.replace('\n', '')
            #将文件内容转换成数字列表
            content = list(map(int, content))
            featureList.append(content) #将特征值存储到列表中
    dataSet = np.array(featureList) #将特征值列表转换成NumPy数组
    hwLabels = np.eye(10)[labelList] #将标签列表进行one-hot编码
    return dataSet, hwLabels


In [3]:
#读取训练集
train_dataSet, train_hwLabels = readDataSet('./digits/trainingDigits')
#读取测试集
test_dataSet, test_hwLabels = readDataSet('./digits/testDigits')

#查看形状
print(train_dataSet.shape)
print(train_hwLabels.shape)
print(test_dataSet.shape)
print(test_hwLabels.shape)

(1934, 1024)
(1934, 10)
(946, 1024)
(946, 10)


In [4]:
def evaluate_mlp(num_neurons, learning_rate, max_iter, train_dataSet, train_hwLabels, test_dataSet, test_hwLabels):
    clf = MLPClassifier(hidden_layer_sizes=(num_neurons,),
                        activation='relu',  # 使用修正线性单元函数
                        solver='adam',  # 使用Adam优化算法
                        learning_rate_init=learning_rate,  # 学习率初始值
                        max_iter=max_iter)  # 最大迭代次数

    clf.fit(train_dataSet, train_hwLabels)
    res = clf.predict(test_dataSet)
    error_num = 0                #统计预测错误的数目  
    num = len(test_dataSet)      #测试集的数目  
    for j in range(num):         #遍历预测结果  
    #比较长度为10的数组，返回包含01的数组，0为不同，1为相同  
    #若预测结果与真实结果相同，则10个数字全为1，否则不全为1  
    #统计预测错误的数目  
        if np.sum(res[j] == test_hwLabels[j]) < 10:  
            error_num += 1

    print('神经元个数:', num_neurons, '学习率:', learning_rate, '迭代次数:', max_iter, 
          '总数:', num, '错误数:', error_num, '错误率:', error_num / num)


In [5]:
for num_neurons in [50, 100, 200]:
    for learning_rate in [0.01, 0.001,0.0001 ]:
        for max_iter in [500, 1000, 2000]:
            evaluate_mlp(num_neurons, learning_rate, max_iter, train_dataSet, train_hwLabels, test_dataSet, test_hwLabels)

神经元个数: 50 学习率: 0.01 迭代次数: 500 总数: 946 错误数: 61 错误率: 0.06448202959830866
神经元个数: 50 学习率: 0.01 迭代次数: 1000 总数: 946 错误数: 51 错误率: 0.05391120507399577
神经元个数: 50 学习率: 0.01 迭代次数: 2000 总数: 946 错误数: 49 错误率: 0.05179704016913319
神经元个数: 50 学习率: 0.001 迭代次数: 500 总数: 946 错误数: 50 错误率: 0.052854122621564484
神经元个数: 50 学习率: 0.001 迭代次数: 1000 总数: 946 错误数: 54 错误率: 0.05708245243128964
神经元个数: 50 学习率: 0.001 迭代次数: 2000 总数: 946 错误数: 52 错误率: 0.05496828752642706


神经元个数: 50 学习率: 0.0001 迭代次数: 500 总数: 946 错误数: 53 错误率: 0.056025369978858354
神经元个数: 50 学习率: 0.0001 迭代次数: 1000 总数: 946 错误数: 46 错误率: 0.048625792811839326
神经元个数: 50 学习率: 0.0001 迭代次数: 2000 总数: 946 错误数: 46 错误率: 0.048625792811839326
神经元个数: 100 学习率: 0.01 迭代次数: 500 总数: 946 错误数: 45 错误率: 0.04756871035940803
神经元个数: 100 学习率: 0.01 迭代次数: 1000 总数: 946 错误数: 44 错误率: 0.046511627906976744
神经元个数: 100 学习率: 0.01 迭代次数: 2000 总数: 946 错误数: 45 错误率: 0.04756871035940803
神经元个数: 100 学习率: 0.001 迭代次数: 500 总数: 946 错误数: 47 错误率: 0.049682875264270614
神经元个数: 100 学习率: 0.001 迭代次数: 1000 总数: 946 错误数: 42 错误率: 0.04439746300211417
神经元个数: 100 学习率: 0.001 迭代次数: 2000 总数: 946 错误数: 45 错误率: 0.04756871035940803


神经元个数: 100 学习率: 0.0001 迭代次数: 500 总数: 946 错误数: 43 错误率: 0.045454545454545456
神经元个数: 100 学习率: 0.0001 迭代次数: 1000 总数: 946 错误数: 49 错误率: 0.05179704016913319
神经元个数: 100 学习率: 0.0001 迭代次数: 2000 总数: 946 错误数: 46 错误率: 0.048625792811839326
神经元个数: 200 学习率: 0.01 迭代次数: 500 总数: 946 错误数: 44 错误率: 0.046511627906976744
神经元个数: 200 学习率: 0.01 迭代次数: 1000 总数: 946 错误数: 43 错误率: 0.045454545454545456
神经元个数: 200 学习率: 0.01 迭代次数: 2000 总数: 946 错误数: 42 错误率: 0.04439746300211417
神经元个数: 200 学习率: 0.001 迭代次数: 500 总数: 946 错误数: 42 错误率: 0.04439746300211417
神经元个数: 200 学习率: 0.001 迭代次数: 1000 总数: 946 错误数: 47 错误率: 0.049682875264270614
神经元个数: 200 学习率: 0.001 迭代次数: 2000 总数: 946 错误数: 43 错误率: 0.045454545454545456
神经元个数: 200 学习率: 0.0001 迭代次数: 500 总数: 946 错误数: 44 错误率: 0.046511627906976744
神经元个数: 200 学习率: 0.0001 迭代次数: 1000 总数: 946 错误数: 44 错误率: 0.046511627906976744
神经元个数: 200 学习率: 0.0001 迭代次数: 2000 总数: 946 错误数: 48 错误率: 0.0507399577167019


In [10]:
#使用knn算法
for j in range(1,6):
    from sklearn.neighbors import KNeighborsClassifier
    knn = KNeighborsClassifier(n_neighbors=j) #设置k值为3
    knn.fit(train_dataSet,train_hwLabels) #训练knn分类器
    res = knn.predict(test_dataSet) #对测试集进行预测
    error_num = 0 #统计预测错误的数目
    num = len(test_dataSet) #测试集的数目
    for i in range(num):         #遍历预测结果
        #比较长度为10的数组，返回包含01的数组，0为不同，1为相同
        #若预测结果与真实结果相同，则10个数字全为1，否则不全为1
        #统计预测错误的数目
        if np.sum(res[i] == test_hwLabels[i]) < 10:
            error_num += 1
    print('k值:',j,"总数:", num, "错误数:", error_num, "错误率:", error_num / float(num))



k值: 1 总数: 946 错误数: 13 错误率: 0.013742071881606765
k值: 2 总数: 946 错误数: 30 错误率: 0.03171247357293869
k值: 3 总数: 946 错误数: 13 错误率: 0.013742071881606765
k值: 4 总数: 946 错误数: 25 错误率: 0.026427061310782242
k值: 5 总数: 946 错误数: 20 错误率: 0.021141649048625793
