神经网络前向传播
======
使用神经网络来识别手写数字(从0到9)。逻辑回归，并将其应用于one-vs-all分类。

数据：数据以.mat格式储存，mat格式是matlab的数据存储格式，按照矩阵保存，与numpy数据格式兼容，适合于各种数学运算，因此主要使用numpy进行运算。

ex3data1中有5000个训练样例，其中每个训练样例是一个20像素×20像素灰度图像的数字，每个像素由一个浮点数表示，该浮点数表示该位置的灰度强度。每个20×20像素的网格被展开成一个400维的向量。这些每个训练样例都变成数据矩阵X中的一行。这就得到了一个5000×400矩阵X，其中每一行都是手写数字图像的训练样例。

训练集的第二部分是一个包含训练集标签的5000维向量y，“0”的数字标记为“10”，而“1”到“9”的数字按自然顺序标记为“1”到“9”。


In [19]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mp

np.set_printoptions(suppress=True, precision=6, floatmode='fixed')
## 全局设置
plt.rcParams['figure.figsize']=(8, 8)
# plt.rcParams['font.sans-serif'] = ['SimHei']
# plt.rcParams['axes.unicode_minus'] = False


# 读取数据：

sio.loadmat 读取mat后，为dict类型

In [20]:
import scipy.io
data = scipy.io.loadmat('ex3data1.mat')


In [21]:
print(type(data))
print(data.keys())
print(data['X'].shape)
print(data['y'].shape)
print(data['y'])


<class 'dict'>
dict_keys(['__header__', '__version__', '__globals__', 'X', 'y'])
(5000, 400)
(5000, 1)
[[10]
 [10]
 [10]
 ...
 [ 9]
 [ 9]
 [ 9]]


# 读入训练好的权重

In [22]:
weights = scipy.io.loadmat('ex3weights.mat')

print(weights.keys())


dict_keys(['__header__', '__version__', '__globals__', 'Theta1', 'Theta2'])


In [23]:
theta1 = weights['Theta1'] # 第1层的权重 (中的隐藏层 25个神经元)
theta2 = weights['Theta2'] # 第2层的权重 (输出层 10个神经元)

print(theta1.shape, theta2.shape)


(25, 401) (10, 26)


# 构建数据集

In [24]:
X = data['X']
y = data['y'] - 1 # data 中y 范围是1~10, 代表数字0~9, 故减1
print(X.shape) # (118, 28)
print(y.shape) # (118, 1)
print(y)


(5000, 400)
(5000, 1)
[[9]
 [9]
 [9]
 ...
 [8]
 [8]
 [8]]


# 实现前向传播


In [27]:
def sigmoid(z):
    return 1.0 / (1.0 + np.exp(-z))

def predict(theta1, theta2, X):
    # 第1层: 隐藏层, 有25个神经元, theta1 (25, 401)
    X = np.insert(X, 0, values=1, axis=1) # 给bias 增加一列 1
    z1 = X @ theta1.T  # (5000, 401) (401, 25) => (5000,25)
    a1 = sigmoid(z1)

    # 第2层: 输出层, 有10个神经元, theta2 (10, 26)
    a1 = np.insert(a1, 0, values=1, axis=1) # 给bias 增加一列 1
    z2 = a1 @ theta2.T # (5000,26) (26, 10) => (5000,10)
    a2 =sigmoid(z2) # 输出h为1的概率
    h_argmax = np.argmax(a2, axis=1) # 按行返回概率最大的索引, 对应数字0 ~ 9
    return h_argmax[:, np.newaxis] # 维度变为 (5000,1)


def predict_new(X, thetas):
    '''
    遍历 thetas 列表, 进行前向传播
    '''
    a = X
    for theta in thetas:
        a = np.insert(a, 0, values=1, axis=1) # 给bias 增加一列 1
        z = a @ theta.T
        a = sigmoid(z)

    h_argmax = np.argmax(a, axis=1) # 按行返回概率最大的索引, 对应数字0 ~ 9
    return h_argmax[:, np.newaxis] # 维度变为 (xxx,1)


# 训练集准确率

得到一个5000乘10的预测概率矩阵，找到每一行的概率最大的值位置，得到预测的类别，再和期望值y比较得到精度。

In [28]:
y_pred = predict(theta1, theta2, X)
acc = np.mean(y_pred == y)

print(acc) # 0.9752


y_pred = predict_new(X, [theta1, theta2])
acc = np.mean(y_pred == y)

print(acc) # 0.9752


0.9752
0.9752
