## 使用反向传播的前馈神经网络进行手写数字识别

In [1]:
import numpy as np
from scipy.io import loadmat
import matplotlib.pyplot as plt

In [2]:
data=loadmat('ex4data1.mat')
data

{'__header__': b'MATLAB 5.0 MAT-file, Platform: GLNXA64, Created on: Sun Oct 16 13:09:09 2011',
 '__version__': '1.0',
 '__globals__': [],
 'X': array([[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]),
 'y': array([[10],
        [10],
        [10],
        ...,
        [ 9],
        [ 9],
        [ 9]], dtype=uint8)}

In [3]:
X=data['X']
y=data['y']

X.shape,y.shape

((5000, 400), (5000, 1))

对标签y进行one-hot编码。one-hot 编码将类标签n（k类）转换为长度为k的向量，其中索引n为“hot”（1），而其余为0。

In [4]:
#Scikitlearn内置one-hot编码
from sklearn.preprocessing import OneHotEncoder
encoder=OneHotEncoder(sparse=False)#参数sparse分析见下
y_onehot = encoder.fit_transform(y)
y_onehot.shape

(5000, 10)

初始化OneHotEncoder实例时，默认sparse参数为True，编码后返回的是一个稀疏矩阵的对象，如果要使用一般要调用toarray()方法转化成array对象。若将sparse参数设置为False，则直接生成array对象，可直接使用。  
矩阵的绝大部分数值为零，且非零元素呈不规律分布时，则称该矩阵为稀疏矩阵（Sparse Matrix）。

In [5]:
#检查编码
y[0], y_onehot[0,:]

(array([10], dtype=uint8), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]))

神经网络结构分为三层，输入层->隐藏层->输出层。  
根据特征数可得输入层为400个输入单元+1个偏置单元；隐藏层这里设置为25个单元+1个偏置单元；输出层根据one-hot编码为10个单元。

# sigmoid 函数
g 代表一个常用的逻辑函数（logistic function）为S形函数（Sigmoid function），公式为： \\[g\left( z \right)=\frac{1}{1+{{e}^{-z}}}\\] 
合起来，我们得到逻辑回归模型的假设函数： 
	\\[{{h}_{\theta }}\left( x \right)=\frac{1}{1+{{e}^{-{{\theta }^{T}}X}}}\\] 

In [6]:
#定义sigmoid函数
def sigmoid(z):
    return 1/(1+np.exp(-z))

## 神经网络结构  
<img style="float: left;" src="../img/nn_model.png">

In [7]:
#前向传播
def forward_propagate(X,theta1,theta2):
    m=X.shape[0]#样本数
    
    a1=np.insert(X,0,values=np.ones(m),axis=1)#输入层的偏置项5000 x 401
    z2=a1*theta1.T
    
    a2=sigmoid(z2)
    a2=np.insert(a2,0,values=np.ones(m),axis=1)#隐藏层的偏置项
    
    z3=a2*theta2.T
    a3=sigmoid(z3)#输出
    
    return a1,a2,a3,z2,z3#a3也是h

# 代价函数
<img style="float: left;" src="../img/nn_cost.png">

In [8]:
def cost(params,input_size,hidden_size,num_labels,X,y,learning_rate):
    m=X.shape[0]
    X=np.matrix(X)
    y=np.matrix(y)
    
    #获取权重
    theta1=np.matrix(np.reshape(params[:hidden_size*(input_size+1)],(hidden_size,(input_size+1))))
    theta2=np.matrix(np.reshape(params[hidden_size*(input_size+1):],(num_labels,(hidden_size+1))))
    
    #前向传播
    a1,a2,h,z2,z3=forward_propagate(X,theta1,theta2)
    
    #计算代价函数
    J=0
    for i in range(m):
        #尝试由下面两行代码读懂公式的计算方式
        #注意这里的y是经过one-hot编码的，维度不是m x 1
        first_term=np.multiply(-y[i,:],np.log(h[i,:]))
        second_term=np.multiply((1-y[i,:]),np.log(1-h[i,:]))
        
        sum_term=np.sum(first_term-second_term)
        J=J+sum_term
    
    J=J/m
    
    return J

In [9]:
#初始化设置
input_size=400
hidden_size=25
num_labels=10
learning_rate=1

In [10]:
#随机初始化完整网络参数大小的参数数组
#np.random.random返回随机的浮点数，在半开区间 [0.0, 1.0)
#根据表达式可知初始化参数值在[-0.5/4,0.5/4)之间
params=(np.random.random(size=hidden_size*(input_size+1)+num_labels*(hidden_size+1))-0.5)*0.25
params,params.shape

(array([-0.04475686,  0.01297965, -0.10706175, ..., -0.11446212,
        -0.03227179,  0.03240322]),
 (10285,))

关于参数的数目:  
由神经网络结构的输入层->隐藏层可知有__(输入层单元数+1)x隐藏层__个参数  
由隐藏层->输出层可知有__(隐藏层+1)x输出层__个参数  
所以总参数数量为__(输入层单元数+1)x隐藏层+(隐藏层+1)x输入层__

In [11]:
#将params拆开成输入层->隐藏层和隐藏层->输出层的参数（权重）矩阵
theta1=np.matrix(np.reshape(params[:hidden_size*(input_size+1)],(hidden_size,(input_size+1))))
theta2=np.matrix(np.reshape(params[hidden_size*(input_size+1):],(num_labels,(hidden_size+1))))
theta1.shape,theta2.shape

((25, 401), (10, 26))

In [12]:
a1,a2,h,z2,z3=forward_propagate(X,theta1,theta2)
a1.shape,a2.shape,h.shape,z2.shape,z3.shape

((5000, 401), (5000, 26), (5000, 10), (5000, 25), (5000, 10))

In [13]:
#利用代价函数计算本次前向传播的h和y的误差
#由于初始化params的值每次都不一样，所以cost的结果会和参考代码不同
cost(params,input_size,hidden_size,num_labels,X,y_onehot,learning_rate)

7.184086601814853

# 正则化代价函数
下一步是代价函数的正则化
<img style="float: left;" src="../img/nn_regcost.png">

In [14]:
def costReg(params,input_size,hidden_size,num_labels,X,y,learning_rate):
    #前面部分和cost是一样的
    m=X.shape[0]
    X=np.matrix(X)
    y=np.matrix(y)
    
    #获取权重
    theta1=np.matrix(np.reshape(params[:hidden_size*(input_size+1)],(hidden_size,(input_size+1))))
    theta2=np.matrix(np.reshape(params[hidden_size*(input_size+1):],(num_labels,(hidden_size+1))))
    
    #前向传播
    a1,a2,h,z2,z3=forward_propagate(X,theta1,theta2)
    
    #计算代价函数
    J=0
    for i in range(m):
        #尝试由下面两行代码读懂公式的计算方式
        #注意这里的y是经过one-hot编码的，维度不是m x 1
        first_term=np.multiply(-y[i,:],np.log(h[i,:]))
        second_term=np.multiply((1-y[i,:]),np.log(1-h[i,:]))
        
        sum_term=np.sum(first_term-second_term)
        J=J+sum_term
    J=J/m
    
    #正则化部分
    #theta1 25 x 401
    #theta2 10 x 26
    first_term=np.sum(np.power(theta1[:,1:],2))#索引从1开始是因为连接偏置单元的权重无需正则化,下同
    second_term=np.sum(np.power(theta2[:,1:],2))
    reg=learning_rate/(2*m)*(first_term+second_term)
    
    J_reg=J+reg
    
    return J_reg

In [15]:
costReg(params,input_size,hidden_size,num_labels,X,y_onehot,learning_rate)

7.189391087876465

In [16]:
#计算sigmoid函数梯度的函数，这是计算误差的其中一步
def sigmoid_gradient(z):
    return np.multiply(sigmoid(z),(1-sigmoid(z)))

## 再来回顾下神经网络结构  
<img style="float: left;" src="../img/nn_model.png">

In [33]:
#反向传播函数用于计算梯度
def backPropagate(params,input_size,hidden_size,num_labels,X,y,learning_rate):
    m=X.shape[0]
    X=np.matrix(X)
    y=np.matrix(y)
    
    #获取权重
    theta1=np.matrix(np.reshape(params[:hidden_size*(input_size+1)],(hidden_size,(input_size+1))))
    theta2=np.matrix(np.reshape(params[hidden_size*(input_size+1):],(num_labels,(hidden_size+1))))
    
    #前向传播
    a1,a2,h,z2,z3=forward_propagate(X,theta1,theta2)
    
    #初始化
    J=0
    delta1=np.zeros_like(theta1)#(25, 401)
    delta2=np.zeros_like(theta2)#(10, 26)
    
    #计算代价函数
    for i in range(m):
        first_term=np.multiply(-y[i,:],np.log(h[i,:]))
        second_term=np.multiply((1-y[i,:]),np.log(1-h[i,:]))
        sum_term=np.sum(first_term-second_term)
        J=J+sum_term
    J=J/m
    
    #正则化部分
    first_term=np.sum(np.power(theta1[:,1:],2))
    second_term=np.sum(np.power(theta2[:,1:],2))
    reg=learning_rate/(2*m)*(first_term+second_term)
    
    J_reg=J+reg
    
    #反向传播，类比参考笔记中的解析（笔记中的网络共四层，本练习为三层）
    for i in range(m):
        a1i=a1[i,:]# 1 x 401
        z2i=z2[i,:]# 1 x 25
        a2i=a2[i,:]# 1 x 26
        hi=h[i,:]# 1 x 10
        yi=y[i,:]# 1 x 10
        
        d3i=hi-yi# 1 x 10
        
        z2i=np.insert(z2i,0,np.ones(1))# 1 x 26
        d2i=np.multiply(d3i*theta2,sigmoid_gradient(z2i))#1 x 26
        
        delta2=delta2+d3i.T*a2i# 10 x 26
        delta1=delta1+d2i[:,1:].T*a1i# 25 x 401，由于z2i多插入了1列，所以索引要从1开始才能对应维度
        
    #不考虑正则化
    delta1=delta1/m
    delta2=delta2/m
    
    #把两个偏导数矩阵拼接成一维矩阵
    grad=np.concatenate((np.ravel(delta1),np.ravel(delta2)))
    
    return J_reg,grad
    

<img style="float: left;" src="../img/back_propagate.png">  
<img style="float: left;" src="../img/back_propagate1.jpg">  

再说明一下：  
A * B与np.multiply（A，B）使用。 基本上前者是矩阵乘法，后者是元素乘法，除非A或B是标量值（常数？），在这种情况下没关系。

In [34]:
J,grad=backPropagate(params,input_size,hidden_size,num_labels,X,y_onehot,learning_rate)
J,grad.shape

(7.189391087876465, (10285,))

为反向传播添加正则化  
<img style="float: left;" src="../img/back_propagate1.png"> 
笔记里这个公式有误，应该为  
<img style="float: left;" src="../img/back_propagate2.png"> 

In [36]:
#反向传播函数用于计算梯度
def backPropagateReg(params,input_size,hidden_size,num_labels,X,y,learning_rate):
    m=X.shape[0]
    X=np.matrix(X)
    y=np.matrix(y)
    
    #获取权重
    theta1=np.matrix(np.reshape(params[:hidden_size*(input_size+1)],(hidden_size,(input_size+1))))
    theta2=np.matrix(np.reshape(params[hidden_size*(input_size+1):],(num_labels,(hidden_size+1))))
    
    #前向传播
    a1,a2,h,z2,z3=forward_propagate(X,theta1,theta2)
    
    #初始化
    J=0
    delta1=np.zeros_like(theta1)#(25, 401)
    delta2=np.zeros_like(theta2)#(10, 26)
    
    #计算代价函数
    for i in range(m):
        first_term=np.multiply(-y[i,:],np.log(h[i,:]))
        second_term=np.multiply((1-y[i,:]),np.log(1-h[i,:]))
        sum_term=np.sum(first_term-second_term)
        J=J+sum_term
    J=J/m
    
    #正则化部分
    first_term=np.sum(np.power(theta1[:,1:],2))
    second_term=np.sum(np.power(theta2[:,1:],2))
    reg=learning_rate/(2*m)*(first_term+second_term)
    
    J_reg=J+reg
    
    #反向传播，类比参考笔记中的解析（笔记中的网络共四层，本练习为三层）
    for i in range(m):
        a1i=a1[i,:]# 1 x 401
        z2i=z2[i,:]# 1 x 25
        a2i=a2[i,:]# 1 x 26
        hi=h[i,:]# 1 x 10
        yi=y[i,:]# 1 x 10
        
        d3i=hi-yi# 1 x 10
        
        z2i=np.insert(z2i,0,np.ones(1))# 1 x 26
        d2i=np.multiply(d3i*theta2,sigmoid_gradient(z2i))#1 x 26
        
        delta2=delta2+d3i.T*a2i# 10 x 26
        delta1=delta1+d2i[:,1:].T*a1i# 25 x 401，由于z2i多插入了1列，所以索引要从1开始才能对应维度
        
    #考虑正则化
    delta1=delta1/m
    delta2=delta2/m
    delta1[:,1:]=delta1[:,1:]+learning_rate*theta1[:,1:]/m
    delta2[:,1:]=delta2[:,1:]+learning_rate*theta2[:,1:]/m
    
    #把两个偏导数矩阵拼接成一维矩阵
    grad=np.concatenate((np.ravel(delta1),np.ravel(delta2)))
    
    return J_reg,grad
    

In [37]:
J,grad=backPropagateReg(params,input_size,hidden_size,num_labels,X,y_onehot,learning_rate)
J,grad.shape

(7.189391087876465, (10285,))

In [39]:
from scipy.optimize import minimize
#求最小化代价函数对应的参数
#fun：该参数就是costFunction，要去最小化的损失函数，损失函数在定义时，theta必须为第一个参数且其shape必须为(n,)即一维数组
#x0：初始化的theta,其shape必须为shape(n,)即一维数组
#args：其他参数，如X，Y，lambda等
#method：该参数代表采用的方式，默认是BFGS, L-BFGS-B, SLSQP中的一种，可选TNC
#jac：该参数就是计算梯度的函数，和fun参数类似，第一个必须为theta且其shape必须为(n,)即一维数组,最后返回的梯度也必须为一个一维数组。
#     如果jac是布尔值且为真，则假定fun返回objective和gradient作为（f，g）元组
#options：迭代次数
fmin=minimize(fun=backPropagateReg,x0=params,args=(input_size,hidden_size,num_labels,X,y_onehot,learning_rate),method='TNC',jac=True,options={'maxiter':250})

  second_term=np.multiply((1-y[i,:]),np.log(1-h[i,:]))
  second_term=np.multiply((1-y[i,:]),np.log(1-h[i,:]))


In [42]:
fmin,fmin.x.shape

(     fun: 0.3978926454720155
      jac: array([ 6.58121657e-04,  1.59280059e-06, -1.18515336e-05, ...,
        -1.93584670e-04, -4.61652035e-07, -4.35948163e-04])
  message: 'Linear search failed'
     nfev: 235
      nit: 15
   status: 4
  success: False
        x: array([ 0.27907172,  0.007964  , -0.05925767, ..., -1.13192774,
        -1.58880955, -0.96514877]),
 (10285,))

反向传播计算梯度的同时也计算了损失函数，调用scipy中optimize的minimize求出了对应的权重矩阵（迭代250次的条件下）

In [52]:
#利用一次前向传播测试准确率
X=np.matrix(X)
theta1=np.reshape(fmin.x[:hidden_size*(input_size+1)],(hidden_size,(input_size+1)))
theta2=np.reshape(fmin.x[hidden_size*(input_size+1):],(num_labels,(hidden_size+1)))

a1,a2,h,z2,z3=forward_propagate(X,theta1,theta2)
#h是5000 x 10 维的数组
h_argmax=np.argmax(h,axis=1)
h_argmax=h_argmax+1#标签从1开始，0对应标签10

#h_argmax是矩阵对象（5000 x 1），需要转成array对象
y_predict=np.array(h_argmax)

#统计准确率
correct=0
for i in range(len(y_predict)):
    if y_predict[i]==data['y'][i]:
        correct=correct+1

accuracy=correct/(len(y_predict))
print('accuracy = {0}%'.format(accuracy*100))

accuracy = 97.61999999999999%
