In [1]:

import numpy as np


##

$D=\left\{\left({\vec{x}}_1,y_1\right)=\left(\left(1,1\right)^T,1\right),\left({\vec{x}}_2,y_2\right)=\left(\left(-1,-1\right)^T,1\right),\left({\vec{x}}_3,y_3\right)=\left(\left(-1,1\right)^T,-1\right),\left({\vec{x}}_4,y_4\right)=\left(\left(1,-1\right)^T,-1\right)\right\}$, 假设某神经网络结构为第一层有两个神经元，第二层有三个神经元，第三层有一个神经元，前两层每个神经元的激活函数为ReLU（即$x_d^{(l)}=\max(0,\ s_d^{(l)}$)，这里$s_d^{(l)}$代表第l层第d个神经元的输入，$x_d^{(l)}$代表该神经元的输出），第三层为线性输出，即$\hat{y}=s_1^{(3)}$。误差函数为：$E_{in}=\frac{1}{N}\sum_{n}{(y_n-{\hat{y}}_n)}^2$ ，学习率为0.01。假设初始权系数矩阵定义如下：
$$\mathbf{w}_0^{(1)}=\left(\begin{matrix}1&1\\1&1\\1&1\\\end{matrix}\right)，\mathbf{w}_0^{(2)}=\left(\begin{matrix}1&1&1\\1&1&1\\1&1&1\\\end{matrix}\right)，\mathbf{w}_0^{(3)}=\left(\begin{matrix}\begin{matrix}1\\1\\\end{matrix}\\\begin{matrix}1\\1\\\end{matrix}\\\end{matrix}\right)$$
其中w的下标0代表迭代次数为0（即初始状态），上标数字分别代表第1、2、3层。要求将上述训练样本集的样本用反向传播法按顺序进行一轮训练，写出每一次迭代时各层的权系数矩阵，即：t=1时，进入样本{\vec{x}}_1，得到$\mathbf{w}_1^{(1)}、w1(2)和w1(3)$；t=2时，进入样本${\vec{x}}_2$，得到$\mathbf{w}_2^{(1)}、w2(2)和w2(3)$；t=3时，进入样本${\vec{x}}_3$，得到$\mathbf{w}_3^{(1)}、w3(2)和w3(3)$；t=4时，进入样本{\vec{x}}_4，得到$\mathbf{w}_4^{(1)}、w4(2)和w4(3)$


In [2]:
D=np.asarray([[1,1],[-1,-1],[-1,1],[1,-1]])
Y=np.array([1,1,-1,-1])

In [34]:
def addSingleBias(X):
    N=X.shape[0]
    X=np.reshape(X,[N,1])
    bias_vector=np.ones([1,1])
    return np.row_stack((bias_vector,X))

In [35]:
def addBias(X):
    '''
    为维数为N,d的向量X添加偏置向量
    Args:
        X(numpy.ndarray):shape为[N,d]
    Returns:
        numpy.ndarray:shape为[N,d+1]，且第一列列向量全为1
    '''
    
    try:
        N=X.shape[0]
        d=X.shape[1]
        if d == 1:
            return addSingleBias(X)
        bias_vector=np.ones([N,1])
        return np.column_stack((bias_vector,X))
        
    except:
        return addSingleBias(X)
    

In [36]:
addBias(D)

array([[ 1.,  1.,  1.],
       [ 1., -1., -1.],
       [ 1., -1.,  1.],
       [ 1.,  1., -1.]])

In [37]:
addBias(np.zeros(3)).shape
addBias(np.zeros(3))

array([[1.],
       [0.],
       [0.],
       [0.]])

In [9]:
def Relu(X):
    '''
    return max(0,x)
    '''
    try:
        X[X<0]=0
        return X
    except:
        X=np.asarray(X)
        X[X<0]=0
        return X


In [10]:
def Relu_d(X):
    '''
    return max(0,x)
    '''
    try:
        X[X<0]=0
        X[X>=0]=1
        return X
    except:
        X=np.asarray(X)
        X[X<0]=0
        X[X>=0]=1
        return X

In [12]:
Relu(np.asarray([3,2.3,-3]))

array([3. , 2.3, 0. ])

In [13]:
foo=np.zeros(3)

In [14]:
W1=np.ones([3,2])
W2=np.ones([3,3])
W3=np.ones([4,1])

## forward

In [38]:
D1=D[0]
Db=addBias(D)
Db1=Db[0]
y=Y[0]
X1=np.dot(W1.transpose(),Db1)
print(X1)
Y1=Relu(X1)
print(Y1)
Yb1=addBias(Y1)
X2=np.dot(W2.transpose(),Yb1)
print(X2)
Y2=Relu(X2)
print(X2)
Yb2=addBias(Y2)
X3=np.dot(W3.transpose(),Yb2)
print(X3)
Y3=X3
E=(y-Y3)**2
print(E)



[3. 3.]
[3. 3.]
[[7.]
 [7.]
 [7.]]
[[7.]
 [7.]
 [7.]]
[[22.]]
[[441.]]


In [39]:
Db1.reshape([Db1.shape[0],1])

array([[1.],
       [1.],
       [1.]])

## backward

In [40]:
W1=np.ones([3,2])
W2=np.ones([3,3])
W3=np.ones([4,1])

In [41]:
learning_rate=0.01

注意，因为每一个输入数据对权重的更新将所有的权重矩阵进行更新
因此应从前向后进行更新，防止在相反顺序时，用更新后的权重矩阵更新前面的矩阵

### 最后一层权重系数的更新
$$\sigma_{3}=2(Y_3-y)$$



In [43]:
sigma3=2*(Y3-y)
print(sigma3)
update3=np.dot(Yb2,sigma3.transpose())
print(update3)
W3=W3-learning_rate*update3
print(W3)

[[42.]]
[[ 42.]
 [294.]
 [294.]
 [294.]]
[[ 0.58]
 [-1.94]
 [-1.94]
 [-1.94]]


### 第二层权重系数的更新
1. 后一层的$\sigma$与激活函数的导数对应相乘$\sigma^{'}$
2. 该层权重系数

In [47]:
sigma3_=sigma3*Relu_d(X2)

In [48]:
sigma3_

array([[42.],
       [42.],
       [42.]])

In [70]:
sigma2=[]
for j in range(3):
    Relu_d(X2)
    temp=np.dot(sigma3,W3[j])
    sigma2.append(np.dot(temp,Relu_d(X2)))#
sigma2

[array([6.72, 6.72, 6.72]),
 array([-204.96, -204.96, -204.96]),
 array([-204.96, -204.96, -204.96])]

In [63]:
sigma3

array([[ 42.],
       [294.],
       [294.],
       [294.]])

In [28]:
np.transpose(learning_rate*Yb2*sigma3)

array([0.42, 2.94, 2.94, 2.94])

In [29]:
W3

array([[ 0.58, -1.94, -1.94, -1.94],
       [ 0.58, -1.94, -1.94, -1.94],
       [ 0.58, -1.94, -1.94, -1.94],
       [ 0.58, -1.94, -1.94, -1.94]])