# 吴恩达机器学习笔记（二）


由于最近忙着找工作，更新进程一度被中断，两周前已经学完的课程，现在才有时间进行总结。

本部分主要对应 [Coursera](coursera.org) 吴恩达机器学习的4~6周，神经网络部分。

部分内容参考 [一文弄懂神经网络中的反向传播法——BackPropagation](https://www.cnblogs.com/charlotte77/p/5629865.html)。

## 1、神经网络

动机：我们已经有线性回归、多项式回归和逻辑回归了，为什么还要研究神经网络？

神经网络算法可以解决复杂的非线性问题。

复杂的机器学习问题，涉及的项往往多于两项，这时候用逻辑回归或多项式回归，往往会有过拟合的问题，另外运算量也过大。

神经网络是一种很古老的算法，他最初产生的目的是制造能模拟大脑的机器。

## 2、神经网络的结构

神经网络的结构如下，分为输入层、隐含层和输出层。

![神经网络结构](神经网络结构.png)

其中，$x_0$, $a_0$ 为偏置，常设为1。

对于多分类的情况，神经网络结构如下：
![神经网络多分类结构](神经网络多分类结构.png)

## 3、一个神经网络的完整传播过程

以如下结构的神经网络为例，

<img style="float: center;" src="神经网络反向传播.jpg" width="50%">


这个网络的输入为 X1、X2，X0=1 为输入层偏置，输出为h1、h2，隐含层为 a1、a2，a0=1 为隐含层偏置，激活函数为sigmoid函数。

首先，对这个网络赋初值，

输入数据：

$$ x=[x_0, x_1, x_2]^T=[1, 0.05, 0.1]^T $$

输出数据：

$$ y=[y_1, y_2]^T=[0.01, 0.99]^T $$

初始权值：

$$ \theta^{(1)} = \left(
  \begin{array}{ccc}
    \theta_{01}^{(1)} & \theta_{02}^{(1)}\\ 
    \theta_{11}^{(1)} & \theta_{12}^{(1)}\\  
    \theta_{21}^{(1)} & \theta_{22}^{(1)}\\ 
  \end{array}
\right) = \left(
  \begin{array}{ccc}
    0.35 & 0.35\\
    0.15 & 0.25\\  
    0.2 & 0.3\\ 
  \end{array}
\right) $$

$$ \theta^{(2)} = \left(
  \begin{array}{ccc}
    \theta_{01}^{(2)} & \theta_{02}^{(2)}\\ 
    \theta_{11}^{(2)} & \theta_{12}^{(2)}\\  
    \theta_{21}^{(2)} & \theta_{22}^{(2)}\\ 
  \end{array}
\right) = \left(
  \begin{array}{ccc}
   0.6 & 0.6\\
    0.4 & 0.5\\  
    0.45 & 0.55\\ 
  \end{array}
\right) $$


### 3.1 前向传播

(1) 输入层 --> 隐含层

$$z_1^{(1)} = x_0 * \theta_{01}^{(1)} + x_1 * \theta_{11}^{(1)} + x_2 * \theta_{21}^{(1)}=0.35*1+0.15*0.05+0.2*0.1=0.3775$$
$$z_2^{(1)} = x_0 * \theta_{02}^{(1)} + x_1 * \theta_{12}^{(1)} + x_2 * \theta_{22}^{(1)}=0.35*1+0.05*0.25+0.3*0.1=0.3925$$

$$a_1 = g(z_1^{(1)})=0.59327$$
$$a_2 = g(z_2^{(1)})=0.59688$$

其中，$g(x) = sigmoid(x)=1/(1+\exp(-x))$.

(2) 隐含层 --> 输出层

$$z_1^{(2)} = a_0 * \theta_{01}^{(2)} + a_1 * \theta_{11}^{(2)} + a_2 * \theta_{21}^{(2)}$$
$$z_2^{(2)} = a_0 * \theta_{02}^{(2)} + a_1 * \theta_{12}^{(2)} + a_2 * \theta_{22}^{(2)}$$

$$h_1 = g(z_1^{(2)})=0.75137$$
$$h_2 = g(z_2^{(2)})=0.77293$$

将以上**前向传播**的过程写成矩阵形式：

$$(a_1, a_2)^T = g(\theta^{(1)T}x)$$
$$ a = (a_0, a_1, a_2)^T$$
$$(h_1, h_2)^T = g(\theta^{(2)T}a)$$

### 3.2 反向传播

(1) 计算总误差

定义代价函数，

$$\begin{eqnarray*}
J(\theta) &=& -\frac{1}{m}[\sum_{i=1}^m\sum_{k=1}^{K}( y_k^{(i)}\log(h_k^{(i)})+(1-y_k^{(i)})\log(1-h_k^{(i)})]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}}(\theta_{ji}^{(l)})^2\\ 
&=& -\frac{1}{m}\sum_{i=1}^{m}[y^T\log(h)+(1-y)^T\log(1-h))]+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}}(\theta_{ji}^{(l)})^2
\end{eqnarray*}$$

其中，$L$为总层数，$s_l$第$l$层的节点数量，$m$为样本数，$k$为输出节点数。

在本例中，$L=2$，$s_1=2$，$s_2=2$，$m=1$，

$$J(\theta)=-[y^T\log(h)+(1-y)^T\log(1-h))]=1.6505$$

（2）输出层 --> 隐含层的权值更新

以权值$\theta_{11}^{(2)}$为例，如果我们想知道$\theta_{11}^{(2)}$对整体误差产生了多少影响，可以用整体误差对$\theta_{11}^{(2)}$求偏导得到：

$$\frac{\partial J(\theta)}{\partial \theta_{11}^{(2)}}=\frac{\partial J(\theta)}{\partial h_1}*\frac{\partial h_1}{\partial z_1^{(2)}}*\frac{\partial z_1^{(2)}}{\partial \theta_{11}^{(2)}}$$

下图直观的反映了误差是怎样反向传播的：
<img style="float: center;" src="反向传播细节.jpg" width="25%">

现在分别计算每个式子的值：

$$\frac{\partial J(\theta)}{\partial h_1}=h_1-y_1=0.7414$$

$$\frac{\partial h_1}{\partial z_1^{(2)}}=h_1*(1-h_1)=0.1868$$

$$\frac{\partial z_1^{(2)}}{\partial \theta_{11}^{(2)}}=a_1=0.59327$$

将3式相乘：

$$\frac{\partial J(\theta)}{\partial \theta_{11}^{(2)}}=0.08217$$


这样我们就计算出对$\theta_{11}^{(2)}$的偏导数。

回过头再看看上面的公式，我们发现：
$$\frac{\partial J(\theta)}{\partial \theta_{11}^{(2)}}=(h_1-y_1)*h_1*(1-h_1)*a_1$$

为了方便，用$\delta_{h1},\delta_{h2}$来表示输出层误差：

$$\delta_{h1}=\frac{\partial J(\theta)}{\partial z_1}=\frac{\partial J(\theta)}{\partial h_1}*\frac{\partial h_1}{\partial z_1^{(2)}}=(h_1-y_1)*h_1*(1-h_1)$$
$$\delta_{h2}=\frac{\partial J(\theta)}{\partial z_2}=\frac{\partial J(\theta)}{\partial h_2}*\frac{\partial h_2}{\partial z_2^{(2)}}=(h_2-y_2)*h_2*(1-h_2)$$

因此，整体误差对$\theta_{11}^{(2)}$的偏导可以写成：
$$\frac{\partial J(\theta)}{\partial \theta_{11}^{(2)}}=\delta_{h1}*a_1$$

最后更新$\theta_{11}^{(2)}$的值：
$$\theta_{11}^{(2)+}=\theta_{11}^{(2)}-\eta * \delta_{h1}*a_1=0.3589$$
其中，$\eta$为学习率，这里取0.5。

同理，可以更新$\theta_{12}^{(2)},\theta_{21}^{(2)},\theta_{22}^{(2)}$：

$$\theta_{12}^{(2)+}=\theta_{12}^{(2)} - \eta * \delta_{h2}*a_1=0.5113,$$
$$\theta_{21}^{(2)+}=\theta_{21}^{(2)} - \eta * \delta_{h1}*a_2=0.4087,$$
$$\theta_{22}^{(2)+}=\theta_{22}^{(2)} - \eta * \delta_{h2}*a_2=0.5614.$$

----------

将以上过程写成矩阵形式：
$$\delta_{h}=\frac{\partial J(\theta)}{\partial z}=\frac{\partial J(\theta)}{\partial h}*\frac{\partial h}{\partial z^{(2)}}=(h-y)*h*(1-h)$$
(注，这里的`*`为numpy中的`*`，代表对应元素相乘，Matlab中应为`.*`。)

由于不更新偏置的权值，这里忽略对$\theta_{01}^{(2)}$和$\theta_{02}^{(2)}$的偏导，
$$\frac{\partial J(\theta)}{\partial \theta^{(2)}}=\left(
\begin{array}{cc}
\frac{\partial J(\theta)}{\partial \theta_{11}^{(2)}} & \frac{\partial J(\theta)}{\partial \theta_{12}^{(2)}}\\
\frac{\partial J(\theta)}{\partial \theta_{21}^{(2)}} & \frac{\partial J(\theta)}{\partial \theta_{22}^{(2)}}
\end{array}\right)
=\left( \begin{array}{cc}
\delta_{h1}*a_1 & \delta_{h2}*a_1 \\
\delta_{h1}*a_2 & \delta_{h2}*a_2
\end{array} \right)
=(a_1, a_2)^T \cdot \delta_h^T$$
$$\theta^{(2)+} = \theta^{(2)}[1:] - \eta \frac{\partial J(\theta)}{\partial \theta^{(2)}}$$
(注，这里用了numpy中的语法，表示更新$\theta^{(2)}$第一行以后的所有行。)

（3）隐含层-->输入层权值更新

采取以上类似的步骤，但值得注意的是，在计算总误差对$\theta^{(2)}_{11}$的偏导时，是从$h_1->z_1^{(2)}->\theta^{(2)}_{11}$，但是在隐含层-->输入层（或者隐含层-->隐含层）的权值更新时，是$a_1->z_1^{(1)}->\theta^{(1)}_{11}$，而$a_1$会接受两个地方传来的误差，所以这两个地方都要计算。

$$\frac{\partial J(\theta)}{\partial \theta^{(1)}_{11}}=(\frac{\partial J(\theta)}{\partial h_1} * \frac{\partial h_1}{\partial z_1^{(2)}} * \frac{\partial z_1^{(2)}}{\partial a_1} + \frac{\partial J(\theta)}{\partial h_2} * \frac{\partial h_2}{\partial z_2^{(2)}} * \frac{\partial z_2^{(2)}}{\partial a_1}) * \frac{\partial a_1}{\partial z_1^{(1)}} * \frac{\partial z^{(1)}_1}{\partial \theta^{(1)}_{11}}$$

同样的用$\delta_{a1},\delta_{a2}$代表隐含层误差，
$$\begin{eqnarray*} \delta_{a1} &=& (\frac{\partial J(\theta)}{\partial h_1} * \frac{\partial h_1}{\partial z_1^{(2)}} * \frac{\partial z_1^{(2)}}{\partial a_1} + \frac{\partial J(\theta)}{\partial h_2} * \frac{\partial h_2}{\partial z_2^{(2)}} * \frac{\partial z_2^{(2)}}{\partial a_1}) * \frac{\partial a_1}{\partial z_1^{(1)}}\\
&=& ((h_1-y_1)h_1(1-h_1)\theta_{11}^{(2)}+(h_2-y_2)h_2\theta^{(2)}_{12}) * a_1(1-a_1)\\
&=& (\delta_{h1}\theta_{11}^{(2)}+\delta_{h2}\theta_{12}^{(2)})a_1(1-a_1)\\
&=& 0.008771
\end{eqnarray*}$$

$$\delta_{a2} = (\delta_{h1}\theta_{21}^{(2)}+\delta_{h2}\theta_{22}^{(2)})a_2(1-a_2)=0.009954$$

输入层与隐含层之间的权值更新，
$$\theta^{(1)+}_{11} = \theta^{(1)}_{11} - \eta \cdot \delta_{a1} \cdot x_1=0.1498$$
$$\theta^{(1)+}_{12} = \theta^{(1)}_{12} - \eta \cdot \delta_{a2} \cdot x_1=0.2498$$
$$\theta^{(1)+}_{21} = \theta^{(1)}_{21} - \eta \cdot \delta_{a1} \cdot x_2=0.1996$$
$$\theta^{(1)+}_{22} = \theta^{(1)}_{22} - \eta \cdot \delta_{a2} \cdot x_2=0.2995$$

-----------

将以上过程写成矩阵形式，
$$\begin{eqnarray*}
\delta_{a} &=& \left(
\begin{array}{cc}
\theta^{(2)}_{11} & \theta_{12}^{(2)}\\
\theta_{21}^{(2)} & \theta_{22}^{(2)}
\end{array}\right)
\left( \begin{array}{c}
\delta_{h1}\\
\delta_{h2}
\end{array}\right)
*\left( \begin{array}{c}
a_1\\
a_2
\end{array}\right)
*\left( \begin{array}{c}
1-a_1\\
1-a_2
\end{array}\right)\\
&=&\theta^{(2)}[1:] \cdot \delta_{h} * a[1:]*(1-a[1:])
\end{eqnarray*}$$
(注，这里的`*`为numpy中的`*`，代表对应元素相乘，Matlab中应为`.*`。)
$$\theta^{(1)+} = \theta^{(1)}[1:] - \eta * \delta_a^T * x[1:]$$

<font color=Crimson>注意，计算出所有权值的更新值后再统一更新，</font>

$$\theta^{(1)}[1:] = \theta^{(1)+}$$
$$\theta^{(2)}[1:] = \theta^{(2)+}$$

## 4、Python实现

下面将用Python对上述的例子实现，

In [1]:
# -*- coding:utf-8 -*-
import numpy as np

def sigmoid(x):
    return 1/(1+np.exp(-x))

x = np.array([1,0.05,0.1]).reshape(-1,1) # 列向量
y = np.array([0.01, 0.99]).reshape(-1,1) # 列向量
theta1 = np.array([[0.35,0.15,0.2],[0.35,0.25,0.3]]).T
theta2 = np.array([[0.6,0.4,0.45],[0.6,0.5,0.55]]).T

# 前向传播
# 输入层-->隐含层
z1 = np.dot(theta1.T, x)
a = sigmoid(z1)
a1, a2 = a[0], a[1]
a = np.insert(a, 0, values = 1, axis = 0) # 在a[0]处插入1
# 隐含层--> 输出层
z2 = np.dot(theta2.T, a)
h = sigmoid(z2)
h1, h2 = h[0], h[1]

# 反向传播
# 代价函数（总误差）
J = -(np.dot(y.T, np.log(h))+np.dot((1-y).T, np.log(1-h)))
eta = 0.5
# 输出层-->隐含层
delta_h = (h-y)*h*(1-h)
theta2_tmp = theta2[1:] - eta * delta_h.T * a[1:]
# 隐含层-->输入层
delta_a = theta2[1:] @ delta_h * a[1:] * (1-a[1:]) #numpy中@表示矩阵乘法，等同于np.dot()，*为对应元素相乘
theta1_tmp = theta1[1:] - eta * delta_a.T * x[1:]
# 最后更新权值
theta1[1:] = theta1_tmp
theta2[1:] = theta2_tmp