### 浅层神经网络
**神经网络表示**

如下图所示：
![snn](./picture/snn.png)

上图是一个双层神经网络，也称为单层神经网络。

约定俗成的符号表示是:
1. 输入层的激活值为$a^{[0]}$
2. 隐藏层会产生一些激活值，$a^{[l]}$记做第l层的激活值，$a^{[l]}_{1}$记做$a^{[l]}$层的第一个节点
3. 隐藏层和输出层都带有参数W和b,$W^{[1]}$表示和第1个隐藏层相关。

**计算神经网络的输出**
![snn](./picture/snn_output.png)

实际上，神经网络只不过将logistic回归的计算步骤重复多次，对于隐藏层的第一个节点。

#### 1.正向传播过程
在进行推导之前，首先进行约束
1. X是输入矩阵，假设X.shape = ($n_{x}$,1)
2. $W^{[1]}_{1}$是权重矩阵，shape = ($n_{x}$,1),$b^{1}_{1}$是一个实数

对于隐藏层第一个节点，有
$$z^{[1]}_{1} = (w^{[1]}_{1})^{T}X + b^{[1]}_{1}$$
$$a^{[1]}_{1} = \sigma (z^{[1]}_{1})$$

同理，对于隐藏层的第二个节点，有
$$z^{[1]}_{2} = (w^{[1]}_{2})^{T}X + b^{[1]}_{2}$$
$$a^{[1]}_{2} = \sigma (z^{[1]}_{2})$$

其中$a^{[1]}_{1}$,$a^{[1]}_{2}$等是个实数，可以按照列的方向堆叠，得到一个列向量。

首先$W^{[1]}_{1}$是一个列向量，由于隐藏层有四个隐藏节点，所以有4个权重列向量，可以将这4个权重列向量按照列方向进行扩展。

记如下：
$$
W = 
\left[
 \begin{matrix}
   | & | & | & | \\
   W_1^{[1]} & W_2^{[1]} & W_3^{[1]} & W_4^{[1]} \\
   | & | & | & | \\
  \end{matrix}
  \right]
$$

$$
W^{T} = 
\left[
 \begin{matrix}
   - & W_1^{[1]} & -  \\
   - & W_2^{[1]} & -  \\
   - & W_3^{[1]} & -  \\
   - & W_4^{[1]} & -  \\
  \end{matrix}
  \right]
$$

$$
b^{[1]} = 
\left[
 \begin{matrix}
   b^{[1]}_{1}  \\
   b^{[1]}_{2}  \\
   b^{[1]}_{3}  \\
   b^{[1]}_{4}  \\
  \end{matrix}
  \right]
$$

$$
Z^{[1]} = (W^{[1]})^{T}X + b^{[1]} = 
 \left[
 \begin{matrix}
   - & W_1^{[1]} & -  \\
   - & W_2^{[1]} & -  \\
   - & W_3^{[1]} & -  \\
   - & W_4^{[1]} & -  \\
  \end{matrix}
  \right] 
  *
  \left[
  \begin{matrix}
   X_1  \\
   X_2  \\
   X_3  \\
   X_4  \\
  \end{matrix}
  \right]
  + 
  \left[
  \begin{matrix}
   b^{[1]}_{1}  \\
   b^{[1]}_{2}  \\
   b^{[1]}_{3}  \\
   b^{[1]}_{4}  \\
  \end{matrix}
  \right]
  =
  \left[
  \begin{matrix}
   (w^{[1]}_{1})^{T}X + b^{[1]}_{1} \\
   (w^{[1]}_{2})^{T}X + b^{[1]}_{2} \\
   (w^{[1]}_{3})^{T}X + b^{[1]}_{3} \\
   (w^{[1]}_{4})^{T}X + b^{[1]}_{4} \\
  \end{matrix}
  \right] 
  = 
  \left[
  \begin{matrix}
   z^{[1]}_{1} \\
   z^{[1]}_{2} \\
   z^{[1]}_{3} \\
   z^{[1]}_{4} \\
  \end{matrix}
  \right] 
$$

$$
a^{[1]} = \sigma (z^{[1]})
$$

因此对于第一个隐藏层有下列公式：

$$z^{[1]} = (w^{[1]})^{T}X + b^{[1]}$$
$$a^{[1]} = \sigma (z^{[1]})$$

同理，对于输出层有

$$z^{[2]} = (w^{[2]})^{T}X + b^{[2]}$$
$$a^{[2]} = \sigma (z^{[2]})$$

#### 2.激活函数的导数
1. sigmoid函数
$$g(z) = \frac{1}{1 + e ^ {-z}}$$
$$\frac{\partial g(z)}{\partial z} = g(z)(1-g(z))$$

2. tanh函数
$$g(z) = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}$$
$$\frac{\partial g(z)}{\partial z} = 1 - (g(z))^{2}$$

#### 3.神经网络的梯度下降法

**正向传播过程**

以图中的例子进行说明

$$Z^{[1]} = (W^{[1]})^{T}X + b^{[1]}$$
$$A^{[1]} = g^{[1]}(Z^{[1]})$$
$$Z^{[2]} = (W^{[2]})^{T}A^{[1]} + b^{[2]}$$
$$A^{[1]} = g^{[2]}(Z^{[2]}) = \sigma (Z^{[2]})$$

**反向传播过程**

单个样本

$$dz^{[2]} = a^{[2]} - y$$
$$dW^{[2]} = dz^{[2]}a^{[1]^{T}}$$
$$db^{[2]} = dz^{[2]}$$
$$dz^{[1]} = W^{[2]^{T}}dz^{[2]} * g^{[1]'}(z^{[1]})$$
$$dW^{[1]} = dz^{[1]}x^{T}$$
$$db^{[1]} = dz^{[1]}$$

多个样本向量化
$$dZ^{[2]} = A^{[2]} - Y$$
$$dW^{[2]} = \frac{1}{m}dZ^{[2]}A^{[1]^{T}}$$
$$db^{[2]} = \frac{1}{m}np.sum(dZ^{[2]})$$
$$dZ^{[1]} = W^{[2]^{T}}dZ^{[2]} * g^{[1]'}(Z^{[1]})$$
$$dW^{[1]} = \frac{1}{m}dZ^{[1]}X^{T}$$
$$db^{[1]} = \frac{1}{m}np.sum(dZ^{[1]})$$

### 4.完全推导正向传播和梯度下降公式

以该神经网络结构为例进行说明

![snn](./picture/snn_output.png)

首先进行约束，了解符号的意义

1. 输入矩阵向量X,X.shape = (3,1)
$$
X = 
 \left[
 \begin{matrix}
   x_{1} \\
   x_{2} \\
   x_{3} \\
  \end{matrix}
  \right]
$$

2. 第一层权重，$W^{[1]}$.shape = (3,4),第一层偏置$b^{[1]}$.shape = (4,1)

$$
W^{[1]} = 
 \left[
 \begin{matrix}
   | & | & | & | \\
   W_1^{[1]} & W_2^{[1]} & W_3^{[1]} & W_4^{[1]} \\
   | & | & | & | \\
  \end{matrix}
  \right]
,  
b^{[1]} = 
 \left[
 \begin{matrix}
    b^{[1]}_{1} \\
    b^{[1]}_{2} \\
    b^{[1]}_{3} \\
    b^{[1]}_{4} \\
  \end{matrix}
  \right]
$$

3. 隐藏层$a^{[1]}$.shape = (4,1)

$$
a^{[1]} = 
 \left[
 \begin{matrix}
    a^{[1]}_{1} \\
    a^{[1]}_{2} \\
    a^{[1]}_{3} \\
    a^{[1]}_{4} \\
  \end{matrix}
  \right]
$$

4. 第二层权重,$W^{[2]}$.shape(4,1),第二层偏置$b^{[2]}$.shape = (1,1)

$$
W^{[2]} = 
 \left[
 \begin{matrix}
   | \\
   W_2^{[1]} \\
   |  \\
  \end{matrix}
  \right]
,  
b^{[2]} = 
 \left[
 \begin{matrix}
    b^{[1]}_{1} \\
  \end{matrix}
  \right]
$$

5. 输出层$a^{[2]}$.shape = (1,1)
$$
a^{[2]} = 
 \left[
 \begin{matrix}
    a^{[2]} \\
  \end{matrix}
  \right]
$$

**单个样本**

1. 正向传播过程

$$
Z^{[1]} = (W^{[1]})^{T}X + b^{[1]} = 
 \left[
 \begin{matrix}
   - & W_1^{[1]} & -  \\
   - & W_2^{[1]} & -  \\
   - & W_3^{[1]} & -  \\
   - & W_4^{[1]} & -  \\
  \end{matrix}
  \right] 
  \left[
  \begin{matrix}
   X_1  \\
   X_2  \\
   X_3  \\
  \end{matrix}
  \right]
  + 
  \left[
  \begin{matrix}
   b^{[1]}_{1}  \\
   b^{[1]}_{2}  \\
   b^{[1]}_{3}  \\
   b^{[1]}_{4}  \\
  \end{matrix}
  \right]
  =
  \left[
  \begin{matrix}
   (w^{[1]}_{1})^{T}X + b^{[1]}_{1} \\
   (w^{[1]}_{2})^{T}X + b^{[1]}_{2} \\
   (w^{[1]}_{3})^{T}X + b^{[1]}_{3} \\
   (w^{[1]}_{4})^{T}X + b^{[1]}_{4} \\
  \end{matrix}
  \right] 
  = 
  \left[
  \begin{matrix}
   z^{[1]}_{1} \\
   z^{[1]}_{2} \\
   z^{[1]}_{3} \\
   z^{[1]}_{4} \\
  \end{matrix}
  \right]\tag{1-1}
$$

$$
a^{[1]} = \sigma (z^{[1]})
= 
\left[
  \begin{matrix}
   a^{[1]}_{1} \\
   a^{[1]}_{2} \\
   a^{[1]}_{3} \\
   a^{[1]}_{4} \\
  \end{matrix}
  \right]\tag{1-2}
$$

$$
Z^{[2]} = (W^{[2]})^{T}a^{[1]} + b^{[2]} = 
 \left[
 \begin{matrix}
   - & W_2^{[1]} & -  \\
  \end{matrix}
  \right] 
  \left[
  \begin{matrix}
   a^{[1]}_1  \\
   a^{[1]}_2  \\
   a^{[1]}_3  \\
   a^{[1]}_4  \\
  \end{matrix}
  \right]
  + 
  \left[
  \begin{matrix}
   b^{[2]_{1}}  \\
  \end{matrix}
  \right]
  =
  \left[
  \begin{matrix}
   (w^{[2]}_{1})^{T}a^{[1]}_{1} + b^{[2]}_{1} \\
  \end{matrix}
  \right] 
  = 
  \left[
  \begin{matrix}
   z^{[2]}_{1} \\
  \end{matrix}
  \right]\tag{1-3}
$$

$$
a^{[2]} = \sigma (z^{[2]})
= 
  \left[
  \begin{matrix}
   a^{[2]}_{1} \\
  \end{matrix}
  \right]\tag{1-4}
$$

2. 反向传播
$$dz^{[2]} = \frac{\partial l}{\partial z^{[2]}} = a^{[2]} - y\tag{2-1}$$
$$dW^{[2]} = 
\left[
  \begin{matrix}
   \frac{\partial l}{\partial w^{[2]}_{1}}  \\
   \frac{\partial l}{\partial w^{[2]}_{2}}  \\
   \frac{\partial l}{\partial w^{[2]}_{3}}  \\
   \frac{\partial l}{\partial w^{[2]}_{4}}  \\
  \end{matrix}
  \right]
  =
  (a^{[2]} - y)
  \left[
  \begin{matrix}
   a^{[1]}_{1}  \\
   a^{[1]}_{2}  \\
   a^{[1]}_{3}  \\
   a^{[1]}_{4}  \\
  \end{matrix}
  \right]
  =
  (a^{[2]} - y)a^{[1]}
  \tag{2-2}
$$
$$db^{[2]} = dz^{[2]}\tag{2-3}$$

$$dz^{[1]} =
  \left[
  \begin{matrix}
   \frac{\partial l}{\partial z^{[1]}_{1}}  \\
   \frac{\partial l}{\partial z^{[1]}_{2}}  \\
   \frac{\partial l}{\partial z^{[1]}_{3}}  \\
   \frac{\partial l}{\partial z^{[1]}_{4}}  \\
  \end{matrix}
  \right]
  =
  \left[
  \begin{matrix}
   \frac{\partial l}{\partial z^{[2]}} * \frac{\partial z^{[2]}}{\partial a^{[1]}_{1}} * g^{[1]'}z(^{[1]}_{1})  \\
   \frac{\partial l}{\partial z^{[2]}} * \frac{\partial z^{[2]}}{\partial a^{[1]}_{2}} * g^{[1]'}z(^{[1]}_{2})  \\
   \frac{\partial l}{\partial z^{[2]}} * \frac{\partial z^{[2]}}{\partial a^{[1]}_{3}} * g^{[1]'}z(^{[1]}_{3})  \\
   \frac{\partial l}{\partial z^{[2]}} * \frac{\partial z^{[2]}}{\partial a^{[1]}_{4}} * g^{[1]'}z(^{[1]}_{4})  \\
  \end{matrix}
  \right]
$$
W^{[2]^{T}}dz^{[2]} * g^{[1]'}(z^{[1]})$$
$$dW^{[1]} = dz^{[1]}x^{T}$$
$$db^{[1]} = dz^{[1]}$$