# 深度神经网络

## 1. 深度L层神经网络

之前我们已经看过了逻辑回归（没有隐藏层，只包含输入层和输出层，可以认为是单层神经网络），包含一层隐藏层的“浅层神经网络”（两层神经网络，计算层数时，不包含输入层）。而所谓深度神经网络，就是增加隐藏层的数量。

这些年AI/机器学习社区的实践发现，诸如图像、自然语言在内的一些问题，需要深度神经网络才可能学到相应的模式，而浅层的模型完全无法做到。但同时，我们无法提前预知，处理这些问题需要多深的神经网络。因为深度神经网络的层数、每层神经元的数量都可以看做是超参，需要通过交叉验证之类的方法来确定。

## 2. 深度神经网络中的前向传播

$$
\begin{split}
for \, l &= 1, 2, ..., L: \\
Z^{[l]} &= W^{[l]}A^{[l-1]} + b^{[l]} \\
A^{[l]} &= g^{[l]}(Z^{[l]})
\end{split}
$$

## 3. 确定深度神经网络中各矩阵的维度

$$
\begin{split}
W^{[l]} &: (n^{[l]}, n^{[l-1]}) \\
b^{[l]} &: (n^{[l]}, 1) \\
dW^{[l]} &: (n^{[l]}, n^{[l-1]}) \\
db^{[l]} &: (n^{[l]}, 1) \\
Z^{[l]},A^{[l]} &: (n^{[l]}, m) \\
dZ^{[l]},dA^{[l]} &: (n^{[l]}, m) \\
\end{split}
$$

## 4. 为什么要用深度神经网路

深度神经网络：逐层增加复杂度。

- 人脸识别问题：检测边界 -> 检测器官 -> 检测面部；

- 语音识别问题：底层的特征（比如音调上升或下降，白噪声等） -> 声音的基本单元（音位Phoneme） -> 单词 -> 句子；

神经科学认为，人类大脑的工作流程也是从简单的检测功能构建起来，进而检测更复杂的内容。

![Intuition about deep representation](img/Intuition about deep representation.png)

电路理论和深度学习：要用浅层的神经网络实现深度神经网络同样的功能，需要浅层神经网络中具备相比深度神经网络指数级别多的神经元。

- 一个例子：多个输入变量的XOR，深度神经网络需要 $O(logn)$ 级别的神经元；而双层（单隐藏层）神经网络需要 $O(2^n)$ 级别的神经元

![Circuit theory and deep learning](img/Circuit theory and deep learning.png)

## 5. 深度神经网络的组成

前向传播反向传播，计算前向传播的过程中，缓存相应的变量，用于后续计算反向传播。

![Forward and backward functions](img/Forward and backward functions.png)

## 6. 前向传播和反向传播

反向传播过程：
$$
\begin{split}
for \, l &= L, L-1, ..., 1: \\
dZ^{[l]} &= dA^{[l]} * g^{[l]\prime}(Z^{[l]}) \\
dW^{[l]} &= \frac{1}{m}dZ^{[l]} \cdot A^{[l-1]T} \\
db^{[l]} &= \frac{1}{m}np.sum(dZ{[l]}, axis=1, keepdims=True) \\
dA^{[l-1]} &= W^{[l]T} \cdot dZ^{[l]}
\end{split}
$$

![Summary](img/Summary.png)

## 7. 参数和超参

这部分和传统机器学习差别不大，唯一的区别可能是深度学习的超参相对更多。超参需要通过交叉验证来调。

![What are hyperparameters](img/What are hyperparameters.png)

应用深度学习是一个经验性的过程，意思是说，调节超参的过程，存在很多重复尝试的阶段。暂时也没有什么好的方法，预先知道超参的大致范围。
![Applied deep learning is a very empirical process](img/Applied deep learning is a very empirical process.png)

## 8. 人工神经网络和大脑的关系

人工神经网络的灵感来自于大脑基于无数神经元的结构。但事实上，神经科学至今也还不能很好地解释大脑的运作原理，大脑学习的过程也可能会和人工神经网络的激活、反向传播截然不同。而深度学习发展到今天，和当初来自神经元的灵感也已经有很大不同了，二者可能并不存在太多实际的关联。

把人工神经网络，尤其是深度学习，看做是一种拟合X->Y关系的高效机器学习算法就好。这可能是目前最合适的定位。

![What does this have to do with the brain](img/What does this have to do with the brain.png)

## 9. Show Me The Code

之前我们构建了2层的神经网络，接下来我们将构建可以包含任意多层的深度神经网络。

**通过这个编程练习，可以学到：**
- 使用诸如ReLU的非线性神经元来提升模型
- 构建更深层的神经网络（超过一个隐藏层）
- 实现一个易用的神经网络类

**标记**:
- 上标 $[l]$ 表示第 $l^{th}$ 层相关的数据 
    - 举例：$a^{[L]}$ 是第 $L^{th}$ 层的激活值. $W^{[L]}$ 和 $b^{[L]}$ 是第 $L^{th}$ 层的参数。
- 上标 $(i)$ 表示第 $i^{th}$ 个样本相关的数据
    - 举例：$x^{(i)}$ 是第 $i^{th}$ 个训练样本。
- 下标 $i$ 表示向量中的第 $i^{th}$ 个值。
    - 举例：$a^{[l]}_i$ 表示第 $l^{th}$ 层的第 $i^{th}$ 个激活值。

### 9.1 三方包

首先，运行下面的代码块，来引入在这个编程练习中所需要的包。 
- [numpy](www.numpy.org) 是Python生态圈中进行科学计算的基础包。
- [matplotlib](http://matplotlib.org) 是Python生态圈中著名的绘图包。
- dnn_utils 提供了一些辅助函数
- testCases 提供了一些测试用力，用来测试所写函数的准确性
- np.random.seed(1) 用来保证随机函数调用结果的一致性。

In [1]:
import numpy as np
import h5py
import matplotlib.pyplot as plt
from testCases_v3 import *
from dnn_utils_v2 import sigmoid, sigmoid_backward, relu, relu_backward

%matplotlib inline
plt.rcParams['figure.figsize'] = (5.0, 4.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

np.random.seed(1)

### 9.2 问题总览

为了自行构建神经网络，需要首先实现一些“辅助函数”。这些辅助函数后面会用于构建一个两层的神经网络和一个L层的神经网络，主要包括如下：

- 为两层神经网络和 $L$ 层神经网络初始化参数
- 实现前向传播（图中紫色的部分）
     - 完成前向传播步骤中线性组合的部分（输出 $Z^{[l]}$）
     - 使用已经给定了激活函数（relu/sigmoid）
     - 将上面两步结合为一个前向传播函数（LINEAR->ACTIVATION）
     - 计算 [LINEAR->RELU] 前向传播 L-1 次（从第1层到第L-1层），最后再计算一次 [LINEAR->SIGMOID]（第L层）。合并这两步，得到 L_model_forward 函数。
- 计算损失
- 实现反向传播（图中红色的部分）
     - 完成反向传播步骤中线性的部分
     - 使用已经给定了的激活函数的梯度（relu_backward/sigmoid_backward）
     - 将上面两步结合为一个反向传播函数（LINEAR->ACTIVATION）
     - 计算 [LINEAR->RELU] 反向传播 L-1 次，最后再计算一次 [LINEAR->SIGMOID]。合并这两步，得到 L_model_backward 函数。
- 更新参数

<img src="img/final outline.png" style="width:800px;height:500px;">
<caption><center> **图 1**</center></caption><br>

**注意** 对于每个前向传播函数，都有对应的反向传播函数。因此每一步前向传播模块都要保存一些值到缓存中。缓存中的值可以用于反向传播模块中计算梯度。

### 9.3 初始化

我们需要写两个辅助函数用于模型参数的初始化，分别对应两层神经网络和 $L$ 层神经网络。

#### 9.3.1 两层神经网络

**练习**: 创建一个两层神经网络并初始化参数。

**指令**:
- 模型的结构为：*LINEAR -> RELU -> LINEAR -> SIGMOID*
- 权重矩阵需要随机初始化。用正确的矩阵维度调用 `np.random.randn(shape)*0.01`
- 截距向量使用0值初始化。调用 `np.zeros(shape)`

In [2]:
# GRADED FUNCTION: initialize_parameters

def initialize_parameters(n_x, n_h, n_y):
    """
    Argument:
    n_x -- size of the input layer
    n_h -- size of the hidden layer
    n_y -- size of the output layer
    
    Returns:
    parameters -- python dictionary containing your parameters:
                    W1 -- weight matrix of shape (n_h, n_x)
                    b1 -- bias vector of shape (n_h, 1)
                    W2 -- weight matrix of shape (n_y, n_h)
                    b2 -- bias vector of shape (n_y, 1)
    """
    
    np.random.seed(1)
    
    ### START CODE HERE ### (≈ 4 lines of code)
    W1 = np.random.randn(n_h, n_x) * 0.01
    b1 = np.zeros((n_h, 1))
    W2 = np.random.randn(n_y, n_h) * 0.01
    b2 = np.zeros((n_y, 1))
    ### END CODE HERE ###
    
    assert(W1.shape == (n_h, n_x))
    assert(b1.shape == (n_h, 1))
    assert(W2.shape == (n_y, n_h))
    assert(b2.shape == (n_y, 1))
    
    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2}
    
    return parameters    

In [3]:
parameters = initialize_parameters(3,2,1)
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]]
b1 = [[ 0.]
 [ 0.]]
W2 = [[ 0.01744812 -0.00761207]]
b2 = [[ 0.]]


**预期输出**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td> [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]] </td> 
  </tr>

  <tr>
    <td> **b1**</td>
    <td>[[ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2**</td>
    <td> [[ 0.01744812 -0.00761207]]</td>
  </tr>
  
  <tr>
    <td> **b2** </td>
    <td> [[ 0.]] </td> 
  </tr>
  
</table>