# 一步一步构建你的深度神经网络

欢迎来到你的第四周作业（第二部分的第一部分）！你之前训练过一个双层的神经网络（只有一个隐藏层）。本周，你将构建一个深度神经网络，你想要多少层就有多少层！

- 在这个 notebook 中，你将实现构建深度神经网络所需的所有功能。
- 在下一个作业中，你将使用这些函数来构建用于图像分类的深度神经网络。


**完成这个任务后，你将能够：**
- 使用像 ReLU 这样的非线性单位来改进你的模型
- 构建一个更深的神经网络（包含 1 个以上的隐藏层）
- 实现一个易于使用的神经网络类

**符号**：
- 上标 $[L]$ 表示与第 $L$ 层相关联的数量。
    - 例如：$a^{[L]}$ 是第 $L$ 层的激活函数计算值。$W ^ {[L]} $ 和 $ b ^ {[L]}$ 是第 $L$ 层参数。
- 上标 $(i)$ 表示与第 $i$ 个样本相关联的数量。
    - 示例：$x^{(i)}$ 为第 $i$ 个训练样本。
- 角标 $i$ 表示向量的第 $i$ 项。
    - 例如：$a^{[L]}_i$ 表示第 $L$ 层激活函数计算的第 $i$ 项。

让我们开始吧！


## 1 - 导入相关包

让我们首先导入本次作业中需要的所有包。
- [numpy](www.numpy.org) 是 Python 中在科学计算上主要的包。
- [matplotlib](http://matplotlib.org) 是 Python 中绘制图形的库。
- `dnn_utils` 为这个笔记本提供了一些必要的函数。
- `testCases` 提供了一些测试用例来评估你的函数的正确性。
- `np.random.seed(1)` 用于保持所有随机函数调用的一致性。它将帮助我们给你的作业打分。请不要换种子。

In [1]:
import numpy as np
import h5py
import matplotlib.pyplot as plt
from testCases_v2 import *
from dnn_utils_v2 import sigmoid, sigmoid_backward, relu, relu_backward

%matplotlib inline
plt.rcParams['figure.figsize'] = (5.0, 4.0) # 设置绘图图形的默认大小
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

np.random.seed(1)

## 2 - 作业大纲

为了构建你的神经网络，你将实现几个 “辅助函数”。这些辅助函数将用于下一个任务来构建一个两层神经网络和一个 L 层神经网络。你要实现的每个辅助函数都有详细的说明，指导你完成必要的步骤。下面是这个作业的大纲，你将：

- 初始化两层网络和 $L$ 层神经网络的参数。
- 实现正向传播模块（如下图中的紫色部分所示）。
     - 完成一层前向传播步骤的线性部分 （得到 $Z^{[L]}$）
     - 我们给你提供激活函数 (ReLU/sigmoid)
     - 将前两个步骤合并为一个新的 [LINEAR->ACTIVATION] 前向函数。
     - 堆叠 [LINEAR->RELU] 前向函数 L-1 次（用于第 1 层到第 L-1 层），并在最后添加一个 [LINEAR->SIGMOID]（用于最后一层 $L$）。这就得到了一个新的 `L_model_forward` 函数。
- 计算损失函数。
- 实现反向传播模块（下图中红色部分）。
    - 完成单层的反向传播步骤的线性部分。
    - 我们给出激活函数的梯度 (relu_backward/sigmoid_backward) 
    - 将前两步合并到一个新的 [LINEAR->ACTIVATION] 反向函数中。
    - 堆叠 [LINEAR->RELU] 后向函数 L-1 次并在新的 `L_model_backward` 函数中添加 [LINEAR->SIGMOID] 后向函数。
- 最后，更新参数。

<img src="images/final outline.png" style="width:800px;height:500px;">

**<caption><center> Figure 1</center></caption>**<br>

**注意**：对于每个前向函数，都有一个对应的后向函数。这就是为什么在前向传播模块的每一步都要在缓存中存储一些值的原因。缓存的值对于计算梯度很有帮助。在反向传播模块中，您将使用缓存来计算梯度。这个作业将向您展示如何执行这些步骤。

## 3 - 初始化

我们将编写两个辅助函数来初始化模型的参数。第一个函数将用于初始化两层模型的参数。第二个将把这个初始化过程泛化到 $L$ 层。

### 3.1 - 双层神经网络

**练习**： 创建并初始化双层神经网络的参数。

**指导**：
- 该模型的结构如下： *LINEAR -> ReLU -> LINEAR -> SIGMOID*. 
- 使用带有正确形状的 `np.random.randn(shape)*0.01`，对权重矩阵使用随机初始化。
- 使用 `np.zeros(shape)`，将偏差矩阵初始化为 0 矩阵。

In [None]:
# GRADED FUNCTION: initialize_parameters

def initialize_parameters(n_x, n_h, n_y):
    """
    Argument:
    n_x -- 输入层大小
    n_h -- 隐藏层大小
    n_y -- 输出层大小
    
    Returns:
    parameters -- Python 字典, 包含你的参数:
                    W1 -- 形状为 (n_h, n_x) 的权重矩阵
                    b1 -- 形状为 (n_h, 1) 的偏差矩阵
                    W2 -- 形状为 (n_y, n_h) 的权重矩阵
                    b2 -- 形状为 (n_y, 1) 的偏差矩阵
    """
    
    np.random.seed(1)
    
    ### START CODE HERE ### (≈ 4 lines of code)
    W1 = None
    b1 = None
    W2 = None
    b2 = None
    ### END CODE HERE ###
    
    assert(W1.shape == (n_h, n_x))
    assert(b1.shape == (n_h, 1))
    assert(W2.shape == (n_y, n_h))
    assert(b2.shape == (n_y, 1))
    
    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2}
    
    return parameters    

In [None]:
parameters = initialize_parameters(2,2,1)
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

**预计输出**：
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td> [[ 0.01624345 -0.00611756]
 [-0.00528172 -0.01072969]] </td> 
  </tr>

  <tr>
    <td> **b1**</td>
    <td>[[ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2**</td>
    <td> [[ 0.00865408 -0.02301539]]</td>
  </tr>
  
  <tr>
    <td> **b2** </td>
    <td> [[ 0.]] </td> 
  </tr>
  
</table>

### 3.2 - L 层神经网络

更深的 $l$ 层神经网络的初始化更复杂，因为有更多的权重矩阵和偏置向量。当完成 `initialize_parameters_deep()` 时，你应该确保每一层之间的尺寸匹配。回想一下，$n^{[l]}$是第 $l$ 层中的单元数。因此，例如，如果输入 $X$ 的大小为 $(12288,209)$（其中有 $m=209$ 个样本），则:

<table style="width:100%">
    <tr>
        <td>  </td> 
        <td> **Shape of W** </td> 
        <td> **Shape of b**  </td> 
        <td> **Activation** </td>
        <td> **Shape of Activation** </td> 
    <tr>
    <tr>
        <td> **Layer 1** </td> 
        <td> $(n^{[1]},12288)$ </td> 
        <td> $(n^{[1]},1)$ </td> 
        <td> $Z^{[1]} = W^{[1]}  X + b^{[1]} $ </td> 
        <td> $(n^{[1]},209)$ </td> 
    <tr>
    <tr>
        <td> **Layer 2** </td> 
        <td> $(n^{[2]}, n^{[1]})$  </td> 
        <td> $(n^{[2]},1)$ </td> 
        <td>$Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]}$ </td> 
        <td> $(n^{[2]}, 209)$ </td> 
    <tr>
       <tr>
        <td> $\vdots$ </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$</td> 
        <td> $\vdots$  </td> 
    <tr>
   <tr>
        <td> **Layer L-1** </td> 
        <td> $(n^{[L-1]}, n^{[L-2]})$ </td> 
        <td> $(n^{[L-1]}, 1)$  </td> 
        <td>$Z^{[L-1]} =  W^{[L-1]} A^{[L-2]} + b^{[L-1]}$ </td> 
        <td> $(n^{[L-1]}, 209)$ </td> 
    <tr>
   <tr>
        <td> **Layer L** </td> 
        <td> $(n^{[L]}, n^{[L-1]})$ </td> 
        <td> $(n^{[L]}, 1)$ </td>
        <td> $Z^{[L]} =  W^{[L]} A^{[L-1]} + b^{[L]}$</td>
        <td> $(n^{[L]}, 209)$  </td> 
    <tr>
</table>

请记住，当我们在 python 中计算 $W X + b$ 时，它执行的是广播。例如，如果：

$$ W = \begin{bmatrix}
    j  & k  & l\\
    m  & n & o \\
    p  & q & r 
\end{bmatrix}\;\;\; X = \begin{bmatrix}
    a  & b  & c\\
    d  & e & f \\
    g  & h & i 
\end{bmatrix} \;\;\; b =\begin{bmatrix}
    s  \\
    t  \\
    u
\end{bmatrix}\tag{2}$$

则 $WX + b$ 将会是：

$$ WX + b = \begin{bmatrix}
    (ja + kd + lg) + s  & (jb + ke + lh) + s  & (jc + kf + li)+ s\\
    (ma + nd + og) + t & (mb + ne + oh) + t & (mc + nf + oi) + t\\
    (pa + qd + rg) + u & (pb + qe + rh) + u & (pc + qf + ri)+ u
\end{bmatrix}\tag{3}  $$

**练习**： 实现 $l$ 层神经网络的初始化。 

**指导**：
- 模型的结构是 *[LINEAR -> RELU] $ \times$ (L-1) -> LINEAR -> SIGMOID*. 即它有 $L-1$ 层使用 ReLU 激活函数的隐藏层以及具有 sigmoid 激活函数的输出层。
- 使用 `np.random.rand(shape) * 0.01` 对权重矩阵使用随机初始化。
- 使用 `np.zeros(shape)` 对偏差使用 0 初始化。
- 我们将不同层的单元数 $n^{[l]}$ 存储在变量 `layer_dims` 中。例如，上周的 "Planar Data classification model" 练习中的 `layer_dims` 为 [2,4,1]：有两个输入值，一个有 4 个隐藏单元的隐藏层，一个有 1 个输出单元的输出层。因此，'W1' 的形状是 (4,2)，'b1' 是 (4,1)，'W2'是 (1,4)，'b2' 是 (1,1)。现在您将其推广到 $L$ 层！
- 这是 $L=1$（单层神经网络）的实现。它应该会启发你实现一般情况（$l$ 层神经网络）。

```python
    if L == 1:
        parameters["W" + str(L)] = np.random.randn(layer_dims[1], layer_dims[0]) * 0.01
        parameters["b" + str(L)] = np.zeros((layer_dims[1], 1))
```

In [None]:
# GRADED FUNCTION: initialize_parameters_deep

def initialize_parameters_deep(layer_dims):
    """
    Arguments:
    layer_dims -- Python数组 (列表)，包含网络中每一层的尺寸
    
    Returns:
    parameters -- Python字典, 包含你的参数 "W1", "b1", …, "WL", "bL":
                    Wl -- 形状为 (layer_dims[l], layer_dims[l-1]) 的权重矩阵
                    bl -- 形状为 (layer_dims[l], 1) 的偏差向量
    """
    
    np.random.seed(3)
    parameters = {}
    L = len(layer_dims)            # 网络中的层数

    for l in range(1, L):
        ### START CODE HERE ### (≈ 2 lines of code)
        parameters['W' + str(l)] = None
        parameters['b' + str(l)] = None
        ### END CODE HERE ###
        
        assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
        assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))

        
    return parameters

In [None]:
parameters = initialize_parameters_deep([5,4,3])
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

**预计输出**：
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td>[[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]</td> 
  </tr>
  
  <tr>
    <td>**b1** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2** </td>
    <td>[[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]</td> 
  </tr>
  
  <tr>
    <td>**b2** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
</table>

## 4 - 前向传播模块

### 4.1 - 线性前向
现在您已经初始化了参数，您将执行正向传播模块。您将从实现一些基本函数开始，稍后在实现模型时将使用这些函数。你将按照下面的顺序完成三个函数:

- LINEAR
- LINEAR -> ACTIVATION 这里的 ACTIVATION 激活函数要么是 ReLU 要么是 Sigmoid. 
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID（整个模型）

线性前向模块（对所有样本进行向量化）计算如下方程：

$$Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}\tag{4}$$

这里的 $A^{[0]} = X$. 

**练习**： 构建前向传播的线性部分。

**提示**：
这个单位的数学表示为 $Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}$。你可能也会发现 `np.dot()` 很有用。如果尺寸不匹配，打印 `W.shape`，可能有帮助。

In [None]:
# GRADED FUNCTION: linear_forward

def linear_forward(A, W, b):
    """
    实现一层前向传播的线性部分。

    Arguments:
    A -- 来自前一层 (或输入数据) 的激活值: (前一层的大小，示例数量)
    W -- 权重矩阵: 形状为 (当前层的大小, 前一层的大小) 的 numpy 数组
    b -- 偏差向量: 形状为 (当前层的大小, 1) 的 numpy 数组

    Returns:
    Z -- 激活函数的输入也被称为预激活参数  
    cache -- 一个包含 "A", "W" 和 "b" 的 Python 字典; 存储起来以便用于高效地计算反向传递
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    Z = None
    ### END CODE HERE ###
    
    assert(Z.shape == (W.shape[0], A.shape[1]))
    cache = (A, W, b)
    
    return Z, cache

In [None]:
A, W, b = linear_forward_test_case()

Z, linear_cache = linear_forward(A, W, b)
print("Z = " + str(Z))

**预计输出**：

<table style="width:35%">
  
  <tr>
    <td> **Z** </td>
    <td> [[ 3.26295337 -1.23429987]] </td> 
  </tr>
  
</table>

### 4.2 - 线性正向激活函数

在这个 notebook 中，你将使用两个激活函数：

- **Sigmoid**: $\sigma(Z) = \sigma(W A + b) = \frac{1}{ 1 + e^{-(W A + b)}}$. 我们已经为您提供了 `sigmoid` 函数。这个函数返回 **2** 个元素：激活值 "`a`" 和一个包含 "`Z`"（这就是我们将输入到相应的反向函数的内容）的 "`cache`"。要使用它，你可以调用：

``` python
A, activation_cache = sigmoid(Z)
```

- **ReLU**: ReLu 的数学公式为 $A = ReLU(Z) = max(0, Z)$. 我们已经为您提供了 `ReLU` 函数。这个函数返回 **2** 个元素：激活值 "`A`" 和一个包含 "`Z`"（这就是我们将输入到相应的反向函数的内容）"`cache`"。要使用它，你可以调用：


``` python
A, activation_cache = relu(Z)
```

为了方便起见，我们将把两个函数 (LINEAR 线性函数和 ACTIVATION 激活函数) 归为一个函数 (LINEAR->ACTIVATION)。因此，您将实现一个函数，该函数执行线性前向步骤，然后是激活前向步骤。

**练习**：使用带有正确的激活函数的 `linear_forward()` 实现 *LINEAR->ACTIVATION* 层的正向传播。

数学关系为：$A^{[l]} = g(Z^{[l]}) = g(W^{[l]}A^{[l-1]} +b^{[l]})$ 其中激活函数 "g" 可以是 `sigmoid()` 或 `relu()`。 

In [None]:
# GRADED FUNCTION: linear_activation_forward

def linear_activation_forward(A_prev, W, b, activation):
    """
    实现 LINEAR->ACTIVATION 层的正向传播

    Arguments:
    A_prev -- 来自前一层 (或输入数据) 的激活值: (前一层大小, 样本数量)
    W -- 权重矩阵: 形状为 (当前层的大小, 前一层的大小) 的 numpy 数组
    b -- 偏差向量: 形状为 (当前层的大小, 1) 的 numpy 数组
    activation -- 该层中使用的激活函数，存储为文本字符串: "sigmoid" 或 "relu"

    Returns:
    A -- 激活函数的输出，也称为激活后值
    cache -- 一个包含 "linear_cache" 和 "activation_cache" 的 Python 字典; 存储用于高效地计算反向传递
    """
    
    if activation == "sigmoid":
        # 输入: "A_prev, W, b". Outputs: "A, activation_cache".
        ### START CODE HERE ### (≈ 2 lines of code)
        Z, linear_cache = None
        A, activation_cache = None
        ### END CODE HERE ###
    
    elif activation == "relu":
        # 输入: "A_prev, W, b". Outputs: "A, activation_cache".
        ### START CODE HERE ### (≈ 2 lines of code)
        Z, linear_cache = None
        A, activation_cache = None
        ### END CODE HERE ###
    
    assert (A.shape == (W.shape[0], A_prev.shape[1]))
    cache = (linear_cache, activation_cache)

    return A, cache

In [None]:
A_prev, W, b = linear_activation_forward_test_case()

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "sigmoid")
print("With sigmoid: A = " + str(A))

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "relu")
print("With ReLU: A = " + str(A))

**预计输出**：
       
<table style="width:35%">
  <tr>
    <td> **With sigmoid: A ** </td>
    <td > [[ 0.96890023  0.11013289]]</td> 
  </tr>
  <tr>
    <td> **With ReLU: A ** </td>
    <td > [[ 3.43896131  0.        ]]</td> 
  </tr>
</table>


**注意**：在深度学习中，"[LINEAR->ACTIVATION]" 计算被计算为神经网络中的一层，而不是两层。

### 4.3 - L 层模型

For even more convenience when implementing the $L$-layer Neural Net, you will need a function that replicates the previous one (`linear_activation_forward` with RELU) $L-1$ times, then follows that with one `linear_activation_forward` with SIGMOID.

为了在实现 $L$ 层神经网络时更方便，您将需要一个函数来复制前一个函数（使用 ReLU 函数的 `linear_activation_forward()`）$L-1$ 次，然后使用一次使用 SIGMOID 函数的 `linear_activation_forward()`。

<img src="images/model_architecture_kiank.png" style="width:600px;height:300px;">
<center> **Figure 2** : *[LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* model</center>

**练习**： 实现上述模型的正向传播。

**指导**： 在下面的代码中，变量 `AL` 将表示 $A^{[L]} = \sigma(Z^{[L]}) = \sigma(W^{[L]} A^{[L-1]} + b^{[L]})$。（有时也被称为 `Yhat`，即是 $\hat{Y}$）

**Tips**:
- 使用你之前编写的函数
- 使用 for 循环复制 [LINEAR->RELU] $(L-1)$ 次
- 不要忘记跟踪 "cache" 列表中的缓存。你可以使用 `list.append(c)` 给 `list` 添加一个新值 `c`。

In [None]:
# GRADED FUNCTION: L_model_forward

def L_model_forward(X, parameters):
    """
    实现 [LINEAR->RELU]*(L-1)->LINEAR->SIGMOID 计算的正向传播
    
    Arguments:
    X -- 输入数据，形状为 (输入值大小, 样本数量) 的 numpy 数组
    parameters -- initialize_parameters_deep() 的输出
    
    Returns:
    AL -- 上一个 post-activation 的值
    caches -- 缓存列表包含:
                每个 linear_relu_forward() 的缓存 (一共有 L-1 个, 索引从 0 到 L-2)
                linear_sigmoid_forward() 的缓存 (有一个, 索引为 L-1)
    """

    caches = []
    A = X
    L = len(parameters) // 2                  # 神经网络的层数
    
    # 师兄 [LINEAR -> RELU]*(L-1). 添加 "cache" 到 "caches" 列表.
    for l in range(1, L):
        A_prev = A 
        ### START CODE HERE ### (≈ 2 lines of code)
        A, cache = None

        ### END CODE HERE ###
    
    # 实现 LINEAR -> SIGMOID. 添加 "cache" 到 "caches" 列表.
    ### START CODE HERE ### (≈ 2 lines of code)
    AL, cache = None

    ### END CODE HERE ###
    
    assert(AL.shape == (1,X.shape[1]))
            
    return AL, caches

In [None]:
X, parameters = L_model_forward_test_case()
AL, caches = L_model_forward(X, parameters)
print("AL = " + str(AL))
print("Length of caches list = " + str(len(caches)))

<table style="width:40%">
  <tr>
    <td> **AL** </td>
    <td > [[ 0.17007265  0.2524272 ]]</td> 
  </tr>
  <tr>
    <td> **Length of caches list ** </td>
    <td > 2</td> 
  </tr>
</table>

现在你得到了一个完整的正向传播模型，它接受输入 X，并输出一个包含预测结果的行向量 $ a ^{[L]}$。它还将所有中间值记录在 "cache" 中。使用 $A^{[L]}$，你可以计算预测的成本。

## 5 - 成本函数

现在你将实现正向和反向传播。你需要计算成本，因为你想检查你的模型是否真的在学习。

**练习**： 使用下面的公式计算交叉熵代价 $J$：

$$-\frac{1}{m} \sum\limits_{i = 1}^{m} [y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right)] \tag{7}$$


In [None]:
# GRADED FUNCTION: compute_cost

def compute_cost(AL, Y):
    """
    实现公式(7) 定义的成本函数。

    Arguments:
    AL -- 对应于你的标签预测的概率向量, 形状为 (1, 样本数量)
    Y -- true "标签" 向量 (例如: 包含 0 是 non-cat, 1 是 cat), 形状为 (1, 样本数量)

    Returns:
    cost -- 交叉熵损失
    """
    
    m = Y.shape[1]

    # 计算 aL 和 y 的损失。
    ### START CODE HERE ### (≈ 1 lines of code)
    cost = None
    ### END CODE HERE ###
    
    cost = np.squeeze(cost)      # 为了确保你的成本的形状符合我们的预期 (e.g. 将 [[17]] 转换为 17).
    assert(cost.shape == ())
    
    return cost

In [None]:
Y, AL = compute_cost_test_case()

print("cost = " + str(compute_cost(AL, Y)))

**预计输出**：

<table>
    <tr>
        <td>**cost** </td>
        <td> 0.41493159961539694</td> 
    </tr>
</table>

## 6 - 后向传播模块

就像前向传播一样，你将实现反向传播的辅助函数。请记住，反向传播用于计算损失函数相对于参数的梯度。

**提示**：
<img src="images/backprop_kiank.png" style="width:650px;height:250px;">

<center>**Figure 3** : Forward and Backward propagation for *LINEAR->RELU->LINEAR->SIGMOID*</center>

*<center>The purple blocks represent the forward propagation, and the red blocks represent the backward propagation.</center>*

<!-- 
For those of you who are expert in calculus (you don't need to be to do this assignment), the chain rule of calculus can be used to derive the derivative of the loss $\mathcal{L}$ with respect to $z^{[1]}$ in a 2-layer network as follows:

$$\frac{d \mathcal{L}(a^{[2]},y)}{{dz^{[1]}}} = \frac{d\mathcal{L}(a^{[2]},y)}{{da^{[2]}}}\frac{{da^{[2]}}}{{dz^{[2]}}}\frac{{dz^{[2]}}}{{da^{[1]}}}\frac{{da^{[1]}}}{{dz^{[1]}}} \tag{8} $$

In order to calculate the gradient $dW^{[1]} = \frac{\partial L}{\partial W^{[1]}}$, you use the previous chain rule and you do $dW^{[1]} = dz^{[1]} \times \frac{\partial z^{[1]} }{\partial W^{[1]}}$. During the backpropagation, at each step you multiply your current gradient by the gradient corresponding to the specific layer to get the gradient you wanted.

Equivalently, in order to calculate the gradient $db^{[1]} = \frac{\partial L}{\partial b^{[1]}}$, you use the previous chain rule and you do $db^{[1]} = dz^{[1]} \times \frac{\partial z^{[1]} }{\partial b^{[1]}}$.

This is why we talk about **backpropagation**.
!-->

现在，与正向传播类似，你将通过三个步骤构建反向传播：
- 线性反向
- 线性计算 ->  后向 ACTIVATION，其中 ACTIVATION 计算的是 ReLU 或 sigmoid 激活函数的导数
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> 后向 SIGMOID（整个模型）

### 6.1 - 线性后向

For layer $l$, the linear part is: $Z^{[l]} = W^{[l]} A^{[l-1]} + b^{[l]}$ (followed by an activation).

Suppose you have already calculated the derivative $dZ^{[l]} = \frac{\partial \mathcal{L} }{\partial Z^{[l]}}$. You want to get $(dW^{[l]}, db^{[l]} dA^{[l-1]})$.

<img src="images/linearback_kiank.png" style="width:250px;height:300px;">
<caption><center> **Figure 4** </center></caption>

The three outputs $(dW^{[l]}, db^{[l]}, dA^{[l]})$ are computed using the input $dZ^{[l]}$.Here are the formulas you need:
$$ dW^{[l]} = \frac{\partial \mathcal{L} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T} \tag{8}$$
$$ db^{[l]} = \frac{\partial \mathcal{L} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}\tag{9}$$
$$ dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]} \tag{10}$$


**练习**： 使用上面 3 个公式去实现 `linear_backward()`

In [None]:
# GRADED FUNCTION: linear_backward

def linear_backward(dZ, cache):
    """
    Implement the linear portion of backward propagation for a single layer (layer l)

    Arguments:
    dZ -- Gradient of the cost with respect to the linear output (of current layer l)
    cache -- tuple of values (A_prev, W, b) coming from the forward propagation in the current layer

    Returns:
    dA_prev -- Gradient of the cost with respect to the activation (of the previous layer l-1), same shape as A_prev
    dW -- Gradient of the cost with respect to W (current layer l), same shape as W
    db -- Gradient of the cost with respect to b (current layer l), same shape as b
    """
    A_prev, W, b = cache
    m = A_prev.shape[1]
    
    ### START CODE HERE ### (≈ 3 lines of code)
    dW = None
    db = None
    dA_prev = None
    ### END CODE HERE ###
    
    assert (dA_prev.shape == A_prev.shape)
    assert (dW.shape == W.shape)
    assert (db.shape == b.shape)
    
    return dA_prev, dW, db

In [None]:
# Set up some test inputs
dZ, linear_cache = linear_backward_test_case()

dA_prev, dW, db = linear_backward(dZ, linear_cache)
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

**预计输出**： 

<table style="width:90%">
  <tr>
    <td> **dA_prev** </td>
    <td > [[ 0.51822968 -0.19517421]
 [-0.40506361  0.15255393]
 [ 2.37496825 -0.89445391]] </td> 
  </tr> 
  <tr>
    <td> **dW** </td>
    <td > [[-0.10076895  1.40685096  1.64992505]] </td> 
  </tr> 
  <tr>
    <td> **db** </td>
    <td> [[ 0.50629448]] </td> 
  </tr> 
</table>



### 6.2 - 线性后向激活函数

Next, you will create a function that merges the two helper functions: **`linear_backward`** and the backward step for the activation **`linear_activation_backward`**. 

To help you implement `linear_activation_backward`, we provided two backward functions:
- **`sigmoid_backward`**: Implements the backward propagation for SIGMOID unit. You can call it as follows:

```python
dZ = sigmoid_backward(dA, activation_cache)
```

- **`relu_backward`**: Implements the backward propagation for RELU unit. You can call it as follows:

```python
dZ = relu_backward(dA, activation_cache)
```

If $g(.)$ is the activation function, 
`sigmoid_backward` and `relu_backward` compute $$dZ^{[l]} = dA^{[l]} * g'(Z^{[l]}) \tag{11}$$.  

**练习**： Implement the backpropagation for the *LINEAR->ACTIVATION* layer.

In [None]:
# GRADED FUNCTION: linear_activation_backward

def linear_activation_backward(dA, cache, activation):
    """
    Implement the backward propagation for the LINEAR->ACTIVATION layer.
    
    Arguments:
    dA -- post-activation gradient for current layer l 
    cache -- tuple of values (linear_cache, activation_cache) we store for computing backward propagation efficiently
    activation -- the activation to be used in this layer, stored as a text string: "sigmoid" or "relu"
    
    Returns:
    dA_prev -- Gradient of the cost with respect to the activation (of the previous layer l-1), same shape as A_prev
    dW -- Gradient of the cost with respect to W (current layer l), same shape as W
    db -- Gradient of the cost with respect to b (current layer l), same shape as b
    """
    linear_cache, activation_cache = cache
    
    if activation == "relu":
        ### START CODE HERE ### (≈ 2 lines of code)
        dZ = None
        dA_prev, dW, db = None
        ### END CODE HERE ###
        
    elif activation == "sigmoid":
        ### START CODE HERE ### (≈ 2 lines of code)
        dZ = None
        dA_prev, dW, db = None
        ### END CODE HERE ###
    
    return dA_prev, dW, db

In [None]:
AL, linear_activation_cache = linear_activation_backward_test_case()

dA_prev, dW, db = linear_activation_backward(AL, linear_activation_cache, activation = "sigmoid")
print ("sigmoid:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db) + "\n")

dA_prev, dW, db = linear_activation_backward(AL, linear_activation_cache, activation = "relu")
print ("relu:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

**使用 sigmoid 函数的预计输出**：

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td >[[ 0.11017994  0.01105339]
 [ 0.09466817  0.00949723]
 [-0.05743092 -0.00576154]] </td> 

  </tr> 
  <tr>
    <td > dW </td> 
           <td > [[ 0.10266786  0.09778551 -0.01968084]] </td> 
  </tr> 
  <tr>
    <td > db </td> 
           <td > [[-0.05729622]] </td> 
  </tr> 
</table>



**使用 ReLU 函数的预计输出**：

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td > [[ 0.44090989  0.        ]
 [ 0.37883606  0.        ]
 [-0.2298228   0.        ]] </td> 

  </tr> 
  <tr>
    <td > dW </td> 
           <td > [[ 0.44513824  0.37371418 -0.10478989]] </td> 
  </tr> 
  <tr>
    <td > db </td> 
           <td > [[-0.20837892]] </td> 
  </tr> 
</table>



### 6.3 - L 模型后向

Now you will implement the backward function for the whole network. Recall that when you implemented the `L_model_forward` function, at each iteration, you stored a cache which contains (X,W,b, and z). In the back propagation module, you will use those variables to compute the gradients. Therefore, in the `L_model_backward` function, you will iterate through all the hidden layers backward, starting from layer $L$. On each step, you will use the cached values for layer $l$ to backpropagate through layer $l$. Figure 5 below shows the backward pass. 


<img src="images/mn_backward.png" style="width:450px;height:300px;">
<caption><center>  **Figure 5** : Backward pass  </center></caption>

** Initializing backpropagation**:
To backpropagate through this network, we know that the output is, 
$A^{[L]} = \sigma(Z^{[L]})$. Your code thus needs to compute `dAL` $= \frac{\partial \mathcal{L}}{\partial A^{[L]}}$.
To do so, use this formula (derived using calculus which you don't need in-depth knowledge of):
```python
dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL)) # derivative of cost with respect to AL
```

You can then use this post-activation gradient `dAL` to keep going backward. As seen in Figure 5, you can now feed in `dAL` into the LINEAR->SIGMOID backward function you implemented (which will use the cached values stored by the L_model_forward function). After that, you will have to use a `for` loop to iterate through all the other layers using the LINEAR->RELU backward function. You should store each dA, dW, and db in the grads dictionary. To do so, use this formula : 

$$grads["dW" + str(l)] = dW^{[l]}\tag{15} $$

For example, for $l=3$ this would store $dW^{[l]}$ in `grads["dW3"]`.

**练习**： Implement backpropagation for the *[LINEAR->RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* model.

In [None]:
# GRADED FUNCTION: L_model_backward

def L_model_backward(AL, Y, caches):
    """
    Implement the backward propagation for the [LINEAR->RELU] * (L-1) -> LINEAR -> SIGMOID group
    
    Arguments:
    AL -- probability vector, output of the forward propagation (L_model_forward())
    Y -- true "label" vector (containing 0 if non-cat, 1 if cat)
    caches -- list of caches containing:
                every cache of linear_activation_forward() with "relu" (it's caches[l], for l in range(L-1) i.e l = 0...L-2)
                the cache of linear_activation_forward() with "sigmoid" (it's caches[L-1])
    
    Returns:
    grads -- A dictionary with the gradients
             grads["dA" + str(l)] = ...
             grads["dW" + str(l)] = ...
             grads["db" + str(l)] = ...
    """
    grads = {}
    L = len(caches) # the number of layers
    m = AL.shape[1]
    Y = Y.reshape(AL.shape) # after this line, Y is the same shape as AL

    # Initializing the backpropagation
    ### START CODE HERE ### (1 line of code)
    dAL = None
    ### END CODE HERE ###
    
    # Lth layer (SIGMOID -> LINEAR) gradients. Inputs: "AL, Y, caches". Outputs: "grads["dAL"], grads["dWL"], grads["dbL"]
    ### START CODE HERE ### (approx. 2 lines)
    current_cache = None
    grads["dA" + str(L)], grads["dW" + str(L)], grads["db" + str(L)] = None
    ### END CODE HERE ###
    
    for l in reversed(range(L - 1)):
        # lth layer: (RELU -> LINEAR) gradients.
        # Inputs: "grads["dA" + str(l + 2)], caches". Outputs: "grads["dA" + str(l + 1)] , grads["dW" + str(l + 1)] , grads["db" + str(l + 1)] 
        ### START CODE HERE ### (approx. 5 lines)
        current_cache = None
        dA_prev_temp, dW_temp, db_temp = None
        grads["dA" + str(l + 1)] = None
        grads["dW" + str(l + 1)] = None
        grads["db" + str(l + 1)] = None
        ### END CODE HERE ###

    return grads

In [None]:
AL, Y_assess, caches = L_model_backward_test_case()
grads = L_model_backward(AL, Y_assess, caches)
print ("dW1 = "+ str(grads["dW1"]))
print ("db1 = "+ str(grads["db1"]))
print ("dA1 = "+ str(grads["dA1"]))

**预计输出**：

<table style="width:60%">
  
  <tr>
    <td > dW1 </td> 
           <td > [[ 0.41010002  0.07807203  0.13798444  0.10502167]
 [ 0.          0.          0.          0.        ]
 [ 0.05283652  0.01005865  0.01777766  0.0135308 ]] </td> 
  </tr> 
  <tr>
    <td > db1 </td> 
           <td > [[-0.22007063]
 [ 0.        ]
 [-0.02835349]] </td> 
  </tr> 
  <tr>
  <td > dA1 </td> 
           <td > [[ 0.          0.52257901]
 [ 0.         -0.3269206 ]
 [ 0.         -0.32070404]
 [ 0.         -0.74079187]] </td> 

  </tr> 
</table>



### 6.4 - 更新参数

In this section you will update the parameters of the model, using gradient descent: 

$$ W^{[l]} = W^{[l]} - \alpha \text{ } dW^{[l]} \tag{16}$$
$$ b^{[l]} = b^{[l]} - \alpha \text{ } db^{[l]} \tag{17}$$

where $\alpha$ is the learning rate. After computing the updated parameters, store them in the parameters dictionary. 

**练习**：实现 `update_parameters()` 来使用梯度下降更新你的参数。

**指导**：在每个 $W^{[l]}$ and $b^{[l]}$ for $l = 1, 2, ..., L$ 上使用梯度下降更新参数。


In [None]:
# GRADED FUNCTION: update_parameters

def update_parameters(parameters, grads, learning_rate):
    """
    Update parameters using gradient descent
    
    Arguments:
    parameters -- python dictionary containing your parameters 
    grads -- python dictionary containing your gradients, output of L_model_backward
    
    Returns:
    parameters -- python dictionary containing your updated parameters 
                  parameters["W" + str(l)] = ... 
                  parameters["b" + str(l)] = ...
    """
    
    L = len(parameters) // 2 # number of layers in the neural network

    # Update rule for each parameter. Use a for loop.
    ### START CODE HERE ### (≈ 3 lines of code)
    for l in range(L):
        parameters["W" + str(l+1)] = None
        parameters["b" + str(l+1)] = None
    ### END CODE HERE ###
        
    return parameters

In [None]:
parameters, grads = update_parameters_test_case()
parameters = update_parameters(parameters, grads, 0.1)

print ("W1 = "+ str(parameters["W1"]))
print ("b1 = "+ str(parameters["b1"]))
print ("W2 = "+ str(parameters["W2"]))
print ("b2 = "+ str(parameters["b2"]))

**预计输出**：

<table style="width:100%"> 
    <tr>
    <td > W1 </td> 
           <td > [[-0.59562069 -0.09991781 -2.14584584  1.82662008]
 [-1.76569676 -0.80627147  0.51115557 -1.18258802]
 [-1.0535704  -0.86128581  0.68284052  2.20374577]] </td> 
  </tr> 
  <tr>
    <td > b1 </td> 
           <td > [[-0.04659241]
 [-1.28888275]
 [ 0.53405496]] </td> 
  </tr> 
  <tr>
    <td > W2 </td> 
           <td > [[-0.55569196  0.0354055   1.32964895]]</td> 
  </tr> 
  <tr>
    <td > b2 </td> 
           <td > [[-0.84610769]] </td> 
  </tr> 
</table>


## 7 - 结论

祝贺你实现了构建深度神经网络所需的所有功能！

我们知道这是一个漫长的任务，但继续前进，它只会变得更好。作业的下一部分比较容易。

在下一个作业中，你将把所有这些放在一起构建两个模型：
- 两层神经网络
- L 层神经网络

实际上，您将使用这些模型对猫和非猫图像进行分类！