# 深度神经网络

## 1. 深度L层神经网络

之前我们已经看过了逻辑回归（没有隐藏层，只包含输入层和输出层，可以认为是单层神经网络），包含一层隐藏层的“浅层神经网络”（两层神经网络，计算层数时，不包含输入层）。而所谓深度神经网络，就是增加隐藏层的数量。

这些年AI/机器学习社区的实践发现，诸如图像、自然语言在内的一些问题，需要深度神经网络才可能学到相应的模式，而浅层的模型完全无法做到。但同时，我们无法提前预知，处理这些问题需要多深的神经网络。因为深度神经网络的层数、每层神经元的数量都可以看做是超参，需要通过交叉验证之类的方法来确定。

## 2. 深度神经网络中的前向传播

$$
\begin{split}
for \, l &= 1, 2, ..., L: \\
Z^{[l]} &= W^{[l]}A^{[l-1]} + b^{[l]} \\
A^{[l]} &= g^{[l]}(Z^{[l]})
\end{split}
$$

## 3. 确定深度神经网络中各矩阵的维度

$$
\begin{split}
W^{[l]} &: (n^{[l]}, n^{[l-1]}) \\
b^{[l]} &: (n^{[l]}, 1) \\
dW^{[l]} &: (n^{[l]}, n^{[l-1]}) \\
db^{[l]} &: (n^{[l]}, 1) \\
Z^{[l]},A^{[l]} &: (n^{[l]}, m) \\
dZ^{[l]},dA^{[l]} &: (n^{[l]}, m) \\
\end{split}
$$

## 4. 为什么要用深度神经网路

深度神经网络：逐层增加复杂度。

- 人脸识别问题：检测边界 -> 检测器官 -> 检测面部；

- 语音识别问题：底层的特征（比如音调上升或下降，白噪声等） -> 声音的基本单元（音位Phoneme） -> 单词 -> 句子；

神经科学认为，人类大脑的工作流程也是从简单的检测功能构建起来，进而检测更复杂的内容。

![Intuition about deep representation](img/Intuition about deep representation.png)

电路理论和深度学习：要用浅层的神经网络实现深度神经网络同样的功能，需要浅层神经网络中具备相比深度神经网络指数级别多的神经元。

- 一个例子：多个输入变量的XOR，深度神经网络需要 $O(logn)$ 级别的神经元；而双层（单隐藏层）神经网络需要 $O(2^n)$ 级别的神经元

![Circuit theory and deep learning](img/Circuit theory and deep learning.png)

## 5. 深度神经网络的组成

前向传播反向传播，计算前向传播的过程中，缓存相应的变量，用于后续计算反向传播。

![Forward and backward functions](img/Forward and backward functions.png)

## 6. 前向传播和反向传播

反向传播过程：
$$
\begin{split}
for \, l &= L, L-1, ..., 1: \\
dZ^{[l]} &= dA^{[l]} * g^{[l]\prime}(Z^{[l]}) \\
dW^{[l]} &= \frac{1}{m}dZ^{[l]} \cdot A^{[l-1]T} \\
db^{[l]} &= \frac{1}{m}np.sum(dZ{[l]}, axis=1, keepdims=True) \\
dA^{[l-1]} &= W^{[l]T} \cdot dZ^{[l]}
\end{split}
$$

![Summary](img/Summary.png)

## 7. 参数和超参

这部分和传统机器学习差别不大，唯一的区别可能是深度学习的超参相对更多。超参需要通过交叉验证来调。

![What are hyperparameters](img/What are hyperparameters.png)

应用深度学习是一个经验性的过程，意思是说，调节超参的过程，存在很多重复尝试的阶段。暂时也没有什么好的方法，预先知道超参的大致范围。
![Applied deep learning is a very empirical process](img/Applied deep learning is a very empirical process.png)

## 8. 人工神经网络和大脑的关系

人工神经网络的灵感来自于大脑基于无数神经元的结构。但事实上，神经科学至今也还不能很好地解释大脑的运作原理，大脑学习的过程也可能会和人工神经网络的激活、反向传播截然不同。而深度学习发展到今天，和当初来自神经元的灵感也已经有很大不同了，二者可能并不存在太多实际的关联。

把人工神经网络，尤其是深度学习，看做是一种拟合X->Y关系的高效机器学习算法就好。这可能是目前最合适的定位。

![What does this have to do with the brain](img/What does this have to do with the brain.png)

## 9. Show Me The Code

之前我们构建了2层的神经网络，接下来我们将构建可以包含任意多层的深度神经网络。

**通过这个编程练习，可以学到：**
- 使用诸如ReLU的非线性神经元来提升模型
- 构建更深层的神经网络（超过一个隐藏层）
- 实现一个易用的神经网络类

**标记**:
- 上标 $[l]$ 表示第 $l^{th}$ 层相关的数据 
    - 举例：$a^{[L]}$ 是第 $L^{th}$ 层的激活值. $W^{[L]}$ 和 $b^{[L]}$ 是第 $L^{th}$ 层的参数。
- 上标 $(i)$ 表示第 $i^{th}$ 个样本相关的数据
    - 举例：$x^{(i)}$ 是第 $i^{th}$ 个训练样本。
- 下标 $i$ 表示向量中的第 $i^{th}$ 个值。
    - 举例：$a^{[l]}_i$ 表示第 $l^{th}$ 层的第 $i^{th}$ 个激活值。

### 9.1 三方包

首先，运行下面的代码块，来引入在这个编程练习中所需要的包。 
- [numpy](www.numpy.org) 是Python生态圈中进行科学计算的基础包。
- [matplotlib](http://matplotlib.org) 是Python生态圈中著名的绘图包。
- dnn_utils 提供了一些辅助函数
- testCases 提供了一些测试用力，用来测试所写函数的准确性
- np.random.seed(1) 用来保证随机函数调用结果的一致性。

In [1]:
import numpy as np
import h5py
import matplotlib.pyplot as plt
from testCases_v3 import *
from dnn_utils_v2 import sigmoid, sigmoid_backward, relu, relu_backward

%matplotlib inline
plt.rcParams['figure.figsize'] = (5.0, 4.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

np.random.seed(1)

### 9.2 问题总览

为了自行构建神经网络，需要首先实现一些“辅助函数”。这些辅助函数后面会用于构建一个两层的神经网络和一个L层的神经网络，主要包括如下：

- 为两层神经网络和 $L$ 层神经网络初始化参数
- 实现前向传播（图中紫色的部分）
     - 完成前向传播步骤中线性组合的部分（输出 $Z^{[l]}$）
     - 使用已经给定了激活函数（relu/sigmoid）
     - 将上面两步结合为一个前向传播函数（LINEAR->ACTIVATION）
     - 计算 [LINEAR->RELU] 前向传播 L-1 次（从第1层到第L-1层），最后再计算一次 [LINEAR->SIGMOID]（第L层）。合并这两步，得到 L_model_forward 函数。
- 计算损失
- 实现反向传播（图中红色的部分）
     - 完成反向传播步骤中线性的部分
     - 使用已经给定了的激活函数的梯度（relu_backward/sigmoid_backward）
     - 将上面两步结合为一个反向传播函数（LINEAR->ACTIVATION）
     - 计算 [LINEAR->RELU] 反向传播 L-1 次，最后再计算一次 [LINEAR->SIGMOID]。合并这两步，得到 L_model_backward 函数。
- 更新参数

<img src="img/final outline.png" style="width:800px;height:500px;">
<caption><center> **图 1**</center></caption><br>

**注意** 对于每个前向传播函数，都有对应的反向传播函数。因此每一步前向传播模块都要保存一些值到缓存中。缓存中的值可以用于反向传播模块中计算梯度。

### 9.3 初始化

我们需要写两个辅助函数用于模型参数的初始化，分别对应两层神经网络和 $L$ 层神经网络。

#### 9.3.1 两层神经网络

**练习**: 创建一个两层神经网络并初始化参数。

**指令**:
- 模型的结构为：*LINEAR -> RELU -> LINEAR -> SIGMOID*
- 权重矩阵需要随机初始化。用正确的矩阵维度调用 `np.random.randn(shape)*0.01`
- 截距向量使用0值初始化。调用 `np.zeros(shape)`

In [2]:
# GRADED FUNCTION: initialize_parameters

def initialize_parameters(n_x, n_h, n_y):
    """
    Argument:
    n_x -- size of the input layer
    n_h -- size of the hidden layer
    n_y -- size of the output layer
    
    Returns:
    parameters -- python dictionary containing your parameters:
                    W1 -- weight matrix of shape (n_h, n_x)
                    b1 -- bias vector of shape (n_h, 1)
                    W2 -- weight matrix of shape (n_y, n_h)
                    b2 -- bias vector of shape (n_y, 1)
    """
    
    np.random.seed(1)
    
    ### START CODE HERE ### (≈ 4 lines of code)
    W1 = np.random.randn(n_h, n_x) * 0.01
    b1 = np.zeros((n_h, 1))
    W2 = np.random.randn(n_y, n_h) * 0.01
    b2 = np.zeros((n_y, 1))
    ### END CODE HERE ###
    
    assert(W1.shape == (n_h, n_x))
    assert(b1.shape == (n_h, 1))
    assert(W2.shape == (n_y, n_h))
    assert(b2.shape == (n_y, 1))
    
    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2}
    
    return parameters    

In [3]:
parameters = initialize_parameters(3,2,1)
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]]
b1 = [[ 0.]
 [ 0.]]
W2 = [[ 0.01744812 -0.00761207]]
b2 = [[ 0.]]


**预期输出**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td> [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]] </td> 
  </tr>

  <tr>
    <td> **b1**</td>
    <td>[[ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2**</td>
    <td> [[ 0.01744812 -0.00761207]]</td>
  </tr>
  
  <tr>
    <td> **b2** </td>
    <td> [[ 0.]] </td> 
  </tr>
  
</table>

#### 9.3.2 L层神经网络

L层深度神经网络的初始化会稍微复杂一些，因为我们现在有更多的权重矩阵和截距向量。在实现 `initialize_parameters_deep` 时，你需要保证每一层相关参数的维度正确。回忆一下， $n^{[l]}$ 表示 $l$ 层的神经元数量。因此假设输入 $X$ 是 $(12288, 209)$ 维度的矩阵时（包含 $m=209$ 个训练样本），那么：

<table style="width:100%">


    <tr>
        <td>  </td> 
        <td> **Shape of W** </td> 
        <td> **Shape of b**  </td> 
        <td> **Activation** </td>
        <td> **Shape of Activation** </td> 
    <tr>
    
    <tr>
        <td> **Layer 1** </td> 
        <td> $(n^{[1]},12288)$ </td> 
        <td> $(n^{[1]},1)$ </td> 
        <td> $Z^{[1]} = W^{[1]}  X + b^{[1]} $ </td> 
        
        <td> $(n^{[1]},209)$ </td> 
    <tr>
    
    <tr>
        <td> **Layer 2** </td> 
        <td> $(n^{[2]}, n^{[1]})$  </td> 
        <td> $(n^{[2]},1)$ </td> 
        <td>$Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]}$ </td> 
        <td> $(n^{[2]}, 209)$ </td> 
    <tr>
   
       <tr>
        <td> $\vdots$ </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$  </td> 
        <td> $\vdots$</td> 
        <td> $\vdots$  </td> 
    <tr>
    
   <tr>
        <td> **Layer L-1** </td> 
        <td> $(n^{[L-1]}, n^{[L-2]})$ </td> 
        <td> $(n^{[L-1]}, 1)$  </td> 
        <td>$Z^{[L-1]} =  W^{[L-1]} A^{[L-2]} + b^{[L-1]}$ </td> 
        <td> $(n^{[L-1]}, 209)$ </td> 
    <tr>
    
    
   <tr>
        <td> **Layer L** </td> 
        <td> $(n^{[L]}, n^{[L-1]})$ </td> 
        <td> $(n^{[L]}, 1)$ </td>
        <td> $Z^{[L]} =  W^{[L]} A^{[L-1]} + b^{[L]}$</td>
        <td> $(n^{[L]}, 209)$  </td> 
    <tr>

</table>

回顾一下，当我们使用numpy计算 $W X + b$ 时，它会使用广播机制。例如，如果： 

$$ W = \begin{bmatrix}
    j  & k  & l\\
    m  & n & o \\
    p  & q & r 
\end{bmatrix}\;\;\; X = \begin{bmatrix}
    a  & b  & c\\
    d  & e & f \\
    g  & h & i 
\end{bmatrix} \;\;\; b =\begin{bmatrix}
    s  \\
    t  \\
    u
\end{bmatrix}\tag{2}$$

那么 $WX + b$ 的结果是：

$$ WX + b = \begin{bmatrix}
    (ja + kd + lg) + s  & (jb + ke + lh) + s  & (jc + kf + li)+ s\\
    (ma + nd + og) + t & (mb + ne + oh) + t & (mc + nf + oi) + t\\
    (pa + qd + rg) + u & (pb + qe + rh) + u & (pc + qf + ri)+ u
\end{bmatrix}\tag{3}  $$

**练习**: 实现L层神经网络的参数初始化

**指令**：
- 模型的结构为 *[LINEAR -> RELU] $ \times$ (L-1) -> LINEAR -> SIGMOID*。也就是说，前 $L-1$ 层使用ReLU激活函数，而输出层使用sigmoid激活函数。
- 权重矩阵使用随机初始化。调用 `np.random.rand(shape) * 0.01`。
- 截距向量使用0值初始化。调用 `np.zeros(shape)`。
- 我们会在变量 `layer_dims` 中保存 $n^{[l]}$，也即不同层神经元的数量。
- 下面是 $L=1$ 时的实现。可以根据这个例子推广到 $L$ 为任意正正数的情况
```python
    if L == 1:
        parameters["W" + str(L)] = np.random.randn(layer_dims[1], layer_dims[0]) * 0.01
        parameters["b" + str(L)] = np.zeros((layer_dims[1], 1))
```

In [4]:
# GRADED FUNCTION: initialize_parameters_deep

def initialize_parameters_deep(layer_dims):
    """
    Arguments:
    layer_dims -- python array (list) containing the dimensions of each layer in our network
    
    Returns:
    parameters -- python dictionary containing your parameters "W1", "b1", ..., "WL", "bL":
                    Wl -- weight matrix of shape (layer_dims[l], layer_dims[l-1])
                    bl -- bias vector of shape (layer_dims[l], 1)
    """
    
    np.random.seed(3)
    parameters = {}
    L = len(layer_dims)            # number of layers in the network

    for l in range(1, L):
        ### START CODE HERE ### (≈ 2 lines of code)
        parameters['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l-1]) * 0.01
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))
        ### END CODE HERE ###
        
        assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
        assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))

        
    return parameters

In [5]:
parameters = initialize_parameters_deep([5,4,3])
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]
b1 = [[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]
W2 = [[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]
b2 = [[ 0.]
 [ 0.]
 [ 0.]]


**预期输出**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td>[[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]</td> 
  </tr>
  
  <tr>
    <td>**b1** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2** </td>
    <td>[[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]</td> 
  </tr>
  
  <tr>
    <td>**b2** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
</table>

### 9.4 前向传播模块

#### 9.4.1 线性前向传播 
有了初始化的参数之后，就可以开始开发前向传播的模块。首先我们需要按顺序实现一些基本的函数：

- LINEAR
- LINEAR -> ACTIVATION 其中激活函数可以是 ReLU 或 Sigmoid. 
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID 整个前向传播过程

前向传播模块的计算公式是：

$$Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}\tag{4}$$

其中 $A^{[0]} = X$. 

**练习**: 构建前向传播的线性部分

In [6]:
# GRADED FUNCTION: linear_forward

def linear_forward(A, W, b):
    """
    Implement the linear part of a layer's forward propagation.

    Arguments:
    A -- activations from previous layer (or input data): (size of previous layer, number of examples)
    W -- weights matrix: numpy array of shape (size of current layer, size of previous layer)
    b -- bias vector, numpy array of shape (size of the current layer, 1)

    Returns:
    Z -- the input of the activation function, also called pre-activation parameter 
    cache -- a python dictionary containing "A", "W" and "b" ; stored for computing the backward pass efficiently
    """
    
    ### START CODE HERE ### (≈ 1 line of code)
    Z = np.dot(W, A) + b
    ### END CODE HERE ###
    
    assert(Z.shape == (W.shape[0], A.shape[1]))
    cache = (A, W, b)
    
    return Z, cache

In [7]:
A, W, b = linear_forward_test_case()

Z, linear_cache = linear_forward(A, W, b)
print("Z = " + str(Z))

Z = [[ 3.26295337 -1.23429987]]


**预期输出**:

<table style="width:35%">
  
  <tr>
    <td> **Z** </td>
    <td> [[ 3.26295337 -1.23429987]] </td> 
  </tr>
  
</table>

#### 9.4.2 线性-激活 前向传播

在这个notebook中，我们将会使用两种激活函数：

- **Sigmoid**: $\sigma(Z) = \sigma(W A + b) = \frac{1}{ 1 + e^{-(W A + b)}}$。我们已经引入了 `sigmoid` 函数。这个函数返回 **两个** 变量：激活值 "`a`" 和缓存 "`cache`"，缓存中包含了 "`Z`" (在反向传播中会用到)。按照下面的方法调用函数即可
``` python
A, activation_cache = sigmoid(Z)
```

- **ReLU**: ReLU的数学公式是 $A = RELU(Z) = max(0, Z)$。同样的， `relu` 函数已经在上面引入了，这个函数也返回 **两个** 变量：激活值 "`a`" 和缓存 "`cache`"，缓存中包含了 "`Z`" (在反向传播中会用到)。按照下面的方法调用函数即可
``` python
A, activation_cache = relu(Z)
```

为了使用方便，我们会将线性组合函数和激活函数组合成一个线性-激活函数。因此，下面的实现会首先进行线性组合，接着进行激活。

**练习**：实现 *LINEAR->ACTIVATION* 的前向传播过程。数学公式为：A^{[l]} = g(Z^{[l]}) = g(W^{[l]}A^{[l-1]} +b^{[l]})$ 其中激活函数 "g" 可以是 sigmoid() 或 relu()。调用 linear_forward() 以及相应的激活函数。

In [8]:
# GRADED FUNCTION: linear_activation_forward

def linear_activation_forward(A_prev, W, b, activation):
    """
    Implement the forward propagation for the LINEAR->ACTIVATION layer

    Arguments:
    A_prev -- activations from previous layer (or input data): (size of previous layer, number of examples)
    W -- weights matrix: numpy array of shape (size of current layer, size of previous layer)
    b -- bias vector, numpy array of shape (size of the current layer, 1)
    activation -- the activation to be used in this layer, stored as a text string: "sigmoid" or "relu"

    Returns:
    A -- the output of the activation function, also called the post-activation value 
    cache -- a python dictionary containing "linear_cache" and "activation_cache";
             stored for computing the backward pass efficiently
    """
    
    if activation == "sigmoid":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        ### START CODE HERE ### (≈ 2 lines of code)
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = sigmoid(Z)
        ### END CODE HERE ###
    
    elif activation == "relu":
        # Inputs: "A_prev, W, b". Outputs: "A, activation_cache".
        ### START CODE HERE ### (≈ 2 lines of code)
        Z, linear_cache = linear_forward(A_prev, W, b)
        A, activation_cache = relu(Z)
        ### END CODE HERE ###
    
    assert (A.shape == (W.shape[0], A_prev.shape[1]))
    cache = (linear_cache, activation_cache)

    return A, cache

In [9]:
A_prev, W, b = linear_activation_forward_test_case()

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "sigmoid")
print("With sigmoid: A = " + str(A))

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "relu")
print("With ReLU: A = " + str(A))

With sigmoid: A = [[ 0.96890023  0.11013289]]
With ReLU: A = [[ 3.43896131  0.        ]]


**预期输出**:
       
<table style="width:35%">
  <tr>
    <td> **With sigmoid: A ** </td>
    <td > [[ 0.96890023  0.11013289]]</td> 
  </tr>
  <tr>
    <td> **With ReLU: A ** </td>
    <td > [[ 3.43896131  0.        ]]</td> 
  </tr>
</table>


**注意**：在深度学习中，"[LINEAR->ACTIVATION]" 的计算过程是神经网络中的一层，而不是两层。

#### 9.4.3 L层的模型

为了L层神经网络模型的使用便利，我们需要一个函数重复上面的步骤（使用ReLU的 `linear_activation_forward`） $L-1$ 次，之后再计算一次使用SIGMOID的 `linear_activation_forward`。

<img src="img/model_architecture_kiank.png" style="width:600px;height:300px;">
<caption><center> **图 2** : *[LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* model</center></caption><br>

**练习**：实现上面这个模型的前向传播。

**指令**：在上面的代码块中，变量 `AL` 表示 $A^{[L]} = \sigma(Z^{[L]}) = \sigma(W^{[L]} A^{[L-1]} + b^{[L]})$. (有时也命名为 `Yhat`，即 $\hat{Y}$) 

**提示**:
- 使用上面实现过的函数 
- 重复 [LINEAR->RELU] (L-1) 次的过程可以使用循环
- 将每层计算产生的缓存保存在 "caches" 列表中

In [10]:
# GRADED FUNCTION: L_model_forward

def L_model_forward(X, parameters):
    """
    Implement forward propagation for the [LINEAR->RELU]*(L-1)->LINEAR->SIGMOID computation
    
    Arguments:
    X -- data, numpy array of shape (input size, number of examples)
    parameters -- output of initialize_parameters_deep()
    
    Returns:
    AL -- last post-activation value
    caches -- list of caches containing:
                every cache of linear_relu_forward() (there are L-1 of them, indexed from 0 to L-2)
                the cache of linear_sigmoid_forward() (there is one, indexed L-1)
    """

    caches = []
    A = X
    L = len(parameters) // 2                  # number of layers in the neural network
    
    # Implement [LINEAR -> RELU]*(L-1). Add "cache" to the "caches" list.
    for l in range(1, L):
        A_prev = A 
        ### START CODE HERE ### (≈ 2 lines of code)
        A, cache = linear_activation_forward(A_prev, parameters['W' + str(l)], parameters['b' + str(l)], 'relu')
        caches.append(cache)
        ### END CODE HERE ###
    
    # Implement LINEAR -> SIGMOID. Add "cache" to the "caches" list.
    ### START CODE HERE ### (≈ 2 lines of code)
    AL, cache = linear_activation_forward(A, parameters["W" + str(L)], parameters["b" + str(L)], 'sigmoid')
    caches.append(cache)
    ### END CODE HERE ###
    
    assert(AL.shape == (1,X.shape[1]))
            
    return AL, caches

In [11]:
X, parameters = L_model_forward_test_case_2hidden()
AL, caches = L_model_forward(X, parameters)
print("AL = " + str(AL))
print("Length of caches list = " + str(len(caches)))

AL = [[ 0.03921668  0.70498921  0.19734387  0.04728177]]
Length of caches list = 3


<table style="width:50%">
  <tr>
    <td> **AL** </td>
    <td > [[ 0.03921668  0.70498921  0.19734387  0.04728177]]</td> 
  </tr>
  <tr>
    <td> **Length of caches list ** </td>
    <td > 3 </td> 
  </tr>
</table>

好的，这样我们就给定输入 X 可以获得作为输出的一个行向量 $A^{[L]}$，这个向量中包含了模型的预测值。同时，所有的中间结果保存在 "caches" 变量中。使用 $A^{[L]}$ 可以计算预测的成本。