# TensorFlow 教程

欢迎来到本周的编程作业。到目前为止，你一直使用 numpy 来构建神经网络。现在我们将引导你使用一个深度学习框架，让你更轻松地构建神经网络。像 TensorFlow、PaddlePaddle、Torch、Caffe、Keras 等机器学习框架，可以显著加快你的机器学习开发速度。这些框架都有丰富的文档，你可以自由阅读。在本次作业中，你将学习在 TensorFlow 中完成以下任务：

- 初始化变量
- 启动会话
- 训练算法
- 实现神经网络

编程框架不仅能缩短你的编码时间，有时还能进行优化，提升代码运行速度。

## 1 - 探索 TensorFlow 库

首先，导入库：
```python
import tensorflow as tf


In [None]:
import math
import numpy as np
import h5py
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.python.framework import ops
from tf_utils import load_dataset, random_mini_batches, convert_to_one_hot, predict

%matplotlib inline
np.random.seed(1)

现在你已经导入了库，我们将带你了解它的不同应用。首先从一个示例开始，我们帮你计算一个训练样本的损失函数。

损失函数定义为：  
$$loss = \mathcal{L}(\hat{y}, y) = (\hat y^{(i)} - y^{(i)})^2 \tag{1}$$


In [None]:
y_hat = tf.constant(36, name='y_hat')            # Define y_hat constant. Set to 36.
y = tf.constant(39, name='y')                    # Define y. Set to 39

loss = tf.Variable((y - y_hat)**2, name='loss')  # Create a variable for the loss

init = tf.global_variables_initializer()         # When init is run later (session.run(init)),
                                                 # the loss variable will be initialized and ready to be computed
with tf.Session() as session:                    # Create a session and print the output
    session.run(init)                            # Initializes the variables
    print(session.run(loss))                     # Prints the loss

在TensorFlow中编写和运行程序通常包括以下步骤：

1. 创建尚未执行/计算的张量（变量）。
2. 编写这些张量之间的操作。
3. 初始化你的张量。
4. 创建一个会话（Session）。
5. 运行会话，执行之前定义的操作。

因此，当我们创建一个表示损失的变量时，我们实际上只是定义了损失作为其他量的函数，但并没有计算它的值。为了计算它的值，我们需要运行 `init = tf.global_variables_initializer()` 来初始化变量，最后通过运行会话才能得到 `loss` 的具体数值并打印出来。

现在，我们来看一个简单的例子。请运行下面的代码单元：


In [None]:
a = tf.constant(2)
b = tf.constant(10)
c = tf.multiply(a,b)
print(c)

正如预期的那样，你不会直接看到数字20！你得到的是一个张量（tensor），提示这个结果是一个没有形状属性的张量，类型是“int32”。这说明你只是构建了“计算图”（computation graph），但还没有真正执行这段计算。

为了真正进行乘法运算，你需要创建一个会话（session）并运行它。


In [None]:
sess = tf.Session()
print(sess.run(c))

太好了！总结一下，**记得初始化变量，创建会话，并在会话中运行操作**。

接下来，你还需要了解占位符（placeholder）。占位符是一个你可以稍后指定值的对象。  
要为占位符指定值，可以使用“喂入字典”（feed dictionary，`feed_dict`变量）。下面我们创建了一个占位符 `x`，这让我们在运行会话时可以传入具体的数值。


In [None]:
# Change the value of x in the feed_dict

x = tf.placeholder(tf.int64, name = 'x')
print(sess.run(2 * x, feed_dict = {x: 3}))
sess.close()

当你第一次定义 `x` 的时候，不需要给它指定具体的值。占位符本质上是一个变量，你会在运行会话（session）时才给它赋值。我们称这个过程为**给占位符“喂数据”**。

这里发生的事情是：当你定义计算所需的操作时，你是在告诉 TensorFlow 如何构建计算图（computation graph）。计算图中可以包含一些占位符，这些占位符的值你会在之后指定。最终，当你运行会话时，你是在告诉 TensorFlow 执行这个计算图。


### 1.1 - 线性函数

让我们开始这个编程练习，计算以下方程：$Y = WX + b$，其中 $W$ 和 $X$ 是随机矩阵，$b$ 是随机向量。

**练习**：计算 $WX + b$，其中 $W, X$ 和 $b$ 都是从正态分布中随机生成的。$W$ 的形状是 (4, 3)，$X$ 是 (3, 1)，$b$ 是 (4, 1)。例如，下面是如何定义一个形状为 (3,1) 的常量 $X$：
```python
X = tf.constant(np.random.randn(3,1), name = "X")

```
你可能会用到以下函数：

- tf.matmul(..., ...) 用于矩阵乘法
- tf.add(..., ...) 用于加法运算
- np.random.randn(...) 用于随机初始化


In [None]:
# GRADED FUNCTION: linear_function

def linear_function():
    """
    Implements a linear function: 
            Initializes W to be a random tensor of shape (4,3)
            Initializes X to be a random tensor of shape (3,1)
            Initializes b to be a random tensor of shape (4,1)
    Returns: 
    result -- runs the session for Y = WX + b 
    """
    
    np.random.seed(1)
    
    ### START CODE HERE ### (4 lines of code)

    
    
    
    ### END CODE HERE ### 
    
    # Create the session using tf.Session() and run it with sess.run(...) on the variable you want to calculate
    
    ### START CODE HERE ###

    
    ### END CODE HERE ### 
    
    # close the session 
    sess.close()

    return result

In [None]:
print( "result = " + str(linear_function()))

*** Expected Output ***: 

<table> 
<tr> 
<td>
**result**
</td>
<td>
[[-2.15657382]
 [ 2.95891446]
 [-1.08926781]
 [-0.84538042]]
</td>
</tr> 

</table> 

### 1.2 - 计算 sigmoid 函数

很好！你刚刚实现了一个线性函数。TensorFlow 提供了许多常用的神经网络函数，比如 `tf.sigmoid` 和 `tf.softmax`。在这个练习中，我们将计算输入的 sigmoid 函数。

你需要使用一个占位符变量 `x`。在运行 session 时，应该使用 feed dictionary 传入输入 `z`。在这个练习中，你需要 (i) 创建一个占位符 `x`，(ii) 使用 `tf.sigmoid` 定义计算 sigmoid 的操作，然后 (iii) 运行 session。

**练习**：在下面实现 sigmoid 函数。你应该使用以下函数：

- `tf.placeholder(tf.float32, name = "...")`
- `tf.sigmoid(...)`
- `sess.run(..., feed_dict = {x: z})`

注意，TensorFlow 中创建和使用 session 有两种常见方式：

**方式一：**
```python
sess = tf.Session()
# 如果需要，运行变量初始化，然后执行操作
result = sess.run(..., feed_dict = {...})
sess.close()  # 关闭 session
```
**方式二：**
```python
with tf.Session() as sess: 
    # 如果需要，运行变量初始化，然后执行操作
    result = sess.run(..., feed_dict = {...})
    # 这样会自动帮你关闭 sessio```n :)



In [None]:
# GRADED FUNCTION: sigmoid

def sigmoid(z):
    """
    Computes the sigmoid of z
    
    Arguments:
    z -- input value, scalar or vector
    
    Returns: 
    results -- the sigmoid of z
    """
    
    ### START CODE HERE ### ( approx. 4 lines of code)
    # Create a placeholder for x. Name it 'x'.

    
    # compute sigmoid(x)

    
    # Create a session, and run it. Please use the method 2 explained above. 
    # You should use a feed_dict to pass z's value to x. 

        # Run session and call the output "result"

        
    ### END CODE HERE ###
    
    return result

In [None]:
print ("sigmoid(0) = " + str(sigmoid(0)))
print ("sigmoid(12) = " + str(sigmoid(12)))

*** Expected Output ***: 

<table> 
<tr> 
<td>
**sigmoid(0)**
</td>
<td>
0.5
</td>
</tr>
<tr> 
<td>
**sigmoid(12)**
</td>
<td>
0.999994
</td>
</tr> 

</table> 

<font color='blue'>
    
**总结一下，你现在已经掌握如何**：
1. 创建占位符（placeholders）
2. 指定对应你想计算的操作的计算图（computation graph）
3. 创建会话（session）
4. 运行会话（session），必要时使用 feed dictionary 来为占位符变量指定值
</font>


### 1.3 - 计算代价函数（Cost）

你也可以使用内置函数来计算神经网络的代价函数。所以，不必自己写代码去计算以下表达式，针对每个样本 $i=1,...,m$：
$$ J = - \frac{1}{m}  \sum_{i = 1}^m  \left( y^{(i)} \log a^{[2](i)} + (1-y^{(i)}) \log (1 - a^{[2](i)}) \right) \tag{2}$$

你可以用 TensorFlow 一行代码实现它！

**练习**：实现交叉熵损失函数。你将使用的函数是：

- `tf.nn.sigmoid_cross_entropy_with_logits(logits = ..., labels = ...)`

你的代码应当输入 `z`，计算 sigmoid （得到 `a`），然后计算交叉熵代价 $J$。这可以通过调用 `tf.nn.sigmoid_cross_entropy_with_logits` 一步完成，它计算的就是：

$$ - \frac{1}{m} \sum_{i=1}^m \left( y^{(i)} \log \sigma(z^{[2](i)}) + (1 - y^{(i)}) \log (1 - \sigma(z^{[2](i)})) \right) \tag{2} $$


In [None]:
# GRADED FUNCTION: cost

def cost(logits, labels):
    """
    Computes the cost using the sigmoid cross entropy
    
    Arguments:
    logits -- vector containing z, output of the last linear unit (before the final sigmoid activation)
    labels -- vector of labels y (1 or 0) 
    
    Note: What we've been calling "z" and "y" in this class are respectively called "logits" and "labels" 
    in the TensorFlow documentation. So logits will feed into z, and labels into y. 
    
    Returns:
    cost -- runs the session of the cost (formula (2))
    """
    
    ### START CODE HERE ### 
    
    # Create the placeholders for "logits" (z) and "labels" (y) (approx. 2 lines)


    
    # Use the loss function (approx. 1 line)

    
    # Create a session (approx. 1 line). See method 1 above.

    
    # Run the session (approx. 1 line).

    
    # Close the session (approx. 1 line). See method 1 above.

    
    ### END CODE HERE ###
    
    return cost

In [None]:
logits = sigmoid(np.array([0.2,0.4,0.7,0.9]))
cost = cost(logits, np.array([0,0,1,1]))
print ("cost = " + str(cost))

** Expected Output** : 

<table> 
    <tr> 
        <td>
            **cost**
        </td>
        <td>
        [ 1.00538719  1.03664088  0.41385433  0.39956614]
        </td>
    </tr>

</table>

### 1.4 - 使用 One Hot 编码

在深度学习中，标签向量 y 通常是从 0 到 C-1 的数字组成，其中 C 是类别数量。例如当 C=4 时，你可能有如下的 y 向量，需要转换成如下形式：

<img src="images/onehot.png" style="width:600px;height:150px;">

这种转换叫做“one hot”编码，因为转换后，每列只有一个元素是“热”的（即值为1）。在 numpy 中，你可能需要写几行代码才能实现，但在 TensorFlow 中，只需一行代码：

- `tf.one_hot(labels, depth, axis)`

**练习**：实现下面的函数，输入标签向量和类别总数 C，返回 one hot 编码。请使用 `tf.one_hot()` 实现。


In [None]:
# GRADED FUNCTION: one_hot_matrix

def one_hot_matrix(labels, C):
    """
    Creates a matrix where the i-th row corresponds to the ith class number and the jth column
                     corresponds to the jth training example. So if example j had a label i. Then entry (i,j) 
                     will be 1. 
                     
    Arguments:
    labels -- vector containing the labels 
    C -- number of classes, the depth of the one hot dimension
    
    Returns: 
    one_hot -- one hot matrix
    """
    
    ### START CODE HERE ###
    
    # Create a tf.constant equal to C (depth), name it 'C'. (approx. 1 line)

    
    # Use tf.one_hot, be careful with the axis (approx. 1 line)

    
    # Create the session (approx. 1 line)

    
    # Run the session (approx. 1 line)

    
    # Close the session (approx. 1 line). See method 1 above.

    
    ### END CODE HERE ###
    
    return one_hot

In [None]:
labels = np.array([1,2,3,0,2,1])
one_hot = one_hot_matrix(labels, C = 4)
print ("one_hot = " + str(one_hot))

**Expected Output**: 

<table> 
    <tr> 
        <td>
            **one_hot**
        </td>
        <td>
        [[ 0.  0.  0.  1.  0.  0.]
 [ 1.  0.  0.  0.  0.  1.]
 [ 0.  1.  0.  0.  1.  0.]
 [ 0.  0.  1.  0.  0.  0.]]
        </td>
    </tr>

</table>


### 1.5 - 用零和一初始化

现在你将学习如何初始化全零或全一的向量。你会用到的函数是 `tf.ones()`。如果要初始化全零，可以用 `tf.zeros()`。这些函数接受一个形状（shape），返回对应维度的全零或全一数组。

**练习**：实现下面的函数，输入一个形状（shape），返回一个对应形状的全一数组。

- `tf.ones(shape)`


In [None]:
# GRADED FUNCTION: ones

def ones(shape):
    """
    Creates an array of ones of dimension shape
    
    Arguments:
    shape -- shape of the array you want to create
        
    Returns: 
    ones -- array containing only ones
    """
    
    ### START CODE HERE ###
    
    # Create "ones" tensor using tf.ones(...). (approx. 1 line)

    
    # Create the session (approx. 1 line)

    
    # Run the session to compute 'ones' (approx. 1 line)

    
    # Close the session (approx. 1 line). See method 1 above.

    
    ### END CODE HERE ###
    return ones

In [None]:
print ("ones = " + str(ones([3])))

**Expected Output:**

<table> 
    <tr> 
        <td>
            **ones**
        </td>
        <td>
        [ 1.  1.  1.]
        </td>
    </tr>

</table>

# 2 - 用 TensorFlow 构建你的第一个神经网络

在本部分作业中，你将使用 TensorFlow 构建一个神经网络。请记住，使用 TensorFlow 实现模型有两个步骤：

- 创建计算图（Computation Graph）
- 运行计算图（Run the Graph）

让我们先了解你将要解决的问题！

### 2.0 - 问题描述：SIGNS 数据集

某天下午，我和朋友们决定教计算机识别手语。我们花了几个小时在白墙前拍照，收集了如下数据集。你的任务是构建一个算法，帮助言语障碍者与不懂手语的人沟通。

- **训练集**：1080 张图片，每张64×64像素，表示数字 0 到 5 的手势（每个数字180张图片）。
- **测试集**：120 张图片，每张64×64像素，表示数字 0 到 5 的手势（每个数字20张图片）。

注意，这只是 SIGNS 数据集的一个子集，完整数据集包含更多手势。

以下是每个数字的样例图片，以及我们如何表示标签的说明。这些是原始图片，分辨率较高，未缩小到64×64像素。
<img src="images/hands.png" style="width:800px;height:350px;">
<caption><center> <u><font color='purple'> **图1** </u><font color='purple'>：SIGNS 数据集示例<br> <font color='black'> </center>

运行下面的代码加载数据集。


In [None]:
# Loading the dataset
X_train_orig, Y_train_orig, X_test_orig, Y_test_orig, classes = load_dataset()

Change the index below and run the cell to visualize some examples in the dataset.

In [None]:
# Example of a picture
index = 70
plt.imshow(X_train_orig[index])
print ("y = " + str(np.squeeze(Y_train_orig[:, index])))

As usual you flatten the image dataset, then normalize it by dividing by 255. On top of that, you will convert each label to a one-hot vector as shown in Figure 1. Run the cell below to do so.

In [None]:
# Flatten the training and test images
X_train_flatten = X_train_orig.reshape(X_train_orig.shape[0], -1).T
X_test_flatten = X_test_orig.reshape(X_test_orig.shape[0], -1).T
# Normalize image vectors
X_train = X_train_flatten/255.
X_test = X_test_flatten/255.
# Convert training and test labels to one hot matrices
Y_train = convert_to_one_hot(Y_train_orig, 6)
Y_test = convert_to_one_hot(Y_test_orig, 6)

print ("number of training examples = " + str(X_train.shape[1]))
print ("number of test examples = " + str(X_test.shape[1]))
print ("X_train shape: " + str(X_train.shape))
print ("Y_train shape: " + str(Y_train.shape))
print ("X_test shape: " + str(X_test.shape))
print ("Y_test shape: " + str(Y_test.shape))

**注意**，12288 来自于 $64 \times 64 \times 3$。每张图片是一个 64×64 像素的正方形，3 代表 RGB 三个颜色通道。请确保你理解这些形状的含义，再继续下一步操作。


**你的目标** 是构建一个能够高准确率识别手势的算法。为此，你将构建一个与之前用 numpy 实现的猫识别模型几乎相同的 TensorFlow 模型（但现在输出层用的是 softmax）。这是一个很好的机会来比较你用 numpy 实现的模型和 TensorFlow 实现的异同。

**模型结构** 是 *LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SOFTMAX*。原来的 SIGMOID 输出层被替换成了 SOFTMAX。SOFTMAX 层是 SIGMOID 在多分类问题上的推广。


### 2.1 - 创建占位符（placeholders）

你的第一个任务是为 `X` 和 `Y` 创建占位符（placeholders）。这将允许你在运行 session 时传入训练数据。

**练习：** 请实现下面的函数，在 TensorFlow 中创建占位符。


In [None]:
# GRADED FUNCTION: create_placeholders

def create_placeholders(n_x, n_y):
    """
    Creates the placeholders for the tensorflow session.
    
    Arguments:
    n_x -- scalar, size of an image vector (num_px * num_px = 64 * 64 * 3 = 12288)
    n_y -- scalar, number of classes (from 0 to 5, so -> 6)
    
    Returns:
    X -- placeholder for the data input, of shape [n_x, None] and dtype "float"
    Y -- placeholder for the input labels, of shape [n_y, None] and dtype "float"
    
    Tips:
    - You will use None because it let's us be flexible on the number of examples you will for the placeholders.
      In fact, the number of examples during test/train is different.
    """

    ### START CODE HERE ### (approx. 2 lines)


    ### END CODE HERE ###
    
    return X, Y

In [None]:
X, Y = create_placeholders(12288, 6)
print ("X = " + str(X))
print ("Y = " + str(Y))

**Expected Output**: 

<table> 
    <tr> 
        <td>
            **X**
        </td>
        <td>
        Tensor("Placeholder_1:0", shape=(12288, ?), dtype=float32) (not necessarily Placeholder_1)
        </td>
    </tr>
    <tr> 
        <td>
            **Y**
        </td>
        <td>
        Tensor("Placeholder_2:0", shape=(10, ?), dtype=float32) (not necessarily Placeholder_2)
        </td>
    </tr>

</table>

### 2.2 - 初始化参数

你的第二个任务是在 TensorFlow 中初始化参数。

**练习：** 请实现下面的函数，使用 Xavier 初始化权重，使用零初始化偏置。参数形状如下。举例来说，初始化 W1 和 b1 可以用：

```python
W1 = tf.get_variable("W1", [25, 12288], initializer=tf.contrib.layers.xavier_initializer(seed=1))
b1 = tf.get_variable("b1", [25, 1], initializer=tf.zeros_initializer())
```
请使用 seed=1，以确保结果与你的保持一致。

In [None]:
# GRADED FUNCTION: initialize_parameters

def initialize_parameters():
    """
    Initializes parameters to build a neural network with tensorflow. The shapes are:
                        W1 : [25, 12288]
                        b1 : [25, 1]
                        W2 : [12, 25]
                        b2 : [12, 1]
                        W3 : [6, 12]
                        b3 : [6, 1]
    
    Returns:
    parameters -- a dictionary of tensors containing W1, b1, W2, b2, W3, b3
    """
    
    tf.set_random_seed(1)                   # so that your "random" numbers match ours
        
    ### START CODE HERE ### (approx. 6 lines of code)

    
    
    
    
    
    ### END CODE HERE ###

    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2,
                  "W3": W3,
                  "b3": b3}
    
    return parameters

In [None]:
tf.reset_default_graph()
with tf.Session() as sess:
    parameters = initialize_parameters()
    print("W1 = " + str(parameters["W1"]))
    print("b1 = " + str(parameters["b1"]))
    print("W2 = " + str(parameters["W2"]))
    print("b2 = " + str(parameters["b2"]))

**Expected Output**: 

<table> 
    <tr> 
        <td>
            **W1**
        </td>
        <td>
         < tf.Variable 'W1:0' shape=(25, 12288) dtype=float32_ref >
        </td>
    </tr>
    <tr> 
        <td>
            **b1**
        </td>
        <td>
        < tf.Variable 'b1:0' shape=(25, 1) dtype=float32_ref >
        </td>
    </tr>
    <tr> 
        <td>
            **W2**
        </td>
        <td>
        < tf.Variable 'W2:0' shape=(12, 25) dtype=float32_ref >
        </td>
    </tr>
    <tr> 
        <td>
            **b2**
        </td>
        <td>
        < tf.Variable 'b2:0' shape=(12, 1) dtype=float32_ref >
        </td>
    </tr>

</table>

如预期，参数还没有被计算（评估）。


### 2.3 - Tensorflow中的前向传播

现在你将实现tensorflow中的前向传播模块。该函数将接收一个参数字典，并完成前向传播。你将使用以下函数：

- `tf.add(...,...)` 进行加法运算
- `tf.matmul(...,...)` 进行矩阵乘法
- `tf.nn.relu(...)` 应用ReLU激活函数

**问题**：实现神经网络的前向传播。我们为你注释了对应的numpy代码，方便你比较tensorflow和numpy的实现。需要注意的是，前向传播在`z3`处停止。原因是tensorflow中最后一层线性输出会作为计算损失的输入，因此不需要计算`a3`！


In [None]:
# GRADED FUNCTION: forward_propagation

def forward_propagation(X, parameters):
    """
    Implements the forward propagation for the model: LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SOFTMAX
    
    Arguments:
    X -- input dataset placeholder, of shape (input size, number of examples)
    parameters -- python dictionary containing your parameters "W1", "b1", "W2", "b2", "W3", "b3"
                  the shapes are given in initialize_parameters

    Returns:
    Z3 -- the output of the last LINEAR unit
    """
    
    # Retrieve the parameters from the dictionary "parameters" 
    W1 = parameters['W1']
    b1 = parameters['b1']
    W2 = parameters['W2']
    b2 = parameters['b2']
    W3 = parameters['W3']
    b3 = parameters['b3']
    
    ### START CODE HERE ### (approx. 5 lines)              # Numpy Equivalents:

    
    
    
    
    ### END CODE HERE ###
    
    return Z3

In [None]:
tf.reset_default_graph()

with tf.Session() as sess:
    X, Y = create_placeholders(12288, 6)
    parameters = initialize_parameters()
    Z3 = forward_propagation(X, parameters)
    print("Z3 = " + str(Z3))

**Expected Output**: 

<table> 
    <tr> 
        <td>
            **Z3**
        </td>
        <td>
        Tensor("Add_2:0", shape=(6, ?), dtype=float32)
        </td>
    </tr>

</table>

你可能注意到前向传播并没有输出任何缓存（cache）。你将在后面讲解反向传播的时候理解为什么会这样。


### 2.4 计算代价

如前所述，使用以下方法计算代价非常简单：
```python
tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits = ..., labels = ...))
```
**问题**：请实现下面的代价函数。  
- 需要注意的是，`tf.nn.softmax_cross_entropy_with_logits` 的输入 "`logits`" 和 "`labels`" 期望的形状是（样本数量，类别数）。因此我们已经帮你对 Z3 和 Y 做了转置。  
- 此外，`tf.reduce_mean` 基本上是对所有样本求平均（即对样本求和再除以样本数）。


In [None]:
# GRADED FUNCTION: compute_cost 

def compute_cost(Z3, Y):
    """
    Computes the cost
    
    Arguments:
    Z3 -- output of forward propagation (output of the last LINEAR unit), of shape (6, number of examples)
    Y -- "true" labels vector placeholder, same shape as Z3
    
    Returns:
    cost - Tensor of the cost function
    """
    
    # to fit the tensorflow requirement for tf.nn.softmax_cross_entropy_with_logits(...,...)
    logits = tf.transpose(Z3)
    labels = tf.transpose(Y)
    
    ### START CODE HERE ### (1 line of code)

    ### END CODE HERE ###
    
    return cost

In [None]:
tf.reset_default_graph()

with tf.Session() as sess:
    X, Y = create_placeholders(12288, 6)
    parameters = initialize_parameters()
    Z3 = forward_propagation(X, parameters)
    cost = compute_cost(Z3, Y)
    print("cost = " + str(cost))

**Expected Output**: 

<table> 
    <tr> 
        <td>
            **cost**
        </td>
        <td>
        Tensor("Mean:0", shape=(), dtype=float32)
        </td>
    </tr>

</table>

### 2.5 - 反向传播与参数更新

这就是你会感谢编程框架的地方。所有的反向传播和参数更新，都只需一行代码即可完成。将这行代码整合到模型中非常简单。

在计算完代价函数后，你将创建一个 "`optimizer`" 对象。运行 `tf.session` 时，需要调用这个对象和代价函数。调用时，它会使用所选的方法和学习率对代价进行优化。

例如，对于梯度下降，优化器代码为：
```python
optimizer = tf.train.GradientDescentOptimizer(learning_rate = learning_rate).minimize(cost)
```
执行优化时，可以这样写：
```python
_ , c = sess.run([optimizer, cost], feed_dict={X: minibatch_X, Y: minibatch_Y}```

这段代码通过反向传递计算反向传播，即按反向顺序通过 TensorFlow 计算图，从代价传递到输入。

**注意** 编程时，我们常用 `_` 作为“丢弃”变量，用来存储那些后续不再使用的值。这里，`_` 接收了 `optimizer` 的计算结果（我们不需要它），而 `c` 则接收了 `cost` 的

)



### 2.6 - 构建模型

现在，你将把所有内容整合在一起！

**练习：** 实现该模型。你将调用之前实现的函数。


In [None]:
def model(X_train, Y_train, X_test, Y_test, learning_rate = 0.0001,
          num_epochs = 1500, minibatch_size = 32, print_cost = True):
    """
    Implements a three-layer tensorflow neural network: LINEAR->RELU->LINEAR->RELU->LINEAR->SOFTMAX.
    
    Arguments:
    X_train -- training set, of shape (input size = 12288, number of training examples = 1080)
    Y_train -- test set, of shape (output size = 6, number of training examples = 1080)
    X_test -- training set, of shape (input size = 12288, number of training examples = 120)
    Y_test -- test set, of shape (output size = 6, number of test examples = 120)
    learning_rate -- learning rate of the optimization
    num_epochs -- number of epochs of the optimization loop
    minibatch_size -- size of a minibatch
    print_cost -- True to print the cost every 100 epochs
    
    Returns:
    parameters -- parameters learnt by the model. They can then be used to predict.
    """
    
    ops.reset_default_graph()                         # to be able to rerun the model without overwriting tf variables
    tf.set_random_seed(1)                             # to keep consistent results
    seed = 3                                          # to keep consistent results
    (n_x, m) = X_train.shape                          # (n_x: input size, m : number of examples in the train set)
    n_y = Y_train.shape[0]                            # n_y : output size
    costs = []                                        # To keep track of the cost
    
    # Create Placeholders of shape (n_x, n_y)
    ### START CODE HERE ### (1 line)

    ### END CODE HERE ###

    # Initialize parameters
    ### START CODE HERE ### (1 line)

    ### END CODE HERE ###
    
    # Forward propagation: Build the forward propagation in the tensorflow graph
    ### START CODE HERE ### (1 line)

    ### END CODE HERE ###
    
    # Cost function: Add cost function to tensorflow graph
    ### START CODE HERE ### (1 line)

    ### END CODE HERE ###
    
    # Backpropagation: Define the tensorflow optimizer. Use an AdamOptimizer.
    ### START CODE HERE ### (1 line)

    ### END CODE HERE ###
    
    # Initialize all the variables
    init = tf.global_variables_initializer()

    # Start the session to compute the tensorflow graph
    with tf.Session() as sess:
        
        # Run the initialization
        sess.run(init)
        
        # Do the training loop
        for epoch in range(num_epochs):

            epoch_cost = 0.                       # Defines a cost related to an epoch
            num_minibatches = int(m / minibatch_size) # number of minibatches of size minibatch_size in the train set
            seed = seed + 1
            minibatches = random_mini_batches(X_train, Y_train, minibatch_size, seed)

            for minibatch in minibatches:

                # Select a minibatch
                (minibatch_X, minibatch_Y) = minibatch
                
                # IMPORTANT: The line that runs the graph on a minibatch.
                # Run the session to execute the "optimizer" and the "cost", the feedict should contain a minibatch for (X,Y).
                ### START CODE HERE ### (1 line)

                ### END CODE HERE ###
                
                epoch_cost += minibatch_cost / num_minibatches

            # Print the cost every epoch
            if print_cost == True and epoch % 100 == 0:
                print ("Cost after epoch %i: %f" % (epoch, epoch_cost))
            if print_cost == True and epoch % 5 == 0:
                costs.append(epoch_cost)
                
        # plot the cost
        plt.plot(np.squeeze(costs))
        plt.ylabel('cost')
        plt.xlabel('iterations (per tens)')
        plt.title("Learning rate =" + str(learning_rate))
        plt.show()

        # lets save the parameters in a variable
        parameters = sess.run(parameters)
        print ("Parameters have been trained!")

        # Calculate the correct predictions
        correct_prediction = tf.equal(tf.argmax(Z3), tf.argmax(Y))

        # Calculate accuracy on the test set
        accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))

        print ("Train Accuracy:", accuracy.eval({X: X_train, Y: Y_train}))
        print ("Test Accuracy:", accuracy.eval({X: X_test, Y: Y_test}))
        
        return parameters

运行以下单元格来训练你的模型！在我们的机器上大约需要 5 分钟。你的“第 100 轮训练后的代价”应为 1.016458。如果不是，不要浪费时间；点击笔记本上方栏的停止按钮（⬛）中断训练，然后尝试修正你的代码。如果代价正确，休息一下，5 分钟后再回来继续！


In [None]:
parameters = model(X_train, Y_train, X_test, Y_test)

**预期输出**：

<table> 
    <tr> 
        <td>
            **训练准确率**
        </td>
        <td>
        0.999074
        </td>
    </tr>
    <tr> 
        <td>
            **测试准确率**
        </td>
        <td>
        0.716667
        </td>
    </tr>
</table>

太棒了，你的算法能够以71.7%的准确率识别表示数字0到5的符号。

**见解**：  
- 你的模型看起来足够大，可以很好地拟合训练集。然而，鉴于训练准确率和测试准确率的差异，你可以尝试添加 L2 或 dropout 正则化来减少过拟合。  
- 可以把 session 理解为一个用于训练模型的代码块。每次你在一个小批量数据上运行 session，都会训练模型参数。总共运行了大量次数（1500个epoch），直到得到训练良好的参数。


你确实值得一个“点赞”，尽管如你所见，算法似乎分类错误。原因是训练集中并不包含任何“竖起大拇指”的样本，因此模型不知道如何处理它！我们称这种情况为“数据分布不匹配”，这是下一门课程《结构化机器学习项目》中会讲到的各种问题之一。


<font color='blue'>
    
**你应该记住的内容**：  
- TensorFlow 是深度学习中使用的编程框架  
- TensorFlow 中两个主要的对象类型是张量（Tensors）和操作（Operators）  
- 使用 TensorFlow 编程时需要以下步骤：  
    - 创建包含张量（变量、占位符等）和操作（如 tf.matmul、tf.add 等）的计算图  
    - 创建会话（session）  
    - 初始化会话  
    - 运行会话以执行计算图  
- 正如你在 model() 中看到的，可以多次执行同一个计算图  
- 当在 “optimizer” 对象上运行会话时，反向传播和优化会自动完成  
</font>
