# 残差网络（Residual Networks）

欢迎来到本周的第二个作业！在本次作业中，你将学习如何构建非常深的卷积神经网络，使用残差网络（ResNets）。理论上，非常深的网络可以表示非常复杂的函数；但在实践中，它们很难训练。由 [He 等人](https://arxiv.org/pdf/1512.03385.pdf) 提出的残差网络，使你可以训练比以往更深的网络。

**在本作业中，你将：**
- 实现 ResNets 的基本构建模块。
- 将这些模块组合起来，实现并训练一个用于图像分类的先进神经网络。

本作业将使用 Keras 完成。

在开始之前，先运行下面的代码以加载所需的包。


In [None]:
import numpy as np
from keras import layers
from keras.layers import Input, Add, Dense, Activation, ZeroPadding2D, BatchNormalization, Flatten, Conv2D, AveragePooling2D, MaxPooling2D, GlobalMaxPooling2D
from keras.models import Model, load_model
from keras.preprocessing import image
from keras.utils import layer_utils
from keras.utils.data_utils import get_file
from keras.applications.imagenet_utils import preprocess_input
import pydot
from IPython.display import SVG
from keras.utils.vis_utils import model_to_dot
from keras.utils import plot_model
from resnets_utils import *
from keras.initializers import glorot_uniform
import scipy.misc
from matplotlib.pyplot import imshow
%matplotlib inline

import keras.backend as K
K.set_image_data_format('channels_last')
K.set_learning_phase(1)

## 1 - 非常深的神经网络问题

上周，你构建了你的第一个卷积神经网络。近年来，神经网络越来越深，最先进的网络从最初的几层（例如 AlexNet）发展到上百层甚至更多。

### 深度网络的优势
非常深的网络主要优势在于：
1. **表示能力强**：可以拟合非常复杂的函数。
2. **特征学习层次丰富**：  
   - 较浅的层学习低级特征，例如边缘（edges）。  
   - 较深的层学习高级特征，例如对象的复杂结构或纹理。  

### 深度网络的训练难点
尽管深层网络能力强，但**更深的网络并不总是效果更好**。主要障碍是 **梯度消失（vanishing gradients）**：

- 在深层网络中，梯度信号在向前传播和反向传播时可能迅速衰减为零。
- 在梯度下降训练过程中，当你从最后一层反向传播到第一层时，每一步都会与权重矩阵相乘，因此梯度可能指数级衰减（vanishing）或在少数情况下指数级增长（exploding）。

### 梯度消失的表现
- 在训练过程中，你可能会观察到**前几层梯度的大小（或范数）迅速变为零**，导致梯度下降几乎无法更新这些层的权重。
- 这会使得训练非常缓慢甚至陷入停滞。

> 小结：非常深的神经网络可以学习复杂的特征，但梯度消失问题会阻碍前几层权重的有效更新，需要特殊的网络结构或训练技巧来解决。


<img src="images/vanishing_grad_kiank.png" style="width:450px;height:220px;">
<caption><center> 
<u> <font color='purple'> **图 1** </u><font color='purple'> ：**梯度消失示意图** <br> 
随着网络训练，前几层的学习速度会非常迅速地下降
</center></caption>

---

### 解决梯度消失问题：残差网络（Residual Network, ResNet）

- 如图 1 所示，普通深度神经网络在训练时，前几层的梯度会迅速减小，导致学习变慢。
- 为了解决这个问题，我们可以使用 **残差网络（ResNet）**：
  1. ResNet 通过 **残差模块（residual block）** 引入跳跃连接（skip connections）。
  2. 这些跳跃连接允许梯度直接沿着网络向前或向后传播，**缓解梯度消失**。
  3. 这样，即使网络非常深，也能保持前几层的有效学习。
  
> 小结：接下来，我们将通过构建 ResNet，学习如何训练非常深的卷积神经网络，同时避免梯度消失的问题。


## 2 - 构建残差网络（Residual Network, ResNet）

在 ResNet 中，**“捷径（shortcut）”或“跳跃连接（skip connection）”** 允许梯度直接反向传播到前面的层，从而缓解梯度消失问题：  

<img src="images/skip_connection_kiank.png" style="width:650px;height:200px;">
<caption><center> 
<u> <font color='purple'> **图 2** </u><font color='purple'> ：一个 ResNet 模块示意图，展示了 **跳跃连接** <br> 
</center></caption>

---

### 图示解读
- 左侧图：表示网络的“主路径”（main path）。
- 右侧图：在主路径上添加了一个跳跃连接（shortcut）。
- 通过将这样的 ResNet 模块堆叠起来，就可以形成一个**非常深的网络**。

---

### ResNet 模块的优势
1. **轻松学习恒等映射（identity function）**：
   - 如果某个模块只需要输出等于输入，跳跃连接可以让网络直接实现恒等映射。
   - 这意味着即使堆叠更多的模块，也不会损害训练集性能。
2. **缓解梯度消失**：
   - 跳跃连接允许梯度直


### 2.1 - 恒等块（Identity Block）

**恒等块**是 ResNet 中标准的模块，用于输入激活（$a^{[l]}$）和输出激活（$a^{[l+2]}$）**维度相同**的情况。  

#### 模块示意图

<img src="images/idblock2_kiank.png" style="width:650px;height:150px;">
<caption><center> 
<u> <font color='purple'> **图 3** </u><font color='purple'> ：恒等块示意图。跳跃连接（shortcut）“跨越”2层。 
</center></caption>

- 上方路径是 **shortcut path（捷径路径）**  
- 下方路径是 **main path（主路径））**  
- 图中明确标出了每一层的 **CONV2D + ReLU** 步骤  
- 为了加快训练，还加入了 **BatchNorm（批量归一化）**  
- 在 Keras 中，BatchNorm 只需一行代码即可实现，非常简单  

---

#### 升级版恒等块

在本练习中，你将实现一个**更强大的恒等块**，其跳跃连接跨越 **3 层隐藏层** 而非 2 层：

<img src="images/idblock3_kiank.png" style="width:650px;height:150px;">
<caption><center> 
<u> <font color='purple'> **图 4** </u><font color='purple'> ：恒等块示意图。跳跃连接“跨越”3层。 
</center></caption>

---

#### 主路径（Main Path）的每一步

**第一部分**：
- CONV2D：$F_1$ 个卷积核，大小 (1,1)，步幅 (1,1)，padding="valid"，名称为 `conv_name_base + '2a'`  
- BatchNorm：沿通道维归一化，名称为 `bn_name_base + '2a'`  
- ReLU 激活函数：无名称、无超参数  

**第二部分**：
- CONV2D：$F_2$ 个卷积核，大小 (f,f)，步幅 (1,1)，padding="same"，名称为 `conv_name_base + '2b'`  
- BatchNorm：沿通道维归一化，名称为 `bn_name_base + '2b'`  
- ReLU 激活函数：无名称、无超参数  

**第三部分**：
- CONV2D：$F_3$ 个卷积核，大小 (1,1)，步幅 (1,1)，padding="valid"，名称为 `conv_name_base + '2c'`  
- BatchNorm：沿通道维归一化，名称为 `bn_name_base + '2c'`  
- **注意**：这一部分没有 ReLU 激活函数  

**最终步骤**：
- 将主路径输出与 **shortcut** 相加  
- 再应用 ReLU 激活函数  

---

#### 实现提示

- **Conv2D**：可参考 [Keras Conv2D 文档](https://keras.io/layers/convolutional/#conv2d)  
- **BatchNorm**：可参考 [Keras BatchNormalization 文档](https://faroit.github.io/keras-docs/1.2.2/layers/normalization/) （参数 axis 表示要归一化的维度，通常是通道维）  
- **激活函数**：`Activation('relu')(X)`  
- **添加 shortcut**：可参考 [Keras Add 文档](https://keras.io/layers/merge/#add)  

> 小结：首先实现主路径的第一步（1x1 卷积 + BatchNorm + ReLU），然后依次完成第二步和第三步，最后与 shortcut 相加并激活即可。


In [None]:
# GRADED FUNCTION: identity_block

def identity_block(X, f, filters, stage, block):
    """
    Implementation of the identity block as defined in Figure 3
    
    Arguments:
    X -- input tensor of shape (m, n_H_prev, n_W_prev, n_C_prev)
    f -- integer, specifying the shape of the middle CONV's window for the main path
    filters -- python list of integers, defining the number of filters in the CONV layers of the main path
    stage -- integer, used to name the layers, depending on their position in the network
    block -- string/character, used to name the layers, depending on their position in the network
    
    Returns:
    X -- output of the identity block, tensor of shape (n_H, n_W, n_C)
    """
    
    # defining name basis
    conv_name_base = 'res' + str(stage) + block + '_branch'
    bn_name_base = 'bn' + str(stage) + block + '_branch'
    
    # Retrieve Filters
    F1, F2, F3 = filters
    
    # Save the input value. You'll need this later to add back to the main path. 
    X_shortcut = X
    
    # First component of main path
    X = Conv2D(filters = F1, kernel_size = (1, 1), strides = (1,1), padding = 'valid', name = conv_name_base + '2a', kernel_initializer = glorot_uniform(seed=0))(X)
    X = BatchNormalization(axis = 3, name = bn_name_base + '2a')(X)
    X = Activation('relu')(X)
    
    ### START CODE HERE ###
    
    # Second component of main path (≈3 lines)

    
    
    # Third component of main path (≈2 lines)

    
    # Final step: Add shortcut value to main path, and pass it through a RELU activation (≈2 lines)

    
    ### END CODE HERE ###
    
    return X

In [None]:
tf.reset_default_graph()

with tf.Session() as test:
    np.random.seed(1)
    A_prev = tf.placeholder("float", [3, 4, 4, 6])
    X = np.random.randn(3, 4, 4, 6)
    A = identity_block(A_prev, f = 2, filters = [2, 4, 6], stage = 1, block = 'a')
    test.run(tf.global_variables_initializer())
    out = test.run([A], feed_dict={A_prev: X, K.learning_phase(): 0})
    print("out = " + str(out[0][1][1][0]))

**Expected Output**:

<table>
    <tr>
        <td>
            **out**
        </td>
        <td>
           [ 0.94822985  0.          1.16101444  2.747859    0.          1.36677003]
        </td>
    </tr>

</table>

### 2.2 - 卷积块（Convolutional Block）

在实现了 ResNet 的恒等块（Identity Block）之后，另一种常用模块是 **卷积块（Convolutional Block）**。  
当输入和输出维度不一致时，就需要使用卷积块。它和恒等块的主要区别是：**shortcut（捷径路径）上也有一个 CONV2D 卷积层**。

#### 模块示意图

<img src="images/convblock_kiank.png" style="width:650px;height:150px;">
<caption><center> 
<u> <font color='purple'> **图 4** </u><font color='purple'> ：卷积块示意图 
</center></caption>

---

### 卷积块的作用

- shortcut 路径上的卷积层用于调整输入 $x$ 的维度，使主路径和捷径路径的输出维度一致，以便最终相加。
- 举例：如果希望将激活的高和宽缩小 2 倍，可以使用 1x1 卷积，stride=2。
- 这个卷积层不使用非线性激活函数，其主要作用是学习一个线性变换，使维度匹配，方便后续相加。

---

### 主路径（Main Path）每一步

**第一部分**：
- CONV2D：$F_1$ 个卷积核，大小 (1,1)，步幅 (s,s)，padding="valid"，名称为 `conv_name_base + '2a'`
- BatchNorm：沿通道维归一化，名称为 `bn_name_base + '2a'`
- ReLU 激活函数：无名称、无超参数  

**第二部分**：
- CONV2D：$F_2$ 个卷积核，大小 (f,f)，步幅 (1,1)，padding="same"，名称为 `conv_name_base + '2b'`
- BatchNorm：沿通道维归一化，名称为 `bn_name_base + '2b'`
- ReLU 激活函数：无名称、无超参数  

**第三部分**：
- CONV2D：$F_3$ 个卷积核，大小 (1,1)，步幅 (1,1)，padding="valid"，名称为 `conv_name_base + '2c'`
- BatchNorm：沿通道维归一化，名称为 `bn_name_base + '2c'`  
- **注意**：这一部分没有 ReLU 激活函数  

---

### 捷径路径（Shortcut Path）

- CONV2D：$F_3$ 个卷积核，大小 (1,1)，步幅 (s,s)，padding="valid"，名称为 `conv_name_base + '1'`
- BatchNorm：沿通道维归一化，名称为 `bn_name_base + '1'`  

---

### 最终步骤

- 将主路径输出与捷径路径输出相加  
- 再应用 ReLU 激活函数  

---

#### 实现提示

- **Conv2D**：可参考 [Keras Conv2D 文档](https://keras.io/layers/convolutional/#conv2d)  
- **BatchNorm**：可参考 [Keras BatchNormalization 文档](https://keras.io/layers/normalization/#batchnormalization) （参数 axis 表示要归一化的维度，通常是通道维）  
- **激活函数**：`Activation('relu')(X)`  
- **相加操作**：可参考 [Keras Add 文档](https://keras.io/layers/merge/#add)  

> 小结：卷积块和恒等块的差别主要在捷径路径上加了一个 1x1 卷积来调整维度，其余主路径逻辑与恒等块类似。


In [None]:
# GRADED FUNCTION: convolutional_block

def convolutional_block(X, f, filters, stage, block, s = 2):
    """
    Implementation of the convolutional block as defined in Figure 4
    
    Arguments:
    X -- input tensor of shape (m, n_H_prev, n_W_prev, n_C_prev)
    f -- integer, specifying the shape of the middle CONV's window for the main path
    filters -- python list of integers, defining the number of filters in the CONV layers of the main path
    stage -- integer, used to name the layers, depending on their position in the network
    block -- string/character, used to name the layers, depending on their position in the network
    s -- Integer, specifying the stride to be used
    
    Returns:
    X -- output of the convolutional block, tensor of shape (n_H, n_W, n_C)
    """
    
    # defining name basis
    conv_name_base = 'res' + str(stage) + block + '_branch'
    bn_name_base = 'bn' + str(stage) + block + '_branch'
    
    # Retrieve Filters
    F1, F2, F3 = filters
    
    # Save the input value
    X_shortcut = X


    ##### MAIN PATH #####
    # First component of main path 
    X = Conv2D(filters = F1, kernel_size = (1, 1), strides = (s,s), padding = 'valid', name = conv_name_base + '2a', kernel_initializer = glorot_uniform(seed=0))(X)
    X = BatchNormalization(axis = 3, name = bn_name_base + '2a')(X)
    X = Activation('relu')(X)
    
    ### START CODE HERE ###

    # Second component of main path (≈3 lines)

    
    

    # Third component of main path (≈2 lines)

    
    ##### SHORTCUT PATH #### (≈2 lines)

    
    # Final step: Add shortcut value to main path, and pass it through a RELU activation (≈2 lines)

    
    ### END CODE HERE ###
    
    return X

In [None]:
tf.reset_default_graph()

with tf.Session() as test:
    np.random.seed(1)
    A_prev = tf.placeholder("float", [3, 4, 4, 6])
    X = np.random.randn(3, 4, 4, 6)
    A = convolutional_block(A_prev, f = 2, filters = [2, 4, 6], stage = 1, block = 'a')
    test.run(tf.global_variables_initializer())
    out = test.run([A], feed_dict={A_prev: X, K.learning_phase(): 0})
    print("out = " + str(out[0][1][1][0]))

**Expected Output**:

<table>
    <tr>
        <td>
            **out**
        </td>
        <td>
           [ 0.09018463  1.23489773  0.46822017  0.0367176   0.          0.65516603]
        </td>
    </tr>

</table>

## 3 - 构建你的第一个 50 层 ResNet 模型

在前面我们已经实现了 **ResNet 的恒等块（Identity Block）** 和 **卷积块（Convolutional Block）**，现在可以构建一个非常深的网络了。  
下图展示了 ResNet-50 的整体结构："ID BLOCK" 表示 Identity Block，"ID BLOCK x3" 表示堆叠 3 个恒等块。

<img src="images/resnet_kiank.png" style="width:850px;height:150px;">
<caption><center> 
<u> <font color='purple'> **图 5** </u><font color='purple'> ： **ResNet-50 模型** </center></caption>

---

### ResNet-50 模型详细说明

#### 输入层
- Zero-padding：对输入图像进行填充，pad=(3,3)

---

#### Stage 1
- Conv2D：
  - 卷积核数量：64
  - 卷积核大小：(7,7)
  - 步幅：(2,2)
  - 名称："conv1"
- BatchNorm：对通道维归一化
- MaxPooling：
  - 窗口大小：(3,3)
  - 步幅：(2,2)

---

#### Stage 2
- **卷积块（Conv Block）**
  - 卷积核组大小：[64,64,256]
  - 卷积核大小 f=3
  - 步幅 s=1
  - 名称后缀："a"
- **恒等块（Identity Block）**
  - 2 个恒等块
  - 卷积核组大小：[64,64,256]
  - 卷积核大小 f=3
  - 名称后缀："b", "c"

---

#### Stage 3
- 卷积块：
  - 卷积核组大小：[128,128,512]
  - f=3, s=2
  - 名称后缀："a"
- 恒等块：
  - 3 个恒等块
  - 卷积核组大小：[128,128,512]
  - f=3
  - 名称后缀："b","c","d"

---

#### Stage 4
- 卷积块：
  - 卷积核组大小：[256,256,1024]
  - f=3, s=2
  - 名称后缀："a"
- 恒等块：
  - 5 个恒等块
  - 卷积核组大小：[256,256,1024]
  - f=3
  - 名称后缀："b","c","d","e","f"

---

#### Stage 5
- 卷积块：
  - 卷积核组大小：[512,512,2048]
  - f=3, s=2
  - 名称后缀："a"
- 恒等块：
  - 2 个恒等块
  - 卷积核组大小：[512,512,2048]
  - f=3
  - 名称后缀："b","c"

---

#### 输出层
- Average Pooling：
  - 窗口大小：(2,2)
  - 名称："avg_pool"
- Flatten：无超参数，无名称
- Fully Connected（Dense）层：
  - 输出维度 = 类别数
  - 激活函数：softmax
  - 名称："fc" + str(classes)

---

### 实现提示
- 平均池化：[AveragePooling2D](https://keras.io/layers/pooling/#averagepooling2d)
- 卷积：[Conv2D](https://keras.io/layers/convolutional/#conv2d)
- 批归一化：[BatchNormalization](https://keras.io/layers/normalization/#batchnormalization)
- 零填充：[ZeroPadding2D](https://keras.io/layers/convolutional/#zeropadding2d)
- 最大池化：[MaxPooling2D](https://keras.io/layers/pooling/#maxpooling2d)
- 全连接层：[Dense](https://keras.io/layers/core/#dense)
- 相加操作：[Add](https://keras.io/layers/merge/#add)

> 小结：  
> ResNet-50 由 5 个 stage 组成，每个 stage 由 1 个卷积块和若干恒等块组成。卷积块用于调整维度，恒等块用于学习更深的特征。最后通过平均池化和全连接层完成分类。


In [None]:
# GRADED FUNCTION: ResNet50

def ResNet50(input_shape = (64, 64, 3), classes = 6):
    """
    Implementation of the popular ResNet50 the following architecture:
    CONV2D -> BATCHNORM -> RELU -> MAXPOOL -> CONVBLOCK -> IDBLOCK*2 -> CONVBLOCK -> IDBLOCK*3
    -> CONVBLOCK -> IDBLOCK*5 -> CONVBLOCK -> IDBLOCK*2 -> AVGPOOL -> TOPLAYER

    Arguments:
    input_shape -- shape of the images of the dataset
    classes -- integer, number of classes

    Returns:
    model -- a Model() instance in Keras
    """
    
    # Define the input as a tensor with shape input_shape
    X_input = Input(input_shape)

    
    # Zero-Padding
    X = ZeroPadding2D((3, 3))(X_input)
    
    # Stage 1
    X = Conv2D(64, (7, 7), strides = (2, 2), name = 'conv1', kernel_initializer = glorot_uniform(seed=0))(X)
    X = BatchNormalization(axis = 3, name = 'bn_conv1')(X)
    X = Activation('relu')(X)
    X = MaxPooling2D((3, 3), strides=(2, 2))(X)

    # Stage 2
    X = convolutional_block(X, f = 3, filters = [64, 64, 256], stage = 2, block='a', s = 1)
    X = identity_block(X, 3, [64, 64, 256], stage=2, block='b')
    X = identity_block(X, 3, [64, 64, 256], stage=2, block='c')

    ### START CODE HERE ###

    # Stage 3 (≈4 lines)

    
    
    
    
    # Stage 4 (≈6 lines)

    
    
    
    
    
    
    # Stage 5 (≈3 lines)

    
    
    # AVGPOOL (≈1 line). Use "X = AveragePooling2D(...)(X)"

    
    ### END CODE HERE ###

    # output layer
    X = Flatten()(X)
    X = Dense(classes, activation='softmax', name='fc' + str(classes), kernel_initializer = glorot_uniform(seed=0))(X)
    
    
    # Create model
    model = Model(inputs = X_input, outputs = X, name='ResNet50')

    return model

运行以下代码以构建模型的计算图。如果你的实现不正确，可以通过在下面运行 model.fit(...) 时检查准确率来发现。

In [None]:
model = ResNet50(input_shape = (64, 64, 3), classes = 6)

如在 Keras 教程笔记本中所示，在训练模型之前，需要通过编译模型来配置学习过程。

In [None]:
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

模型现在已经可以训练了。你唯一需要的就是一个数据集。


让我们加载 SIGNS 数据集。

<img src="images/signs_data_kiank.png" style="width:450px;height:250px;">
<caption><center> <u> <font color='purple'> **Figure 6** </u><font color='purple'>  : **SIGNS 数据集** </center></caption>


In [None]:
X_train_orig, Y_train_orig, X_test_orig, Y_test_orig, classes = load_dataset()

# Normalize image vectors
X_train = X_train_orig/255.
X_test = X_test_orig/255.

# Convert training and test labels to one hot matrices
Y_train = convert_to_one_hot(Y_train_orig, 6).T
Y_test = convert_to_one_hot(Y_test_orig, 6).T

print ("number of training examples = " + str(X_train.shape[0]))
print ("number of test examples = " + str(X_test.shape[0]))
print ("X_train shape: " + str(X_train.shape))
print ("Y_train shape: " + str(Y_train.shape))
print ("X_test shape: " + str(X_test.shape))
print ("Y_test shape: " + str(Y_test.shape))

运行下面的单元格，在 2 个 epoch 上训练你的模型，批量大小为 32。在 CPU 上，每个 epoch 大约需要 5 分钟。


In [None]:
model.fit(X_train, Y_train, epochs = 2, batch_size = 32)

**Expected Output**:

<table>
    <tr>
        <td>
            ** Epoch 1/2**
        </td>
        <td>
           loss: between 1 and 5, acc: between 0.2 and 0.5, although your results can be different from ours.
        </td>
    </tr>
    <tr>
        <td>
            ** Epoch 2/2**
        </td>
        <td>
           loss: between 1 and 5, acc: between 0.2 and 0.5, you should see your loss decreasing and the accuracy increasing.
        </td>
    </tr>

</table>

Let's see how this model (trained on only two epochs) performs on the test set.

In [None]:
preds = model.evaluate(X_test, Y_test)
print ("Loss = " + str(preds[0]))
print ("Test Accuracy = " + str(preds[1]))

**Expected Output**:

<table>
    <tr>
        <td>
            **Test Accuracy**
        </td>
        <td>
           between 0.16 and 0.25
        </td>
    </tr>

</table>

在本次作业中，我们仅要求你训练模型两个 epoch。你可以看到模型的表现不佳。请继续提交作业；为了检查正确性，在线评分系统也只会运行少量的 epoch。


在完成本次作业的官方（评分）部分之后，你也可以选择性地对 ResNet 进行更多轮次的训练。如果训练大约 20 个 epoch，我们可以获得更好的性能，但在 CPU 上训练可能需要超过一小时。

在使用 GPU 时，我们已经在 SIGNS 数据集上训练好了自己的 ResNet50 模型权重。你可以在下面的单元格中加载并在测试集上运行我们的训练好的模型。加载模型大约需要 1 分钟。


In [None]:
model = load_model('ResNet50.h5') 

In [None]:
preds = model.evaluate(X_test, Y_test)
print ("Loss = " + str(preds[0]))
print ("Test Accuracy = " + str(preds[1]))

ResNet50 是一个强大的图像分类模型，只要训练足够的迭代次数，就能取得优异的效果。我们希望你能将所学知识应用到你自己的分类任务中，以实现最先进的准确率。

祝贺你完成本次作业！你现在已经实现了一个最先进的图像分类系统！


## 4 - 在你自己的图片上测试（可选/不计分）


如果你愿意，你也可以拍一张自己的手的照片，看看模型的输出。操作步骤如下：
1. 点击本笔记本上方的“文件（File）”，然后选择“打开（Open）”以进入 Coursera Hub。
2. 将你的图片添加到这个 Jupyter Notebook 的目录中的 "images" 文件夹里。
3. 在下面的代码中写入你的图片名称。
4. 运行代码，查看算法的判断是否正确！


In [None]:
img_path = 'images/my_image.jpg'
img = image.load_img(img_path, target_size=(64, 64))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)
print('Input image shape:', x.shape)
my_image = scipy.misc.imread(img_path)
imshow(my_image)
print("class prediction vector [p(0), p(1), p(2), p(3), p(4), p(5)] = ")
print(model.predict(x))

你也可以通过运行以下代码来打印模型的摘要信息。


In [None]:
model.summary()

最后，运行下面的代码来可视化你的 ResNet50 模型。你也可以通过“文件 -> 打开... -> model.png”下载模型的 .png 图片。


In [None]:
plot_model(model, to_file='model.png')
SVG(model_to_dot(model).create(prog='dot', format='svg'))

<font color='blue'>
**你应该记住的内容：**
- 在实践中，非常深的“普通”网络效果不佳，因为梯度容易消失，训练困难。  
- 跳跃连接（skip-connections）有助于解决梯度消失问题，同时也使 ResNet 块更容易学习恒等映射（identity function）。
- ResNet 有两种主要类型的块：恒等块（identity block）和卷积块（convolutional block）。
- 非常深的残差网络（Residual Networks）是通过堆叠这些块构建起来的。


### 参考文献

本笔记本介绍了 He 等人（2015）的 ResNet 算法。实现过程中也参考了 Francois Chollet 的 GitHub 仓库，并遵循了其结构：

- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun - [Deep Residual Learning for Image Recognition (2015)](https://arxiv.org/abs/1512.03385)
- Francois Chollet 的 GitHub 仓库: https://github.com/fchollet/deep-learning-models/blob/master/resnet50.py
