In [1]:
import numpy as np
import tensorflow as tf

from keras import layers
from keras.layers import Input, Add, Dense, Activation, ZeroPadding2D, BatchNormalization, Flatten, Conv2D, AveragePooling2D, MaxPooling2D, GlobalMaxPooling2D
from keras.models import Model, load_model
from keras.preprocessing import image
from keras.utils import layer_utils
from keras.utils.data_utils import get_file
from keras.applications.imagenet_utils import preprocess_input
from keras.utils.vis_utils import model_to_dot
from keras.utils import plot_model
from keras.initializers import glorot_uniform

import pydot
from IPython.display import SVG
import scipy.misc
from matplotlib.pyplot import imshow
import keras.backend as K
K.set_image_data_format('channels_last')
K.set_learning_phase(1)

import resnets_utils 

Using TensorFlow backend.


# 构建一个残差网络
在残差网络中，一个“捷径（shortcut）”或者说“跳跃连接（skip connection）”允许梯度直接反向传播到更浅的层，如下图：
<img src="20180509112530701.png" style="width:650px;height:200px;">

## 恒等块（Identity block）
恒等块是残差网络使用的的标准块，对应于输入的激活值（比如$a^{[l]}$）与输出激活值（比如$a^{[l+1]}$）具有相同的维度。
<img src="18.png" style="width:650px;height:200px;">
上图中，上面的曲线路径是“捷径”，下面的直线路径是主路径。在上图中，我们依旧把CONV2D 与 ReLU包含到了每个步骤中，为了提升训练的速度，我们在每一步也把数据进行了归一化（BatchNorm）

在实践中，我们要做一个更强大的版本：跳跃连接会跳过3个隐藏层而不是两个，就像下图： 
<img src="19.png" style="width:650px;height:200px;">
每个步骤如下：

主路径的第一部分：

- 第一个CONV2D有$F_1$个过滤器，其大小为（1，1），步长为（1，1），使用填充方式为“valid”，命名规则为`conv_name_base + '2a'`，使用0作为随机种子为其初始化。

- 第一个BatchNorm是通道的轴归一化，其命名规则为`bn_name_base + '2a'`。

- 接着使用ReLU激活函数，它没有命名也没有超参数。

主路径的第二部分：

- 第二个CONV2D有$F_2$个过滤器，其大小为$(f,f)$ ，步长为（1，1），使用填充方式为“same”，命名规则为 `conv_name_base + '2b'`，使用0作为随机种子为其初始化。

- 第二个BatchNorm是通道的轴归一化，其命名规则为`bn_name_base + '2b'`。

- 接着使用ReLU激活函数，它没有命名也没有超参数。

主路径的第三部分：

- 第三个CONV2D有$F_3$个过滤器，其大小为（1，1），步长为（1，1），使用填充方式为“valid”，命名规则为`conv_name_base + '2c'`，使用0作为随机种子为其初始化。

- 第三个BatchNorm是通道的轴归一化，其命名规则为`bn_name_base + '2c'`。

- 注意这里没有ReLU函数

最后一步：

- 将捷径与输入加在一起

- 使用ReLU激活函数，它没有命名也没有超参数。

接下来我们就要实现残差网络的恒等块了，请务必查看下面的中文手册：
- 实现Conv2D：[参见这里](https://keras.io/layers/convolutional/#conv2d)
- 实现BatchNorm: [参见这里](https://faroit.github.io/keras-docs/1.2.2/layers/normalization/) (axis: Integer, the axis that should be normalized (typically the channels axis))
- 实现激活:  `Activation('relu')(X)`
- 添加快捷方式传递的值: [参见这里](https://keras.io/layers/merge/#add)

In [2]:
def identity_block(X, f, filters, stage, block):
    """
    实现图3的恒等块

    参数：
        X - 输入的tensor类型的数据，维度为( m, n_H_prev, n_W_prev, n_H_prev )
        f - 整数，指定主路径中间的CONV窗口的维度
        filters - 整数列表，定义了主路径每层的卷积层的过滤器数量
        stage - 整数，根据每层的位置来命名每一层，与block参数一起使用。
        block - 字符串，据每层的位置来命名每一层，与stage参数一起使用。

    返回：
        X - 恒等块的输出，tensor类型，维度为(n_H, n_W, n_C)

    """

    #定义命名规则
    conv_name_base = "res" + str(stage) + block + "_branch"
    bn_name_base   = "bn"  + str(stage) + block + "_branch"

    #获取过滤器
    F1, F2, F3 = filters

    #保存输入数据，将会用于为主路径添加捷径
    X_shortcut = X

    #主路径的第一部分
    ##卷积层
    X = Conv2D(filters=F1, kernel_size=(1,1), strides=(1,1) ,padding="valid",
               name=conv_name_base+"2a", kernel_initializer=glorot_uniform(seed=0))(X)
    ##归一化
    X = BatchNormalization(axis=3,name=bn_name_base+"2a")(X)
    ##使用ReLU激活函数
    X = Activation("relu")(X)

    #主路径的第二部分
    ##卷积层
    X = Conv2D(filters=F2, kernel_size=(f,f),strides=(1,1), padding="same",
               name=conv_name_base+"2b", kernel_initializer=glorot_uniform(seed=0))(X)
    ##归一化
    X = BatchNormalization(axis=3,name=bn_name_base+"2b")(X)
    ##使用ReLU激活函数
    X = Activation("relu")(X)


    #主路径的第三部分
    ##卷积层
    X = Conv2D(filters=F3, kernel_size=(1,1), strides=(1,1), padding="valid",
               name=conv_name_base+"2c", kernel_initializer=glorot_uniform(seed=0))(X)
    ##归一化
    X = BatchNormalization(axis=3,name=bn_name_base+"2c")(X)
    ##没有ReLU激活函数

    #最后一步：
    ##将捷径与输入加在一起
    X = Add()([X,X_shortcut])
    ##使用ReLU激活函数
    X = Activation("relu")(X)

    return X

## 卷积块
我们已经实现了残差网络的恒等块，现在，残差网络的卷积块是另一种类型的残差块，它适用于输入输出的维度不一致的情况，它不同于上面的恒等块，与之区别在于，捷径中有一个CONV2D层，如下图：
<img src="20.png" style="width:650px;height:200px;">

捷径中的卷积层将把输入xx卷积为不同的维度，因此在主路径最后那里需要适配捷径中的维度。比如：把激活值中的宽高减少2倍，我们可以使用1x1的卷积，步伐为2。捷径上的卷积层不使用任何非线性激活函数，它的主要作用是仅仅应用（学习后的）线性函数来减少输入的维度，以便在后面的加法步骤中的维度相匹配。
每个步骤如下：

主路径的第一部分：

- 第一个CONV2D有$F_1$个过滤器，其大小为（1，1），步长为（1，1），使用填充方式为“valid”，命名规则为`conv_name_base + '2a'`，使用0作为随机种子为其初始化。

- 第一个BatchNorm是通道的轴归一化，其命名规则为`bn_name_base + '2a'`。

- 接着使用ReLU激活函数，它没有命名也没有超参数。

主路径的第二部分：

- 第二个CONV2D有$F_2$个过滤器，其大小为$(f,f)$ ，步长为（1，1），使用填充方式为“same”，命名规则为 `conv_name_base + '2b'`，使用0作为随机种子为其初始化。

- 第二个BatchNorm是通道的轴归一化，其命名规则为`bn_name_base + '2b'`。

- 接着使用ReLU激活函数，它没有命名也没有超参数。

主路径的第三部分：

- 第三个CONV2D有$F_3$个过滤器，其大小为（1，1），步长为（1，1），使用填充方式为“valid”，命名规则为`conv_name_base + '2c'`，使用0作为随机种子为其初始化。

- 第三个BatchNorm是通道的轴归一化，其命名规则为`bn_name_base + '2c'`。

- 注意这里没有ReLU函数

最后一步：

- 将捷径与输入加在一起

- 使用ReLU激活函数，它没有命名也没有超参数。

接下来我们就要实现残差网络的恒等块了，请务必查看下面的中文手册：
- 实现Conv2D：[参见这里](https://keras.io/layers/convolutional/#conv2d)
- 实现BatchNorm: [参见这里](https://faroit.github.io/keras-docs/1.2.2/layers/normalization/) (axis: Integer, the axis that should be normalized (typically the channels axis))
- 实现激活:  `Activation('relu')(X)`
- 添加快捷方式传递的值: [参见这里](https://keras.io/layers/merge/#add)