### DenseNet

<img src="img/densenet.svg">

    图5.10中将部分前后相邻的运算抽象为模块A和模块B。与ResNet的主要区别在于，DenseNet里模块B的输出不是像ResNet那样和模块A的输出相加，而是在通道维上连结。这样模块A的输出可以直接传入模块B后面的层。在这个设计里，模块A直接跟模块B后面的所有层连接在了一起。这也是它被称为“稠密连接”的原因。
    
    DenseNet的主要构建模块是稠密块（dense block）和过渡层（transition layer）。前者定义了输入和输出是如何连结的，后者则用来控制通道数，使之不过大。

#### 稠密块

DenseNet使用了ResNet改良版的“批量归一化、激活和卷积”结构，我们首先在conv_block函数里实现这个结构。
稠密块由多个conv_block组成，每块使用相同的输出通道数。但在前向计算时，我们将每块的输入和输出在通道维上连结。

#### 过渡层

由于每个稠密块都会带来通道数的增加，使用过多则会带来过于复杂的模型。过渡层用来控制模型复杂度。它通过1×1
卷积层来减小通道数，并使用步幅为2的平均池化层减半高和宽，从而进一步降低模型复杂度。

#### DenseNet模型实现

我们来构造DenseNet模型。DenseNet首先使用同ResNet一样的单卷积层和最大池化层。

In [23]:
import numpy as np
import keras
from keras.optimizers import SGD
from keras.models import Model
from keras.layers import Input, GlobalAveragePooling2D,Activation, Dense,concatenate
from keras.layers import Conv2D, MaxPooling2D, BatchNormalization, AveragePooling2D


#  稠密块
def conv_block(input, num_channels):
    y = BatchNormalization(axis=3)(input)
    y = Activation('relu')(y)
    y = Conv2D(filters=num_channels, kernel_size=(3, 3), padding = "same")(y)
    return y

# 稠密块由多个conv_block组成，每块使用相同的输出通道数。但在前向计算时，我们将每块的输入和输出在通道维上连结
def dense_block(input, num_convs, num_channels):
    x = input
    for _ in range(num_convs):
        y = conv_block(x, num_channels)
        x = concatenate([x, y], axis=3)
    return x

# 输入
# 由于这里使用了比较深的网络，本节里我们将输入高和宽从224降到96来简化计算。
img_input = Input(shape=(96, 96, 1)) 

# 测试 稠密快
# (None, 8, 8, 23)
# x = dense_block(img_input, 2, 10)


# 过渡层
def transition_block(input, num_channels):
    x = BatchNormalization(axis=3)(input)
    x = Activation('relu')(x)
    x = Conv2D(filters=num_channels, kernel_size=(1, 1), padding = "same")(x)
    x = MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same')(x)
    return x

# 测试 过渡层
# x = transition_block(x, 10)


# DenseNet模型
# DenseNet首先使用同ResNet一样的单卷积层和最大池化层。
x = Conv2D(filters=64, kernel_size=(7, 7), 
               strides=(2,2), padding = "same")(img_input)
x = BatchNormalization(axis=3)(x)
x = Activation('relu')(x)
x = MaxPooling2D(pool_size=(3,3), strides=(2,2), padding='same')(x)

# 类似于ResNet接下来使用的4个残差块，DenseNet使用的是4个稠密块。
# 同ResNet一样，我们可以设置每个稠密块使用多少个卷积层。
# 这里我们设成4，从而与上一节的ResNet-18保持一致。
# 稠密块里的卷积层通道数（即增长率）设为32，所以每个稠密块将增加 4 * 32 = 128个通道。
# ResNet里通过步幅为2的残差块在每个模块之间减小高和宽。这里我们则使用过渡层来减半高和宽，并减半通道数。
num_channels, growth_rate = 64, 32  # num_channels为当前的通道数
num_convs_in_dense_blocks = [4, 4, 4, 4]

for i, num_convs in enumerate(num_convs_in_dense_blocks):
    x = dense_block(x, num_convs, growth_rate)
    # 上一个稠密块的输出通道数
    num_channels += num_convs * growth_rate
    # 在稠密块之间加入通道数减半的过渡层
    if i != len(num_convs_in_dense_blocks) - 1:
        num_channels //= 2
        x = transition_block(x, num_channels)


# 同ResNet一样，最后接上全局池化层和全连接层来输出。
x = BatchNormalization(axis=3)(x)
x = Activation('relu')(x)
x = GlobalAveragePooling2D()(x)
x = Dense(10, activation='softmax')(x)


model = Model(inputs=img_input, outputs=x)

In [24]:
model.summary()

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_19 (InputLayer)           (None, 96, 96, 1)    0                                            
__________________________________________________________________________________________________
conv2d_37 (Conv2D)              (None, 48, 48, 64)   3200        input_19[0][0]                   
__________________________________________________________________________________________________
batch_normalization_33 (BatchNo (None, 48, 48, 64)   256         conv2d_37[0][0]                  
__________________________________________________________________________________________________
activation_33 (Activation)      (None, 48, 48, 64)   0           batch_normalization_33[0][0]     
__________________________________________________________________________________________________
max_poolin

 #### 小结

    在跨层连接上，不同于ResNet中将输入与输出相加，DenseNet在通道维上连结输入与输出。
    DenseNet的主要构建模块是稠密块和过渡层。

#### 练习

    DenseNet论文中提到的一个优点是模型参数比ResNet的更小，这是为什么？
    DenseNet被人诟病的一个问题是内存或显存消耗过多。真的会这样吗？可以把输入形状换成224×224，来看看实际的消耗。
    
    实现DenseNet论文中的表1提出的不同版本的DenseNet [1]。