## 算法介绍

  
  VGGNet是牛津大学计算机视觉组（Visual Geometry Group）和谷歌DeepMind一起研究出来的深度卷积神经网络，因而冠名为VGG，在2014年的ILSVRC中取得了第二名的成绩。VGGNet通过使用大量的 3x3 卷积核和 2x2 池化核，首次将卷积神经网络的卷积深度推向更深，最为典型的 VGGNet 是 VGG16 和 VGG19，其中的 16 的含义即网络中包含16个卷积层和全连接层， 同理，19 的含义即网络中包含19个卷积层和全连接层。VGGNet 的网络虽然开始加深但其结构并不复杂，但证明了卷积网络深度的重要性。深度卷积网络能够提取图像低层次、中层次和高层次的特征，因而网络结构需要的一定的深度来提取图像不同层次的特征。
  
  下图是VGGNet的网络结构图：
  
  ![fig1](fig1.png)
  
  以VGG16网络为例进行说明，下面是VGG16网络各层的结构和参数：  
  
  C1-1层是个卷积层，其输入输出结构如下：  
  输入： 224 x 224 x 3    卷积核大小： 3 x 3 x 3   卷积核个数：64  
  输出： 224 x 224 x 64

  C1-2层是个卷积层，其输入输出结构如下：  
  输入： 224 x 224 x 64    卷积核大小： 3 x 3 * 64   卷积核个数：64  
  输出： 224 x 224 x 64

  P1层是C1-2后面的池化层，其输入输出结构如下：  
  输入： 224 x 224 x 64    池化核大小： 2 x 2  
  输出： 112 x 112 x 64

  C2-1层是个卷积层，其输入输出结构如下：  
  输入： 112 x 112 x 64  卷积核大小： 3 x 3 x 64  卷积核个数：128  
  输出： 112 x 112 x 128

  C2-2层是个卷积层，其输入输出结构如下：  
  输入： 112 x 112 x 128  卷积核大小： 3 x 3 x 128  卷积核个数：128  
  输出： 112 x 112 x 128

  P2层是C2-2后面的池化层，其输入输出结构如下：  
  输入： 112 x 112 x 128 池化核大小： 2 x 2 
  输出： 56 x 56 x 128

  C3-1层是个卷积层，其输入输出结构如下：  
  输入： 56 x 56 x 128  卷积核大小： 3 x 3 x 128  卷积核个数：256  
  输出： 56 x 56 x 256

  C3-2层是个卷积层，其输入输出结构如下：  
  输入： 56 x 56 x 256  卷积核大小： 3 x 3 x 256  卷积核个数：256  
  输出： 56 x 56 x 256

  C3-3层是个卷积层，其输入输出结构如下：  
  输入： 56 x 56 x 256  卷积核大小： 3 x 3 x 256  卷积核个数：256  
  输出： 56 x 56 x 256

  P3层是C3-3后面的池化层，其输入输出结构如下：  
  输入： 56 x 56 x 256  池化核大小： 2 x 2   
  输出： 28 x 28 x 256

  C4-1层是个卷积层，其输入输出结构如下：  
  输入： 28 x 28 x 256  卷积核大小： 3 x 3 x 256  卷积核个数：512  
  输出： 28 x 28 x 512

  C4-2层是个卷积层，其输入输出结构如下：  
  输入： 28 x 28 x 512  卷积核大小： 3 x 3 x 512  卷积核个数：512  
  输出： 28 x 28 x 512

  C4-3层是个卷积层，其输入输出结构如下：  
  输入： 28 x 28 x 512  卷积核大小： 3 x 3 x 512  卷积核个数：512  
  输出： 28 x 28 x 512

  P4层是C4-3后面的池化层，其输入输出结构如下：  
  输入： 28 x 28 x 512 池化核大小： 2 x 2   
  输出： 14 x 14 x 512

  C5-1层是个卷积层，其输入输出结构如下：  
  输入： 14 x 14 x 512  卷积核大小： 3 x 3 x 512  卷积核个数：512  
  输出： 14 x 14 x 512

  C5-2层是个卷积层，其输入输出结构如下：  
  输入： 14 x 14 x 512  卷积核大小： 3 x 3 x 512  卷积核个数：512  
  输出： 14 x 14 x 512

  C5-3层是个卷积层，其输入输出结构如下：  
  输入： 14 x 14 x 512  卷积核大小： 3 x 3 x 512  卷积核个数：512  
  输出： 14 x 14 x 512

  P5层是C5-3后面的池化层，其输入输出结构如下：  
  输入： 14 x 14 x 512 池化核大小： 2 x 2  
  输出： 7 x 7 x 512

  F6层是个全连接层，其输入输出结构如下：  
  输出：4096

  F7层是个全连接层，其输入输出结构如下：   
  输出：4096

  F8层也是个全连接层，即输出层，其输入输出结构如下：    
  输出：1000
  
  VGGNet的网络结构很简单，编码实现也很简单，下面基于keras框架对上述VGG结构进行编码实现。

## 算法实现

In [3]:
import keras

def VGG16(input_shape=(224,224,3), classes = 1000):
    '''
    VGG16
    :param input_shape: tuple, input tensor shape
    :param classes: integer, classes defined by your dataset
    
    returns:  
    keras model
    '''
    x_input = keras.layers.Input(input_shape)
    
    #block1
    x = keras.layers.convolutional.Conv2D(filters = 64, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block1_conv1')(x_input)
    x = keras.layers.convolutional.Conv2D(filters = 64, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block1_conv2')(x)
    x = keras.layers.pooling.MaxPooling2D(pool_size = (2, 2), strides = (2, 2), name = 'block1_pool')(x)
    
    #block2
    x = keras.layers.convolutional.Conv2D(filters = 128, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block2_conv1')(x)
    x = keras.layers.convolutional.Conv2D(filters = 128, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block2_conv2')(x)
    x = keras.layers.pooling.MaxPooling2D(pool_size = (2, 2), strides = (2, 2), name = 'block2_pool')(x)
    
    #block3
    x = keras.layers.convolutional.Conv2D(filters = 256, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block3_conv1')(x)
    x = keras.layers.convolutional.Conv2D(filters = 256, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block3_conv2')(x)
    x = keras.layers.convolutional.Conv2D(filters = 256, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block3_conv3')(x)
    x = keras.layers.pooling.MaxPooling2D(pool_size = (2, 2), strides = (2, 2), name = 'block3_pool')(x)
    
    #block4
    x = keras.layers.convolutional.Conv2D(filters = 512, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block4_conv1')(x)
    x = keras.layers.convolutional.Conv2D(filters = 512, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block4_conv2')(x)
    x = keras.layers.convolutional.Conv2D(filters = 512, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block4_conv3')(x)
    x = keras.layers.pooling.MaxPooling2D(pool_size = (2, 2), strides = (2, 2), name = 'block4_pool')(x)
    
    #block5
    x = keras.layers.convolutional.Conv2D(filters = 512, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block5_conv1')(x)
    x = keras.layers.convolutional.Conv2D(filters = 512, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block5_conv2')(x)
    x = keras.layers.convolutional.Conv2D(filters = 512, kernel_size = (3, 3), activation = 'relu', padding = 'same', name = 'block5_conv3')(x)
    x = keras.layers.pooling.MaxPooling2D(pool_size = (2, 2), strides = (2, 2), name = 'block5_pool')(x)
    
    #flatten
    x = keras.layers.core.Flatten(name = 'flatten')(x)
    
    #fc1
    x = keras.layers.core.Dense(units = 4096, activation = 'relu', name = 'fc1')(x)
    #fc2
    x = keras.layers.core.Dense(units = 4096, activation = 'relu', name = 'fc2')(x)
    #classification
    x = keras.layers.core.Dense(units = classes, activation='softmax', name='predictions')(x)
    
    model = keras.models.Model(inputs = x_input, outputs = x, name = 'vgg16')
    return model

In [4]:
model = VGG16()
print(model.summary())

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_2 (InputLayer)         (None, 224, 224, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 112, 112, 64)      0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 112, 112, 128)     73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 112, 112, 128)     147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 56, 56, 128)       0         
__________

上面对VGG16网络进行了编码实现，从网络信息中可以看出，要训练的网络参数超过1亿级别，庞大的训练参数量意味这需要庞大的训练数据集去训练模型，keras已经提供了VGG16模型基于imagenet的训练权重，在实际项目中，我们可以

## 参考文献
1. Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.