# Fast Neural Style

Neural Style 每次转换都需要指定风格图片和内容图片，最小化content loss 和 style loss，重新训练一个模型，每张图片的生成都需要花费很长的时间，所以就有了Fast Neural Style 方法的提出。   

![Aaron Swartz](https://github.com/liyibo/cv_notebooks/blob/master/markdown_pics/Fast Neural Style_3.jpg?raw=true)
<center> **论文效果图** </center >

## 摘要  

1 使用 VGG16 作为特征提取网络，用提取到的特征计算 content loss 和 style loss，也称为 loss network  

2 用一个残差网络作为 transform 网络，用于将输入图像转换为带有风格的图像，neural style 是在像素级别上更新输入图像的像素，Fast Neural Style 更新的是 transform 网络的参数，所以可以不使用 total variation denoising(平滑图像)   

3 训练数据中：style image 是任意一种风格图像，content image 批量的包含不同内容的图像，如 COCO dataset，从而可以针对某种风格图像，训练出一个通用的model，保存下来，就可以对任一内容图像做对应的风格转换  

## Method  

![Aaron Swartz](https://github.com/liyibo/cv_notebooks/blob/master/markdown_pics/Fast Neural Style_1.jpg?raw=true)
<center> **网络结构** </center >

快速风格迁移的网络结构包含两个部分。一个图像变换网络 $f_W$ 和一个用来定义几个损失函数的损耗网络 $\phi$。图像变换网络是一个深度残差卷积神经网络，由权重 W 参数化;它通过映射 $\overline y  = f_W(x)$ 将输入图像 x 转换成输出图像 y 。每个损失函数计算测量输出图像 y 与目标图像 $y_i$ 之间的差的标量值 $l_i(\overline y,y_i)$。图像变换网络使用随机梯度下降来训练以最小化损失函数的加权组合：  

![Aaron Swartz](https://github.com/liyibo/cv_notebooks/blob/master/markdown_pics/fast_style_formu1.jpg?raw=true)

为了解决像素损失的缺点，并允许我们的损失函数更好地衡量图像之间的感知和语义差异，我们从最近通过优化生成图像的工作中汲取灵感。这些方法的关键点是预处理图像分类的卷积神经网络已经学会了编码我们想要在我们的损失函数中测量的感知和语义信息。因此，为了定义我们的损失函数，我们利用一个已经被训练为分类的网络 $\phi$ 作为一个固定的损失网络。然后使用损失函数对变换网络进行训练。  

损失网络 $\phi$ 用于定义测量图像之间的内容和风格的差异的特征重构损失 $l_{feat}^{\phi}$ 和风格重建损失 $l_{style}^{\phi}$。对于每个输入图像 x，我们都有一个内容目标 $y_c$ 和一个样式目标 $y_s$。对于样式转换，内容目标 $y_c$ 是输入图像 x，输出图像 $\overline y$ 应该将 $x = y_c$ 的内容与 $y_s$ 的样式相结合; 我们为每个样式目标训练一个网络。对于单幅图像超分辨率，输入图像 x 是低分辨率输入，内容目标 $y_c$ 是真实高分辨率图像，不使用样式重构损失;每个超分辨率因素训练一个网络。  


### Image Transformation Networks  

我们的图像转换网络大致遵循Radford等提出的架构指导原则。不使用任何 pooling 层，而使用 strided 和 fractionally strided 的卷积来进行网内下采样和上采样。我们的网络体由五个残余块组成。除了输出层之外，所有非残留卷积层之后都是空间批量归一化和ReLU非线性，而输出层使用缩放的 tanh 来确保输出图像的像素在 [0,255] 范围内。除了使用 9×9 内核的第一层和最后一层以外，所有卷积层都使用 3×3 内核。  

输入和输出： 对于风格转移，输入和输出都是形状为 3×256×256 的彩色图像。  

对于样式迁移网络，我们的使用两个步长 2 的卷积来对输入进行下采样，接着是几个残余块，然后使用两个卷积层，步长 1/2 来上采样。尽管输入和输出具有相同的大小，但对于下采样然后上采样的网络来说有几个好处。  

首先是计算，在一个简单的实现中，在尺寸为 C×H×W 的输入上使用 C 滤波器的 3×3 卷积需要 $9HWC^2$ 的乘加，这与在形状 DC 的输入上具有 DC 滤波器的 3×3 卷积的成本相同 DC × H / D × W / D。下采样后，我们可以使用一个更大的网络相同的计算成本。  

第二个好处是有效的接受字段大小。高质量的样式转换需要以一致的方式更改大部分图像; 因此输出中的每个像素在输入中具有大的有效感受场是有利的。 在没有下采样的情况下，每个额外的 3×3 卷积层将有效感受野大小增加2倍。在以 D 倍下采样之后，每个3×3卷积反而通过 2D 增加有效感受野大小，给出具有相同数量的更大有效感受野图层。  

残差连接： He 等使用残差连接来训练非常深的网络进行图像分类。他们认为，残差连接使网络很容易学习识别功能; 这对于图像变换网络来说是一个吸引人的特性，因为在大多数情况下，输出图像应该与输入图像共享结构。因此，我们网络的主体由多个残余块组成，每个块包含两个 3×3 卷积层。我们使用补充材料中的残余块设计。  

###  Perceptual Loss Functions  

我们定义了两个感知损失函数，用于度量图像之间的高级感知和语义差异。用了一个用来进行图像分类的网络 $\phi$ 作为损失网络，这意味着这些知觉损失函数本身是深度卷积神经网络。在我们所有的实验中，$\phi$ 是在 ImageNet 数据集上预训练的 16 层 VGG 网络。  

特征重建损失：不是鼓励输出图像的像素 $\overline y  = f_W(x)$ 与目标图像 y 的像素完全匹配，而是鼓励它们具有与由损失网络 $\phi$ 计算的相似的特征表示。令 $\phi_j(x)$ 为处理图像 x 时网络的第 j 层的激活; 如果 j 是卷积层，则 $\phi_j(x)$ 将是形状 $C_j$ × $H_j$ × $W_j$ 的特征映射。特征重构损失是特征表示之间的（平方，归一化）欧几里得距离：  

![Aaron Swartz](https://github.com/liyibo/cv_notebooks/blob/master/markdown_pics/fast_style_formu2.jpg?raw=true)

![Aaron Swartz](https://github.com/liyibo/cv_notebooks/blob/master/markdown_pics/Fast Neural Style_2.jpg?raw=true)
<center> **Figure 3** </center >
如图 3 所示，寻找使早期层的特征重建损失最小化的图像 y 往往产生与 y 不可区分的图像。当我们从更高层重建时，图像内容和整体空间结构被保留，但颜色，纹理和确切的形状并没有被保留。使用特征重构损失来训练我们的图像变换网络，鼓励输出图像 y 在感觉上与目标图像 y 相似，但是不强制它们精确匹配。  

风格重建损失: 当特征重建损失与目标 y 的内容偏离时，特征重构损失会对输出图像 y 进行惩罚。为了达到这个效果，Gaty s等提出了以下样式重建的损失，我们也希望惩罚不同的风格：颜色，纹理，常见模式等。  

如上所述，令 $\phi_j(x)$ 为输入 x 的网络 $\phi$ 的第 j 层的激活，其是形状 $C_j$ × $H_j$ × $W_j$ 的特征映射。将Gram矩阵 $G(\phi_j(x))$ 定义为其元素由下式给出的 $C_j$ × $C_j$ 矩阵  

![Aaron Swartz](https://github.com/liyibo/cv_notebooks/blob/master/markdown_pics/fast_style_formu3.jpg?raw=true)  

如果我们将 $\phi_j(x)$ 解释为给出 $H_j$ × $W_j$ 网格上每个点的 $C_j$ 维特征，那么 $G(\phi_j(x))$ 与 $C_j$ 维特征的非中心协方差成正比，将每个网格位置视为独立样品。因此，它捕获有关哪些功能一起激活的信息。通过将 $\phi_j(x)$ 整形成形状为 $C_j$ × $H_j$ × $W_j$ 的矩阵 $\psi$，可以有效地计算出格拉姆矩阵。

样式重建损失是输出图像和目标图像的格拉姆矩阵之间差异的平方 Frobenius 范数：  

$ l_{style}^{\phi ,j}(\overline y,y) = ||G_j^{\phi}(\overline y) - G_j^{\phi}(y)|| _F^2 $   

即使当 $\overline y$ 和 y 具有不同的尺寸时，样式重建损失也是明确的，因为它们的格式矩阵将具有相同的形状。  

生成一个图像 y，尽量减少样式重建损失，保留目标图像的风格特征，但不保留其空间结构。从更高层重建从目标图像转移更大规模的结构。  

为了从一组层 J 而不是单层  执行样式重构，我们定义 $L_{style}^{\phi,J}(\overline y,y)$ 为每层j∈J的损失总和。  

###  Simple Loss Functions  

除了上面定义的感知损失之外，我们还定义了两个简单的损失函数，它们只依赖于低级像素信息。  

像素损失。像素损失是输出图像 $\overline y$ 与目标 y 之间的（归一化的）欧几里德距离。如果两者都具有 C×H×W 的形状，则像素损失被定义为 $l_{pixel}(\overline y,y) = \frac{{||\overline y - y||}_2^2}{CHW}$。这只有当我们有一个真实目标并且与网络预期匹配时才能使用。  

全变分正则化。为了鼓励输出图像 y 的空间平滑，我们遵循特征反演[6,20]和超分辨[48,49]的先前工作，并利用全变分正则化函数$l_{TV}(\overline y)$。  

在本文中，我们通过训练具有感知损失函数的前馈变换网络，将前馈图像变换任务和基于优化的图像生成方法的优点结合起来。我们已经将这种方法应用于样式转换，我们实现了可比较的性能，并且与现有方法相比大大提高了速度，并且在单一图像超分辨率的情况下，我们表明具有感知损失的训练允许模型更好地重构细节和边缘。  

## Conclusion 

在未来的工作中，我们希望探索使用感知损失函数来进行其他图像转换任务，如着色和语义分割。我们还计划调查使用不同的损失网络，看看例如在不同的任务或数据集上训练的损失网络是否可以传递具有不同类型的语义知识的图像转换网络。


## 实验 

### 1 提取特征的VGG网络  

使用 VGG16 作为特征提取网络，用提取到的特征计算 content loss 和 style loss，VGG16 就是本文的 loss network

In [None]:
def vgg_16(inputs,
           num_classes=1000,
           is_training=True,
           dropout_keep_prob=0.5,
           spatial_squeeze=True,
           scope='vgg_16'):
  """Oxford Net VGG 16-Layers version D Example.
  Note: All the fully_connected layers have been transformed to conv2d layers.
        To use in classification mode, resize input to 224x224.
  Args:
    inputs: a tensor of size [batch_size, height, width, channels].
    num_classes: number of predicted classes.
    is_training: whether or not the model is being trained.
    dropout_keep_prob: the probability that activations are kept in the dropout
      layers during training.
    spatial_squeeze: whether or not should squeeze the spatial dimensions of the
      outputs. Useful to remove unnecessary dimensions for classification.
    scope: Optional scope for the variables.
  Returns:
    the last op containing the log predictions and end_points dict.
  """
  with tf.variable_scope(scope, 'vgg_16', [inputs]) as sc:
    end_points_collection = sc.name + '_end_points'
    # Collect outputs for conv2d, fully_connected and max_pool2d.
    with slim.arg_scope([slim.conv2d, slim.fully_connected, slim.max_pool2d],
                        outputs_collections=end_points_collection):
      net = slim.repeat(inputs, 2, slim.conv2d, 64, [3, 3], scope='conv1')
      net = slim.max_pool2d(net, [2, 2], scope='pool1')
      net = slim.repeat(net, 2, slim.conv2d, 128, [3, 3], scope='conv2')
      net = slim.max_pool2d(net, [2, 2], scope='pool2')
      net = slim.repeat(net, 3, slim.conv2d, 256, [3, 3], scope='conv3')
      net = slim.max_pool2d(net, [2, 2], scope='pool3')
      net = slim.repeat(net, 3, slim.conv2d, 512, [3, 3], scope='conv4')
      net = slim.max_pool2d(net, [2, 2], scope='pool4')
      net = slim.repeat(net, 3, slim.conv2d, 512, [3, 3], scope='conv5')
      net = slim.max_pool2d(net, [2, 2], scope='pool5')
      # Use conv2d instead of fully_connected layers.
      net = slim.conv2d(net, 4096, [7, 7], padding='VALID', scope='fc6')
      net = slim.dropout(net, dropout_keep_prob, is_training=is_training,
                         scope='dropout6')
      net = slim.conv2d(net, 4096, [1, 1], scope='fc7')
      net = slim.dropout(net, dropout_keep_prob, is_training=is_training,
                         scope='dropout7')
      net = slim.conv2d(net, num_classes, [1, 1],
                        activation_fn=None,
                        normalizer_fn=None,
                        scope='fc8')
      # Convert end_points_collection into a end_point dict.
      end_points = slim.utils.convert_collection_to_dict(end_points_collection)
      if spatial_squeeze:
        net = tf.squeeze(net, [1, 2], name='fc8/squeezed')
        end_points[sc.name + '/fc8'] = net
      return net, end_points

### 2 提取style features

In [None]:
def get_style_features(FLAGS):
    """
    For the "style_image", the preprocessing step is:
    1. Resize the shorter side to FLAGS.image_size
    2. Apply central crop
    """
    with tf.Graph().as_default():
        network_fn = nets_factory.get_network_fn(
            FLAGS.loss_model,
            num_classes=1,
            is_training=False)
        image_preprocessing_fn, image_unprocessing_fn = preprocessing_factory.get_preprocessing(
            FLAGS.loss_model,
            is_training=False)

        # Get the style image data
        size = FLAGS.image_size
        img_bytes = tf.read_file(FLAGS.style_image)
        if FLAGS.style_image.lower().endswith('png'):
            image = tf.image.decode_png(img_bytes)
        else:
            image = tf.image.decode_jpeg(img_bytes)
        # image = _aspect_preserving_resize(image, size)

        # Add the batch dimension
        images = tf.expand_dims(image_preprocessing_fn(image, size, size), 0)
        # images = tf.stack([image_preprocessing_fn(image, size, size)])

        _, endpoints_dict = network_fn(images, spatial_squeeze=False)
        features = []
        for layer in FLAGS.style_layers:
            feature = endpoints_dict[layer]
            feature = tf.squeeze(gram(feature), [0])  # remove the batch dimension
            features.append(feature)

        with tf.Session() as sess:
            # Restore variables for loss network.
            init_func = utils._get_init_fn(FLAGS)
            init_func(sess)

            # Make sure the 'generated' directory is exists.
            if os.path.exists('generated') is False:
                os.makedirs('generated')
            # Indicate cropped style image path
            save_file = 'generated/target_style_' + FLAGS.naming + '.jpg'
            # Write preprocessed style image to indicated path
            with open(save_file, 'wb') as f:
                target_image = image_unprocessing_fn(images[0, :])
                value = tf.image.encode_jpeg(tf.cast(target_image, tf.uint8))
                f.write(sess.run(value))
                tf.logging.info('Target style pattern is saved to: %s.' % save_file)

            # Return the features those layers are use for measuring style loss.
            return sess.run(features)

### 3 用于生成图片的转换网络  

用一个残差网络作为 transform 网络，用于将输入图像转换为带有风格的图像

In [None]:
def net(image, training):
    # Less border effects when padding a little before passing through ..
    image = tf.pad(image, [[0, 0], [10, 10], [10, 10], [0, 0]], mode='REFLECT')

    with tf.variable_scope('conv1'):
        conv1 = relu(instance_norm(conv2d(image, 3, 32, 9, 1)))
    with tf.variable_scope('conv2'):
        conv2 = relu(instance_norm(conv2d(conv1, 32, 64, 3, 2)))
    with tf.variable_scope('conv3'):
        conv3 = relu(instance_norm(conv2d(conv2, 64, 128, 3, 2)))
    with tf.variable_scope('res1'):
        res1 = residual(conv3, 128, 3, 1)
    with tf.variable_scope('res2'):
        res2 = residual(res1, 128, 3, 1)
    with tf.variable_scope('res3'):
        res3 = residual(res2, 128, 3, 1)
    with tf.variable_scope('res4'):
        res4 = residual(res3, 128, 3, 1)
    with tf.variable_scope('res5'):
        res5 = residual(res4, 128, 3, 1)
    # print(res5.get_shape())
    with tf.variable_scope('deconv1'):
        # deconv1 = relu(instance_norm(conv2d_transpose(res5, 128, 64, 3, 2)))
        deconv1 = relu(instance_norm(resize_conv2d(res5, 128, 64, 3, 2, training)))
    with tf.variable_scope('deconv2'):
        # deconv2 = relu(instance_norm(conv2d_transpose(deconv1, 64, 32, 3, 2)))
        deconv2 = relu(instance_norm(resize_conv2d(deconv1, 64, 32, 3, 2, training)))
    with tf.variable_scope('deconv3'):
        # deconv_test = relu(instance_norm(conv2d(deconv2, 32, 32, 2, 1)))
        deconv3 = tf.nn.tanh(instance_norm(conv2d(deconv2, 32, 3, 9, 1)))

    y = (deconv3 + 1) * 127.5

    # Remove border effect reducing padding.
    height = tf.shape(y)[1]
    width = tf.shape(y)[2]
    y = tf.slice(y, [0, 10, 10, 0], tf.stack([-1, height - 20, width - 20, -1]))

    return y

### 4 计算loss  

1 用转换网络根据输入图像生成转换后图像  

2 将输入图像和转换后图像送入VGG中提取特征  

3 根据提取到的特征计算loss  

4 优化loss，更新转换网络参数

In [None]:
generated = model.net(processed_images, training=True)
 _, endpoints_dict = vgg_16(tf.concat([generated, processed_images], 0), spatial_squeeze=False)
content_loss = losses.content_loss(endpoints_dict, FLAGS.content_layers)
style_loss, style_loss_summary = losses.style_loss(endpoints_dict, style_features_t, FLAGS.style_layers)
tv_loss = losses.total_variation_loss(generated)  # use the unprocessed image
loss = FLAGS.style_weight * style_loss + FLAGS.content_weight * content_loss + FLAGS.tv_weight * tv_loss
train_op = tf.train.AdamOptimizer(1e-3).minimize(loss, global_step=global_step, var_list=variable_to_train)

def content_loss(endpoints_dict, content_layers):
    content_loss = 0
    for layer in content_layers:
        generated_images, content_images = tf.split(endpoints_dict[layer], 2, 0)
        size = tf.size(generated_images)
        content_loss += tf.nn.l2_loss(generated_images - content_images) * 2 / tf.to_float(size)  # remain the same as in the paper
    return content_loss

def style_loss(endpoints_dict, style_features_t, style_layers):
    style_loss = 0
    style_loss_summary = {}
    for style_gram, layer in zip(style_features_t, style_layers):
        generated_images, _ = tf.split(endpoints_dict[layer], 2, 0)
        size = tf.size(generated_images)
        layer_style_loss = tf.nn.l2_loss(gram(generated_images) - style_gram) * 2 / tf.to_float(size)
        style_loss_summary[layer] = layer_style_loss
        style_loss += layer_style_loss
    return style_loss, style_loss_summary

def total_variation_loss(layer):
    shape = tf.shape(layer)
    height = shape[1]
    width = shape[2]
    y = tf.slice(layer, [0, 0, 0, 0], tf.stack([-1, height - 1, -1, -1])) - tf.slice(layer, [0, 1, 0, 0], [-1, -1, -1, -1])
    x = tf.slice(layer, [0, 0, 0, 0], tf.stack([-1, -1, width - 1, -1])) - tf.slice(layer, [0, 0, 1, 0], [-1, -1, -1, -1])
    loss = tf.nn.l2_loss(x) / tf.to_float(tf.size(x)) + tf.nn.l2_loss(y) / tf.to_float(tf.size(y))
    return loss 

def gram(layer):
    shape = tf.shape(layer)
    num_images = shape[0]
    width = shape[1]
    height = shape[2]
    num_filters = shape[3]
    filters = tf.reshape(layer, tf.stack([num_images, -1, num_filters]))
    grams = tf.matmul(filters, filters, transpose_a=True) / tf.to_float(width * height * num_filters)

    return grams

## 参考  

1 [perceptual Losses for Real-Time Style Transfer and Super-Resolution](https://arxiv.org/abs/1603.08155)  
2 [fast-neural-style-tensorflow 源码](https://github.com/hzy46/fast-neural-style-tensorflow)  