# A Neural Algorithm of Arctic Style 画風変換  
  
  

**このプログラムの説明はQiitaの記事にもしておりますので、ご覧ください。**  
[TensorFlowで画風変換を少し説明しつつ実装してみる](https://qiita.com/isboj/items/4e25f0bd0a2577d7b857)


In [None]:
import tensorflow as tf
import numpy as np
import scipy.io
import scipy.misc
import os

VGGの学習済みの重みを利用します。その為、MATLABのmat形式で配布されているファイルをダウンロードします。
URL: http://www.vlfeat.org/matconvnet/pretrained/  
(VGG-VDモデルの、imagenet-vgg-verydeep-19.matをダウンロードします。)  
今回は、ダウンロードしたファイルを  
`[カレントディレクトリ]>[models]`  
に保存しています。

画風変換に利用する画像を設定していきます。  
スタイル画像の特徴をコンテンツ画像に適用していき、その結果が生成画像として出力されます。  
また、生成画像は最適化回数ごとに出力されますので、ディレクトリを指定します。  

In [None]:
CONTENT_IMG = 'images/SetoBridge.jpg'  # コンテンツ画像（jpgでないとダメ）
STYLE_IMG = 'images/StarryNight.jpg'  # スタイル画像（jpgでないとダメ）

OUTPUT_DIR = 'results'  # 生成画像ディレクトリ
OUTPUT_IMG = 'Seto'  # 生成画像ファイル名

VGG_MODEL = "models/imagenet-vgg-verydeep-19.mat" #matファイルのある場所

STYLE_STRENGTH = 500 # スタイルの強さ
ITERATION = 100 # 最適化回数（CPUなら100回くらい、GPUなら10000回くらいか）
SPAN_OUTPUT = 5 # 何回に1回出力するか

In [None]:
import skimage
##import imageio
os.getcwd()

VGGは600×300×3の画像を想定しているので、それぞれのサイズを設定する。  
平均値をゼロにするため、VGGの訓練データの平均画素値[123.68, 116.779, 103.939]を引かなければならない。(その為、平均画素値はVGGモデルにより異なる。)　　


In [None]:
#  入力画像から平均画素値を引くための定数(reshapeでそのまま引けるようにする)
MEAN_VALUES = np.array([123, 117, 104]).reshape((1,1,1,3))

## ネットワークの定義

In [None]:
def build_net(ntype, nin, rwb=None):
    """
    ネットワークの各層をTensorFlowで定義する関数
    : param ntype: ネットワークの層のタイプ(ここでは、畳み込み層もしくは、プーリング層)
    : param nin: 前の層
    : param rwb: VGGの最適化された値
    """
    if ntype == 'conv':
        return tf.nn.relu(tf.nn.conv2d(nin, rwb[0], strides=[1, 1, 1, 1], padding='SAME') + rwb[1])
    elif ntype == 'pool':
        return tf.nn.avg_pool(nin, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

In [None]:
def get_weight_bias(vgg_layers, i):
    """
    VGGの各層の最適化された重みとバイアスを取得する関数
    : param vgg_layers: ネットワークの層
    : param i:
    """
    weights = vgg_layers[i][0][0][2][0][0]
    weights = tf.constant(weights)
    bias = vgg_layers[i][0][0][2][0][1]
    bias = tf.constant(np.reshape(bias, (bias.size)))
    return weights, bias

In [None]:
def build_vgg19(path):
    """
    TensorFlowでVGGネットワークを構成する関数
    : param path: VGGの学習済みモデルのファイルのパス
    """
    net = {}
    vgg_rawnet = scipy.io.loadmat(path)
    vgg_layers = vgg_rawnet['layers'][0]
    net['input'] = tf.Variable(np.zeros((1, IMAGE_H, IMAGE_W, 3)).astype('float32'))
    net['conv1_1'] = build_net('conv',net['input'],get_weight_bias(vgg_layers,0))
    net['conv1_2'] = build_net('conv',net['conv1_1'],get_weight_bias(vgg_layers,2))
    net['pool1']   = build_net('pool',net['conv1_2'])
    net['conv2_1'] = build_net('conv',net['pool1'],get_weight_bias(vgg_layers,5))
    net['conv2_2'] = build_net('conv',net['conv2_1'],get_weight_bias(vgg_layers,7))
    net['pool2']   = build_net('pool',net['conv2_2'])
    net['conv3_1'] = build_net('conv',net['pool2'],get_weight_bias(vgg_layers,10))
    net['conv3_2'] = build_net('conv',net['conv3_1'],get_weight_bias(vgg_layers,12))
    net['conv3_3'] = build_net('conv',net['conv3_2'],get_weight_bias(vgg_layers,14))
    net['conv3_4'] = build_net('conv',net['conv3_3'],get_weight_bias(vgg_layers,16))
    net['pool3']   = build_net('pool',net['conv3_4'])
    net['conv4_1'] = build_net('conv',net['pool3'],get_weight_bias(vgg_layers,19))
    net['conv4_2'] = build_net('conv',net['conv4_1'],get_weight_bias(vgg_layers,21))
    net['conv4_3'] = build_net('conv',net['conv4_2'],get_weight_bias(vgg_layers,23))
    net['conv4_4'] = build_net('conv',net['conv4_3'],get_weight_bias(vgg_layers,25))
    net['pool4']   = build_net('pool',net['conv4_4'])
    net['conv5_1'] = build_net('conv',net['pool4'],get_weight_bias(vgg_layers,28))
    net['conv5_2'] = build_net('conv',net['conv5_1'],get_weight_bias(vgg_layers,30))
    net['conv5_3'] = build_net('conv',net['conv5_2'],get_weight_bias(vgg_layers,32))
    net['conv5_4'] = build_net('conv',net['conv5_3'],get_weight_bias(vgg_layers,34))
    net['pool5']   = build_net('pool',net['conv5_4'])
    return net

In [None]:
def build_content_loss(p, x):
    """
    コンテンツと出力の誤差
    """
    M = p.shape[1]*p.shape[2]
    N = p.shape[3]
    loss = (1./(2* N**0.5 * M**0.5 )) * tf.reduce_sum(tf.pow((x - p),2))  
    return loss

In [None]:
def gram_matrix(x, area, depth):
    """
    個々のフィルタ出力の相関をグラム行列で表現
    """
    x1 = tf.reshape(x,(area,depth))
    g = tf.matmul(tf.transpose(x1), x1)
    return g

In [None]:
def gram_matrix_val(x, area, depth):
    """
    スタイル自体もグラム行列で表現
    """
    x1 = x.reshape(area,depth)
    g = np.dot(x1.T, x1)
    return g

In [None]:
def build_style_loss(a, x):
    """
    スタイルと出力の誤差
    """
    M = a.shape[1]*a.shape[2]
    N = a.shape[3]
    A = gram_matrix_val(a, M, N )
    G = gram_matrix(x, M, N )
    loss = (1./(4 * N**2 * M**2)) * tf.reduce_sum(tf.pow((G - A),2))
    return loss

In [None]:
def read_image(path, IMAGE_SIZE=(0,0)):
    """
    画像を読み込む関数
    """
    image = scipy.misc.imread(path)
    if IMAGE_SIZE==(0,0):
        IMAGE_SIZE = (image.shape[0], image.shape[1])
    image = scipy.misc.imresize(image,IMAGE_SIZE)
    image = image[np.newaxis,:,:,:] 
    image = image - MEAN_VALUES
    return image, IMAGE_SIZE

In [None]:
def write_image(path, image):
    """
    生成された画像を保存する関数
    """
    image = image + MEAN_VALUES
    image = image[0]
    image = np.clip(image, 0, 255).astype('uint8')
    scipy.misc.imsave(path, image)

In [None]:
# 画像の読み込み
content_img, (IMAGE_H, IMAGE_W)= read_image(CONTENT_IMG)
style_img, (IMAGE_H, IMAGE_W) = read_image(STYLE_IMG, (IMAGE_H, IMAGE_W))

In [None]:
print(content_img.shape)
print(style_img.shape)

In [None]:
# VGG19モデルの作成
net = build_vgg19(VGG_MODEL)
# ホワイトノイズ
noise_img = np.random.uniform(-20, 20, (1, IMAGE_H, IMAGE_W, 3)).astype('float32')

In [None]:
# 初期化
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)

In [None]:
"""
画風変換の出力を調節するにはここを変更
"""
# 各種パラメータの設定
INI_NOISE_RATIO = 0.7 # ホワイトノイズの重み

# コンテンツ画像と出力画像で誤差を取る層
CONTENT_LAYERS =[('conv4_2',1.)]
# スタイル画像と出力画像で誤差を取る層
STYLE_LAYERS=[('conv1_1',1.),('conv2_1',1.),('conv3_1',1.),('conv4_1',1.),('conv5_1',1.)]

In [None]:
sess.run([net['input'].assign(content_img)])
cost_content = sum(map(lambda l,: l[1]*build_content_loss(sess.run(net[l[0]]) ,  net[l[0]]), CONTENT_LAYERS))

In [None]:
sess.run([net['input'].assign(style_img)])
cost_style = sum(map(lambda l: l[1]*build_style_loss(sess.run(net[l[0]]) ,  net[l[0]]), STYLE_LAYERS))

In [None]:
cost_total = cost_content + STYLE_STRENGTH * cost_style
optimizer = tf.train.AdamOptimizer(2.0)

In [None]:
train = optimizer.minimize(cost_total)
sess.run( tf.global_variables_initializer())
sess.run(net['input'].assign( INI_NOISE_RATIO* noise_img + (1.-INI_NOISE_RATIO) * content_img))

In [None]:
# 保存先ディレクトリが存在しないときは作成
if not os.path.exists(OUTPUT_DIR):
    os.mkdir(OUTPUT_DIR)

In [None]:
for i in range(ITERATION):
    sess.run(train)
    # SPAN_OUTPUT回ごとに経過を表示、画像を保存
    if i%SPAN_OUTPUT ==0:
        result_img = sess.run(net['input'])
        print ("ITERATION: ",i,", ",sess.run(cost_total))
        write_image(os.path.join(OUTPUT_DIR,OUTPUT_IMG + '%s.png'%(str(i).zfill(4))),result_img)

In [None]:
write_image(os.path.join(OUTPUT_DIR,OUTPUT_IMG + ".png"),result_img)