# 利用CycleGAN进行风格迁移
训练部分代码参考了https://github.com/tjwei/GANotebooks/blob/master/CycleGAN-keras.ipynb

### 功能简述

可以实现A类图片和B类图片之间相互的风格迁移。

比如A类图片为马的图片，B类图片为斑马的图片，可以实现将马转化成斑马，也可以将斑马转化成马。

整体架构使用的是CycleGAN，即同时训练将A转化为B风格的GAN和将B转化为A风格的GAN。

训练耗费的时间比较长，但是一旦有了训练好的模型，生成图片的速度比较快。

### 目录结构：

    /--+-- snapshot/                  ...存放快照
       |
       +-- models/                    ...存放训练出来的模型
       |
       +-- data/                      ...存放数据
             |
             +-- vangogh2photo/       ...某个数据集
                       |
                       +-- trainA/    ...类别为A的图片
                       |
                       +-- trainB/    ...类别为B的图片
                 

## 数据集相关

在我们的实现中，使用了python中的“类”的概念，可以把它看作一种工具。一种类就是完成一种任务的工具，包含了完成这种任务的一些数据和处理这些数据的方法。


In [1]:
from PIL import Image
import numpy as np


def load_image(fn, image_size):
    """
    加载一张图片
    fn:图像文件路径
    image_size:图像大小
    """
    im = Image.open(fn).convert('RGB')
    
    #切割图像(截取图像中间的最大正方形，然后将大小调整至输入大小)
    if (im.size[0] >= im.size[1]):
        im = im.crop(((im.size[0] - im.size[1])//2, 0, (im.size[0] + im.size[1])//2, im.size[1]))
    else:
        im = im.crop((0, (im.size[1] - im.size[0])//2, im.size[0], (im.size[0] + im.size[1])//2))
    im = im.resize((image_size, image_size), Image.BILINEAR)
    
    #将0-255的RGB值转换到[-1,1]上的值
    arr = np.array(im)/255*2-1   
    
    return arr

import glob
import random

class DataSet(object):
    """
    用于管理数据的类
    """
    def __init__(self, data_path, image_size = 256):
        self.data_path = data_path
        self.epoch = 0
        self.__init_list()
        self.image_size = image_size
        
    def __init_list(self):
        self.data_list = glob.glob(self.data_path)
        random.shuffle(self.data_list)
        self.ptr = 0
        
    def get_batch(self, batchsize):
        """
        取出batchsize张图片
        """
        if (self.ptr + batchsize >= len(self.data_list)):
            batch = [load_image(x, self.image_size) for x in self.data_list[self.ptr:]]
            rest = self.ptr + batchsize - len(self.data_list)
            self.__init_list()
            batch.extend([load_image(x, self.image_size) for x in self.data_list[:rest]])
            self.ptr = rest
            self.epoch += 1
        else:
            batch = [load_image(x, self.image_size) for x in self.data_list[self.ptr:self.ptr + batchsize]]
            self.ptr += batchsize
        
        return self.epoch, batch
        
    def get_pics(self, num):
        """
        取出num张图片，用于快照
        不会影响队列
        """
        return np.array([load_image(x, self.image_size) for x in random.sample(self.data_list, num)])

def arr2image(X):
    """
    将RGB值从[-1,1]重新转回[0,255]
    """
    int_X = ((X+1)/2*255).clip(0,255).astype('uint8')
    return Image.fromarray(int_X)

def generate(img, fn):
    """
    将一张图片img送入生成网络fn中
    """
    r = fn([np.array([img])])[0]
    return arr2image(np.array(r[0]))


## 构建网络

In [2]:
#导入必要的库
import keras.backend as K

from keras.models import Sequential, Model
from keras.layers import Conv2D, BatchNormalization, Input, Dropout, Add
from keras.layers import Conv2DTranspose, Reshape, Activation, Cropping2D, Flatten
from keras.layers import Concatenate
from keras.optimizers import RMSprop, SGD, Adam

from keras.layers.advanced_activations import LeakyReLU
from keras.activations import relu,tanh
from keras.initializers import RandomNormal

Using TensorFlow backend.


In [3]:
#用于初始化
conv_init = RandomNormal(0, 0.02)

def conv2d(f, *a, **k):
    """
    卷积层
    """
    return Conv2D(f, 
                  kernel_initializer = conv_init,
                  *a, **k)
def batchnorm():
    """
    标准化层
    """
    return BatchNormalization(momentum=0.9, epsilon=1.01e-5, axis=-1,)

def res_block(x, dim):
    """
    残差网络
    [x] --> [卷积] --> [标准化] --> [激活] --> [卷积] --> [标准化] --> [激活] --> [+] --> [激活]
     |                                                                        ^
     |                                                                        |
     +------------------------------------------------------------------------+
    """
    x1 = conv2d(dim, 3, padding="same", use_bias=True)(x)
    x1 = batchnorm()(x1, training=1)
    x1 = Activation('relu')(x1)
    x1 = conv2d(dim, 3, padding="same", use_bias=True)(x1)
    x1 = batchnorm()(x1, training=1)
    x1 = Activation("relu")(Add()([x,x1]))
    return x1


#### 生成网络
我们的生成网络按照三层卷积层、九个残差网络block和三个反卷积层的结构堆叠而成。什么是反卷积层呢？我们知道卷积层具有自己的步长，当步长大于一的时候，输出的尺寸是会小于输入的尺寸的。而反卷积层则相反，当反卷积层的步长大于一的时候，输出的尺寸是大于输入尺寸的。反卷积层可以视作是卷积层的一种逆向操作。它的运算规则和卷积层是相似的。反卷积层首先在输入数据里面填充，使输入的尺寸扩大，然后再用卷积核进行卷积运算，得到的输出尺寸有可能比原本的输入更大。<br />![image.png](https://cdn.nlark.com/yuque/0/2019/png/325286/1556074465774-bc3dbd0f-fa13-490a-84f9-7ca6c6ccf83a.png#align=left&display=inline&height=449&name=image.png&originHeight=449&originWidth=395&size=68961&status=done&width=395)<br /><center>反卷积运算<br />[https://github.com/vdumoulin/conv_arithmetic](https://github.com/vdumoulin/conv_arithmetic)</center><br />有了关于残差网络的知识，这个结构就很容易理解了：

In [4]:
def NET_G(ngf=64, block_n=6, downsampling_n=2, upsampling_n=2, image_size = 256):
    """
    生成网络
    采用resnet结构

    block_n为残差网络叠加的数量
    论文中采用的参数为 若图片大小为128,采用6；若图片大小为256,采用9

    [第一层] 大小为7的卷积核 通道数量 3->ngf 
    [下采样] 大小为3的卷积核 步长为2 每层通道数量倍增
    [残差网络] 九个block叠加
    [上采样] 
    [最后一层] 通道数量变回3

    """
    
    input_t = Input(shape=(image_size, image_size, 3))
    #输入层

    x = input_t
    dim = ngf
    
    x = conv2d(dim, 7, padding="same")(x)
    x = batchnorm()(x, training = 1)
    x = Activation("relu")(x)
    #第一层
    
    for i in range(downsampling_n):
        dim *= 2
        x = conv2d(dim, 3, strides = 2, padding="same")(x)
        x = batchnorm()(x, training = 1)
        x = Activation('relu')(x)
    #下采样部分

    for i in range(block_n):
        x = res_block(x, dim)
    #残差网络部分

    for i in range(upsampling_n):
        dim = dim // 2
        x = Conv2DTranspose(dim, 3, strides = 2, kernel_initializer = conv_init, padding="same")(x)
        x = batchnorm()(x, training = 1)
        x = Activation('relu')(x) 
    #上采样
    
    dim = 3
    x = conv2d(dim, 7, padding="same")(x)
    x = Activation("tanh")(x)
    #最后一层
    
    return Model(inputs=input_t, outputs=x)


#### 判别网络
判别网络的结构比生成网络简单得多，只是几层卷积的叠加而已：



在这里，判别网络最后的输出并不是一个数，而是一个矩阵。这并不影响我们对于损失函数的计算，我们只需要把损失函数中的0和1看作是和判别网络具有相同尺寸的矩阵就可以了。<br />这里我们使用了一种新的激活函数，叫做LeakyReLU。这个函数和ReLU非常相似，不同之处只是当x小于0的时候，LeakyReLU的值并不是0,而是仍然有一个较小的斜率。<br />![image.png](https://cdn.nlark.com/yuque/0/2019/png/325286/1556079508777-87362b12-cc3b-4bf7-b9fd-dec7cac64215.png#align=left&display=inline&height=273&name=image.png&originHeight=273&originWidth=704&size=47469&status=done&width=704)<br /><center>ReLU和Leaky ReLU</center><br />

In [5]:
def NET_D(ndf=64, max_layers = 3, image_size = 256):
    """
    判别网络
    """
    input_t = Input(shape=(image_size, image_size, 3))
    
    x = input_t
    x = conv2d(ndf, 4, padding="same", strides=2)(x)
    x = LeakyReLU(alpha = 0.2)(x)
    dim = ndf
    
    for i in range(1, max_layers):
        dim *= 2
        x = conv2d(dim, 4, padding="same", strides=2, use_bias=False)(x)
        x = batchnorm()(x, training=1)
        x = LeakyReLU(alpha = 0.2)(x)

    x = conv2d(dim, 4, padding="same")(x)
    x = batchnorm()(x, training=1)
    x = LeakyReLU(alpha = 0.2)(x)
        
    x = conv2d(1, 4, padding="same", activation = "sigmoid")(x)
    return Model(inputs=input_t, outputs=x)


In [6]:
def loss_func(output, target):
    """
    损失函数
    论文中提到使用平方损失更好
    """
    return K.mean(K.abs(K.square(output-target)))

#### 网络结构的搭建
我们采用“类”的概念来组织GAN的网络结构：

In [7]:
class CycleGAN(object):
    def __init__(self, image_size=256, lambda_cyc=10, lrD = 2e-4, lrG = 2e-4, ndf = 64, ngf = 64, resnet_blocks = 9):
        """
        构建网络结构
                      cyc loss
         +---------------------------------+      
         |            (CycleA)             |       
         v                                 |
        realA -> [GB] -> fakeB -> [GA] -> recA          
         |                 |
         |                 +---------------+
         |                                 |
         v                                 v
        [DA]         <CycleGAN>           [DB]
         ^                                 ^
         |                                 |
         +----------------+                |
                          |                |
        recB <- [GB] <- fakeA <- [GA] <- realB          
         |                                 ^
         |            (CycleB)             |
         +---------------------------------+
                        cyc loss
        """
        
        #创建生成网络
        self.GA = NET_G(image_size = image_size, ngf = ngf, block_n = resnet_blocks)
        self.GB = NET_G(image_size = image_size, ngf = ngf, block_n = resnet_blocks)
        
        #创建判别网络
        self.DA = NET_D(image_size = image_size, ndf = ndf)
        self.DB = NET_D(image_size = image_size, ndf = ndf)

        #获取真实、伪造和复原的A类图和B类图变量
        realA, realB = self.GB.inputs[0],  self.GA.inputs[0]
        fakeB, fakeA = self.GB.outputs[0], self.GA.outputs[0]
        recA,  recB  = self.GA([fakeB]),   self.GB([fakeA])

        #获取由真实图片生成伪造图片和复原图片的函数
        self.cycleA = K.function([realA], [fakeB,recA])
        self.cycleB = K.function([realB], [fakeA,recB])

        #获得判别网络判别真实图片和伪造图片的结果
        DrealA, DrealB = self.DA([realA]), self.DB([realB])
        DfakeA, DfakeB = self.DA([fakeA]), self.DB([fakeB])

        #用生成网络和判别网络的结果计算损失函数
        lossDA, lossGA, lossCycA = self.get_loss(DrealA, DfakeA, realA, recA)
        lossDB, lossGB, lossCycB = self.get_loss(DrealB, DfakeB, realB, recB)

        lossG = lossGA + lossGB + lambda_cyc * (lossCycA + lossCycB)
        lossD = lossDA + lossDB

        #获取参数更新器
        updaterG = Adam(lr = lrG, beta_1=0.5).get_updates(self.GA.trainable_weights + self.GB.trainable_weights, [], lossG)
        updaterD = Adam(lr = lrD, beta_1=0.5).get_updates(self.DA.trainable_weights + self.DB.trainable_weights, [], lossD)
        
        #创建训练函数，可以通过调用这两个函数来训练网络
        self.trainG = K.function([realA, realB], [lossGA, lossGB, lossCycA, lossCycB], updaterG)
        self.trainD = K.function([realA, realB], [lossDA, lossDB], updaterD)
    
    
    def get_loss(self, Dreal, Dfake, real , rec):
        """
        获取网络中的损失函数
        """
        lossD = loss_func(Dreal, K.ones_like(Dreal)) + loss_func(Dfake, K.zeros_like(Dfake))
        lossG = loss_func(Dfake, K.ones_like(Dfake))
        lossCyc = K.mean(K.abs(real - rec))
        return lossD, lossG, lossCyc
    
    def save(self, path="./models/model"):
        self.GA.save("{}-GA.h5".format(path))
        self.GB.save("{}-GB.h5".format(path))
        self.DA.save("{}-DA.h5".format(path))
        self.DB.save("{}-DB.h5".format(path))

    def train(self, A, B):
        errDA, errDB = self.trainD([A, B])
        errGA, errGB, errCycA, errCycB = self.trainG([A, B])
        return errDA, errDB, errGA, errGB, errCycA, errCycB

## 训练相关代码

在这里，我们提供了一个snapshot函数，可以在训练的过程中生成预览效果。

In [8]:
#输入神经网络的图片尺寸
IMG_SIZE = 128

#数据集名称
DATASET = "vangogh2photo"

#数据集路径
dataset_path = "./data/{}/".format(DATASET)


trainA_path = dataset_path + "trainA/*.jpg"
trainB_path = dataset_path + "trainB/*.jpg"

In [9]:
train_A = DataSet(trainA_path, image_size = IMG_SIZE)
train_B = DataSet(trainB_path, image_size = IMG_SIZE)

def train_batch(batchsize):
    """
    从数据集中取出一个Batch
    """
    epa, a = train_A.get_batch(batchsize)
    epb, b = train_B.get_batch(batchsize)
    return max(epa, epb), a, b

In [10]:
def gen(generator, X):
    r = np.array([generator([np.array([x])]) for x in X])
    g = r[:,0,0]
    rec = r[:,1,0]
    return g, rec 

def snapshot(cycleA, cycleB, A, B):        
    """
    产生一个快照
    
    A、B是两个图片列表
    cycleA是 A->B->A的一个循环
    cycleB是 B->A->B的一个循环
    
    输出一张图片：
    +-----------+     +-----------+
    | X (in A)  | ... |  Y (in B) | ...
    +-----------+     +-----------+
    |   GB(X)   | ... |   GA(Y)   | ...
    +-----------+     +-----------+
    | GA(GB(X)) | ... | GB(GA(Y)) | ...
    +-----------+     +-----------+
    """
    gA, recA = gen(cycleA, A)
    gB, recB = gen(cycleB, B)

    lines = [
        np.concatenate(A.tolist()+B.tolist(), axis = 1),
        np.concatenate(gA.tolist()+gB.tolist(), axis = 1),
        np.concatenate(recA.tolist()+recB.tolist(), axis = 1)
    ]

    arr = np.concatenate(lines)
    return arr2image(arr)

In [11]:
#创建模型
model = CycleGAN(image_size = IMG_SIZE)

In [12]:
#训练代码
import time
start_t = time.time()

EPOCH_NUM = 100
epoch = 0

DISPLAY_INTERVAL = 5
SNAPSHOT_INTERVAL = 50
SAVE_INTERVAL = 200

BATCH_SIZE = 1

iter_cnt = 0
err_sum = np.zeros(6)

while epoch < EPOCH_NUM:       
    epoch, A, B = train_batch(BATCH_SIZE) 
    err  = model.train(A, B)
    err_sum += np.array(err)

    iter_cnt += 1

    if (iter_cnt % DISPLAY_INTERVAL == 0):
        err_avg = err_sum / DISPLAY_INTERVAL
        print('[迭代%d] 判别损失: A %f B %f 生成损失: A %f B %f 循环损失: A %f B %f'
        % (iter_cnt, 
        err_avg[0], err_avg[1], err_avg[2], err_avg[3], err_avg[4], err_avg[5]),
        )      
        err_sum = np.zeros_like(err_sum)


    if (iter_cnt % SNAPSHOT_INTERVAL == 0):
        A = train_A.get_pics(4)
        B = train_B.get_pics(4)
        snapshot(model.cycleA, model.cycleB, A, B).save("./snapshot/{}.png".format(iter_cnt))

    if (iter_cnt % SAVE_INTERVAL == 0):
        model.save(path = "./models/model-{}".format(iter_cnt))


[迭代5] 判别损失: A 0.553110 B 0.544421 生成损失: A 0.328847 B 0.338626 循环损失: A 0.540241 B 0.541242
[迭代10] 判别损失: A 0.504546 B 0.516119 生成损失: A 0.383115 B 0.360146 循环损失: A 0.416725 B 0.459113
[迭代15] 判别损失: A 0.493387 B 0.509429 生成损失: A 0.374185 B 0.357337 循环损失: A 0.523256 B 0.368838
[迭代20] 判别损失: A 0.398151 B 0.456671 生成损失: A 0.437630 B 0.377726 循环损失: A 0.392315 B 0.376411
[迭代25] 判别损失: A 0.445816 B 0.486390 生成损失: A 0.425615 B 0.403395 循环损失: A 0.400680 B 0.397654
[迭代30] 判别损失: A 0.474137 B 0.487787 生成损失: A 0.404137 B 0.364058 循环损失: A 0.343778 B 0.443276
[迭代35] 判别损失: A 0.430336 B 0.465811 生成损失: A 0.393310 B 0.362208 循环损失: A 0.296051 B 0.370275
[迭代40] 判别损失: A 0.502109 B 0.450251 生成损失: A 0.415723 B 0.392026 循环损失: A 0.317308 B 0.463644
[迭代45] 判别损失: A 0.499073 B 0.427926 生成损失: A 0.374012 B 0.405073 循环损失: A 0.317396 B 0.420848
[迭代50] 判别损失: A 0.384761 B 0.414583 生成损失: A 0.426253 B 0.396444 循环损失: A 0.327207 B 0.320688
[迭代55] 判别损失: A 0.405843 B 0.436911 生成损失: A 0.435845 B 0.383412 循环损失: A 0.354497 B 0.284417


[迭代455] 判别损失: A 0.169861 B 0.500008 生成损失: A 0.711304 B 0.485119 循环损失: A 0.242523 B 0.323943
[迭代460] 判别损失: A 0.307695 B 0.550725 生成损失: A 0.693025 B 0.486315 循环损失: A 0.266561 B 0.262663
[迭代465] 判别损失: A 0.196316 B 0.345400 生成损失: A 0.680734 B 0.544456 循环损失: A 0.266458 B 0.359906
[迭代470] 判别损失: A 0.179850 B 0.565964 生成损失: A 0.724033 B 0.413497 循环损失: A 0.275015 B 0.364905
[迭代475] 判别损失: A 0.394354 B 0.502446 生成损失: A 0.599829 B 0.563800 循环损失: A 0.289285 B 0.385139
[迭代480] 判别损失: A 0.290515 B 0.352812 生成损失: A 0.597007 B 0.475130 循环损失: A 0.320142 B 0.286595
[迭代485] 判别损失: A 0.359308 B 0.379783 生成损失: A 0.582148 B 0.481284 循环损失: A 0.311575 B 0.224642
[迭代490] 判别损失: A 0.311529 B 0.276052 生成损失: A 0.570040 B 0.518140 循环损失: A 0.283852 B 0.303468
[迭代495] 判别损失: A 0.354695 B 0.339651 生成损失: A 0.604951 B 0.559308 循环损失: A 0.268436 B 0.277632
[迭代500] 判别损失: A 0.422122 B 0.257715 生成损失: A 0.694205 B 0.573981 循环损失: A 0.319458 B 0.401114
[迭代505] 判别损失: A 0.462241 B 0.323628 生成损失: A 0.456074 B 0.510663 循环损失: A 0.282339

[迭代905] 判别损失: A 0.374640 B 0.126849 生成损失: A 0.513107 B 0.687610 循环损失: A 0.320363 B 0.275902
[迭代910] 判别损失: A 0.619684 B 0.417085 生成损失: A 0.526699 B 0.581088 循环损失: A 0.312578 B 0.237803
[迭代915] 判别损失: A 0.410815 B 0.196721 生成损失: A 0.438679 B 0.662643 循环损失: A 0.218231 B 0.311470
[迭代920] 判别损失: A 0.461322 B 0.291681 生成损失: A 0.454848 B 0.662787 循环损失: A 0.281115 B 0.258053
[迭代925] 判别损失: A 0.435516 B 0.192342 生成损失: A 0.429542 B 0.617901 循环损失: A 0.289858 B 0.328138
[迭代930] 判别损失: A 0.436794 B 0.351734 生成损失: A 0.454128 B 0.627865 循环损失: A 0.287234 B 0.387552
[迭代935] 判别损失: A 0.370961 B 0.392905 生成损失: A 0.532063 B 0.596391 循环损失: A 0.282173 B 0.398986
[迭代940] 判别损失: A 0.616579 B 0.350993 生成损失: A 0.471752 B 0.558314 循环损失: A 0.267446 B 0.340191
[迭代945] 判别损失: A 0.560142 B 0.330626 生成损失: A 0.372901 B 0.561627 循环损失: A 0.261877 B 0.307208
[迭代950] 判别损失: A 0.353872 B 0.505091 生成损失: A 0.486635 B 0.552793 循环损失: A 0.259394 B 0.368817
[迭代955] 判别损失: A 0.494137 B 0.389396 生成损失: A 0.393814 B 0.573722 循环损失: A 0.289338

[迭代1350] 判别损失: A 0.452833 B 0.629250 生成损失: A 0.430399 B 0.631518 循环损失: A 0.269014 B 0.307281
[迭代1355] 判别损失: A 0.324069 B 0.405570 生成损失: A 0.488937 B 0.443881 循环损失: A 0.242581 B 0.208794
[迭代1360] 判别损失: A 0.300645 B 0.414689 生成损失: A 0.544161 B 0.562328 循环损失: A 0.283893 B 0.372998
[迭代1365] 判别损失: A 0.407380 B 0.464191 生成损失: A 0.502841 B 0.406470 循环损失: A 0.215391 B 0.198265
[迭代1370] 判别损失: A 0.366484 B 0.381721 生成损失: A 0.558316 B 0.552927 循环损失: A 0.221027 B 0.227819
[迭代1375] 判别损失: A 0.561285 B 0.391081 生成损失: A 0.413733 B 0.543019 循环损失: A 0.230342 B 0.301985
[迭代1380] 判别损失: A 0.424406 B 0.651354 生成损失: A 0.461305 B 0.431021 循环损失: A 0.250404 B 0.235762
[迭代1385] 判别损失: A 0.325569 B 0.473094 生成损失: A 0.554514 B 0.485018 循环损失: A 0.256609 B 0.234950
[迭代1390] 判别损失: A 0.494698 B 0.369719 生成损失: A 0.446662 B 0.549208 循环损失: A 0.268958 B 0.301772
[迭代1395] 判别损失: A 0.457142 B 0.310630 生成损失: A 0.477145 B 0.502735 循环损失: A 0.252367 B 0.226182
[迭代1400] 判别损失: A 0.336601 B 0.291210 生成损失: A 0.573307 B 0.566308 循环损失:

KeyboardInterrupt: 