---
>「『優れた芸術家はまねをし、偉大な芸術家は盗む』とピカソは言った。
だからすごいと思ってきたさまざまなアイデアをいつも盗んできた。」\
>スティーブ・ジョブズ
---

# 転移学習

一般にデモで凄い！と思わせるようなAIアプリはともかく、シンプルなVGGやResNetといった画像認識でさえ、膨大なデータと計算量が必要である
- フルスクラッチ（ランダム重み）から学習できるひとは一握り

では、あきらめるのか？というと、それに対する一つの答えが**転移学習(Transfer Learning)**である
- DLにおけるエコ、地球にやさしいDL

転移学習とは**大規模データで学習済みのモデルを別のタスクに転移、つまり応用する技術全般を指す**

## 一般的な転移学習が扱う問題

特徴空間とラベルの違い、また、完全に異なるのか、分布が異なるのかの違いの掛け合わせにより、次の4つの分類がある

- 特徴空間が異なる問題

 知識の転移元がそもそも異なる、つまり特徴空間が異なる転移学習のことで、**異質(ヘテロ)転移学習(Heterogeneous Transfer Learning)**と呼ばれる

- 周辺確率分布が異なる問題

 特徴空間は同じであるが、その特徴空間における周辺確率分布が異なる問題への転移学習を、**同質(ホモ)転移学習(Homogeneous Transfer Learning)**と呼ばれる

- ラベル空間が異なる問題

 ラベルの空間が異なる場合への適用例を指す

- 条件付確率分布が異なる問題

 ラベルの空間は同一であるが、その出現頻度が異なる場合への適用例を指す

## 一般的な転移学習の分類


### 問題設定に基づく分類

**帰納的転移学習(Inductive Transfer Learning)**

元の特徴量(ソースドメイン)と転移先の特徴量(ターゲットドメイン)が同じか否かに関わらず、元の変換(特に条件付確率モデル)(ソースタスク)と転移先の変換(ターゲットタスク)が異なる

- 帰納的転移学習はターゲットドメインにラベルが存在する場合に定義可能
- ソースにラベルがある場合は**機能的転移学習**、ない場合は**自己教示学習**と呼ぶ

**教師なし転移学習(Unsupervised Transfer Learning)**

ソースタスクとターゲットタスクが異なり、教師なし学習であるクラスタリングや次元削減をターゲットドメインで解く手法
- ソースドメインとターゲットドメインの両方にラベルがない

**トランスダクティブ転移学習(Trunsductive Transfer Learning)**

ソースタスクとターゲットタスクが同一であるが、ドメインが異なる場合の手法

- ソースドメインにおけるラベル付きデータの殆どが利用可能であるが、ターゲットドメインのラベル付きデータが利用できない場合を指す

### アプローチに基づく分類

何を転移するかによる分類

**インスタンス転移**
- ソースドメインのインスタンス、つまりサンプルや データセットの特定部分について再度重み付けすることで、ターゲットドメインの学習に再利用する

**特徴表現転移**
- ソースドメインとターゲットドメインの差や、分類・回帰モデルの誤差を軽減する都合の良い特徴表現を発見し利用する

**パラメータ転移**
- ソースモデルとターゲットモデルそれぞれのハイパーパラメータが同一であるという前提のもと、そのパラメータや事前分布を発見し利用する

**関係性のある知識の転移**
- ソースモデルにおける結果としてのデータ間の関係性をターゲットドメインに転移し利用する


## ディープラーニングにおける転移学習の分類

**ネットワークベース転移学習**

ソースドメインのネットワーク(モデル)を再利用する手法で、DLにおける転移学習といえば、一般にこの手法を指す

- **事前学習済みネットワークベース転移学習**

 最終層で最終出力が得られるが、その層まではそこに至る特徴を保存しているといえ、この特徴を再利用するために最終層付近のみ重みを再学習する、もしくは、ネットワークを組み替える

- **事前学習済ネットワークの微調整(ファインチューニング)**

 単にファインチューニングと呼ばれることの多い手法で、学習済みネットワークの重みを初期値として、ターゲットドメインでモデル全体の重みを再学習する、もしくは、ネットワークの一部を組み替えて全体を再学習させる
  - 違いは、固定するパラメタがあるかないか

なお、この違いについては、文献などにより様々存在しており、画一的な見解がなく、例えば次のような分類も存在する

- 転移学習
  学習済みモデルの重みは更新せず、このモデルに新たな層を追加、この追加した層のみ学習させ重みを更新する

- ファインチューニング
  学習済みモデルの一部の重みを更新せず、主に後段の層の重みを更新しつつ、追加した層も学習により重みを更新する

この分類は「層を追加する」という観点で異なるが、いずれの場合も、「ファインチューニングの方が更新対象範囲が広い」という観点で類似している


**インスタンスベース転移学習**

ソースドメインのインスタンス、つまりサンプルやデータセットの特定部分について再重み付けすることで、ターゲットドメインの学習に再利用する

- 先に示したインスタンス転移を行うこと

**地図ベース転移学習**

ソースドメインとターゲットドメインのインスタンスを新しいデータ空間にマッピングして利用すること

**敵対ベース転移学習**

GANを活用しソースドメインとターゲットドメインの両方に適用可能で転移可能な表現を見つけ出して利用すること
- ソースドメインとターゲットドメインそれぞれから特徴量を抽出し、GANのDescriminator(識別ネットワーク)でどちらのドメインに属する特徴量かを判別させる
  - 判定精度が低ければ、両ドメインの特徴量の差が小さく、転送性が良いと判断する
  - 判別性能が高い場合は、特徴量の差が大きく、転送性が低いと判断する

なお、以下の関連用語についてもここで纏めて奥

**蒸留(Distillation)**

大容量かつ深いモデルで学んだ知識を蒸留、すなわち縮約し、小さく軽量なモデルの学習に活用すること

**マルチタスク学習**

ソースとターゲットを区別せず、共有層を含む複数のタスクを同時に学習させること

## 転移学習のメリット・デメリット

**メリット**

- ある領域(ドメイン)で学習したモデルを別の領域に適用するため、サンプル数が限定されている場合でも比較的高精度なモデルを構築できる

  - 高品質なデータを大量に取得することは、コスト的・時間的に難しい場合が多い
  - 大量かつ高品質なデータによって学習した質の高いモデル・知識領域を転移させることで、限定的なデータであっても高精度なモデルを構築できる可能性がある

- モデルを短時間で構成

  - 事前学習済みネットワークを利用する場合は、0から学習する必要がないため学習時間・コストを短縮できる

- シミュレーター環境で訓練したモデルを現実に適応させる

- これらの背景にはすでに学んだが、DNNにおいては、タスク共通の主要な特徴があり、これを共通化できるという特徴を利用している
  - 特に画像認識などの領域ではスタイルトランスファーのように、大きくとらえる・細かくとらえるといった認識範囲や粒度の特徴をうまく活用できる可能性がある

**デメリット**

- 転移が必ず精度改善などよい結果を生むとは限らない
  - **負の転移(negative transfer)**と呼ばれる状況が発生しうる





# 転移学習の実際

ここでは、代表的な事前学習済みネットワークベース転移学習について学ぶ

ファインチューニング(全パラメタを再学習)と、一般的な転移学習(入れ替えた層だけ学習)の二つを試す

PyTorchでは、Alexnet、VGG、ResNet、SqueezeNet、Inception v3などの代表的なネットワークが利用できる。

ここでは、ImageNetで学習した1000クラスの分類モデルを用いて、ウルトラマンの中でも、ウルトラマンと帰ってきたウルトラマンほどではないが、それなりに難しい分類を行う。

In [None]:
cuda = "cuda:0"
import torch
import torch.nn as nn
import torch.optim as optim
from torch.optim import lr_scheduler
from torch.autograd import Variable
import torchvision
from torchvision import datasets, models, transforms
import os
import time
import copy
import numpy as np
import matplotlib.pyplot as plt
device = torch.device(cuda if torch.cuda.is_available() else "cpu")
print(device)

今回分類するのは、ウルトラマンタロウとウルトラマンレオである。

ウルトラマンタロウとウルトラマンレオを分類するモデルを学習するための**少数の**画像を入手する

知らない人は目視でも見分けるのが難しいといわれるが、角に注目すると、横に伸びるのがレオ、縦に曲がってとがっているのがタロウ、特に太郎は真ん中の角も目立つ。その他、胸のパターンが違うなど、よく見るとかなり違う。



In [None]:
if not os.path.exists('ultra.tar.gz'):
  #!wget "https://drive.google.com/uc?export=download&id=1Oo-YhK2FTuqKMAAWkjwcVFjSJL9sXB6p" -O ultra.tar.gz
  !wget https://keio.box.com/shared/static/smgue95s7l3b5z1augf34p3ecqrm0qqw -O ultra.tar.gz
  !tar xzf ultra.tar.gz

画像認識では、ネットワークの前段の方で、人間のニューロンが備えるようなある固定の形状に特異的に反応するニューロンクラスタが生成されているのではないかという仮説があり、このことの実験的解析・証明も行われた

- 画像からタロウとレオを分類するモデルを学習する
- レオは237枚、タロウはどちらかというと人気が高いので集まりやすく289枚ある。なお、手作業で仕訳けているので多少のミスが混入している可能性がある。

フルスクラッチで学習するには不十分な枚数であるが、転移学習であれば十分可能な枚数である

今回の目標は、
- 学習済みImageNetを転移学習する
- ImageNet自体も蟻とハチの分類が可能であるが、転移学習により、その分類精度を向上させる
  - 今回はタロウとレオしか最後に判定しない(他が判定できないようにする)

なお、PyTorchのチュートリアルには、ハチと蟻の分類があり、これに関して多くの参考例が存在する
- この場合は、オリジナルの1000のクラスにハチと蟻が既に含まれているため、若干議論が必要になる
- 本来は1000のクラスに**含まれない**データを扱うべき
- 含まれているが、精度が向上すればよいという考えは次の疑問に対して答える必要がある
  - 1000のクラスがありました
  - ハチと蟻はそのまま正解するでしょう
  - ハチと蟻しかないのであるから、ハチと蟻以外の残り998クラスに分類された絵に対して、各クラスの画像がハチと蟻、どちらに近いかだけ与えてしまえば、精度は向上するというクイックハックが想定できる
  - それよりも向上した、ということが示されなければ、**転移学習のネットワーク組み換えにより本当によくなったといえないのではないか？**

今回はウルトラマンなので、このような疑問を挟む余地はない


## 展開フォルダから画像をロード

PyTorchのImageFolderを用いてデータをロードする
- 画像データはPIL形式で読み込む必要がある
  - 画像フォルダからデータをPIL形式で読み込むにはtorchvision.datasets.ImageFolderを利用する
  - 既に習得済みのtransform機能がImageFolderにも存在し、データ拡張を行う変換関数群を指定できる
  - クラス名のサブフォルダ(train/ants, train/bees)を作成しておくと自動的にクラス(ants, bees)を割り付けることができる
    - ラベルはフォルダの順番に0, 1, 2, ...と割り当てられる

この関数は全画像データをまとめてメモリにロードするわけではないため、大量かつ巨大な画像ファイルがあっても問題ない

まずは、試しにデータをよみだし、データ数を確認する

In [None]:
image_dataset = datasets.ImageFolder(root="ultra")
image, label = image_dataset[0]

一番最初の画像と自動的に振られたラベル(ハチは0)を確認する

**ウルトラマンが嫌いな人には本当に申し訳ない**
- 正解しているのか不正解なのかの判別ができないかもしれない。

In [None]:
plt.figure()
plt.axis("off")
plt.imshow(image)

## データ拡張

PyTorchにはさまざまなデータ拡張機能があるが、今回以下の機能を利用する
- 既に紹介済みの機能も改めて紹介する

### RandomResizedCrop

PIL画像をランダムなサイズとアスペクト比にクロップする
- 実行ボタンを押すと、毎回異なる部位が現れる

In [None]:
t = transforms.RandomResizedCrop(224)
trans_image = t(image)
plt.figure()
plt.axis("off")
plt.imshow(trans_image)

### RandomHorizontalFlip

与えられたPIL画像を0.5の確率でランダムに水平反転させる

In [None]:
t = transforms.RandomHorizontalFlip()
trans_image = t(image)
plt.figure()
plt.axis("off")
plt.imshow(trans_image)

### Resize

PIL画像を指定されたサイズにリサイズする

In [None]:
t = transforms.Resize((int(torch.rand(1).item()*200+50), int(torch.rand(1).item()*200+50)))
trans_image = t(image)
trans_image

### CenterCrop

PIL画像を中央でトリミングする
- 何度も押して動作を確認すると良い

In [None]:
t = transforms.CenterCrop(int(torch.rand(1).item()*200+50))
trans_image = t(image)
trans_image

## データ変換関数の作成
以上を全部用いたデータ変換関数を準備する
- 既に述べたが、**データをロードする度に変換される**

- 訓練時と評価時ではデータ変換関数を変更している
  - 訓練時は汎化性能が上がるように RandomResizedCrop や RandomHorizontalFlip などデータ拡張する変換を用いる
  - 評価時はランダム性は入れずに入力画像のサイズがネットワークに合うようにサイズを変形する
  - ImageNetでは大きめ(256x256)にリサイズした後、中心部分の224x224を切り出すという手法を用いているため、それに従う
- Normalize()でImageNetの訓練データの平均と分散を用いて入力画像の画素値を平均0、分散1に正規化する
  - ImageNetにおいて、転移学習など、学習済のパラメタを使うときは、この変換を施す
  - 新たに加える画像の画素分布になるべく引っ張られないようにする

変換関数などについて、trainとevalで参照できるようにしている
- `data_transforms['train']()`:訓練画像用変換関数
- `data_transforms['val']()`: 評価画像用変換関数
  - ダウンロードしたデータセットが'train'と'val'という2つのフォルダに画像を保存しているため、これに倣っている

image_datasets: 画像データセット
- フォルダから画像をImageFolderで読み込んで画像データセットを作成する
- ImageFolderの第2引数にデータ変換用の関数を指定する


## ハイパーパラメタ

ここでは、バッチサイズとエポック数だけ指定する

簡単に変更できるので試してみると良い

In [None]:
batch_size = 64
num_epochs = 10

In [None]:
data_transforms = {
  'train': transforms.Compose([
    transforms.RandomResizedCrop(224),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
  ]),
  'val': transforms.Compose([
    transforms.Resize((256, 256)),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
  ]),
}

image_datasets = {x: datasets.ImageFolder("ultra", data_transforms[x])
                  for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x],
                  batch_size=batch_size, shuffle=True, num_workers=4)
                  for x in ['train', 'val']}
dataset_sizes = {x: len(image_datasets[x])
                  for x in ['train', 'val']}
class_names = image_datasets['train'].classes
acc_list = {x: [] for x in ['train', 'val']}

## 訓練画像の可視化

- データ変換においてToTensor()でPyTorchのテンソル形式に変換されている
  - これまでもそうであったが、このままでは描画できない
  - そのでテンソルをnumpy()でndarrayに変換しなおしてから描画する
- 画素値を正則化しているため、逆演算(標準偏差を積算し平均を加算)し元に戻す

既におなじみと思われるが、`images.size()`として、バッチサイズ、チャネル(RGB)、画素x、画素y、さらにクラスのサイズが表示される
- ここでは、バッチサイズ数の画像が並ぶ
- また、次の'classes.size()として、バッチサイズ分のラベル値が表示される


In [None]:
def imshow(images, title=None, size=10):
  images = images.numpy().transpose((1, 2, 0))
  mean = np.array([0.485, 0.456, 0.406])
  std = np.array([0.229, 0.224, 0.225])
  images = std * images + mean
  images = np.clip(images, 0, 1)
  plt.figure(figsize=(size,size))
  plt.imshow(images)
  plt.axis("off")
#  if title is not None:
#    plt.title(title)
images, classes = next(iter(dataloaders['train']))
print(images.size(), classes.size())
images = torchvision.utils.make_grid(images)
imshow(images, title=[class_names[x] for x in classes])

一応確認すると、画像の分類に対応する1次元テンソルが表示される

In [None]:
classes

## 訓練用関数定義

- 各エポックは訓練`trainとバリデーションデータに対する評価`val`を行う
  - 一般にそれぞれ別に記述するが、共通部分が多いためまとめた記述となっている
- PyTorchのloss関数はデフォルト(size_average=True)では、ミニバッチのサンプルあたりの平均lossを返す
  - 実際その値を用いて逆伝播が計算される
  - running_loss はミニバッチの平均lossをミニバッチのサンプル数倍し、これを全部足し集めた後、全サンプル数で割ることでサンプル当たりの平均ロスとしている
    - これまで通り、ミニバッチ毎や、エポック毎といった評価でも問題ない

これまでとそれほど変わらないが、バリデーションデータでよい精度のモデルができるたびに自動的そのモデルを保存し、最終的に最高精度をたたき出すモデルを返す


In [None]:
def train_model(model, criterion, optimizer, scheduler, num_epochs=num_epochs):
  since = time.time()
  epoch_loss = 0.0
  epoch_acc = 0.0
  best_model_wts = copy.deepcopy(model.state_dict())
  best_acc = 0.0
  for epoch in range(num_epochs):
    print('Epoch {}/{}'.format(epoch, num_epochs - 1))  
    # 各エポックで訓練+バリデーションを実行
    for phase in ['train', 'val']:
      if phase == 'train':
        scheduler.step()
        model.train()
      else:
        model.eval()
      running_loss = 0.0
      running_corrects = 0
      for data in dataloaders[phase]:
        inputs, labels = data
        inputs = inputs.to(device)
        labels = labels.to(device)
        optimizer.zero_grad()
        # 順伝播
        if phase == 'train':
          outputs = model(inputs)
        else:
          with torch.no_grad():
            outputs = model(inputs)
        _, preds = torch.max(outputs.data, 1) #_は無視、データを捨てる
        loss = criterion(outputs, labels)
        if phase == 'train':
          loss.backward()
          optimizer.step()
        running_loss += loss.data.item() * inputs.size(0)
        running_corrects += torch.sum(preds == labels.data)
      epoch_loss = running_loss/dataset_sizes[phase]
      epoch_acc = running_corrects.item()/dataset_sizes[phase]
      print('{} Loss: {:.4f} Acc: {:.4f}'.format(phase, epoch_loss, epoch_acc))
      # よい精度のモデルを自動的に保存する、よくあるテクニック
      acc_list[phase].append(epoch_acc)
      if phase == 'val' and epoch_acc > best_acc:
        best_acc = epoch_acc
        best_model_wts = copy.deepcopy(model.state_dict())
  time_elapsed = time.time() - since
  print('Training complete in {:.0f}m {:.0f}s'.format(time_elapsed / 60, time_elapsed % 60))
  print('Best val acc: {:.4f}'.format(best_acc))
  model.load_state_dict(best_model_wts) #もっともよいモデルを読み直す
  return model

## 学習済みモデルの読み込みとFine-tuning

学習済みの大規模なネットワークとしてResNetを選択する
- 出力層部分のみ2クラス分類になるように置き換えて、重みを固定せずに新規データで全層を再チューニングする方針を選択する

学習済みのResNet18をロードする

In [None]:
model_ft = models.resnet18(pretrained=True)
model_ft

本格的なResNetの構造を見ると流石に巨大である

最終層の`fc`は出力がImageNetの1000クラス分類であるため、1000の出力がある
  - この部分を2クラスに置き換えればアリとハチの分類に利用できる

次のようにして置き換える
- 置き換え方は直観的にわかる通り、モデルのメソッドfcを指定しなおすだけ

ネットワークを表示させて、最後が置き換わっていることを確認する

In [None]:
num_features = model_ft.fc.in_features
# fc層を置き換える
model_ft.fc = nn.Linear(num_features, 2)
model_ft

In [None]:
model_ft = model_ft.to(device)
criterion = nn.CrossEntropyLoss()
optimizer_ft = optim.SGD(model_ft.parameters(), lr=0.001, momentum=0.9)

# 7エポックごとに学習率を0.1倍する
exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)
model_ft = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler, num_epochs=num_epochs)
torch.save(model_ft.state_dict(), 'model_ft.pkl')
acc_list_ft = acc_list['val'].copy()
acc_list['val'] = []

## 学習済パラメタを固定

先ほどは重みを固定せずにResNet18の全レイヤの重みを更新対象にしていた
- その結果をメモしておこう

ここでは、全体をFine-tuningせず、最終層だけ重みを調整する

次のようにする
- `require_grad = False` として重みを固定する
- `optimizer`に更新対象のパラメータのみ渡す
  - `model_conv.parameters()`といった具合に固定パラメータを含めるとエラーとなる

先ほどよりも速く学習が進む
- GPUの威力で、それなりに速く求めてしまう……
- backwardの勾配計算を最終段のみ計算すればよいため
- 但し、lossを計算する必要があることから、forwardはすべて計算する

In [None]:
# 訓練済みResNet18をロード
model_conv = torchvision.models.resnet18(pretrained=True)
# 全パラメータを固定
for param in model_conv.parameters():
  param.requires_grad = False
# 最後のfc層を置き換える(requires_grad=Trueでありパラメータ更新の対象)
num_features = model_conv.fc.in_features
model_conv.fc = nn.Linear(num_features, 2)
model_conv = model_conv.to(device)
criterion = nn.CrossEntropyLoss()
# Optimizerの第1引数には更新対象のfc層のパラメータのみ指定
optimizer_conv = optim.SGD(model_conv.fc.parameters(), lr=0.001, momentum=0.9)
exp_lr_scheduler = lr_scheduler.StepLR(optimizer_conv, step_size=7, gamma=0.1)

In [None]:
model_conv = train_model(model_conv, criterion, optimizer_conv,
                       exp_lr_scheduler, num_epochs=num_epochs)
acc_list_tr = acc_list['val'].copy()

先程よりもよくなったであろうか？

- バッチサイズを変える
- 最適化手法を変える

などして、どちらがよくなるか、調べてみると良いであろう

なお、今回は10エポック程度でも十分であったといえるが、このように学習速度も速い

In [None]:
import numpy as np
import matplotlib.pyplot as plt
plt.figure()
plt.plot(range(num_epochs), acc_list_ft, label='FT Loss')
plt.plot(range(num_epochs), acc_list_tr, label='TR Loss')
plt.legend()
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.grid()

## 分類結果の可視化

In [None]:
model_ft.load_state_dict(torch.load('model_ft.pkl', map_location=lambda storage, loc: storage))
def visualize_model(model, num_images=6):
  images_so_far = 0
  fig = plt.figure()
  model.eval()
  for i, data in enumerate(dataloaders['val']):
    inputs, labels = data
    inputs = inputs.cuda().to(device)
    inputs.requires_grad = False
    labels = labels.cuda().to(device)
    labels.requires_grad = False
    with torch.no_grad():
      outputs = model(inputs)
    _, preds = torch.max(outputs.data, 1)
    for j in range(inputs.size()[0]):
      images_so_far += 1
      plt.subplot(num_images // 2, 2, images_so_far)
      plt.axis('off')
      plt.title('predicted: {}'.format(class_names[preds[j]]))
      imshow(inputs.cpu().data[j], size=4)
      plt.show()
      if images_so_far == num_images:
        return
visualize_model(model_ft)

学習をGPUマシン行い、可視化や分析をCPUで行うことはよくある

最初にCPU用とGPU用、両方のモデルを保存するという方法があるが、上記のようにmap_locationを記述することで変更できる

その他の変更ルールは次を参考のこと

- CPU - > CPUやGPU - > GPU\
`torch.load('p.pth'）`

- CPU - > GPU1\
`torch.load('p.pth', map_location = lambda storage, loc: storage.cuda(1))`

- GPU1 - > GPU0\
`torch.load('p.pth', map_location = {'CUDA:1':'CUDA:0'})`

- GPU - > CPU\
`torch.load('p.pth', map_location = lambda storage, loc storage)`

新しいレイヤを作成して代入するだけなのですごく簡単にできる
- 結果的に2クラス分類である


# 演習課題

次のどちらかの課題に取り組みなさい

- 2クラス分類であるから、出力層のユニット数を1にして活性化関数をsigmoid、Loss関数をbinary cross entropyにしてもよいだろうか、実際に実装して確認しなさい

- イノシシと黒豚、月とスッポン、鳶と鷹など、似ていて非なるモノを用いて同様に分類しなさい
  - データセットは自分で作成すること
  - 判別率が65%を超えれば何でもい
  - 一般に似て非なるものを扱うこと

# GAN(Generative Adversarial Networks )

GANが使われるシーンは、例えば、
- 誰かに似せた**自然な**絵を自動で描かせたい
- よくある**偽物とわかりにくい**フェイク画像や動画、音声などを作らせたい
- **あたかもそこにありそうなもの**をないところから追加したい
- 逆にあって邪魔なものを**あたかもなかったかのように自然に**消し去りたい

といった用途が思い当たる

簡単に共通するのは、
- 人間が判断して違和感がなく自然であること
- 自由に生成できること

であろう

この魔法を実現するような内容から、AI関連で話題をさらうのは主にGAN応用であることもうなづける

GANでは2つのモデルを競合させるように学習させる**巧妙**な手法である

2つのモデルは、紙幣の偽造者(counterfeiter)と、それを見抜く警察(police)によく例えられるが、実際にはGeneratorとDiscriminatorと呼ばれる
- Generatorの目的は、本物に似せた画像(偽札)を作って警察を欺くことである
- Discriminatorの目的は、本物の画像か偽物の画像か(真の紙幣と偽の紙幣)の集合から本物(真)を区別することである

この対立する目的を持つモデル同士を競わせる過程をAdversarial(敵対的) Processと呼ぶ

<img src="http://class.west.sd.keio.ac.jp/dataai/text/ganfig.png" width=300>

Generatorは一様分布や正規分布などからサンプリングしたノイズベクトル$z$をもとに、アップサンプリングして画像を生成する
- この辺りが何を言っているか？というのが最初はつかみにくいかもしれない
- やりたいことは、やりたいことは、先に述べた「自由に生成できること」であるため、この「自由に」を表現するには乱数がどうしても必要となる
  - つまり、乱数から何かが作れたら、乱数だから毎回違うものができ、これが「自由な生成」ということになる

をアップサンプリングして画像とする．

一方，Discriminatorは単純な分類問題を解くネットワークでGeneratorが生成した画像と本物の画像を分類する

この２つのネットワークを交互に学習すれば、Generatorは本物のデータに近いデータを生成するようになる

特に、Generatorの入力が乱数で、かつ、DiscriminatorはReal画像と、Generator画像(偽画像)を交互(もしくはランダムに)受け付けて、出力はその真偽のみという、入出力が極めてシンプルかつ謎めいた構成を持つ

もちろん、これだけではうまく動作しない


## DiscriminatorとGeneratorの目的

Descriminatorの目的は明瞭で、予測値と実際の値が一致すればよく、より具体的にはデータを適切に分類する決定境界を見つけることが目標である

しかしながら、Generatorは、乱数だけ入力され、それに対して勝手に生成した謎なデータを出力し、その出力が妥当なデータでなければならない
- つまり、Generatorは**正解となる出力値がない**状況で、妥当な出力を出す必要がある
- これでは、学習は進まず、何か目的・目標が必要となる

Generatorは、**データに近いモデル分布を見つける**ことを目標とする

- すなわち、Generatorは「今観測できているデータは、なんらかの確率分布に基づいて生成されている」という仮定に基づき、データを生成する確率分布そのものをモデル化しようと試みることであるといえる


## GANの定式化

定式化にあたり、先ほどの図における入力としてのDataset、乱数、判定結果を次のように定める

<img src="http://class.west.sd.keio.ac.jp/dataai/text/gan1.svg" width=300>

このように定めると、Datasetとしての入力の確率変数$x$に対して、Real dataとしてDiscriminatorに入力される$p_d(x)$と、Fake dataとして入力されるデータ分布と$p_g(x)$で与えられるモデル分布の2つの確率分布の「距離」を近づけることを目的とするといえる

もちろんであるが、Generatorは明確に$x$の入力を持っておらず、その分布は明示的に与えられていない
- よって、例えば生成結果とデータ分布との尤度を直接計算するなどして、生成結果とデータ分布との近さを測るなどということはできない



### Descriminatorの定式化

では、実際にデータ分布$p_d(x)$を求めるとはどういうことかをみてみよう

GANでは直接尤度を測る代わりに、データ分布とモデル分布の密度比$r(x)$を考える
$$
r(x) = \frac{p_d(x)}{p_g(x)}
$$

ここで、データ分布あるいはモデル分布から生成されたラベル付きのデータ集合$\{(x1,y1),⋯,(xN,yN)\}$を考え、データ分布により生成されたデータのラベルをy=1、モデル分布により生成されたデータのラベルをy=0とすると、それぞれの分布は次のように表される

$$
p_d(x) = p(x|y = 1)\\
p_g(x) = p(x|y = 0)
$$

この時、密度比$r(x)$はベイズの式により次のように表すことができる

$$
\begin{align}
r(x) &= \frac{p(x|y = 1)}{p(x|y = 0)}\\
&= \frac{p(y = 1| x)p(x)}{p(y=1)}\cdot\frac{p(y=0)}{p(y=0|x)p(x)}
\end{align}
$$

ここで、$\pi = p(y=1)$とすると、
$$
\begin{align}
r(x) &= \frac{p(y = 1|x)}{p(y = 0| x)}\cdot\frac{1-\pi}{\pi}
\end{align}
$$

となる

$\pi$は実際のデータ数の比で近似できる

ラベルはy=0かy=1のみであるため、$p(y=1∣x)$を推定できれば、密度比$r(x)$が求まる
- そこで、$p(y=1∣x)$を近似する分布を、例えばNNを用いて求めることを考えて、パラメータ$\varphi$を用いて$q_\varphi(y=1∣x)$とする

これを式で書くと

$$
p(y = 1| x) \approx q_\varphi(y = 1| x)
$$
となる

$q_\varphi(y = 1| x)$を見出すモデルをDescriminatorと呼び、$D(\phi; x)$と表す

本来密度比を考える問題が、分類問題と同じ確率的分類器の最適化問題に置き換わった

この最適化に用いる誤差関数$U(D)$は、例えば、交差エントロピーを想定すれば、
$$
U(D) = -E_{p(x,y)}[y \ln D(\phi; x) + (1-y) \ln (1-D(\phi; x))]
$$
として平均を考えればよい

これを変形すると、
$$
\begin{align}
U(D) &= -E_{p(x,y)}[y \ln D(\phi; x) + (1-y) \ln (1-D(\phi; x))]\\
&= -E_{p(x|y)p(y)}[y \ln D(\phi; x) + (1-y) \ln (1-D(\phi; x))]\\
&= -E_{p(x|y=1)p(y=1)}[\ln D(\phi; x)] + E_{p(x|y=0)p(y=0})[ \ln (1-D(\phi; x))]\\
&= \pi \cdot E_{p_d(x)}[\ln D(\phi;x)]+(1-\pi)\cdot E_{p_g(x)}[\ln (1-D(\phi;x))]
\end{align}
$$

となる

各ラベルのデータを与えるとき、データが丁度同数づつ混ざっていれば、y=0およびy=1となるラベルのデータ数が等しい場合$\pi = \frac{1}{2}$となることから、Descriminatorの目的関数$V(D)$は、

$$
V(D) = E_{p_d(x)}[\ln D(\phi;x)]+E_{p_g(x)}[\ln (1-D(\phi;x))]
$$

となり、これが最大となるように訓練することになる

### Generatorの定式化

潜在変数$z$を仮定すると、

$$
p_g(x) = \int{p(x|z)p(z)}dz
$$

となる

先ほどと同様に、$p(x|z)$を近似する分布として$q_\theta(x|z)$を導入すると

$$
p(x|z) \approx q_\theta(x|z)
$$

となり、この$q_\theta(x|z)$を推定するモデルとGeneratorと呼び$G(\theta;z)$と表す

さて、Generatorの目的関数を求めるにあたり、Descriminator $D(\varphi;x)$について最適なDescriminator $D^*(\varphi;x)$が得られたとすると、

$$
V(D^*, G) = E_{p_d(x)}[\ln D^*(x)]+E_{p(z)}[\ln (1-D^*(G(\theta;z))]
$$

となる

ここで、Generatorは、この$V(D^*, G)$を最小化することが目的であることに注意する




### GAN全体の定式化

さて、実際に用いる目的関数は次の通りとなる

Discriminatorは、Generator$G(\theta;z)$を固定したうえで、
$$
\mathop{\rm max}\limits_{\phi}
E_{p_d(x)}[\ln D(\phi;x)]+E_{p(z)}[\ln (1-D(\phi;G(\theta;z))]
$$
を計算する

Generatorは、Descriminator$D(\phi;x)$を固定したうえで、
$$
\mathop{\rm min}\limits_{\theta}
E_{p(z)}[\ln (1-D(\phi;G(\theta;z))]
$$

を計算する

DとGは包含関係にあり、このことがいわゆる2つのネットワークを互いに競わせるように学習するという意味である

より簡潔には、
$$
\mathop{\rm min}\limits_{G}\mathop{\rm max}\limits_{D} V(D, G)
$$
と表すことができ、学習が進むと、生成器$G(\theta;z)$が生成するデータは、実際のデータに近くなる


## GANの評価指標

GANは教師なし学習であり、教師あり学習で用いられるAccuracy, F1 scoreといった評価指標がない。妥協案として、次の2つがしばしば利用される。

### Frechet Inception Distance(FID)

生成された画像の分布と元の画像の分布がどれだけ近いかを測る指標があればよいが、この近さをどのように表現するかが問題となる。そこで、人間を超える画像認識精度をもつようになった機械学習モデルを用い、画像を低次元の潜在空間で表現し、その空間で距離を測るというコンセプト。

- 実際には、Inception V3と呼ばれるモデルで低次元な潜在空間表現、ここではPoolingの出力を用いてWasserstein-2距離を算出して利用する。次の式で求める。なお、m,cは埋め込み空間上での平均ベクトルおよび共分散行列である。添字wは生成画像を意味し、何もついていないものは実画像を意味する。距離を表すため、値は小さいほど実画像に近いことを意味し、Generator性能がより優れていることを示す。
$$
||m-m_w||^2_2+T_r(C+C_w-2(CC_2)^{1/2})
$$

## Perceptual Path Length(PPL)

人間の感覚、つまり視覚・知覚的に潜在空間上で画像が滑らかに変化するかを表す指標です。FIDと同様に学習済みモデルにおける潜在空間での距離を利用する。

- 画像を生成する種となる潜在空間上で、画像の変化は『知覚的』に短距離で変化しているか」を表す指標。
  - モーフィングのようにずれることなくダイレクトかつまっすぐに変化すれば小さな値をとるため、潜在空間がどれだけ適切に構築されているかを評価できる。

- 例えば画像認識モデルであるVGGを使用し、その上での特徴量ベクトルの距離を用いる。解析的に求めることができないため、多くの画像を用意し、実際に距離を求めて平均値を算出することでPPLを得る。

- この値が小さいほど潜在空間が知覚的に滑らかであることを意味する。

## GANの実際

MNISTを用いて、MNISTっぽいデータを生み出すGANを構成する

今回は正確にはGeneratorとDiscriminatorに畳み込みニューラルネットを利用しており、**DCGAN(Deep Convolutional Generative Adversarial Networks)**と呼ばれる

今回の実装におけるDiscriminatorとGeneratorは次の通りである

**Discriminator**

一般的な畳み込みニューラルネットワークを利用している
- ただし、MaxPoolingを使わずにstride=2として画像サイズを半分にする

**Generator**
入力$z$は62次元の乱数ベクトル、これをシードとして画像を生成する

最初に全結合網を用いてサイズを拡大する
- 6272次元まで拡張し7x7x128のテンソルに変換
- ConvTranspose2Dでチャネルを減らしつつ、画像サイズをMNISTの28x28ピクセルまで拡張する
- 出力は1チャンネル28x28ピクセルの画像となる



In [None]:
import os
import pickle
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
from torchvision.utils import save_image
import matplotlib.pyplot as plt
device = torch.device(cuda if torch.cuda.is_available() else "cpu")
print(device)

ハイパーパラメータは次の通り

In [None]:
# hyperparameters
batch_size = 128
lr = 0.0002
z_dim = 62
num_epochs = 25
sample_num = 16
log_dir = './logs'

MNISTデータの読み込みとDataLoaderの設定

今回は、訓練用とテスト用に分ける必要はない

In [None]:
transform = transforms.ToTensor()
dataset = datasets.MNIST('data/mnist', train=True, download=True, transform=transform)
data_loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

GeneratorとDiscriminatorの定義

In [None]:
class Generator(nn.Module):
  def __init__(self):
    super(Generator, self).__init__()
    self.fc = nn.Sequential(
      nn.Linear(62, 1024),
      nn.BatchNorm1d(1024),
      nn.ReLU(),
      nn.Linear(1024, 128 * 7 * 7),
      nn.BatchNorm1d(128 * 7 * 7),
      nn.ReLU(),
    )
    self.deconv = nn.Sequential(
      nn.ConvTranspose2d(128, 64, kernel_size=4, stride=2, padding=1),
      nn.BatchNorm2d(64),
      nn.ReLU(),
      nn.ConvTranspose2d(64, 1, kernel_size=4, stride=2, padding=1),
      nn.Sigmoid(),
    )
    initialize_weights(self)
  def forward(self, input):
    x = self.fc(input)
    x = x.view(-1, 128, 7, 7)
    x = self.deconv(x)
    return x
class Discriminator(nn.Module):
  def __init__(self):
    super(Discriminator, self).__init__()
    self.conv = nn.Sequential(
      nn.Conv2d(1, 64, kernel_size=4, stride=2, padding=1),
      nn.LeakyReLU(0.2),
      nn.Conv2d(64, 128, kernel_size=4, stride=2, padding=1),
      nn.BatchNorm2d(128),
      nn.LeakyReLU(0.2),
    )
    self.fc = nn.Sequential(
      nn.Linear(128 * 7 * 7, 1024),
      nn.BatchNorm1d(1024),
      nn.LeakyReLU(0.2),
      nn.Linear(1024, 1),
      nn.Sigmoid(),
    )
    initialize_weights(self)
  def forward(self, input):
    x = self.conv(input)
    x = x.view(-1, 128 * 7 * 7)
    x = self.fc(x)
    return x

Discriminatorのウェイトの初期化について、

まず、PyTorchのパラメーター初期化について簡単に説明する

これまでは、Noneとしてゼロ初期化のみ議論してきた

パラメータ(重み)は`nn.Linear()`などとしたときに設計され(インスタンス化した時に実態ができる)、その値はインスタンス化した後weightメソッドを使うことでを見ることができる
```
linear = nn.Linear(5, 2)
linear.weight
```
また、逆にweightに対してnn.init の中のメソッドを適用すれば初期化できる

この初期化においては、次のような分布や定数の利用が想定でけいるので、例を示す

- 正規分布:`normal_(weight, mean, std)`
```
linear = nn.Linear(5, 2)
nn.init.normal_(linear.weight, 0.0, 1.0)
```
- 一様分布:`uniform_(weight, a, b)`
```
linear = nn.Linear(5, 2)
nn.init.normal_(linear.weight, 0.0, 1.0)
```

- 定数:`constant_(weight, c)`
```
linear = nn.Linear(5, 2)
nn.init.constant_(linear.weight, 1.0)
```

- Xavierの初期値:`xavier_normal_(weight, gain=1)`
```
linear = nn.Linear(5, 2)
nn.init.xavier_normal_(linear.weight)
```

- Heの初期値
```
kaiming_normal_(weight, a=0, mode='fan_in', nonlinearity='leaky_relu')
linear = nn.Linear(5, 2)
nn.init.kaiming_normal_(linear.weight)
```

ここでは、全て正規分布で初期化しており、専用の関数(メソッド)を定義している
- Discriminatorクラスから呼び出される

In [None]:
def initialize_weights(model):
  for m in model.modules():
    if isinstance(m, nn.Conv2d):
      m.weight.data.normal_(0, 0.02)
      m.bias.data.zero_()
    elif isinstance(m, nn.ConvTranspose2d):
      m.weight.data.normal_(0, 0.02)
      m.bias.data.zero_()
    elif isinstance(m, nn.Linear):
      m.weight.data.normal_(0, 0.02)
      m.bias.data.zero_()

ネットワークのインスタンス化とオプティマイザの指定
- 今回はAdamで、ハイパーパラメタは微妙にチューニングしている
- また、ロス関数は真偽のみを議論するためバイナリクロスエントロピーを用いる

In [None]:
G = Generator().to(device)
D = Discriminator().to(device)
G_optimizer = optim.Adam(G.parameters(), lr=lr, betas=(0.5, 0.999))
D_optimizer = optim.Adam(D.parameters(), lr=lr, betas=(0.5, 0.999))
criterion = nn.BCELoss()

実際の処理内容

コードを見ると実際何をしているかがよくわかる

In [None]:
def train(D, G, criterion, D_optimizer, G_optimizer, data_loader):
  # 訓練モードへ
  D.train()
  G.train()
  # 本物ラベルは1
  y_real = Variable(torch.ones(batch_size, 1))
  # 偽物ラベルは0
  y_fake = Variable(torch.zeros(batch_size, 1))
  y_real = y_real.to(device)
  y_fake = y_fake.to(device)
  D_running_loss = 0
  G_running_loss = 0
  for batch_idx, (real_images, _) in enumerate(data_loader):
    # 一番最後のデータがバッチサイズに満たない場合は無視してエラーを避ける
    if real_images.size()[0] != batch_size:
      break
    # 潜在変数としての入力(変な言い方だが)を乱数で初期化
    z = torch.rand((batch_size, z_dim))
    real_images, z = real_images.to(device), z.to(device)
    # Discriminatorの勾配の初期化
    D_optimizer.zero_grad()
    # Discriminatorは実画像データを1=Trueと認識するほどよい
    D_real = D(real_images)
    D_real_loss = criterion(D_real, y_real)
    # DiscriminatorはGeneratorが生成した偽画像を0=Falseと認識するほどよい
    # fake_imagesをDiscriminatorが学習しないようにdetach()する
    fake_images = G(z)
    D_fake = D(fake_images.detach())
    D_fake_loss = criterion(D_fake, y_fake)
    # 2つのlossの和を最小化する
    D_loss = D_real_loss + D_fake_loss
    D_loss.backward()
    D_optimizer.step()  # Dだけ更新(Gのパラメータは更新しない)
    D_running_loss += D_loss.data.item()
    # Generatorの更新
    G_optimizer.zero_grad()
    # GeneratorにとってGeneratorが生成した画像の認識結果は1（本物）に近いほどよい
    fake_images = G(z)
    D_fake = D(fake_images)
    G_loss = criterion(D_fake, y_real)
    G_loss.backward()
    G_optimizer.step()
    G_running_loss += G_loss.data.item()
  D_running_loss /= len(data_loader)
  G_running_loss /= len(data_loader)
  return D_running_loss, G_running_loss

学習途中で、お試しに画像を保存するため、適当な$z$から画像を生成させる

In [None]:
def generate(epoch, G, log_dir='logs'):
  G.eval()
  if not os.path.exists(log_dir):
    os.makedirs(log_dir)
  # 生成のもとになる乱数を生成
  sample_z = torch.rand((64, z_dim))
  sample_z = sample_z.to(device)
  # Generatorでサンプル生成
  samples = G(sample_z).data.cpu()
  save_image(samples, os.path.join(log_dir, 'epoch_%03d.png' % (epoch)))

実際にGANを学習させる
- 10分程度必要

In [None]:
history = {}
history['D_loss'] = []
history['G_loss'] = []
for epoch in range(num_epochs):
  D_loss, G_loss = train(D, G, criterion, D_optimizer, G_optimizer, data_loader)
  print('epoch %d, D_loss: %.4f G_loss: %.4f' % (epoch + 1, D_loss, G_loss))
  history['D_loss'].append(D_loss)
  history['G_loss'].append(G_loss)    
  # 特定のエポックでGeneratorから画像を生成してモデルも保存
  if (epoch+1)%5 == 0:
    generate(epoch + 1, G, log_dir)
    torch.save(G.state_dict(), os.path.join(log_dir, 'G_%03d.pth' % (epoch + 1)))
    torch.save(D.state_dict(), os.path.join(log_dir, 'D_%03d.pth' % (epoch + 1)))
# 学習履歴を保存
with open(os.path.join(log_dir, 'history.pkl'), 'wb') as f:
  pickle.dump(history, f)

DiscriminatorとGeneratorのロス曲線は次の通り

まだまだサチュレーションには至っておらず、より正確な画像を生成でそうである

Discriminatorのロスが減少し、Generatorのロスが増大していることから、設計通りである

また、学習の初期段階で不安定になることも知られており、最初ダメだからと言ってあきらめない方が良い
- このあたりがGANの難しいところ


In [None]:
with open(os.path.join(log_dir, 'history.pkl'), 'rb') as f:
    history = pickle.load(f)
D_loss, G_loss = history['D_loss'], history['G_loss']
plt.plot(D_loss, label='D_loss')
plt.plot(G_loss, label='G_loss')
plt.xlabel('epoch')
plt.ylabel('loss')
plt.legend()
plt.grid()

徐々にきれいなMNISTを生成するようになっているのがわかるだろう

In [None]:
from IPython.display import Image, display_png
for i in list([5, 10, 15, 20, 25]):
    fname = 'logs/epoch_{:03}.png'.format(i)
    print(20*'-')
    print(fname)
    display_png(Image(fname))

余力がある人は、さらに計算パワーが必要なCelebAを試してみると良い

様々なGANが存在し、最も基本な形は、適当なベクトルから学習した画像を生成する構成である

以下、その代表例をしめす

- pix2pix  
画像の対応のペアを入力とし、それがペアとして正しいかどうかを判定して汎用的な画像の変換を行うGAN
  - 通常のGANはベクトルを入力に一枚の画像を生成、判定するが、pix2pixは画像を入力とし、また条件として出力画像を作成し、入力画像と出力画像のペアについて真贋を判定する
  - 画像を条件に画像を生成するためConditionalGANの一種である

- pix2pixHD  
2048×1024の高解像画像を生成するGAN
  - Generatorを2段構造とし、1024×512を生成してから、解像度上げる別のGeneratorを用いる

- CycleGAN  
例えばりんごとオレンジの画像など2つの画像変換するように学習したGAN
  - 学習時はこの場合りんごとオレンジの画像群のみあればよい
    - りんごと同じ姿勢、似たような形のオレンジの画像がひつようとなるわけではない
  - ネットワークがループ構造を持ち、オレンジの画像からりんごの画像を生成し、そのりんごの画像を再度オレンジ画像に戻したときの精度が高くなるように学習させる
  - 普通の馬がシマウマになったりできる

- StarGAN  
CycleGANは2つの変換専用に構成するが、複数に対応する
  - 複数のドメイン間を学習するようにAとBのCycleGAN、BとCのCycleGANとせず、1つのGANで複数のGAN間を往来できるようにする

- DCGAN  
  - CNNで構成するGAN
  - 既に役割は終えている

- PGGAN(Progressive Growing of GANs)  
  - 高解像度の学習を段階的に行うように学習過程を構成することで、1024×1024という高解像度画像を生成する

- ACGAN  
Discriminatorが真偽判定だけでなく、クラス判定もするように学習させる
  - 効果として、DCGANよりも綺麗な画像生成が可能となる

- SAGAN  
Spectrum NormalizationやSelf Attention機構を導入することで現時点で最も高画質な画像生成を行う
  - 局所的な情報だけでなくSelf Attentionで大域的な視野をもって生成する

- ConditionalGAN  
生成して欲しい画像のラベルも同時に入力に与えることで、指定した画像を生成する条件付き画像生成手法
  - ラベルも画像化するため、one-hotで正解は完全に白の画像、不正解は完全に黒の画像で構成し、チャネル数を拡張する

- InfoGAN  
相互情報量を評価関数に導入し、画像の何らかの特徴と意味の取れた関係を持つように学習する
  - Gの入力およびDの出力に潜在空間表現を与え、Dはその潜在空間が何かも判定する
  - この潜在空間には何か意味を与えるなどしなくとも、例えば、回転に対応した要素や線の太さに対応した要素などが現れる

- StackGAN  
pix2pixHDと同様、StackGANは2段のGANで構成されており、文章から画像を生成する段と、その画像を高精度にする段で構成される
  - 高精度に文章から画像を生成できる

- AnoGAN  
GANはサンプルデータから生成モデルを学習するが、本物の正常入力画像は、それを生成するGeneratorの入力$z$は存在する、もしくは既知の値になるが、その周辺の$z$を使って画像生成し、その生成画像と入力画像との差があった部分を異常個所として判定する
  - 異常個所を色分けして表示できる

- WGAN  
  - GANの損失関数にJSダイバージェンスを使わず、Wasserstein距離とすることで、学習を高速化及び安定させる
  - こちらが既に主流

## StyleGAN

様々あるGANの中でも著名なモデルが2018年に発表されたStyleGANである
- 下図はすべてStyleGANで自動的に生成された顔画像であり、実際にはその人物は存在しない
- StlyGANを用いた版権や肖像権のない人物画像によるポスターやwebページ制作が普通に行われている
- StyleGANよりもさらに高精細なStyleGAN2が存在する(後述)

<img src="http://class.west.sd.keio.ac.jp/dataai/text/styleganex.png" width=500>

StyleGANのネットワークの特徴
- Progressive Growingを用いた高解像画像生成
- AdaINを用いて各層に画像のStyleを取り込む

これらの特徴について説明し、StyleGANの詳細構造に移る

### Progresive Growing

Progressive-Growing GANで提案された高解像度画像の生成手法
- 低解像画像の生成から始めて徐々に高解像用のGenerator,Discriminatorを追加することで、最終的に高解像度画像を生成する手法

下図で、最初に4x4の画像生成から始め、徐々に解像度を上げて最終的には1024x1024の高解像度画像を生成する
- 解像度を上げるネットワークを追加しても、低解像画像を生成するGと判別するDはパラメータを固定せずに学習させ続ける
- 学習過程でネットワークを修正させるためDefine-by-Runではないか？ということになるが、Define-by-Runは計算グラフ（NNのネットワーク）構築をデータを流しながら行うことを意味するためそうではない
  - データを流し終わってから、つまりエポック単位でネットワークを切り替えるため正確にはDefine-by-Runではない
  - PyTorchでなくとも、学習させたパラメータを保存、ネットワークを再定義し、学習させたパラメータを再度必要な個所に読み込むなどすれば、同様のモデルを構築できる

<img src="http://class.west.sd.keio.ac.jp/dataai/text/ProgressiveGrowing.png" width=500>


### AdaIN

スタイル変換のための正規化手法の一つ
- 元々は、コンテンツ入力とスタイル入力について、平均と分散を用いて正規化する手法
- AdaINによるスタイル変換の例を下図に示す
  - ビル群がコンテンツ画像、下の絵画がスタイル入力

<img src="http://class.west.sd.keio.ac.jp/dataai/text/AdaIN.png" width=500>

AdaINは、Instance Normalizationなどの正規化手法と異なり、スタイルとコンテンツ画像の統計量(標準偏差と平均値)のみで正規化を行い、学習パラメータを使用しない
- よって、訓練データとして利用していないスタイルを用いた場合でもスタイル変換が可能

$$
AdaIN(x,y) = \sigma(y)\frac{x-\mu(x)}{\sigma(x)}+\mu(y)
$$

StyleGANでは、同様に学習パラメータを利用しない
- AdaINのオリジナルと似た式を用いるが、標準偏差と平均値の代わりに、スタイルベクトルWに線形変換を加えた$y_s$と$y_b$という値を利用

$$
AdaIN(\bf x_i,y) = y_{s,i}\frac{x_i-\mu(x_i)}{\sigma(x_i)}+y_{b,i}
$$


### Mixing Regularization

StyleGANは学習中にStyleに用いられる潜在変数を2つ混ぜるという正則化手法を利用
- 例えば、潜在変数$z_1$と$z_2$から得られる$w_1$と$w_2$のスタイルベクトルについて、$w_1$を4x4の画像生成に、$w_2$を8x8の画像生成に用いることができる
- 結果、2つの画像のStyleをうまく混ぜることができる
- 図のような合成が可能となる

図はSource AとSourceBの画像それぞれを生成する潜在変数をAとBを準備し、最初はAを使い、ある解像度からBを使った場合の結果を表す
- 切り替える解像度を低解像(4² ~ 8²)・中解像(16² ~ 32²)・高解像(64~1024²)の3通りとしている
- なお、低解像から入れたStyleの影響が大きくなる
- また、低解像からBの潜在変数を使うと顔の形や肌の色、性別年齢などがBに近く、高解像で使うと背景や髪の色などしか影響を与えない
- Mixing Regularizationは学習過程での話であり、学習済みモデルを用いたモーフィングとは異なることに注意する

<img src="http://class.west.sd.keio.ac.jp/dataai/text/MixingRegularization.png" width=500>


## StyleGAN2

StyleGANの改良版
- AdaINの代わりにCNNのWeightを正規化して用いる
  - StyleGANにあったゴミであるdropletの除去(画像にゴミが乗るのを防ぐ)
- Progressive Growingをやめることで自然なモードの改善
  - 顔が横を向いても歯並びが前を向いてしまうといったトラブルを避ける

<img src="http://class.west.sd.keio.ac.jp/dataai/text/stylegan1-t.png" width=600>

<img src="http://class.west.sd.keio.ac.jp/dataai/text/stylegan2-t.png" width=600>

- 潜在空間で連続性を持たせることで画像品質向上している
- StyleGANに比べてFID等が大きく向上する。

Progressive Growingをやめる代わりに、GeneratorとDiscriminatorの表現力を上げることで高解像度生成ができるようにしている
- もともと、個々のGeneratorが独立しているため頻出する特徴を生成する傾向にあり、その結果顔が動いても歯が追随していかないという結果が生まれていた

下図はすべてStyleGAN2で生成された画像である。なお、それぞれは異なる画像データより作成された異なるモデルであることに注意する。

<img src="http://class.west.sd.keio.ac.jp/dataai/text/StyleGAN2-1.png" width=600>

<img src="http://class.west.sd.keio.ac.jp/dataai/text/StyleGAN2-2.png" width=600>

<img src="http://class.west.sd.keio.ac.jp/dataai/text/StyleGAN2-3.png" width=600>




# pix2pix

## pix2pixを用いた画像生成

ここでは、pix2pixを用いた白黒画像のカラーを行う

その学習は次の通りであり、GANであるためGeneratorとDiscriminatorの2つのネットワークを利用する

- あるカラー画像$p$に対して、グレーススケール変換$g$により$g(p)$を生成
- グレースケール画像からカラー画像を生成するGeneratorを$G$とする。つまりFake画像は$G(g(p))$として与えられる。
  - $G(g(p))$と$p$を例えばMSEなどで評価しても$G$を生成できるが、このようにして生成したGは、$p$にしか適用できない変換となる
    - ここで構成したいのは未知の絵に対してもカラー画像にすることができる$G$
- Discriminatorを$D$とすると、$D$は一般的な2値ラベルの分類器で、$G(g(p))$と元画像の2つについて、真贋すなわち、$G(g(p))$か$p$かを判別する。
  - 従って、$D$は、普通に$G(g(p))$や$p$を入力してそれぞれのラベルを学習させる、一般的な学習を行う
- $G$の目標は、とにかく自分の画像、つまり$G(g(p))$を選んでもらう確率を上げること
  - なお一般的には、$G(g(p))$と$p$は$1:1$で混入する
  - 乱数など用いず交互に導入することが多い

このようにして、GとDの両方を学習させていく


## U-net
ここで、Generatorとしてセマンティックセグメンテーションにも用いられるU-netを利用する

U-netは、AutoEncoderと同様、Encoder-Decoderを行うネットワークであり、エンコードの結果、今回は潜在空間$z$を256次元としている

さらに、U-netの特徴は、Image Transferと同様の考え方になるが、画像の特徴を細部から全体特徴について各層がそれぞれ保持していると考えられることから、EncoderとDecoderをおおよそ同一の構造とし、そのパラメータを再利すると、Encoderにより抽出された元画像がもつ情報を効率的にDecoderに提供できる

ここで、入力画像はグレースケール、出力画像はカラーであるため、完全に同一ではない

要するに、パラメータを対象となる層でも利用しやすくする
  - これにはいくつ可能方法があるが、まず最初に行うのが、Encoderにおいて、一つ前の層の情報と、Encoder側の対象となる層の情報の2つの情報を混ぜるという作業であり、これには単純に入力数を増やして2つの入力を用いるという工夫がなされる
  - この時、この例では完全に同じ情報を利用しているが、何かしら別の層を介してもよい
  - これでは過学習になりそうだが、Batch Normalizationを用いてこれを回避している
  - 2つの入力を結合するには、torch.catを用いる



## Patch GAN

Descriminatorは、Generatorよりも小さな画像を入力する

- 1枚の$G(g(p))$について真贋を得るとすると、それなりに大規模なネットワークが必要となる。また、真贋の鑑定に画像全体を見る必要性はあまりなく、部分的にみて不都合なところを見つけ出せばよい
- そこで、$G(g(p))$や$p$を分割し、その小さな画像について、それぞれで真贋を判定する
  - これをpatch GANと呼ぶ
- GANのDiscremenatorでは一般的であるがLeakey ReLUを用いる
- さらにInstance Normalizationを利用する
  - Bach Normalizationは、ミニバッチの各演算間で分布が揃うように値を移動するという処理を施す
  - 各イテレーションの平均の平均、各イテレーションでの分散の平均を求め、これをもとに分布の移動と拡大を行う
インスタンスノームは1つのデータの1つのチャネルに対して正規化する方法で、GANではしばしば用いられる
  - 特にInstance Normalizationでなければならないかは実験が必要



In [None]:
import os
import glob
import pickle
import torch
import torch.nn.functional as F
import torchvision
import torch.utils.data as data
import torchvision.transforms as transforms
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
from torch import nn
from skimage import io
import datetime

usedevice = "cuda"

データを読み込むが相当にサイズが大きく、ダウンロードとデータの展開だけで2分程度必要である

ファイルサイズが大きいと、Google Driveは直リンクダウンロードを拒否するので、pythonでゴリ押しする

In [None]:
import requests

def download_file_from_google_drive(id, destination):
    URL = "https://docs.google.com/uc?export=download"

    session = requests.Session()

    response = session.get(URL, params = { 'id' : id }, stream = True)
    token = get_confirm_token(response)

    if token:
        params = { 'id' : id, 'confirm' : token }
        response = session.get(URL, params = params, stream = True)

    save_response_content(response, destination)    

def get_confirm_token(response):
    for key, value in response.cookies.items():
        if key.startswith('download_warning'):
            return value

    return None

def save_response_content(response, destination):
    CHUNK_SIZE = 32768

    with open(destination, "wb") as f:
        for chunk in response.iter_content(CHUNK_SIZE):
            if chunk: # filter out keep-alive new chunks
                f.write(chunk)

In [None]:
import os
if not os.path.exists('cocog2c.tgz'):
  #file_id = '1OhWZKb1EcIMWTKJb8h6iRoTDx9mIQLFX'
  #destination = 'cocog2c.tgz'
  #download_file_from_google_drive(file_id, destination)
  !wget https://keio.box.com/shared/static/7ogtorp8uhgjjbtltyfpamkgp6kwb1si -O cocog2c.tgz
  !tar xzf colog2c.tgz
trainfiledir = "coco/train/*"
testfiledir = "coco/test/*"

サイズを確認する
- `-rw-r--r-- 1 root root 1627290651 MON DAY HH:MM cocog2c.tgz` となるはずである

In [None]:
!ls -laF cocog2c.tgz

Generatorは[batch_size, 3, 128, 128]で、
チャネル数はRGBの3、128$\times$128の画像となる

Discriminatorは[batch_size, 1, 4, 4]で、4$\times$4の各場所について真贋を判定し、チャネル数は1の出力となる



In [None]:
class Generator(nn.Module):
  def __init__(self):
    super().__init__()
    self.conv1 = nn.Conv2d(3, 32, kernel_size=5, stride=1, padding=2)
    self.bn1 = nn.BatchNorm2d(32)

    self.av2 = nn.AvgPool2d(kernel_size=4)
    self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)
    self.bn2 = nn.BatchNorm2d(64)

    self.av3 = nn.AvgPool2d(kernel_size=2)
    self.conv3 = nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1)
    self.bn3 = nn.BatchNorm2d(128)

    self.av4 = nn.AvgPool2d(kernel_size=2)
    self.conv4 = nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1)
    self.bn4 = nn.BatchNorm2d(256)

    self.av5 = nn.AvgPool2d(kernel_size=2)
    self.conv5 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
    self.bn5 = nn.BatchNorm2d(256)

    self.un6 = nn.UpsamplingNearest2d(scale_factor=2)
    self.conv6 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
    self.bn6 = nn.BatchNorm2d(256)

    #conv7にはconv6の出力とconv4の出力を流す, input channelが2倍
    self.un7 = nn.UpsamplingNearest2d(scale_factor=2)
    self.conv7 = nn.Conv2d(256 * 2, 128, kernel_size=3, stride=1, padding=1)
    self.bn7 = nn.BatchNorm2d(128)

    #conv8にはconv7の出力とconv3の出力を流す, input channelが2倍
    self.un8 = nn.UpsamplingNearest2d(scale_factor=2)
    self.conv8 = nn.Conv2d(128 * 2, 64, kernel_size=3, stride=1, padding=1)
    self.bn8 = nn.BatchNorm2d(64)

    #conv9にはconv8の出力とconv2の出力を流す, input channelが2倍
    self.un9 = nn.UpsamplingNearest2d(scale_factor=4)
    self.conv9 = nn.Conv2d(64 * 2, 32, kernel_size=3, stride=1, padding=1)
    self.bn9 = nn.BatchNorm2d(32)

    self.conv10 = nn.Conv2d(32 * 2, 3, kernel_size=5, stride=1, padding=2)
    self.tanh = nn.Tanh()

  def forward(self, x):
    #x1-x4はtorch.catする必要があるので,残しておく
    x1 = F.relu(self.bn1(self.conv1(x)), inplace=True)
    x2 = F.relu(self.bn2(self.conv2(self.av2(x1))), inplace=True)
    x3 = F.relu(self.bn3(self.conv3(self.av3(x2))), inplace=True)
    x4 = F.relu(self.bn4(self.conv4(self.av4(x3))), inplace=True)
    x = F.relu(self.bn5(self.conv5(self.av5(x4))), inplace=True)
    x = F.relu(self.bn6(self.conv6(self.un6(x))), inplace=True)
    x = torch.cat([x, x4], dim=1)
    x = F.relu(self.bn7(self.conv7(self.un7(x))), inplace=True)
    x = torch.cat([x, x3], dim=1)
    x = F.relu(self.bn8(self.conv8(self.un8(x))), inplace=True)
    x = torch.cat([x, x2], dim=1)
    x = F.relu(self.bn9(self.conv9(self.un9(x))), inplace=True)
    x = torch.cat([x, x1], dim=1)
    x = self.tanh(self.conv10(x))
    return x

In [None]:
class Discriminator(nn.Module):
  def __init__(self):
    super().__init__()
    self.conv1 = nn.Conv2d(3, 16, kernel_size=5, stride=1, padding=2)
    self.in1 = nn.InstanceNorm2d(16)

    self.av2 = nn.AvgPool2d(kernel_size=2)
    self.conv2_1 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1)
    self.in2_1 = nn.InstanceNorm2d(32)
    self.conv2_2 = nn.Conv2d(32, 32, kernel_size=3, stride=1, padding=1)
    self.in2_2 = nn.InstanceNorm2d(32)

    self.av3 = nn.AvgPool2d(kernel_size=2)
    self.conv3_1 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)
    self.in3_1 = nn.InstanceNorm2d(64)
    self.conv3_2 = nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1)
    self.in3_2 = nn.InstanceNorm2d(64)

    self.av4 = nn.AvgPool2d(kernel_size=2)
    self.conv4_1 = nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1)
    self.in4_1 = nn.InstanceNorm2d(128)
    self.conv4_2 = nn.Conv2d(128, 128, kernel_size=3, stride=1, padding=1)
    self.in4_2 = nn.InstanceNorm2d(128)

    self.av5 = nn.AvgPool2d(kernel_size=2)
    self.conv5_1 = nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1)
    self.in5_1 = nn.InstanceNorm2d(256)
    self.conv5_2 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
    self.in5_2 = nn.InstanceNorm2d(256)

    self.av6 = nn.AvgPool2d(kernel_size=2)
    self.conv6 = nn.Conv2d(256, 512, kernel_size=3, stride=1, padding=1)
    self.in6 = nn.InstanceNorm2d(512)

    self.conv7 = nn.Conv2d(512, 1, kernel_size=1)

  def forward(self, x):      
    x = F.leaky_relu(self.in1(self.conv1(x)), 0.2, inplace=True)
    x = F.leaky_relu(self.in2_1(self.conv2_1(self.av2(x))), 0.2, inplace=True)
    x = F.leaky_relu(self.in2_2(self.conv2_2(x)), 0.2, inplace=True)
    x = F.leaky_relu(self.in3_1(self.conv3_1(self.av3(x))), 0.2, inplace=True)
    x = F.leaky_relu(self.in3_2(self.conv3_2(x)), 0.2, inplace=True)
    x = F.leaky_relu(self.in4_1(self.conv4_1(self.av4(x))), 0.2, inplace=True)
    x = F.leaky_relu(self.in4_2(self.conv4_2(x)), 0.2, inplace=True)
    x = F.leaky_relu(self.in5_1(self.conv5_1(self.av5(x))), 0.2, inplace=True)
    x = F.leaky_relu(self.in5_2(self.conv5_2(x)), 0.2, inplace=True)
    x = F.leaky_relu(self.in6(self.conv6(self.av6(x))), 0.2, inplace=True)
    x = self.conv7(x)
    return x

DataLoaderは、PyTorchのDatasetクラスを継承して機能拡張している
- カラー画像を取得する
- データ拡張を行う
- これをそのまま、真贋の真のデータとする

ここには含まれていないが、併せてグレースケール変換を行う

In [None]:
class DataAugment():
  # データ拡張
  def __init__(self, resize):
    self.data_transform = transforms.Compose([
      transforms.RandomResizedCrop(resize, scale=(0.9, 1.0)),
      transforms.RandomHorizontalFlip(),
      transforms.RandomVerticalFlip()])
  def __call__(self, img):
    return self.data_transform(img)

もう一つのDataLoaderは、単にデータの正規化を行う

In [None]:
class ImgTransform():
  # データの正規化
  def __init__(self, resize, mean, std):
    self.data_transform = transforms.Compose([
      transforms.Resize(resize),
      transforms.ToTensor(),
      transforms.Normalize(mean, std)])
  def __call__(self, img):
    return self.data_transform(img)

グレースケール変換を行うクラス

In [None]:
class MonoColorDataset(data.Dataset):
  def __init__(self, file_list, transform_tensor, augment=None):
    self.file_list = file_list
    self.augment = augment     #PIL to PIL
    self.transform_tensor = transform_tensor  #PIL to Tensor

  def __len__(self):
    return len(self.file_list)

  def __getitem__(self, index):
    #index番号のファイルパスを取得
    img_path = self.file_list[index]
    img = Image.open(img_path)
    img = img.convert("RGB")
    if self.augment is not None:
      img = self.augment(img)
    #モノクロ画像用のコピー
    img_gray = img.copy()
    #カラー画像をモノクロ画像に変換
    img_gray = transforms.functional.to_grayscale(img_gray, num_output_channels=3)
    #PILをtensorに変換
    img = self.transform_tensor(img)
    img_gray = self.transform_tensor(img_gray)
    return img, img_gray

テスト用のデータローダ

In [None]:
def load_train_dataloader(file_path, batch_size):
  size = (128,128)             #画像の1辺のサイズ
  mean = (0.5, 0.5, 0.5) #画像の正規化した際のチャンネル毎の平均値
  std = (0.5, 0.5, 0.5)  #画像の正規化した際のチャンネル毎の標準偏差

  #データセット
  train_dataset = MonoColorDataset(file_path_train, 
    transform_tensor=ImgTransform(size, mean, std), 
    augment=DataAugment(size))
  #データローダー
  train_dataloader = data.DataLoader(train_dataset,
    batch_size=batch_size,
    shuffle=True)
  return train_dataloader

PyTorchのtensor表現された画像をタイル状に描画する
- nrowでタイルの1辺の数を決定できる

In [None]:
def mat_grid_imgs(inum, imgs, nrow, save_path = None):
  imgs = torchvision.utils.make_grid(
    imgs[0:(nrow**2), :, :, :], nrow=nrow, padding=5)
  imgs = imgs.numpy().transpose([1,2,0])
  imgs -= np.min(imgs)   #最小値を0
  imgs /= np.max(imgs)   #最大値を1

  plt.imshow(imgs)
  plt.xticks([])
  plt.yticks([])
  plt.show()

  if save_path is not None:
    io.imsave(save_path, imgs)

テスト画像をロードして、グレースケール画像とフェイク画像をタイル状に描画する

In [None]:
def evaluate_test(file_path_test, model_G, device=usedevice, nrow=4):
  """
  test画像をロード,gray画像とfake画像をタイル状に描画
  """
  model_G = model_G.to(device)
  size = (128,128)
  mean = (0.5, 0.5, 0.5)
  std = (0.5, 0.5, 0.5)
  test_dataset = MonoColorDataset(file_path_test, 
    transform_tensor=ImgTransform(size, mean, std), 
    augment=None)
  test_dataloader = data.DataLoader(test_dataset,
     batch_size=nrow**2,
     shuffle=False)
  #データローダーごとに画像を描画
  for i, (img, img_gray) in enumerate(test_dataloader):
    mat_grid_imgs(i, img_gray, nrow=nrow)
    img = img.to(device)
    img_gray = img_gray.to(device)
    #img_grayからGeneratorを用いて,FakeのRGB画像
    img_fake = model_G(img_gray)
    img_fake = img_fake.to("cpu")
    img_fake = img_fake.detach()
    mat_grid_imgs(i, img_fake, nrow=nrow)

学習前に、一番最初の状態を確認する

ここでは、ノイズのかかった画像になる
- 通常の画像を扱うGANでは砂嵐画像から学習を開始するが、U-netの結合によりなんとなく形は残るようになる

In [None]:
g = Generator()
file_path_test = glob.glob(testfiledir)
evaluate_test(file_path_test, g)

画像をえり好みしてグレースケールに変換する

- 初めからグレースケールであったり、あまり色の変化がない画像は学習の役に立たないので採用しないようにしている

- えり好みした画像を専用の場所に保存する

この変換と保存作業はかなり重く、ここだけで4分程度必要である

In [None]:
from skimage import io, color, transform

def color_mono(image, threshold=150):
  #入力画像がカラーか否かを判別する(thresholdでカラーぐらいの閾値を与える)
  image_size = image.shape[0] * image.shape[1]
  #チャネル0と1、0と2、1と2について差分を求める
  diff = np.abs(np.sum(image[:,:, 0] - image[:,:, 1])) / image_size
  diff += np.abs(np.sum(image[:,:, 0] - image[:,:, 2])) / image_size
  diff += np.abs(np.sum(image[:,:, 1] - image[:,:, 2])) / image_size
  if diff > threshold:
    return "color"
  else:
    return "mono"

def bright_check(image, ave_thres = 0.15, std_thres = 0.1):
  try:
    #白黒に変換する
    image = color.rgb2gray(image)
    #明るすぎる画像、暗すぎる画像、明るさに差がない画像を除く
    if image.shape[0] < 144:
      return False    
    if np.average(image) > (1.-ave_thres): #明るすぎる画像
      return False
    if np.average(image) < ave_thres: #暗すぎる画像
      return False
    if np.std(image) < std_thres: #明るさに差がない画像
      return False
    return True
  except:
    return False

paths = glob.glob(trainfiledir)
numpics = 0
maxpics = 9990
for i, path in enumerate(paths):
  image = io.imread(path)
  save_name = "./trans/mscoco_" + str(i) +".png"
  x = image.shape[0] #xピクセル数
  y = image.shape[1] #yピクセル数
  try:
    #xとyの内、短い方の1/2
    clip_half = min(x, y)/2
    #画像を正方形で切り出し
    image = image[int(x/2 -clip_half): int(x/2 + clip_half),
      int(y/2 -clip_half): int(y/2 + clip_half), :]
    if color_mono(image) == "color":
      if bright_check(image):
        image = transform.resize(image, (144, 144, 3),
                                 anti_aliasing = True)
        image = np.uint8(image*255)
        io.imsave(save_name, image)
        numpics += 1
        if numpics > maxpics:
          break
  except:
    pass

学習をそれぞれ行う

ロス計算において、true_labelsおよびfalse_labelsは、4$\times$4のブロック毎に判定していることに注意する


In [None]:
def train(model_G, model_D, epoch, epoch_plus):
  device = usedevice
  batch_size = 100
  tstart = datetime.datetime.now()

  model_G = model_G.to(device)
  model_D = model_D.to(device)

  params_G = torch.optim.Adam(model_G.parameters(),
    lr=0.0002, betas=(0.5, 0.999))
  params_D = torch.optim.Adam(model_D.parameters(),
    lr=0.0002, betas=(0.5, 0.999))
  #loss計算のためのラベル
  true_labels = torch.ones(batch_size, 1, 4, 4).to(device)    #True
  false_labels = torch.zeros(batch_size, 1, 4, 4).to(device)  #False
  #loss_function
  bce_loss = nn.BCEWithLogitsLoss()
  mae_loss = nn.L1Loss()
  log_loss_G_sum, log_loss_G_bce, log_loss_G_mae = list(), list(), list()
  log_loss_D = list()

  for i in range(epoch):
    #ロスを記録
    loss_G_sum, loss_G_bce, loss_G_mae = list(), list(), list()
    loss_D = list()

    train_dataloader = load_train_dataloader(file_path_train, batch_size)

    for real_color, input_gray in train_dataloader:
      batch_len = len(real_color)
      real_color = real_color.to(device)
      input_gray = input_gray.to(device)
      #Generatorの訓練
      fake_color = model_G(input_gray) #偽カラー画像生成
      fake_color_tensor = fake_color.detach()
      #偽画像のロスを計算
      LAMBD = 100.0 # BCEとMAEの係数
      #fake画像を識別器に入れたときの出力
      out = model_D(fake_color)
      #Dの出力に対するロス
      loss_G_bce_tmp = bce_loss(out, true_labels[:batch_len])
      #Gの出力に対するロス
      loss_G_mae_tmp = LAMBD * mae_loss(fake_color, real_color)
      loss_G_sum_tmp = loss_G_bce_tmp + loss_G_mae_tmp

      loss_G_bce.append(loss_G_bce_tmp.item())
      loss_G_mae.append(loss_G_mae_tmp.item())
      loss_G_sum.append(loss_G_sum_tmp.item())

      params_D.zero_grad()
      params_G.zero_grad()
      loss_G_sum_tmp.backward()
      params_G.step()

      #Discriminatorの訓練
      real_out = model_D(real_color)
      fake_out = model_D(fake_color_tensor)

      #ロスの計算
      loss_D_real = bce_loss(real_out, true_labels[:batch_len])
      loss_D_fake = bce_loss(fake_out, false_labels[:batch_len])

      loss_D_tmp = loss_D_real + loss_D_fake
      loss_D.append(loss_D_tmp.item())

      params_D.zero_grad()
      params_G.zero_grad()
      loss_D_tmp.backward()
      params_D.step()

    i = i + epoch_plus
    telapsed = datetime.datetime.now() - tstart
    print(i, "loss_G", np.mean(loss_G_sum), "loss_D", np.mean(loss_D), " time:", telapsed)
    log_loss_G_sum.append(np.mean(loss_G_sum))
    log_loss_G_bce.append(np.mean(loss_G_bce))
    log_loss_G_mae.append(np.mean(loss_G_mae))
    log_loss_D.append(np.mean(loss_D))

    file_path_test = glob.glob(testfiledir)
    evaluate_test(file_path_test, model_G, device)

  return model_G, model_D, [log_loss_G_sum, log_loss_G_bce, log_loss_G_mae, log_loss_D]

学習させつつ、実際に白黒画像をカラー化する

In [None]:
file_path_train = glob.glob(testfiledir)
model_G = Generator()
model_D = Discriminator()
model_G, model_D, logs = train(model_G, model_D, 40, 0)

# VAEとGAN

VAEとGANを単純に画質で比較すれば、VAEはぼやっとした画像となり、GANはくっきりした画像になる
- VAEの画像には詳細が描かれない

VAEは、潜在空間の中に連続的に画像が存在する事が損失関数の形から要請されている
- 結果として潜在空間の近い点同士の画像は似ていなくてはならない
- 2つの画像が似ているというのは、行列としての画像の同じ要素の値が近いということを意味する
- つまり、模様のような一つ一つの画像固有の部分を細かく学習することは、モデルに取って不利になる

学習という面でGANには問題が沢山ある
- 2つのモデルを学習するときに、損失関数が学習度合の絶対値の指標にならない
- モデルが複雑になるため、学習コストが破綻的に必要となる
- これらを解決するGANの改良が次々と提案されている

一方で、VAEも負けていない
- 最新の研究でVQ-VAE2が提案され、GAN最強といわれるBigGANに劣らない性能をより少ないコストの計算で達成するとしており、BigGANを超えたとさえも言われている

# 課題 C

Pix2pixによるカラー化において、自分で準備、もしくは作成した白黒画像を実際にカラー化しなさい
- 本内容で得られたコード、学習結果を利用してよい
- 解像度は問わない