A U-Net Based Discriminator for Generative Adversarial Networks #110

Yagami360 · 2020-11-16T13:07:58Z

0. 論文情報・リンク

論文リンク：https://openaccess.thecvf.com/content_CVPR_2020/html/Schonfeld_A_U-Net_Based_Discriminator_for_Generative_Adversarial_Networks_CVPR_2020_paper.html
公開日時：2020/02/28
組織 :
被引用数（記事作成時点）：6 件
実装コード（PyTorch）：https://github.com/boschresearch/unetgan
Publication : CVPR 2020

1. どんなもの？

GAN モデルにおける識別器のネットワーク構造として Unet 構造のアーキテクチャを採用し、また CutMix を利用した Consistency Regularization loss を導入することで生成画像の品質を向上された GAN モデル

2. 先行研究と比べてどこがすごいの？

従来の GAN モデルにおける識別器は、0 or 1 のベクトル化された判別結果を出力する構造になっており、encoder 部分のみで画像の大域的な特徴と局所的な特徴を抽出するネットワーク構造になっていた。
その結果、局所的な構造が途絶えて斑点化された画像や幾何学的パターンが不整合な画像で生成されてしまうケースが存在した。
本手法では、識別器のネットワーク構造として UNet のアーキテクチャを採用することで、enocder 部分で画像全体の大域的な特徴での判別結果を学習し、decoder 部分で画像のピクセルレベルの局所的な判別結果と学習することで、GAN モデルにおける生成画像の品質を向上させている。
また、CutMix と呼ばれるデータオーギュメント手法を利用した Consistency Regularization loss により、生成画像の品質を大きく向上させている。

3. 技術や手法の"キモ"はどこにある？

生成器のアーキテクチャ
BigGAN の生成器のアーキテクチャをそのまま利用する。
※ 論文では生成器として BigGAN の生成器のアーキテクチャを採用しているが、別の生成器（pix2pix-HD やUnet など）でも本論文での Unet 識別器は有効であると思われる。
※ BigGAN の生成器のアーキテクチャを採用しているので、本手法の GAN モデル（＝Unet 識別器）は noize-to-image での GAN モデルになっているが、image-to-image での生成器（pix2pix-HD の生成器など）を採用すれば、本手法の GAN モデル（＝Unet 識別器）は image-to-image でも使えそう
U-Net Based Discriminator のアーキテクチャ

本手法では上図のように、セマンティクスセグメンテーションタスクなどで広く採用されている UNet を、GAN の識別器のネットワーク構造として採用している。
但し、UNet のデコードされた出力画像 D_dec^U に対して Adv loss をとるだけでなく、従来の encoder されたベクトルでの出力 D_enc^U に対しても Adv loss をとるようにしている。

式で書くと、以下のような式になる。
※ D_enc^U と D_dec^U の２つで Adv loss をとる以外は、通常の Adv loss から大きな変更はなし

UNet の decode された出力画像 D_dec^U は、画像のピクセル単位での局所的な特徴量をもち、
UNet の encode された出力画像 D_enc^U は、画像全体の大域的な特徴量をもつので、
この Unet 識別器は、画像全体の大域的な特徴と局所的な特徴量の両方で学習されることになる。
CutMix を用いた consistency regularization loss

CutMix は、学習用画像に別の画像の一部領域をミックスするデータオーギュメント手法であるが、
本論文では以下の利用法で CutMix を利用する。
① 生成画像に本物画像の一部を CutMix したものを識別器に入力し、UNet 識別器からの識別画像を生成（上図での緑線）
② 生成画像と本物画像を識別器に入力して UNet 識別器からの識別画像を生成。その後、生成画像での識別画像に、本物画像での識別画像を CutMix する。（上図での青線）

ここで、①と②による結果は、演算順序が異なるだけで正しい学習状態の元では最終的な結果は等しくなるはずである。
本論文では、①と②による結果が等しくなるように、以下の式で定義される consistency regularization loss を追加することで、識別器に一貫したな制約 [Consistency Regularization] を課す。

識別器の最終的な損失関数は、以下の式になる
- 【補足】CutMix
上図のように、学習用画像に別の画像の一部領域をミックスするデータオーギュメント手法。

4. どうやって有効だと検証した？

学習用データセット
FFHQ, Celeb-A, COCO-Animals データセットそれぞれで評価
生成画像の品質スコアの定量比較検証

本論文のほうが、優れた品質スコアを実現できている。
識別器の損失関数の定量比較検証

本論文で提案している UNet 識別器のほうが、識別器に関しての loss 値が緩やかに減少しており、
多くの GAN モデルで問題となりがちな識別器のみが強く学習され過ぎてしまう状態が発生していないことがわかる。
生成画像の定性検証

大域的な特徴量と局所的な特徴量をもった高品質の画像を生成できている。
※ BigGAN との比較がないので、定性品質の向上具合がよくわからない

5. 議論はあるか？

論文では生成器として BigGAN の生成器のアーキテクチャを採用しているために noize-to-image の GAN モデルになっているが、別の生成器（pix2pix-HD やUnet など）を採用すれば image-to-image などでも有効なモデルになっていると思われる。
識別器を UNet 構造にするだけでは生成画像の品質は十分には向上しない？CutMix を利用した consistency regularization loss を導入することで初めて生成画像の品質が大きく向上する？

6. 次に読むべき論文はあるか？

xxx

7. 参考文献

https://qiita.com/omiita/items/e0e5470595dc9b22247d

Yagami360 added GANs noize-to-image labels Nov 16, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

A U-Net Based Discriminator for Generative Adversarial Networks #110

A U-Net Based Discriminator for Generative Adversarial Networks #110

Yagami360 commented Nov 16, 2020 •

edited

Loading

A U-Net Based Discriminator for Generative Adversarial Networks #110

A U-Net Based Discriminator for Generative Adversarial Networks #110

Comments

Yagami360 commented Nov 16, 2020 • edited Loading

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献

Yagami360 commented Nov 16, 2020 •

edited

Loading