We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
生成器のアーキテクチャ BigGAN の生成器のアーキテクチャをそのまま利用する。 ※ 論文では生成器として BigGAN の生成器のアーキテクチャを採用しているが、別の生成器(pix2pix-HD やUnet など)でも 本論文での Unet 識別器は有効であると思われる。 ※ BigGAN の生成器のアーキテクチャを採用しているので、本手法の GAN モデル(=Unet 識別器)は noize-to-image での GAN モデルになっているが、image-to-image での生成器(pix2pix-HD の生成器など)を採用すれば、本手法の GAN モデル(=Unet 識別器)は image-to-image でも使えそう
U-Net Based Discriminator のアーキテクチャ 本手法では上図のように、セマンティクスセグメンテーションタスクなどで広く採用されている UNet を、GAN の識別器のネットワーク構造として採用している。 但し、UNet のデコードされた出力画像 D_dec^U に対して Adv loss をとるだけでなく、従来の encoder されたベクトルでの出力 D_enc^U に対しても Adv loss をとるようにしている。
式で書くと、以下のような式になる。 ※ D_enc^U と D_dec^U の2つで Adv loss をとる以外は、通常の Adv loss から大きな変更はなし
UNet の decode された出力画像 D_dec^U は、画像のピクセル単位での局所的な特徴量をもち、 UNet の encode された出力画像 D_enc^U は、画像全体の大域的な特徴量をもつので、 この Unet 識別器は、画像全体の大域的な特徴と局所的な特徴量の両方で学習されることになる。
CutMix を用いた consistency regularization loss
CutMix は、学習用画像に別の画像の一部領域をミックスするデータオーギュメント手法であるが、 本論文では以下の利用法で CutMix を利用する。 ① 生成画像に本物画像の一部を CutMix したものを識別器に入力し、UNet 識別器からの識別画像を生成(上図での緑線) ② 生成画像と本物画像を識別器に入力して UNet 識別器からの識別画像を生成。その後、生成画像での識別画像に、本物画像での識別画像を CutMix する。(上図での青線)
ここで、①と②による結果は、演算順序が異なるだけで正しい学習状態の元では最終的な結果は等しくなるはずである。 本論文では、①と②による結果が等しくなるように、以下の式で定義される consistency regularization loss を追加することで、識別器に一貫したな制約 [Consistency Regularization] を課す。
識別器の最終的な損失関数は、以下の式になる
上図のように、学習用画像に別の画像の一部領域をミックスするデータオーギュメント手法。
学習用データセット FFHQ, Celeb-A, COCO-Animals データセットそれぞれで評価
生成画像の品質スコアの定量比較検証 本論文のほうが、優れた品質スコアを実現できている。
識別器の損失関数の定量比較検証 本論文で提案している UNet 識別器のほうが、識別器に関しての loss 値が緩やかに減少しており、 多くの GAN モデルで問題となりがちな識別器のみが強く学習され過ぎてしまう状態が発生していないことがわかる。
生成画像の定性検証 大域的な特徴量と局所的な特徴量をもった高品質の画像を生成できている。 ※ BigGAN との比較がないので、定性品質の向上具合がよくわからない
The text was updated successfully, but these errors were encountered:
No branches or pull requests
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
その結果、局所的な構造が途絶えて斑点化された画像や幾何学的パターンが不整合な画像で生成されてしまうケースが存在した。
本手法では、識別器のネットワーク構造として UNet のアーキテクチャを採用することで、enocder 部分で画像全体の大域的な特徴での判別結果を学習し、decoder 部分で画像のピクセルレベルの局所的な判別結果と学習することで、GAN モデルにおける生成画像の品質を向上させている。
3. 技術や手法の"キモ"はどこにある?
生成器のアーキテクチャ
BigGAN の生成器のアーキテクチャをそのまま利用する。
※ 論文では生成器として BigGAN の生成器のアーキテクチャを採用しているが、別の生成器(pix2pix-HD やUnet など)でも 本論文での Unet 識別器は有効であると思われる。
※ BigGAN の生成器のアーキテクチャを採用しているので、本手法の GAN モデル(=Unet 識別器)は noize-to-image での GAN モデルになっているが、image-to-image での生成器(pix2pix-HD の生成器など)を採用すれば、本手法の GAN モデル(=Unet 識別器)は image-to-image でも使えそう
U-Net Based Discriminator のアーキテクチャ
本手法では上図のように、セマンティクスセグメンテーションタスクなどで広く採用されている UNet を、GAN の識別器のネットワーク構造として採用している。
但し、UNet のデコードされた出力画像 D_dec^U に対して Adv loss をとるだけでなく、従来の encoder されたベクトルでの出力 D_enc^U に対しても Adv loss をとるようにしている。
式で書くと、以下のような式になる。
※ D_enc^U と D_dec^U の2つで Adv loss をとる以外は、通常の Adv loss から大きな変更はなし
UNet の decode された出力画像 D_dec^U は、画像のピクセル単位での局所的な特徴量をもち、
UNet の encode された出力画像 D_enc^U は、画像全体の大域的な特徴量をもつので、
この Unet 識別器は、画像全体の大域的な特徴と局所的な特徴量の両方で学習されることになる。
CutMix を用いた consistency regularization loss
CutMix は、学習用画像に別の画像の一部領域をミックスするデータオーギュメント手法であるが、
本論文では以下の利用法で CutMix を利用する。
① 生成画像に本物画像の一部を CutMix したものを識別器に入力し、UNet 識別器からの識別画像を生成(上図での緑線)
② 生成画像と本物画像を識別器に入力して UNet 識別器からの識別画像を生成。その後、生成画像での識別画像に、本物画像での識別画像を CutMix する。(上図での青線)
ここで、①と②による結果は、演算順序が異なるだけで正しい学習状態の元では最終的な結果は等しくなるはずである。
本論文では、①と②による結果が等しくなるように、以下の式で定義される consistency regularization loss を追加することで、識別器に一貫したな制約 [Consistency Regularization] を課す。
識別器の最終的な損失関数は、以下の式になる
上図のように、学習用画像に別の画像の一部領域をミックスするデータオーギュメント手法。
4. どうやって有効だと検証した?
学習用データセット
FFHQ, Celeb-A, COCO-Animals データセットそれぞれで評価
生成画像の品質スコアの定量比較検証
本論文のほうが、優れた品質スコアを実現できている。
識別器の損失関数の定量比較検証
本論文で提案している UNet 識別器のほうが、識別器に関しての loss 値が緩やかに減少しており、
多くの GAN モデルで問題となりがちな識別器のみが強く学習され過ぎてしまう状態が発生していないことがわかる。
生成画像の定性検証
大域的な特徴量と局所的な特徴量をもった高品質の画像を生成できている。
※ BigGAN との比較がないので、定性品質の向上具合がよくわからない
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献
The text was updated successfully, but these errors were encountered: