Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation #104

Open
Yagami360 opened this issue Sep 19, 2020 · 0 comments
Open

Comments

@Yagami360
Copy link
Owner

Yagami360 commented Sep 19, 2020

0. 論文情報・リンク

1. どんなもの?

  • 入力顔画像を StyleGAN の拡張潜在空間 W+ に適切に encode 可能なピラミッド構造型ネットワークである pSp encoder を用いることで、StyleGAN を活用した品質の高い顔画像生成を実現した image-to-image モデル

2. 先行研究と比べてどこがすごいの?

  • StyleGAN は、極めて高いレベルで高品質の画像を生成できるものの、潜在変数 z を元に画像生成するタイプの GAN アーキテクチャであり、image-to-image の用途で直接扱えない問題がある。
    そのため StyleGAN の後発モデルでは、入力画像を潜在空間に encode することで StyleGAN を image-to-image の用途で扱えるようにしたモデルが提案されている。
    これらのモデルにおいては、StyleGAN の 512 次元の潜在空間 W に入力画像を適切に encode することが困難であるので、18 個の異なる 512 次元の拡張潜在空間 W+ に encode する方法が広く採用されている。
    しかしながらこのような方法でも、学習用データと推論用データのドメインギャップがある場合などで、入力画像を適切な拡張潜在空間 W+ に encode することが依然として困難であり、その結果として生成画像の品質にも問題が生じる。
    本手法では、入力顔画像を StyleGAN の拡張潜在空間 W+ に適切に encode 可能なピラミッド構造型ネットワークを用いることで、StyleGAN を活用した品質の高い image-to-image 顔画像生成を実現している。
  • 本手法での拡張潜在空間 W+ への入力画像の encode は直接的に行われるので、従来の追加の最適化処理を用いて潜在空間 W+ に encode する方法と比較して、処理速度が高速になっている。

3. 技術や手法の"キモ"はどこにある?

  • アーキテクチャの全体像と StyleGAN 拡張潜在空間への encode 処理

    上図は、本手法のアーキテクチャ Pixel2Style2Pixel (pSp) の全体像を示した図である。

    入力画像を StyleGAN の拡張潜在空間 W+ に encode するための最も単純な方法は、encoder の最終層から出力を直接拡張潜在空間 W+ に encode する方法であるが、この方法では適切に enocode 出来ないことが分かっている。

    そのため本手法では、論文「Feature pyramid networks for object detection」のようなピラミッド構造型ネットワークにおける各 decoder 層からの3つの特徴マップを map2style ネットワークに入力し 18 個のstyle(潜在変数)に変換した上で、それら各 style を StyleGAN の3つの{低解像度スケール層(4×48×8)、中解像度スケール層(16×1632×32)、高解像度スケール層(64×64~1024×1024)}それぞれに入力するようにする。
    ピラミッド構造ネットワークの各 decoder 層が StyleGAN の3つの解像度スケールと対応している点がポイントである。

    画像 encoder (pSp encoder) のバックボーンネットワークは、顔認識用に事前学習された ResNet-IR を用いている。
    ※ ResNet-IR : 論文「Arcface:Additive angular margin loss for deep face recognition」参照

    StyleGAN のネットワークは、FFHQ データセットで事前学習された StyleGAN2 のネットワークを用いている。
    ※ StyleGAN2 のネットワークは推論専用で学習を行わない。学習を行うのは、pSp encoder 部分のみ

  • 損失関数
    本手法でのネットワーク(入力画像を encode するピラミッド構造型ネットワーク+map2style ネットワーク)は、以下の損失関数で学習される。

  • StyleGAN ベースの image-to-image モデルの利点
    StyleGAN ベースの image-to-image モデルでは、他の一般的な image-to-image モデルと比較して、以下のようなメリットがある。

    1. 入力画像と出力画像間のピクセルレベルでの局所的な対応関係ない場合での image-to-image タスク
      一般的な image-to-image モデルでは、入力画像と出力画像間のピクセルレベルでの局所的な対応関係がある場合にしかうまく出力画像を生成出来ない傾向がある。(特に UNet やピラミッド構造ネットワークでは、encoder 側の上位層からの特徴マップを decoder 側の上位層に入力しているので、その傾向が強い)

      一方で、本手法のような StyleGAN ベースの image-to-image モデルでは、入力画像を StyleGAN の潜在空間へ埋め込みを行うので、入力画像と出力画像間のピクセルレベルでの局所的な対応関係がない場合にも、(原理的には)出力画像を生成出来るモデルになっている。

    2. Style Mixing を活用したマルチモーダルな画像生成
      StyleGAN では、3つの生成器層{低解像度スケール層(4×48×8)、中解像度スケール層(16×1632×32)、高解像度スケール層(64×64~1024×1024)}に対して、入力する潜在変数を切り替える Style Mixing という操作により、画像詳細の局所的な画像変換処理と画像全体の大域的な画像変換処理を切り分けながら制御出来る。

      本手法では上図のように、Style Mixing のための潜在変数を、入力画像から encode された潜在変数とランダムサンプリングされた潜在変数とに切り分けることで、1つの入力画像から、大域的には類似した特徴を持ちながら局所的な特徴に関しては変化した複数の生成画像をマルチモーダルに出力することが可能になっている。

4. どうやって有効だと検証した?

  • 既存の StyleGAN を利用した image-to-image モデルとの定性的品質比較検証

    本手法と同タイプの既存の StyleGAN を利用した image-to-image モデル(ALAE, IDInvert)と比較して、本手法での生成画像は人物同一性をよく保持している。

  • Ablation study での定性的品質検証

    生成画像の品質(人物同一性など)は、 W<W+<pSP になっている

    Identity loss 追加により、人物同一性が大きく向上している。
  • 既存の image-to-image モデルとの定性的品質比較

    StyleGAN を活用していない他の一般的な image-to-image モデル(pix2pixHDなど)と比較して、本手法での品質が大きく向上している

  • sketche-to-image タスクでの既存モデルとの定性的品質比較

    一般的な image-to-image モデル(pix2pixHDなど)と比較して、本手法での品質が大きく向上している

  • label-to-image タスクでの既存モデルとの定性的品質比較

    一般的な image-to-image モデル(pix2pixHD, SPADE など)と比較して、本手法での品質が大きく向上している

5. 議論はあるか?

  • 一般的な image-to-image モデルである pix2pixHD, SPADE よりも品質が大幅に向上している点に注目
  • 顔画像に対しての image-to-image 変換モデルになっているが、{画像 encoder のバックボーンネットワークに顔認識用に事前学習された ResNet-IR を用いていること・FFHQ データセットで事前学習された StyleGAN2 を用いていること・Identity loss を採用していること}以外は顔以外にも使えるアーキテクチャになっていると思われる。

6. 次に読むべき論文はあるか?

  • LPIPS loss
    • The unreasonable effectiveness of deep features as a perceptual metric
  • ResNet-IR、Identity loss :
    • Arcface:Additive angular margin loss for deep face recognition

7. 参考文献

  • xxx
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant