Efficient Geometry-aware 3D Generative Adversarial Networks #17

hypknot74 · 2022-08-15T13:43:26Z

リンク

arxiv: https://arxiv.org/abs/2112.07945
project page: https://nvlabs.github.io/eg3d/
github: https://github.com/NVlabs/eg3d

他参考サイト

Deep Learning JPのスライド

著者/所属機関

Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras, Gordon Wetzstein

投稿日付

Submitted on 15 Dec 2021
CVPR2022

概要

通称: EG3D

StyleGAN2とニューラルレンダリングを組み合わせた3D GANを提案。
ニューラルレンダリングの方法としてimplicitとexplicitな方法をハイブリッドすることで、高品質ながらレンダリングの計算効率とメモリ効率を向上させた。

手法

この図を見ればだいたい分かる。大枠はStyleGAN2。
途中にニューラルレンダリングを挟んでいたり、discriminatorが画像に加えてカメラポーズを条件情報として鑑別する違いがある。

Tri-plane hybrid 3D representation

voxelのようなexplicitな方法では計算が高速だが、メモリが大きすぎて高解像度や複雑なシーンへの拡張が困難。
imiplicitな方法では連続関数(陰関数)を使用することでメモリ効率や複雑なシーンに関して有効だが、ネットワークが巨大で計算に時間がかかりすぎる。

explicitとimplicitのハイブリッドであるtri-plane表現を使用することで、implicit単体よりもimplicitな表現にするためのデコーダが軽量になる。かつ、explicitな表現としてボクセルを使用するよりもメモリが小さい。
voxelはNxNxNxCのメモリが必要( $O(N^3)$ )。tri-planeはvoxelのように高速な計算が可能でありながら、必要なメモリはNxNx3xC( $O(N^2)$ )である。(例えばN=256, C=32ぐらい)
ここで注意したいのが、tri-planeは1面が1チャネルではなく複数チャネルである点。voxelも同様に1つのボックスは1x1x1xCチャネルである。

3つの表現で学習した結果。tri-planeは複雑なシーンも再現できている。また高速でメモリ使用量も小さい。

frameworkの要点

学習画像のポーズはポーズ検出器を用いて得ている。
GはほぼStyleGAN2と同じ。出力は3チャネルのRGB画像ではなく、256x256x96の特徴画像。これが3つに分けられてtri-plane表現を構成する。
学習速度向上のために、2段階の学習戦略を取った。64^2でニューラルレンダリングの学習をした後、128^2で少しだけfine-tuningする。
3Dアーティファクトを抑えるために、密度場の平滑性を向上させるための正則化をするのが大事。

CNN generator backbone and rendering

図を見ればわかる。Raw image $I_{RGB}$ は特徴画像 $I_F$ の最初の3チャネル。

Super resolution

高速化のために、小サイズでボリュームレンダリングしてから、超解像によって最終サイズにする。
ボリュームレンダリングで粗く生成して、StyleGAN2の生成器の続きで細かい箇所を生成する。

Dual discrimination

Raw image $I_{RGB}$ と超解像した画像をあわせて鑑別器に入力することで、超解像と多視点における一貫性を保つ。
実画像の場合は適切にぼかした画像をraw imageとして使用する。

また、カメラポーズで条件づけて鑑別器に入力する。

Modeling pose-correlated attributes

FFHQのようなデータセットにはカメラポーズと表情のような他の属性を相関させるバイアスが含まれている。例えば、カメラの角度と笑顔には相関がある。
多視点で一貫性のある生成を行うと雨には、このような属性を切り離す必要がある。

生成器のマッピングネットワークにカメラポーズも入力することで向上する。

<分からなかったこと>
50%の確率でランダムなカメラポーズを入力すると書いてあるが、理由を読んでもよく分からなかった。
Gに入力するカメラポーズを固定すると他の角度からの生成の質が落ちるため、50%の確率でランダムなカメラポーズを入力するという意味？
だとしたら、カメラポーズはデフォルトの位置と角度が設定されている？
これをしないと以下のようになるらしい。

結果

project pageの動画を見るのが一番。

IDも良く保てられている。

Style-Mixing

PTIによるGAN inversion。

A. このissueで議論されている。EG3Dのパラメタをfine-tuningする必要がある。ある人が親切にEG3D用のPTI projectorを公開してくださっている。
また、前処理手法が一般的なFFHQのalignではないらしい。in-the-wild 画像に対する前処理手法も他の人が実装してくれている。

hypknot74 added GAN 画像生成 2021 3D neural rendering labels Aug 15, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Efficient Geometry-aware 3D Generative Adversarial Networks #17

Efficient Geometry-aware 3D Generative Adversarial Networks #17

hypknot74 commented Aug 15, 2022 •

edited

Loading

Efficient Geometry-aware 3D Generative Adversarial Networks #17

Efficient Geometry-aware 3D Generative Adversarial Networks #17

Comments

hypknot74 commented Aug 15, 2022 • edited Loading

リンク

他参考サイト

著者/所属機関

投稿日付

概要

手法

Tri-plane hybrid 3D representation

frameworkの要点

CNN generator backbone and rendering

Super resolution

Dual discrimination

Modeling pose-correlated attributes

結果

コメント

hypknot74 commented Aug 15, 2022 •

edited

Loading