You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras, Gordon Wetzstein
リンク
arxiv: https://arxiv.org/abs/2112.07945
project page: https://nvlabs.github.io/eg3d/
github: https://github.com/NVlabs/eg3d
他参考サイト
著者/所属機関
Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras, Gordon Wetzstein
投稿日付
Submitted on 15 Dec 2021
CVPR2022
概要
通称: EG3D
StyleGAN2とニューラルレンダリングを組み合わせた3D GANを提案。
ニューラルレンダリングの方法としてimplicitとexplicitな方法をハイブリッドすることで、高品質ながらレンダリングの計算効率とメモリ効率を向上させた。
手法
この図を見ればだいたい分かる。大枠はStyleGAN2。
![image](https://user-images.githubusercontent.com/57225520/184645128-5758f384-ba64-4f98-ace3-0b5e085baab5.png)
途中にニューラルレンダリングを挟んでいたり、discriminatorが画像に加えてカメラポーズを条件情報として鑑別する違いがある。
Tri-plane hybrid 3D representation
voxelのようなexplicitな方法では計算が高速だが、メモリが大きすぎて高解像度や複雑なシーンへの拡張が困難。
imiplicitな方法では連続関数(陰関数)を使用することでメモリ効率や複雑なシーンに関して有効だが、ネットワークが巨大で計算に時間がかかりすぎる。
explicitとimplicitのハイブリッドであるtri-plane表現を使用することで、implicit単体よりもimplicitな表現にするためのデコーダが軽量になる。かつ、explicitな表現としてボクセルを使用するよりもメモリが小さい。$O(N^3)$ )。tri-planeはvoxelのように高速な計算が可能でありながら、必要なメモリはNxNx3xC( $O(N^2)$ )である。(例えばN=256, C=32ぐらい)
voxelはNxNxNxCのメモリが必要(
ここで注意したいのが、tri-planeは1面が1チャネルではなく複数チャネルである点。voxelも同様に1つのボックスは1x1x1xCチャネルである。
3つの表現で学習した結果。tri-planeは複雑なシーンも再現できている。また高速でメモリ使用量も小さい。
frameworkの要点
CNN generator backbone and rendering
図を見ればわかる。Raw image$I_{RGB}$ は特徴画像 $I_F$ の最初の3チャネル。
Super resolution
高速化のために、小サイズでボリュームレンダリングしてから、超解像によって最終サイズにする。
ボリュームレンダリングで粗く生成して、StyleGAN2の生成器の続きで細かい箇所を生成する。
Dual discrimination
Raw image$I_{RGB}$ と超解像した画像をあわせて鑑別器に入力することで、超解像と多視点における一貫性を保つ。
実画像の場合は適切にぼかした画像をraw imageとして使用する。
また、カメラポーズで条件づけて鑑別器に入力する。
Modeling pose-correlated attributes
FFHQのようなデータセットにはカメラポーズと表情のような他の属性を相関させるバイアスが含まれている。例えば、カメラの角度と笑顔には相関がある。
多視点で一貫性のある生成を行うと雨には、このような属性を切り離す必要がある。
生成器のマッピングネットワークにカメラポーズも入力することで向上する。
<分からなかったこと>
![image](https://user-images.githubusercontent.com/57225520/184645424-b5d19472-4322-4db8-89e5-8d97667c37db.png)
50%の確率でランダムなカメラポーズを入力すると書いてあるが、理由を読んでもよく分からなかった。
Gに入力するカメラポーズを固定すると他の角度からの生成の質が落ちるため、50%の確率でランダムなカメラポーズを入力するという意味?
だとしたら、カメラポーズはデフォルトの位置と角度が設定されている?
これをしないと以下のようになるらしい。
結果
project pageの動画を見るのが一番。
![image](https://user-images.githubusercontent.com/57225520/184645488-9ad1dcde-474a-4c2e-90a8-5d86131de5eb.png)
IDも良く保てられている。
![image](https://user-images.githubusercontent.com/57225520/184645532-df673120-93d9-4fe2-81e5-dc1940d352cc.png)
Style-Mixing
![image](https://user-images.githubusercontent.com/57225520/184645585-bab2a7ca-5617-4391-ac33-13e2a97b93a6.png)
PTIによるGAN inversion。
![image](https://user-images.githubusercontent.com/57225520/184645630-9f4a9d94-ad18-48fb-86aa-f871180627cc.png)
コメント
同時期に同様のコンセプトの研究としてStyleNeRFやGRAM、CIPS-3Dが発表されている。
Q. inversionにPTIを使用しているが、PTIはinversion時にGANのgeneratorをinversionしやすいようにfine-tuningする。 EG3Dの場合、ネットワークのどこの部分をfine-tuningしているのだろう? 論文には詳細がない。
A. このissueで議論されている。EG3Dのパラメタをfine-tuningする必要がある。ある人が親切にEG3D用のPTI projectorを公開してくださっている。
また、前処理手法が一般的なFFHQのalignではないらしい。in-the-wild 画像に対する前処理手法も他の人が実装してくれている。
The text was updated successfully, but these errors were encountered: