You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
識別器のアーキテクチャと reconstruction loss
上図は、本手法での識別器のアーキテクチャを示した図である。
本手法の識別器は、以下の式で定義される reconstruction loss により正則化される。
この reconstruction loss では、以下のようにして計算する。
a. 16x16 の特徴マップ f_1 に対して random crop を行う。
b. 上記 ramdom crop と同じ範囲で正解画像を crop し、I_part を得る。
c. decoder ネットワーク G を用いて、crop された f1 から I'_part を生成し、8x8 の特徴マップ f2 から I′ を生成する.
d. I'_part と I_part,I′ と I を一致させるように(=reconstruction loss が最小にするように)、識別器 D と decoder G を学習する。
この reconstruction loss での学習により、識別器 D は入力画像 x からより包括的な表現を抽出し、8 x 8 の特徴マップ f2 から大域的な情報を抽出し、16x16 の特徴マップから局所的な情報の抽出しながら学習出来るようになる。
損失関数
ネットワーク全体の損失関数としては、Hinge loss での Adv loss + reconstruction loss を採用している。
4. どうやって有効だと検証した?
既存のモデルとの定性比較検証
学習用データセット数が限られている場合において、現行の noize-to-image タスクでの SOTA である SyleGAN2 よりも、高品質の生成画像を生成できている。
The text was updated successfully, but these errors were encountered:
Yagami360
changed the title
[Lightweight GAN] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis
Nov 25, 2020
Yagami360
changed the title
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis
[Lightweight GAN] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis
Nov 25, 2020
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
本手法では、生成器には Skip-Layer Excitation module (SLE) の構造、識別器には reconstruction loss を採用することで、モデルのパラメーター数を削減し、結果として少ない学習用データセット数でもうまく学習出来るようしている
3. 技術や手法の"キモ"はどこにある?
生成器のアーキテクチャと Skip-Layer Excitation module (SLE)
一般的な議論として、より高解像度の画像生成を行うモデルはより深いネットワーク構造が必要となる。
一方でより深いネットワークモデルではパラメーター数が増加するので、より多くの学習時間や学習用データセット数が必要になってくる。
深いネットワークを効率的に学習するために、ResNet では skip connection の構造を採用しているが、依然として計算コストは高いままであり、また多くの学習用データセット数が必要になる。
本手法の生成器は上図のように、ResNet のような skip connection 構造を採用するが、ResNet のように同じ解像度での特徴マップを加算で結合して skip connection するはなくて、
skip connection 部の結合をチャンネル単位での乗算で行うようにした SLE [Skip-Layer Excitation module] の構造を採用している。これにより、異なる解像度での特徴マップ間を skip connection 出来るようになる。
その結果、余分な conv 層がなくなることでモデルのパラメーター数が削減され、結果として少ない学習用データセット数でもうまく学習出来るようになる。
SLE での処理を定式化すると、以下のような式になる。
識別器のアーキテクチャと reconstruction loss
上図は、本手法での識別器のアーキテクチャを示した図である。
本手法の識別器は、以下の式で定義される reconstruction loss により正則化される。
この reconstruction loss では、以下のようにして計算する。
a. 16x16 の特徴マップ f_1 に対して random crop を行う。
b. 上記 ramdom crop と同じ範囲で正解画像を crop し、I_part を得る。
c. decoder ネットワーク G を用いて、crop された f1 から I'_part を生成し、8x8 の特徴マップ f2 から I′ を生成する.
d. I'_part と I_part,I′ と I を一致させるように(=reconstruction loss が最小にするように)、識別器 D と decoder G を学習する。
この reconstruction loss での学習により、識別器 D は入力画像 x からより包括的な表現を抽出し、8 x 8 の特徴マップ f2 から大域的な情報を抽出し、16x16 の特徴マップから局所的な情報の抽出しながら学習出来るようになる。
損失関数
ネットワーク全体の損失関数としては、Hinge loss での Adv loss + reconstruction loss を採用している。
4. どうやって有効だと検証した?
既存のモデルとの定性比較検証
学習用データセット数が限られている場合において、現行の noize-to-image タスクでの SOTA である SyleGAN2 よりも、高品質の生成画像を生成できている。
既存のモデルとの学習時間の定量比較検証
StyleGAN2 と比較して、学習時間が大幅に削減されている。
既存のモデルとの品質スコアの定量比較検証
学習用データセット数が限られている場合において、現行の noize-to-image タスクでの SOTA である SyleGAN2 よりも、優れた品質スコアを実現できている。
※ 学習用データセット数が多い場合は、本手法よりも StyleGAN2 のほうが優れた品質スコアを実現していることに注意
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献
The text was updated successfully, but these errors were encountered: