You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
StyleGAN2 のアーキテクチャをベースに、識別器の入力に対して、モデルの過学習状態指標に依存して適合的に変化するデータオーギュメントである ADA [adaptive discriminator augmentation] を行うことで、少数の学習用データセットでもうまく高品質の画像生成することを実現した GAN ベースの noize-to-image モデル
2. 先行研究と比べてどこがすごいの?
GAN により画像生成モデルでは、一般的に多量の学習用データが必要であるが、このような多量の学習用データの収集は困難であることが多いという問題が存在する。
学習用データ不足に対する一般的な対策は、学習用データのデータオーギュメント(DA)であるが、DAの程度や確率をうまく調整しないと、入力画像に対してのDAがそのまま出力画像に "漏れる [leak]"(例えば、回転DAをした結果出力画像も回転してしまうなど) ケースが発生する。
本手法では、StyleGAN 2 のアーキテクチャをベースにして、識別器の入力に対して、モデルの過学習状態指標によって DA する確率が適合的に変形する ADA [adaptive discriminator augmentation] を行うことで、ハイパーチューニングなしに最適な DA が行われるようにして、このような DA の漏れ問題を軽減し、結果として少数の学習用データセットでも品質の高い生成画像を生成出来るようにしている。
3. 技術や手法の"キモ"はどこにある?
GAN モデルにおける過学習とDA効果の分析
本手法では、まずGAN モデルにおける過学習とDA による出力画像への漏れ [leak] 問題の分析を行っている。
学習用データの枚数と GAN モデルの過学習
上図より、GAN モデルでは、他の一般的な機械学習モデルと同様に、学習用データの枚数が少ないほど過学習状態に陥りやすいことがわかる。
またモデルの過学習状態は、学習用データに対しての識別器の出力と検証用データセットに対しての識別器の出力が近いているかどうかである程度把握出来ることがわかる。
DA による出力画像への漏れ [leak] 問題
上図より、DAの種類によっては(回転DAや色調DA)、DAする確率 p を大きくしすぎると入力画像に施したDAが出力画像にも漏れていることがわかる。
上図より、最適なDA確率 p は、DAの種類や学習用データセットの枚数に大きく依存する(特に学習用データセットの枚数に大きく依存)ことがわかる。
本手法のアーキテクチャと ADA
上記分析で得られた知見に基づき、本手法では、上図右のように StyleGAN 2のアーキテクチャをベースにして、識別器の入力に対して、モデルの過学習状態に依存して適合的に変化するデータオーギュメントである ADA [adaptive discriminator augmentation] を行うモデルを提案している。
※ StyleGAN2 をベースのアーキテクチャにしているのは、学習用データセット間での品質のバラツキが小さく、ADA 有無により評価が容易だったため。
※ GAN モデルにおいて、識別器の入力にも DA を行い出力画像への漏れ問題を軽減する先行研究として、上図左のように、論文「Improved consistency regularization for GANs」で提案されている bCR [balanced consistency regularization] が存在する。この bCR では、識別器の損失関数に正解画像と生成画像の一貫性を保証する制限項を加えているが、生成器には制限項を加えていないため、DAでの出力画像への漏れ問題を軽減できないケースが存在する。本手法では、bCR のように損失関数に制限項を加えるのではなくて、識別器の入力にDAを施すのみであるのが、bCR とは異なる。
ここでモデルの過学習状態は、先の分析結果より、学習用データに対しての識別器の出力と検証用データセットに対しての識別器の出力が近づいているかどうかである程度把握出来た。
本手法では、この知見に基づきモデルの過学習状態を以下の定量指標で評価する。(※ r→1 なるほど過学習状態が強い)
そして、この値 r がある値(r=0.6)になるように、DA 確率 p を適合的に変化させる。
上図は、DA する確率を fine-tuning して得られた固定値での最適DA確率 p と、上記 ADA [adaptive discriminator augmentation] での適合的なDA調整 r を比較した図である。
fine-tuning された固定値での最適DA確率 p(点線)よりも、ADA での適合的なDA調整 r (実線)のほうが、優れた FID スコアを実現していることがわかる。
上段の図は ADA なしでの結果。下段図はADA ありでの結果。
ADA ありでは、学習用データセット数が少なくとも、過学習状態に陥りにくくなっており、
少数の学習用データセットでもうまく学習出来るようになっていることがわかる。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
学習用データ不足に対する一般的な対策は、学習用データのデータオーギュメント(DA)であるが、DAの程度や確率をうまく調整しないと、入力画像に対してのDAがそのまま出力画像に "漏れる [leak]"(例えば、回転DAをした結果出力画像も回転してしまうなど) ケースが発生する。
本手法では、StyleGAN 2 のアーキテクチャをベースにして、識別器の入力に対して、モデルの過学習状態指標によって DA する確率が適合的に変形する ADA [adaptive discriminator augmentation] を行うことで、ハイパーチューニングなしに最適な DA が行われるようにして、このような DA の漏れ問題を軽減し、結果として少数の学習用データセットでも品質の高い生成画像を生成出来るようにしている。
3. 技術や手法の"キモ"はどこにある?
GAN モデルにおける過学習とDA効果の分析
本手法では、まずGAN モデルにおける過学習とDA による出力画像への漏れ [leak] 問題の分析を行っている。
学習用データの枚数と GAN モデルの過学習
上図より、GAN モデルでは、他の一般的な機械学習モデルと同様に、学習用データの枚数が少ないほど過学習状態に陥りやすいことがわかる。
またモデルの過学習状態は、学習用データに対しての識別器の出力と検証用データセットに対しての識別器の出力が近いているかどうかである程度把握出来ることがわかる。
DA による出力画像への漏れ [leak] 問題
上図より、DAの種類によっては(回転DAや色調DA)、DAする確率 p を大きくしすぎると入力画像に施したDAが出力画像にも漏れていることがわかる。
上図より、最適なDA確率 p は、DAの種類や学習用データセットの枚数に大きく依存する(特に学習用データセットの枚数に大きく依存)ことがわかる。
本手法のアーキテクチャと ADA
上記分析で得られた知見に基づき、本手法では、上図右のように StyleGAN 2のアーキテクチャをベースにして、識別器の入力に対して、モデルの過学習状態に依存して適合的に変化するデータオーギュメントである ADA [adaptive discriminator augmentation] を行うモデルを提案している。
※ StyleGAN2 をベースのアーキテクチャにしているのは、学習用データセット間での品質のバラツキが小さく、ADA 有無により評価が容易だったため。
※ GAN モデルにおいて、識別器の入力にも DA を行い出力画像への漏れ問題を軽減する先行研究として、上図左のように、論文「Improved consistency regularization for GANs」で提案されている bCR [balanced consistency regularization] が存在する。この bCR では、識別器の損失関数に正解画像と生成画像の一貫性を保証する制限項を加えているが、生成器には制限項を加えていないため、DAでの出力画像への漏れ問題を軽減できないケースが存在する。本手法では、bCR のように損失関数に制限項を加えるのではなくて、識別器の入力にDAを施すのみであるのが、bCR とは異なる。
ここでモデルの過学習状態は、先の分析結果より、学習用データに対しての識別器の出力と検証用データセットに対しての識別器の出力が近づいているかどうかである程度把握出来た。
本手法では、この知見に基づきモデルの過学習状態を以下の定量指標で評価する。(※ r→1 なるほど過学習状態が強い)
そして、この値 r がある値(r=0.6)になるように、DA 確率 p を適合的に変化させる。
上図は、DA する確率を fine-tuning して得られた固定値での最適DA確率 p と、上記 ADA [adaptive discriminator augmentation] での適合的なDA調整 r を比較した図である。
fine-tuning された固定値での最適DA確率 p(点線)よりも、ADA での適合的なDA調整 r (実線)のほうが、優れた FID スコアを実現していることがわかる。
上段の図は ADA なしでの結果。下段図はADA ありでの結果。
ADA ありでは、学習用データセット数が少なくとも、過学習状態に陥りにくくなっており、
少数の学習用データセットでもうまく学習出来るようになっていることがわかる。
4. どうやって有効だと検証した?
学習用データセット
bCR との比較検証
本手法(ADA)では、学習用データセットの枚数が少ない場合で特に FID スコアを大きく改善していることがわかる。
また、本手法(ADA)ではDAによる生成画像での漏れが発生していないが、bCR では漏れが発生していることがわかる。
ADA と bCR を組み合わせることで、FID スコアを改善できている。
定量検証
本手法(ADA)では、少数の学習用データセット(左側)でも高品質の画像を生成できている
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献
The text was updated successfully, but these errors were encountered: