Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Generative Modeling by Estimating Gradients of the Data Distribution #27

Open
shnakazawa opened this issue Aug 14, 2023 · 0 comments
Open
Labels
Generative model e.g. GAN, Diffusion Model

Comments

@shnakazawa
Copy link
Contributor

Song, Yang, and Stefano Ermon. 2019. “Generative Modeling by Estimating Gradients of the Data Distribution.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/1907.05600.
Revised 2020

  • 近年画像や言語の生成課題で絶大な成果を出している「拡散確率モデル」、その礎となった仕事。
  • データ分布の対数密度関数の導関数を推定する「スコアマッチング」と、「ランジュバン動力学」を用いた生成モデリングの手法を提案
    • スコアマッチングを用いるため、本論文のアプローチは「スコアベースモデル」などと呼ばれる。
  • データの生成分布の仮定が不要、GANのような再現性の取りにくい訓練が不要、同一のデータセットの定量比較が可能、といった強みがある。

Abstract

We introduce a new generative model where samples are produced via Langevin dynamics using gradients of the data distribution estimated with score matching. Because gradients can be ill-defined and hard to estimate when the data resides on low-dimensional manifolds, we perturb the data with different levels of Gaussian noise, and jointly estimate the corresponding scores, i.e., the vector fields of gradients of the perturbed data distribution for all noise levels. For sampling, we propose an annealed Langevin dynamics where we use gradients corresponding to gradually decreasing noise levels as the sampling process gets closer to the data manifold. Our framework allows flexible model architectures, requires no sampling during training or the use of adversarial methods, and provides a learning objective that can be used for principled model comparisons. Our models produce samples comparable to GANs on MNIST, CelebA and CIFAR-10 datasets, achieving a new state-of-the-art inception score of 8.87 on CIFAR-10. Additionally, we demonstrate that our models learn effective representations via image inpainting experiments.

(DeepL翻訳)

我々は、スコアマッチングによって推定されたデータ分布の勾配を用いて、ランジュバン動力学によってサンプルを生成する新しい生成モデルを導入する。データが低次元多様体に存在する場合、勾配は定義しにくく、推定が困難であるため、データに異なるレベルのガウスノイズを摂動し、対応するスコア、すなわち、すべてのノイズレベルに対する摂動されたデータ分布の勾配のベクトル場を共同で推定する。サンプリングに関しては、アニールされたランジュバン動力学を提案し、サンプリングプロセスがデータ多様体に近づくにつれて徐々に減少するノイズレベルに対応する勾配を使用する。我々のフレームワークは柔軟なモデルアーキテクチャを可能にし、学習時のサンプリングや敵対的手法の使用を必要とせず、原理的なモデル比較に利用可能な学習目標を提供する。我々のモデルはMNIST、CelebA、CIFAR-10データセットにおいてGANと同等のサンプルを生成し、CIFAR-10では8.87という最新のインセプションスコアを達成することができた。さらに、我々のモデルが効果的な表現を学習することを画像インペインティング実験により実証する。

コード

https://github.com/ermongroup/ncsn

解決した課題/先行研究との比較

  • 生成モデルは様々な分野で近年研究が進んでいる。例えば画像生成のGAN (generative adversarial network) などはわかりやすい例。
  • これまでの生成モデルでは学習のために対数尤度関数やƒ-divergence、積分確率法 (integral probability metrics) などが用いられてきたが、課題がある。
    • 尤度ベースのモデルは、正規化された確率モデルを構築する特殊なアーキテクチャを用いるか、あるいは学習に代用損失を用いる必要がある = 仮定が多い
    • GAN (ƒ-divergence、積分確率法を使用) は尤度ベースモデルの制限をいくつか回避できるが、敵対的な学習手順により学習が安定しない = モデル間の定量比較が難しい
    • Noise contrastive estimation法やminimum probability flow法などのパラメータ推定法は低次元データにしか使えない
  • 本論文では入力データの対数密度関数であるSteinスコアからデータの生成分布を推定し(スコアマッチング)、ランジュバン動力学を用いてサンプルを生成する方法を提案。
    • スコアマッチングを用いるため、本論文のアプローチは「スコアベースモデル」などと呼ばれる。
    • スコアマッチング?→引用 Hyvarinen. 2015 参照。
  • データの生成分布の仮定が不要、GANのような不安定な訓練が不要、同一のデータセットの定量比較が可能、といった強みがある。

技術・手法のポイント

  • まず、学習データにGaussianノイズによる摂動を与える。←「拡散」と呼ばれる所以。
    • 現実世界のデータはほとんどが低次元に近似できてしまう (多様体仮説)。これがスコア推定にどう悪い影響を与えるかは Fig.1参照.
    • ランダムなノイズを追加すると、データが低次元に近似されなくなる。
    • 元のデータ分布の低密度領域 (データサイズの少ない領域) にサンプルが生成される。
    • 結果、データを「広く」学習することができ、スコア推定が改善。
  • 次に、ノイズ条件付きスコアネットワーク (Noise Conditional Score Network: NCSN) というニューラルネットワークをスコアマッチングにより学習させ、摂動させたデータ分布ごとにスコア関数を推定する。
    • 大きなノイズから小さなノイズまで、さまざまな大きさのノイズでデータを摂動させる。
    • それぞれのノイズでスコアネットワークをトレーニングし、スコアを推定。
    • 複数のノイズレベルでトレーニングすることで、ノイズから真のデータ分布に収束する一連のノイズ摂動データ分布 (noise- perturbed data distributions) を取得できる。
  • 最後に、NCSNからランジュバン動力学のアルゴリズムで直接サンプルを生成する
    • 最も大きなノイズレベルで画像を生成→ノイズレベルを1段階下げて画像を生成→ … →最終的に、人の目には違いがわからないほど小さいノイズのみの状態で画像 = 元のデータ分布を近似したきれいな画像が生成される。

評価指標

  • MNIST, CelebA, CIFAR-10のデータセットを使用。
  • CIFAR-10では、尤度ベースのモデルや GANから生成された画像と比較して、inception scoreがstate-of-the-art到達 (GANと微々たる差)。FIDもGANと同程度。
  • MNISTとCelebAは定量スコアが一般的に公開されていないので、本論文では省略。

参考:

残された課題・議論

  • ノイズやランジュバン動力学でのステップ幅、ステップ数と行ったパラメータは人が恣意的に設定する必要がある。自動化したい → Song and Ermon, arXiv 2020

重要な引用

  • Stein scoreについて

    • Liu, Qiang, Jason Lee, and Michael Jordan. 20--22 Jun 2016. “A Kernelized Stein Discrepancy for Goodness-of-Fit Tests.” In Proceedings of The 33rd International Conference on Machine Learning, edited by Maria Florina Balcan and Kilian Q. Weinberger, 48:276–84. Proceedings of Machine Learning Research. New York, New York, USA: PMLR.
  • Score matchingについて

    • Hyvarinen. 2015. “Estimation of Non-Normalized Statistical Models by Score Matching.” Journal of Machine Learning Research: JMLR 6: 695–709.
  • Score matchingの計算量を抑えるための近似

    • Vincent, Pascal. 2011. “A Connection between Score Matching and Denoising Autoencoders.” Neural Computation 23 (7): 1661–74.
  • Generative Adversarial Nets (GAN)

    • Goodfellow, Pouget-Abadie, Mirza, Xu, Warde-Farley, Ozair, Courville, and Bengio. 2014. “Generative Adversarial Nets.” Advances in Neural Information Processing Systems, 2672–80.
  • これまでの生成モデルで使われてきた代用損失

    • Kingma, Diederik P., and Max Welling. 2013. “Auto-Encoding Variational Bayes.” arXiv [stat.ML]. arXiv. http://arxiv.org/abs/1312.6114v10.
    • Hinton, Geoffrey E. 2002. “Training Products of Experts by Minimizing Contrastive Divergence.” Neural Computation 14 (8): 1771–1800.
  • noise contrastive estimation

  • minimum probability flow

    • Sohl-Dickstein, Jascha, Peter Battaglino, and Michael R. DeWeese. 2009. “Minimum Probability Flow Learning.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/0906.4779.

関連論文

  • 本論文の生成モデルの改善手法の提案
    • Song, Yang, and Stefano Ermon. 2020. “Improved Techniques for Training Score-Based Generative Models.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2006.09011.
  • スコアの代わりに拡散確率モデルを用いた画像生成
  • 拡散確率モデルをテキスト生成に適用。D3PM
    • Austin, Jacob, Daniel D. Johnson, Jonathan Ho, Daniel Tarlow, and Rianne van den Berg. 2021. “Structured Denoising Diffusion Models in Discrete State-Spaces.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2107.03006.

参考

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Generative model e.g. GAN, Diffusion Model
Projects
None yet
Development

No branches or pull requests

1 participant