# 8 拡散モデルの理論

前章でVAEについて学習を行なった。学習した結果手書き文字の雰囲気を感じる画像を生成することに成功した。

VAEは生成モデルにおいてニューラルネットワークを使用した一例として紹介した。VAEを元に潜在変数を階層化した「階層型VAE」を導出する。そしてそれをさらに発展させた「拡散モデル」へとすすむ。

この流れは興味深く、美しいと著者は述べている。

## 8.1 VAEから拡散モデル

本ステップで導出するのは、Denoising Diffusion Probabilistic Models(DDPM)というモデルである。
DDPMの各語は
* Denoising:ノイズ除去
* Diffusion:拡散
* Probabilistic:確率的

という意味を持つ。

DDPMに似たモデルは数多く提案されており、総称して拡散モデルと呼ぶ。

### 8.1.1 VAEの復習

VAEは潜在変数を持つモデルである。

固定の正規分布から潜在変数をサンプリングし、潜在変数から観測変数への変換をニューラルネットワークで行う。VAEでは、観測変数から潜在変数への変換をニューラルネットワークで行う。

具体的には次の式で表した。

**デコーダ**：正規分布から潜在変数をサンプリング、潜在変数から観測変数への変換
$$p(\boldsymbol{z}) = \mathcal{N}(\boldsymbol{z};\boldsymbol{0},\boldsymbol{I})$$
$$\hat{x} = \rm{NeuralNet}(\boldsymbol{z};\boldsymbol{\theta})$$
$$p(\boldsymbol{x}|\boldsymbol{z}) = \mathcal{N}(\boldsymbol{x};\hat{\boldsymbol{x}},\boldsymbol{I})$$

**エンコーダ**：観測変数から潜在変数への変換
$$\boldsymbol{\mu},\boldsymbol{\sigma} = \rm{NeuralNet}(\boldsymbol{x};\boldsymbol{\phi})$$
$$q_{\phi}(\boldsymbol{z}|\boldsymbol{x}) = \mathcal{N}(\boldsymbol{z};\boldsymbol{\mu},\boldsymbol{\sigma}^2\boldsymbol{I})$$


### 8.1.2 潜在変数の階層化

上に示すように、潜在変数の数(zはベクトル[1,N])は一つであった。この潜在変数を階層化したモデルが**階層型VAE**である。

ここで示す階層型VAEは直前の確率変数から決定される。マルコフ性を仮定するとができるため、パラメータの増加を防ぐことができる。また、潜在変数を階層化することで、複雑な表現をより効率的に表すことができる。

仮に、$T$個の潜在変数を持つように階層化した場合を考える。エンコーダ用に$T$個、デコーダ用に$T$個の合計$2T$個のニューラルネットワークが必要になる。

そのため、$T$が大きくなると実現が困難になる。実際の階層型VAEの理論と実装について一度眼を通しておく。

### 付録C 階層型VAEの理論と実装

二層の潜在変数を持つ階層型VAEについて考える。

#### C.1 ２階層VAEの構成要素

階層型のVAEにおいても、単純なVAEと同様にELBOを目的関数とする。VAEのELBOは次の式で表される。

$$\rm{ELBO}(x;\theta,\phi) = \int q_\phi(z|\boldsymbol{x}) \log\frac{p_\theta(\boldsymbol{x},z)}{q_\phi(z|\boldsymbol{x})}dz\\
= \mathbb{E}_{p_\theta(\boldsymbol{x},z)}\left[\log\frac{p_\theta(\boldsymbol{x},z)}{q_\phi(z|\boldsymbol{x})}\right]$$

二階層VAEのELBOは、$z$に$z_1,z_2$を代入することで得られる。

$$\rm{ELBO}(x;\theta,\phi) = \mathbb{E}_{p_\theta(\boldsymbol{x},z_1,z_2)}\left[\log\frac{p_\theta(\boldsymbol{x},z_1,z_2)}{q_\phi(z_1,z_2|\boldsymbol{x})}\right]$$

上式で出てくる二つの確率分布$p_\theta(\boldsymbol{x},z_1,z_2),q_\phi(z_1,z_2|\boldsymbol{x})$は確率の乗法定理とマルコフ性より

$$p_\theta(\boldsymbol{x},z_1,z_2) = p(z_2)p_{\boldsymbol{\theta}_2}(z_1|z_2)p_{\boldsymbol{\theta}_1}(\boldsymbol{x}|z_1)$$
$$q_\phi(z_1,z_2|\boldsymbol{x}) = q_{\boldsymbol{\phi}_1}(z_1|\boldsymbol{x})q_{\boldsymbol{\phi}_2}(z_2|z_1)$$

上式では$\boldsymbol{\theta} = \{\boldsymbol{\theta}_1,\boldsymbol{\theta}_2\}, \boldsymbol{\phi}=\{\boldsymbol{\phi}_1,\{\boldsymbol{\phi}_2\}$で表す。また、確率分布$p(z_2)$は固定の正規分布で次の式で表される。

$$p(z_2) = \mathcal{N}(z_2;\boldsymbol{0},\boldsymbol{I})$$

デコーダの$p_{\boldsymbol{\theta}_2}(z_1|z_2),p_{\boldsymbol{\theta}_1}(\boldsymbol{x}|z_1)$はニューラルネットワークと正規分布を組み合わせて

$$\hat{z} = \rm{NeuralNet}(z_2;\boldsymbol{\theta}_2)\\
p_{\boldsymbol{\theta}_2}(z_1|z_2) = \mathcal{N}(z_1;\hat{\boldsymbol{z}},\boldsymbol{I})$$

$$\hat{\boldsymbol{x}} = \rm{NeuralNet}(z_1;\boldsymbol{\theta}_1)\\
p_{\boldsymbol{\theta}_1}(\boldsymbol{x}|z_1) = \mathcal{N}(\boldsymbol{x};\hat{\boldsymbol{x}},\boldsymbol{I})$$

と表される。エンコーダの$q_{\boldsymbol{\phi}_1}(z_1|\boldsymbol{x})q_{\boldsymbol{\phi}_2}(z_2|z_1)$は

$$\boldsymbol{\mu}_1,\boldsymbol{\sigma}_1 = \rm{NeuralNet}(\boldsymbol{x};\boldsymbol{\phi}_1)\\
q_{\boldsymbol{\phi}_1}(z_1|\boldsymbol{x}) = \mathcal{N}(z_1;\boldsymbol{\mu}_1,\boldsymbol{\sigma}^2_1\boldsymbol{I})$$

$$\boldsymbol{\mu}_2,\boldsymbol{\sigma}_2 = \rm{NeuralNet}(z_1;\boldsymbol{\phi}_2)\\
q_{\boldsymbol{\phi}_2}(z_2|z_1) = \mathcal{N}(z_2;\boldsymbol{\mu}_2,\boldsymbol{\sigma}^2_2\boldsymbol{I})$$

とモデル化される。

#### C.2 ELBOの式展開

以降の式では、パラメータ表記を簡略化する。具体的には、$\theta_1,\phi_2$の下つき文字を省略する。

$$\rm{ELBO}(\boldsymbol{x};\boldsymbol{\theta},\boldsymbol{\phi}) = \mathbb{E}_{q_\phi(z_1,z_2|\boldsymbol{x})}\left[\log\frac{p_\theta(\boldsymbol{x},z_1,z_2)}{q_\phi(z_1,z_2|\boldsymbol{x})}\right]$$
先の式より二つの確率分布$p_\theta(\boldsymbol{x},z_1,z_2),q_\phi(z_1,z_2|\boldsymbol{x})$を書き換え整理すると

$$\rm{ELBO}(\boldsymbol{x};\boldsymbol{\theta},\boldsymbol{\phi}) = \mathbb{E}_{q_\phi(z_1,z_2|\boldsymbol{x})}\left[\log\left( p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)\cdot\frac{p(z_2)}{q_\boldsymbol{\phi}(z_2|z_1)}\cdot\frac{p_\boldsymbol{\theta}(z_1|z_2)}{q_\boldsymbol{\phi}(z_1|\boldsymbol{x})}\right)
\right]\\ 
= \mathbb{E}_{q_\phi(z_1,z_2|\boldsymbol{x})}\left[\log\left( p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)\right)\right] + \mathbb{E}_{q_\phi(z_1,z_2|\boldsymbol{x})}\left[\log\left(\frac{p(z_2)}{q_\boldsymbol{\phi}(z_2|z_1)}\right)\right] + \mathbb{E}_{q_\phi(z_1,z_2|\boldsymbol{x})}\left[\log\left(\frac{p_\boldsymbol{\theta}(z_1|z_2)}{q_\boldsymbol{\phi}(z_1|\boldsymbol{x})}\right)\right]$$

三つの項で表すことができる。それぞれの項を$J_1,J_2,J_3$としてそれぞれ式展開を行う。$J_1$は

$$J_1 = \mathbb{E}_{q_\phi(z_1,z_2|\boldsymbol{x})}\left[\log\left( p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)\right)\right]\\
 = \int q_\phi(z_1,z_2|\boldsymbol{x})\log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)dz_1dz_2\\
 = \int q_\phi(z_1|\boldsymbol{x})q_\phi(z_2|\boldsymbol{x})\log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)dz_1dz_2\\
 = \int q_\phi(z_1|\boldsymbol{x})\int q_\phi(z_2|\boldsymbol{x})dz_2 \log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)dz_1\\
 = \int q_\phi(z_1|\boldsymbol{x})\log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)dz_1\\
 = \mathbb{E}_{q_\phi(z_1|\boldsymbol{x})}\left[ \log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)\right]$$

と展開される。途中で$\int q_\phi(z_2|\boldsymbol{x})dz_2 = 1$を使用している点に注意。他の係数は$z_2$に依らないためこの部分のみ$z_2$で積分をすれば良い。
次に、$J_2$は次のように展開できる。

$$J_2 = \mathbb{E}_{q_\phi(z_1,z_2|\boldsymbol{x})}\left[\log\left(\frac{p(z_2)}{q_\boldsymbol{\phi}(z_2|z_1)}\right)\right]\\
= \int q_\phi(z_1,z_2|\boldsymbol{x})\log\frac{p(z_2)}{q_\boldsymbol{\phi}(z_2|z_1)}dz_1dz_2\\
= \int q_\phi(z_2|z_1)q_\phi(z_1|\boldsymbol{x})\log\frac{p(z_2)}{q_\boldsymbol{\phi}(z_2|z_1)}dz_1dz_2\\
= -\int q_\phi(z_2|z_1)q_\phi(z_1|\boldsymbol{x})\log\frac{q_\boldsymbol{\phi}(z_2|z_1)}{p(z_2)}dz_1dz_2\\
= -\mathbb{E}_{q_\phi(z_1|\boldsymbol{x})}\left[ D_\rm{KL}(q_\phi(z_1|\boldsymbol{x})||p(z_2))\right]$$

途中でKLダイバージェンスが登場している。最後に$J_3$の項は

$$J_3 = \mathbb{E}_{q_\phi(z_1,z_2|\boldsymbol{x})}\left[\log\left(\frac{p_\boldsymbol{\theta}(z_1|z_2)}{q_\boldsymbol{\phi}(z_1|\boldsymbol{x})}\right)\right]\\
 = \int q_\phi(z_1,z_2|\boldsymbol{x})\log\frac{p_\boldsymbol{\theta}(z_1|z_2)}{q_\boldsymbol{\phi}(z_1|\boldsymbol{x})}dz_1dz_2\\
 = \int q_\phi(z_1|\boldsymbol{x})q_\phi(z_2|z_1)\log\frac{p_\boldsymbol{\theta}(z_1|z_2)}{q_\boldsymbol{\phi}(z_1|\boldsymbol{x})}dz_1dz_2\\
 = - \int q_\phi(z_1|\boldsymbol{x})q_\phi(z_2|z_1)\log\frac{q_\boldsymbol{\phi}(z_1|\boldsymbol{x})}{p_\boldsymbol{\theta}(z_1|z_2)}dz_1dz_2
 = -\mathbb{E}_{q_\phi(z_2|\boldsymbol{x})}\left[D_{\rm{KL}}(q_\boldsymbol{\phi}(z_1|\boldsymbol{x})||p_\boldsymbol{\theta}(z_1|z_2)\right]$$
 
と展開できる。$J_2$も同様にKLダイバージェンスが登場する。

以上３つの項をまとめると

$$\rm{ELBO}(\boldsymbol{x};\boldsymbol{\theta},\boldsymbol{\phi}) = \mathbb{E}_{q_\phi(z_1|\boldsymbol{x})}\left[ \log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)\right] -\mathbb{E}_{q_\phi(z_1|\boldsymbol{x})}\left[ D_\rm{KL}(q_\phi(z_1|\boldsymbol{x})||p(z_2))\right]-\mathbb{E}_{q_\phi(z_2|z_1)}\left[D_{\rm{KL}}(q_\boldsymbol{\phi}(z_1|\boldsymbol{x})||p_\boldsymbol{\theta}(z_1|z_2)\right]$$

#### C.3 モンテカルロ法によるELBOの近似

ELBOは三つの期待値の項からなる。期待値の計算はモンテカルロ法によって近似できる。今回は、$z_1,z_2$をサンプリングする。$z_1,z_2\sim q_\phi(z_1,z_2|\boldsymbol{x})$計算グラフが途切れないように、変数変換トリックを使用する。期待値の計算は数式を用いて

$$\rm{ELBO}(\boldsymbol{x};\boldsymbol{\theta},\boldsymbol{\phi})\approx \log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)-D_\rm{KL}(q_\phi(z_1|\boldsymbol{x})||p(z_2))-D_{\rm{KL}}(q_\boldsymbol{\phi}(z_1|\boldsymbol{x})||p_\boldsymbol{\theta}(z_1|z_2)$$

と表すことができる。この計算式は、サンプルサイズ（モンテカルロ法のサンプリング回数）が１の場合を意味する。経験的には一つのサンプルサイズでも上手くいくことが多い。


続いて、各項の計算方法について考えていく。

1. 再構成誤差：$\log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)$

潜在変数$z_1$は、元データ$\boldsymbol{x}$から$q(z_1|\boldsymbol{x})$によってサンプリングされる。サンプリングされた$z_1$から$p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)$によって再度データを生成し、それが元データとどれだけ似ているかを評価する。VAEでも登場する再構成誤差項である。なお、$p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)$は次の式で表される。

$$\hat{x} = \rm{NeuralNet}(z_1;\boldsymbol{\theta})\\
p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)=\mathcal{N}(\boldsymbol{x};\hat{\boldsymbol{x}},\boldsymbol{I})$$

そして、$\log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)=\log \mathcal{N}(\boldsymbol{x};\hat{\boldsymbol{x}},\boldsymbol{I})$と、正規分布に$\log$が付く。結果として、二乗誤差と定数項の和として計算できる。

$$\log p_\boldsymbol{\theta}(\boldsymbol{x}|z_1)=-\frac{1}{2}\sum^D_{d=1}(x_d-\hat{x}_d)^2+\rm{const}$$

ここで、$D$は$\boldsymbol{x}$の次元数を意味する。

2. 事前分布への整合性項:$D_\rm{KL}(q_\phi(z_1|\boldsymbol{x})||p(z_2))$

$p(z_2)$は固定の分布（$\mathcal{N}(z_2;\boldsymbol{0},\boldsymbol{I})$）なので、この項は、$q_\boldsymbol{\phi}(z_2|z_1)$を事前分布に近づける。効果を持つ。

$$q_\boldsymbol{\phi}(z_2|z_1) = \mathcal{N}(z_2;\boldsymbol{\mu}_2,\boldsymbol{\sigma}_2^2\boldsymbol{I})$$
$$p(z_2) = \mathcal{N}(z_2;\boldsymbol{0},\boldsymbol{I})$$

KLダイバージェンスは解析的に求めることができる。次の式で表せる。

$$D_\rm{KL}(q_\phi(z_2|z_1)||p(z_2)) = -\frac{1}{2}\sum^H_{h=1}(1+\log\sigma^2_{2,h}-\mu^2_{2,h}-\sigma^2_{2,h})$$

3. 整合性項:$D_\rm{KL}(q_\phi(z_2|z_1)||p(z_2))$

潜在変数を階層化したことで、新たに出現する項である。

$$q_\boldsymbol{\phi}(z_1,z_2) = \mathcal{N}(z_1;\boldsymbol{\mu}_1,\boldsymbol{\sigma}^2_1\boldsymbol{I})\\
p_\boldsymbol{\theta}(z_1,z_2) = \mathcal{N}(z_1;\hat{z},\boldsymbol{I})$$

この二つの正規分布のKLダイバージェンスは次の式で表される。

$$D_\rm{KL}(q_\phi(z_1|\boldsymbol{x})||p_\boldsymbol{\theta}(z_1||z_2)) = -\frac{1}{2}\sum^H_{h=1}(1+\log\sigma^2_{1,h}-(\mu_{1,h}-\hat{z}_h)^2-\sigma^2_{1,h})$$

以上をまとめると、ELBOの計算式は次の式で表される。

$$\rm{ELBO}(\boldsymbol{x};\boldsymbol{\theta},\boldsymbol{\phi})\approx-\frac{1}{2}\sum^D_{d=1}(x_d-\hat{x}_d)^2+\rm{const}+\frac{1}{2}\sum^H_{h=1}(1+\log\sigma^2_{2,h}-\mu^2_{2,h}-\sigma^2_{2,h})+\frac{1}{2}\sum^H_{h=1}(1+\log\sigma^2_{1,h}-(\mu_{1,h}-\hat{z}_h)^2-\sigma^2_{1,h})$$

#### C.4 ２階層のVAEの実装

次に二回層VAEの実装を行う。ELBO全体を２倍した値を損失関数とする。

$$\rm{Loss}(\boldsymbol{x};\boldsymbol{\theta},\boldsymbol{\phi}) = \sum^D_{d=1}(x_d-\hat{x}_d)^2-\sum^H_{d=1}(1+\log\sigma^2_{2,h}-\mu^2_{2,h}-\sigma^2_{2,h})-\sum^H_{h=1}(1+\log\sigma^2_{1,h}-(\mu_{1,h}-\hat{z}_h)^2-\sigma^2_{1,h})$$

参考までに、計算グラフは図C-4のようになる。

#### C.5 実装コード

インポートとネットワークの実装を行う

In [None]:
import matplotlib.pyplot as plt
import torch
# import torch.nn as nn
# import torch.nn.functional as F
# import torch.optim as optim
# import torchvision
# from torchvision import datasets, transforms


# hyperparameters
input_dim = 784  # mnist image 28x28
hidden_dim = 100
latent_dim = 20
epochs = 30
learning_rate = 1e-3
batch_size = 32


# class Encoder(nn.Module):                                                      # エンコーダの実装
#     def __init__(self, input_dim, hidden_dim, latent_dim):
#         super().__init__()
#         self.linear = nn.Linear(input_dim, hidden_dim)                         # 一層目
#         self.linear_mu = nn.Linear(hidden_dim, latent_dim)                     # 二層目（平均）
#         self.linear_logvar = nn.Linear(hidden_dim, latent_dim)                 # 二層目(log sigma)分散

#     def forward(self, x):                                                      # 順伝搬
#         h = self.linear(x)                                                     # 1度目の線形変換
#         h = F.relu(h)                                                          # 非線形変換
#         mu = self.linear_mu(h)                                                 # 平均　出力
#         logvar = self.linear_logvar(h)                                         # log sigma 出力
#         sigma = torch.exp(0.5 * logvar)                                        # sigma を計算
#         return mu, sigma


# class Decoder(nn.Module):                                                      # デコーダの実装
#     def __init__(self, latent_dim, hidden_dim, output_dim, use_sigmoid=False): 
#         super().__init__()
#         self.linear1 = nn.Linear(latent_dim, hidden_dim)                       # 一層目
#         self.linear2 = nn.Linear(hidden_dim, output_dim)                       # 二層目
#         self.use_sigmoid = use_sigmoid                                         # シグモイド関数

#     def forward(self, z):
#         h = self.linear1(z)                                                    # 一度目の線形変換
#         h = F.relu(h)                                                          # 非線形変換
#         h = self.linear2(h)                                                    # 二度目の線形変換
#         if self.use_sigmoid:
#             h = F.sigmoid(h)
#         return h


シグモイド関数を利用するか否かはフラグで実装する。

In [2]:
def reparameterize(mu, sigma):                                                          # 変数変換トリックの実装
    eps = torch.randn_like(sigma)                                                       # 乱数を作成
    z = mu + eps * sigma                                                                # パラメータmu, sigma の正規分布からサンプリング
    return z


class VAE(nn.Module):                                                                   # VAEの実装
    def __init__(self, input_dim, hidden_dim, latent_dim):
        super().__init__()
        self.encoder1 = Encoder(input_dim, hidden_dim, latent_dim)                      # 一つ目のエンコーダ
        self.encoder2 = Encoder(latent_dim, hidden_dim, latent_dim)                     # 二つ目のエンコーダ
        self.decoder1 = Decoder(latent_dim, hidden_dim, input_dim, use_sigmoid=True)    # 一つ目のデコーダ　シグモイドを使用
        self.decoder2 = Decoder(latent_dim, hidden_dim, latent_dim)                     # 二つ目のデコーダ シグモイドは使用しない

    def get_loss(self, x):                                                              # 損失の計算
        mu1, sigma1 = self.encoder1(x)                                                  # エンコーダから分布のパラメータを推論
        z1 = reparameterize(mu1, sigma1)                                                # サンプリング
        mu2, sigma2 = self.encoder2(z1)                                                 # エンコーダ２から確率分布のパラメータを推論
        z2 = reparameterize(mu2, sigma2)                                                # サンプリング

        z_hat = self.decoder2(z2)                                                       # デコーダから出力
        x_hat = self.decoder1(z1)

        # loss
        batch_size = len(x)
        L1 = F.mse_loss(x_hat, x, reduction='sum')                                      # 二乗平均誤差
        L2 = - torch.sum(1 + torch.log(sigma2 ** 2) - mu2 ** 2 - sigma2 ** 2)           # L2ノルムを計算
        L3 = - torch.sum(1 + torch.log(sigma1 ** 2) - (mu1 - z_hat) ** 2 - sigma1 ** 2) # L3ノルムを計算
        return (L1 + L2 + L3) / batch_size

NameError: name 'nn' is not defined

謎の病で実行できない。

### 8.1.3 拡散モデルへ

実装を行った、階層型VAEを拡散モデルと進化させる。**変更点は2つだけ！！**

* 観測変数と潜在変数の次元数を同じにする。
* エンコーダは、固定の正規分布によるノイズを追加する。

ノイズの除去と、ノイズの追加を繰り返す。追加するノイズに潜在変数を使用する。$x_0$が観測変数であり、残りの$x_1,x_2,\cdots, x_T$は潜在変数を意味する。
拡散モデルの$q$は固定のガウスノイズを追加するだけであり、パラメータは不要である。

拡散モデルは、ノイズを除去する処理をニューラルネットワークでモデル化する。

## 8.2 拡散過程と逆拡散過程

拡散モデルは、二つの処理がある。一つはノイズを追加する処理である。粒子がランダムな運動によって均一に広がる現象になぞらえて、**拡散過程**と呼ばれる。もう一つはノイズを消去する逆拡散過程と呼ばれる処理である。この二つの過程について見ていく。

### 8.2.1 拡散過程

先に述べたように、拡散過程ではノイズを加える。加えるノイズは、最終時刻$T$における変数$\boldsymbol{x}$が完全なノイズになる必要がある。

最終的に、$\mathcal{N}(\boldsymbol{x}_T;\boldsymbol{0},\boldsymbol{I})$に従うように、各時刻$t$で加えるノイズを調整する。

$$q(\boldsymbol{x}_t|\boldsymbol{x}_{t-1}=\mathcal{N}(\boldsymbol{x}_t;\sqrt{1-\beta_t}\boldsymbol{x}_{t-1},\beta_t\boldsymbol{I})$$

ここで、$t$は$1<t<T$の整数とする。また$\beta_t$は任意のパラメータであり、加えるガウスノイズの大きさを決める。

ガウスノイズの和はガウスノイズになるため（詳細な計算は8.4でのべる）、最終的に$p(\boldsymbol{x}_T) \approx \mathcal{N}(\boldsymbol{x}_T;\boldsymbol{0},\boldsymbol{I})$となる。

上式の正規分布のサンプリングは、変数変換トリックを使用すると

$$\epsilon\sim\mathcal{N}(\epsilon;\boldsymbol{0},\boldsymbol{I})\\
\boldsymbol{x}_t = \sqrt{1-\beta_t}\boldsymbol{x}_{t-1}+\sqrt{\beta_t}\epsilon$$

と書き換えることができる。$\beta = 0.01$の値を設定した場合、$\boldsymbol{x}_t = 0.995\boldsymbol{x}_{t-1}+0.1\epsilon$となる。前データ$\boldsymbol{x}_t$をスケールダウンし、そこに小さなノイズ$\epsilon\sim\mathcal{N}(\epsilon;\boldsymbol{0},\boldsymbol{I})$を加えることがわかる。

### 8.2.2 逆拡散過程

逆拡散過程は、先ほど加えたノイズを除去する処理である。この処理は、ニューラルネットワークで行う。

各時刻$t$におけるノイズを除去する処理を、個別のニューラルネットワークで行う場合、$T$個のニューラルネットワークを用意する必要がある。しかし、各時刻$t$における出力の次元数$\dim{\boldsymbol{x}_t}$は全て同じである。そのため、ニューラルネットワークの構造を共通化することができる。また、時刻$t$を入力信号として与えることで、各時刻を個別に処理させることができる(one-hotラベルをつける？)。

ニューラルネットワークにデータ$\boldsymbol{x}_t$と時刻$t$を入力しノイズを除去した$\hat{\boldsymbol{x}}_{t-1}$を入力とする。この$\hat{\boldsymbol{x}}_{t-1}$は$\boldsymbol{x}_{t-1}$の推定値を意味する。これを数式で

$$\hat{\boldsymbol{x}}_{t-1} = \rm{NeuralNet}(\boldsymbol{x}_t,t;\boldsymbol{\theta})\\
p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t) = \mathcal{N}(\boldsymbol{x}_{t-1};\hat{\boldsymbol{x}}_{t-1},\boldsymbol{I})$$

と表される。ここでは、簡単のため共分散行列を単位行列$I$とする。

**まとめ**

拡散モデルでは、ノイズの追加と除去を繰り返す。ノイズを追加することを拡散過程、除去することを逆拡散過程と呼ぶ。

加えるノイズは最終時刻$T$において完全なノイズになる必要があり、追加するノイズは次の式で表される。

$$\epsilon\sim\mathcal{N}(\epsilon;\boldsymbol{0},\boldsymbol{I})\\
\boldsymbol{x}_t = \sqrt{1-\beta_t}\boldsymbol{x}_{t-1}+\sqrt{\beta_t}\epsilon$$

次に、ニューラルネットワークを用いて逆拡散を行う。ニューラルネットワークの入力は、時刻$t$とデータ$x_{t-1}$であり、出力は推論した$\hat{\boldsymbol{x}}_{t-1}$である。これを平均ベクトルとして正規分布からサンプリングする。

$$\hat{\boldsymbol{x}}_{t-1} = \rm{NeuralNet}(\boldsymbol{x}_t,t;\boldsymbol{\theta})\\
p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t) = \mathcal{N}(\boldsymbol{x}_{t-1};\hat{\boldsymbol{x}}_{t-1},\boldsymbol{I})$$


## 8.3 ELBOの計算①

対数尤度が最大となるパラメータを探索することが難しいため、対数尤度の下限であるELBOを最適化の対象とする。

３段階のゴールを設けて進む。

1. サンプルサイズT
2. サンプルサイズ2
3. サンプルサイズ1

徐々にサンプルサイズが小さくなっているが、より工夫が必要とのこと。

### 8.3.1 拡散モデルのELBO

拡散モデルのELBOはVAEのELBOと同様に導出ができる。VAEのELBOは次の式で表された。


$$\rm{ELBO}(\boldsymbol{x};\boldsymbol{\theta},\boldsymbol{\phi}) = \int q_\boldsymbol{\phi}(\boldsymbol{z}|\boldsymbol{x}) \log\frac{p_\boldsymbol{\theta}(\boldsymbol{x},\boldsymbol{z})}{q_\boldsymbol{\phi}(\boldsymbol{z}|\boldsymbol{x})}dz\\
= \mathbb{E}_{q_\boldsymbol{\phi}(\boldsymbol{z}|\boldsymbol{x})}\left[\log\frac{p_\boldsymbol{\theta}(\boldsymbol{x},\boldsymbol{z})}{q_\boldsymbol{\phi}(\boldsymbol{z}|\boldsymbol{x})}\right]
$$

ここから以下の三つの点を変更することで、拡散モデルのELBOを導出することができる。

* $\boldsymbol{x}$を$\boldsymbol{x}_0$へ変更
* $z$を$\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_T$へ変更
* パラメータ$\phi$を消去

この3点を変更すると次の式になる。

$$\rm{ELBO}(\boldsymbol{x}_0;\boldsymbol{\theta})=\mathbb{E}_{(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_T|\boldsymbol{x}_0)}\left[\log\frac{p_\boldsymbol{\theta}(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_T)}{q_\boldsymbol{\phi}(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_T|\boldsymbol{x}_0)}\right]$$

数式の表記を簡略化するため、表記を$\boldsymbol{x}_{0:T}=\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_T$とする。この表記を用いると上式は

$$\rm{ELBO}(\boldsymbol{x}_0;\boldsymbol{\theta})=\mathbb{E}_{(\boldsymbol{x}_{0:T}|\boldsymbol{x}_0)}\left[\log\frac{p_\boldsymbol{\theta}(\boldsymbol{x}_{0:T})}{q_\boldsymbol{\phi}(\boldsymbol{x}_{0:T}|\boldsymbol{x}_0)}\right]$$

と書き換えることができる。

**イェセンの不等式を用いたELBOの導出**

拡散モデルのELBOはイェセンの不等式を用いても導出することができる。イェセンの不等式は次の式で表される。

$$\mathbb{E}_{q(x)}[\log f(x)]\leq\log\mathbb{E}_{q(x)}[f(x)]$$

これを用いて、拡散モデルのELBOは次のように導出できる。

$$\log p_\boldsymbol{\theta}(\boldsymbol{x}_0)
 = \log\int p_\boldsymbol{\theta}(\boldsymbol{x}_{0:T})d\boldsymbol{x}_{1:T}\\
 = \log\int p_\boldsymbol{\theta}(\boldsymbol{x}_{0:T})\frac{q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)}{q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)}d\boldsymbol{x}_{1:T}\\
 = \log \mathbb{E}_{q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)}\left[\frac{ p_\boldsymbol{\theta}(\boldsymbol{x}_{0:T})}{q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)}\right]\\
 \geq \mathbb{E}_{q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)}\left[\log \frac{ p_\boldsymbol{\theta}(\boldsymbol{x}_{0:T})}{q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)}\right]
 $$

### 8.3.2 ELBOの式展開

計算したELBOの式展開を行う。

乗法定理とマルコフ性により次の式で表される。

$$ p_\boldsymbol{\theta}(\boldsymbol{x}_{0:T})=p_\boldsymbol{\theta}(\boldsymbol{x}_0|\boldsymbol{x}_1)(\boldsymbol{x}_1|\boldsymbol{x}_2)\cdots(\boldsymbol{x}_{T-1}|\boldsymbol{x}_T)p(\boldsymbol{x}_T)\\
= p(\boldsymbol{x}_T)\prod^T_{t=1}p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$$

ここで、最終時刻の$p(\boldsymbol{x}_T)$は完全なガウスノイズである$\mathcal{N}(\boldsymbol{x}_T;\boldsymbol{0},\boldsymbol{I})$を表す。$q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)$も乗法定理とマルコフ性より次の式で表される。

$$q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)=\prod^T_{t=1}q(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})$$

この二つの式よりELBOは次の式で表される。

$$\rm{ELBO}(\boldsymbol{x}_0;\boldsymbol{\theta})=\mathbb{E}_{(\boldsymbol{x}_{0:T}|\boldsymbol{x}_0)}\left[\log\frac{p_\boldsymbol{\theta}(\boldsymbol{x}_{0:T})}{q_\boldsymbol{\phi}(\boldsymbol{x}_{0:T}|\boldsymbol{x}_0)}\right]\\
=\mathbb{E}_{(\boldsymbol{x}_{0:T}|\boldsymbol{x}_0)}\left[\log\frac{p(\boldsymbol{x}_T)\prod^T_{t=1}p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)}{\prod^T_{t=1}q(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})}\right]\\ =\mathbb{E}_{(\boldsymbol{x}_{0:T}|\boldsymbol{x}_0)}\left[\log{\prod^T_{t=1}p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)}+\log\frac{p(\boldsymbol{x}_T)}{\prod^T_{t=1}q(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})}\right]$$

ここで、$\boldsymbol{\theta}$を含まない項を無視できる。目的関数$J(\boldsymbol{\theta})$は

$$J(\boldsymbol{\theta}) = \mathbb{E}_{(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)}\left[\log{\prod^T_{t=1}p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)}\right]\\
= \mathbb{E}_{(\boldsymbol{x}_{1:T}|\boldsymbol{x}_0)}\left[{\sum^T_{t=1}\log p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)}\right]$$

と表される。ここで、期待値はモンテカルロ法によって近似できる。今回の場合、$\boldsymbol{x}_{1:T}$をいくつか生成し、その時の期待値の中身$\sum^T_{t=1}\log p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$の平均を求める。仮のモンテカルロ法のサンプルサイズを1とすると

$$\boldsymbol{x}_{1:T}\sim q(\boldsymbol{x}_{1:T}|\boldsymbol{x}_T)\\
J(\boldsymbol{\theta})\approx\sum^T_{t=1}\log p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$$

まずは拡散課程により、元のデータ$x_0$から始めて$\boldsymbol{x}_{1:T}$を生成する。これを利用して各時刻の対数尤度を計算する。

$$\hat{\boldsymbol{x}}=\rm{NeuralNet}(\boldsymbol{x}_t,t;\boldsymbol{\theta})\\
p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)=\mathcal{N}(\boldsymbol{x}_{t-1};\hat{\boldsymbol{x}}_{t-1},\boldsymbol{I})$$

これにより目的関数$J(\boldsymbol{\theta})$は次の式で表される。

$$J(\boldsymbol{\theta})\approx\sum^T_{t=1}\log p_\boldsymbol{\theta}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)\\
= \sum^T_{t=1}\log\mathcal{N}(\boldsymbol{x}_{t-1};\hat{\boldsymbol{x}}_{t-1},\boldsymbol{I})\\
= \sum^{T-1}_{t=0}\log\mathcal{N}(\boldsymbol{x}_t;\hat{\boldsymbol{x}}_t,\boldsymbol{I})\\
= \sum^{T-1}_{t=0}\log\frac{1}{\sqrt{(2\pi)^D|\boldsymbol{I}|}}\exp{\left\{-\frac{1}{2}(\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t)^\top\boldsymbol{I}^{-1}(\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t)\right\}}\\
= \sum^{T-1}_{t=0}\left(-\frac{1}{2}(\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t)^\top(\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t)+\log\frac{1}{\sqrt{(2\pi)^D}}\right)\\
=-\frac{1}{2}\sum^{T-1}_{t=0}(\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t)^\top(\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t)+T\log\frac{1}{\sqrt{(2\pi)^D}}
$$

最後の項は定数項であるため、$J(\boldsymbol{\theta}$は

$$J(\boldsymbol{\theta})\approx-\frac{1}{2}\sum^{T-1}_{t=0}(\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t)^\top(\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t)\\
= -\frac{1}{2}\sum^{T-1}_{t=0}||\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t||^2$$

$||\cdot||^2$はL2ノルムの二乗であり、各要素を二乗した和を表す。例えば、$\boldsymbol{x}$が次元数を$D$とすると$||\boldsymbol{x}||^2$は。

$$||\boldsymbol{x}||^2 = x^2_1+x^2_2+\cdots+x^2_D$$

で表される。

**L1ノルムとL2ノルム**

L1,L2ノルムはベクトルの長さや大きさを測るための方法である。L1ノルムはマンハッタン距離と呼ばれ次の式で表される。

$$||\boldsymbol{x}||_1=|x_1|+|x_2|+\cdots+|x_D|$$

L2ノルムはユークリッド距離と呼ばれ次の式で表される。

$$||\boldsymbol{x}||_2 = \sqrt{x^2_1+x^2_2+\cdots+x^2_D}$$

よって、L2ノルムの二乗は次の式で表される。

$$||\boldsymbol{x}||_2^2 = x^2_1+x^2_2+\cdots+x^2_D$$

本書では、$||x||$をL2ノルムと表すこととする。

以上で、目的関数$J(\boldsymbol{\theta})を求めることができました。その方法を求めると

1. 拡散課程により$T$個のサンプリングを行い
2. ニューラルネットワークを$T$回適用してノイズ除去を行う
3. 各時刻の二乗誤差$||\boldsymbol{x}_t-\hat{\boldsymbol{x}}_t||^2$を求める

この方法では、１回の計算に$T$回のサンプリングが必要になる。このサンプリングの数を少なくする方法が必要になる。

## 8.4 ELBOの計算②

前節では$T$個のサンプリングデータによって近似を行った。

次の目標は2個のサンプリングデータからELBOを近似する方法である。

### 8.4.3 $q(x_t|x_0)$の導出

まずは、ガウスノイズの和がガウスノイズになるという性質について説明する。

今ここに独立に生成された２つのガウスノイズ$x,y$があるとする。その和を$z$とすると

$$ x\sim\mathcal{N}(\mu_x,\sigma_x^2)\\
y\sim\mathcal{N}(\mu_y,\sigma_y^2)\\
z = y+x$$

この時、一つの正規分布からのサンプリングとして

$$z\sim\mathcal{N}(\mu_x+\mu_y,\sigma_x^2,\sigma_y^2)$$

と表すことができる。$z$は平均が$\mu_x+\mu_y$、分散が$\sigma_x^2+\sigma_y^2$の正規分布に従う。

続いて、このガウスノイズの性質を拡散課程に応用する。拡散課程の$q(\boldsymbol{x}_t|\boldsymbol{x}_{t-1}$は次の式で表される。

$$q(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})=\mathcal{N}(\boldsymbol{x}_t;\sqrt{1-\beta_t}\boldsymbol{x}_{t-1},\beta_t\boldsymbol{I})$$

ここでは$\alpha_t=1-\beta_t$を用いて

$$q(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})=\mathcal{N}(\boldsymbol{x}_t;\sqrt{\alpha_t}\boldsymbol{x}_{t-1},(1-\alpha_t)\boldsymbol{I})$$

変数変換トリックを使用すると次の式で表される。

$$\epsilon_t\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})\\
\boldsymbol{x}_t=\sqrt{\alpha_t}\boldsymbol{x}_{t-1}+\sqrt{1-\alpha_t}\epsilon_t$$

次に、$t$に$t-1$を代入して次の式を得る。

$$\epsilon_{t-1}\mathcal{N}(\boldsymbol{0},\boldsymbol{I})\\
\boldsymbol{x}_{t-1} = \sqrt{\alpha_{t-1}}\boldsymbol{x}_{t-2}+\sqrt{1-\alpha_t}\epsilon_{t-1}$$

二つの式から

$$\boldsymbol{x}_t=\sqrt{\alpha_t}\boldsymbol{x}_{t-1}+\sqrt{1-\alpha_t}\epsilon_t\\
= \sqrt{\alpha_t}(\sqrt{\alpha_{t-1}}\boldsymbol{x}_{t-2}+\sqrt{1-\alpha_t}\epsilon_{t-1})+\sqrt{1-\alpha_t}\epsilon_t\\
= \sqrt{\alpha_t\alpha_{t-1}}\boldsymbol{x}_{t-2}+\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\epsilon_{t-1}+\sqrt{1-\alpha_t}\epsilon_t$$

が得られる。ここで、ガウスノイズの和が登場する。$\epsilon_t,\epsilon_{t-1}$は$\mathcal{N}(\boldsymbol{0},\boldsymbol{I})$より独立に生成されたサンプルである。そのため、$\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\epsilon_{t-1}+\sqrt{1-\alpha_t}$はガウスノイズの和であり、一つの正規分布で表せる。具体的には

$$\mathcal{N}(\boldsymbol{0},(1-\alpha_t\alpha_{t-1})\boldsymbol{I})$$

からのサンプルであり、変数変換トリックより

$$\epsilon\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})\\
\boldsymbol{x}_t=\sqrt{\alpha_t\alpha_{t-1}}\boldsymbol{x}_{t-2}+\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}\epsilon$$

あとは、同じ式変形を繰り返し行う。最終的には

$$\boldsymbol{x}_t=\sqrt{\alpha_t\alpha_{t-1}\cdots\alpha_1}\boldsymbol{x}+\sqrt{1-\alpha_t\alpha_{t-1}\cdots\alpha_1}\epsilon\\
=\sqrt{\bar{\alpha}_t}\boldsymbol{x}_0+\sqrt{1-\bar{\alpha}_t}\epsilon$$

ここでは、$\alpha_t$から$\alpha_1$までの積を$\bar{\alpha}_t$で表す。

上式を確率分布の式で

$$q(\boldsymbol{x}_t|\boldsymbol{x}_0)=\mathcal{N}(\boldsymbol{x}_t;\sqrt{\bar{\alpha}_t}\boldsymbol{x}_0,(1-\bar{\alpha}_t)\boldsymbol{I})$$

と表すことができる。

### 8.4.1 $q(\boldsymbol{x}_t,\boldsymbol{x}_0)$の式

先に導出した式によって、$q(\boldsymbol{x}_t,\boldsymbol{x}_0)$は次のように表せる。

$$q(\boldsymbol{x}_t|\boldsymbol{x}_0)=\mathcal{N}(\boldsymbol{x}_t;\sqrt{\bar{\alpha}_t}\boldsymbol{x}_0,(1-\bar{\alpha}_t)\boldsymbol{I})$$

上式における記号は

$$\alpha_t=1-\beta_t\\
\bar{\alpha}_t=\alpha_t\alpha_{t-1}\cdots\alpha_1$$

であり、$\alpha_t=1-\beta_t$でありユーザーが自由に設定できる値である。解析的に表せることで、ELBOの計算を効率化できることを示す。

### 8.4.2 ELBOの近似解