# Probabilistic_Diffusion_Model概率扩散模型理论与完整PyTorch代码详细解读

来自b站up主deep_thoughts 合集【PyTorch源码教程与前沿人工智能算法复现讲解】

P_54_Probabilistic_Diffusion_Model概率扩散模型理论与完整PyTorch代码详细解读：

https://www.bilibili.com/video/BV1b541197HX/?spm_id_from=333.788&vd_source=18e91d849da09d846f771c89a366ed40

***论文***

Denoising Diffusion Probabilistic Models：

https://arxiv.org/pdf/2006.11239.pdf

Deep Unsupervised Learning using Nonequilibrium Thermodynamics：

https://arxiv.org/pdf/1503.03585.pdf

## 一、条件概率公式与高斯分布的KL散度

### 1、条件概率的一般形式

$P(A,B,C)=P(C|B,A)P(B,A)=P(C|B,A)P(B|A)P(A)$

$P(B,C|A)=P(B|A)P(C|A,B)$

### 2、基于马尔科夫假设的条件概率

如果满足马尔科夫链关系A->B->C，那么有

$P(A,B,C)=P(C|B,A)P(B,A)=P(C|B)P(B|A)P(A)$

$P(B,C|A)=P(B|A)P(C|B)$

### 3、高斯分布的KL散度公式

对于两个单一变量的高斯分布p和q而言，他们的KL散度为

$KL(p,q)=log\frac{\sigma_2}{\sigma_1}+\frac{\sigma^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$

### 4、参数重整化

若希望从高斯分布$N(\mu,\sigma)$中采样，可以先从标准分布$N(0,1)$采样出$z$，在的到$\sigma*z+\mu$。这样做的好处是将随机性转移到了$z$这个常量上，而$\sigma$和$\mu$则当作仿射变换网络的一部分。

## 二、VAE与多层VAE回顾

### 1、单层VAE的原理公式与置信下界

![](./img/P54_1.png)

$p(x)=\int_z p_{\theta}(x|z)p(z)$

$p(x)=\int q_{\phi}(z|x)\frac{p_{\theta}\:(x|z)p(z)}{q_{\phi}\:(z|x)}$

$\log p(x) = \log \mathbb{E}_{z \sim q_{\phi}\:(z|x)} \left[ \frac{p_{\theta}\:(x|z)p(z)}{q_{\phi}\:(z|x)}\right]$

$\log p(x) \ge \mathbb{E}_{z \sim q_{\phi}\:(z|x)} \left[ \log\frac{p_{\theta}\:(x|z)p(z)}{q_{\phi}\:(z|x)}\right]$

### 2、多层VAE的原理公式与置信下界

![](./img/P54_2.png)

$p(x)=\int_{z_1}\int_{z_2}p_{\theta}\:(x,z_1,z_2)dz_1dz_2$

$p(x)=\int\int q_\phi\:(z_1,z_2|x)\frac{p_{\theta}\:(x,z_1,z_2)} {q_\phi\:(z_1,z_2|x)}$

$p(x) = \mathbb{E}_{z_1,z_2 \sim q_\phi\:(z_1,z_2|x)} \left[ \frac{p_{\theta}\:(x,z_1,z_2)} {q_\phi\:(z_1,z_2|x)} \right] $

$\log p(x) \ge \mathbb{E}_{z_1,z_2 \sim q_\phi\:(z_1,z_2|x)} \left[\log \frac{p_{\theta}\:(x,z_1,z_2)} {q_\phi\:(z_1,z_2|x)} \right] $

$p(x,z_1,z_2)=p(x|z_1)p(z_1|z_2)p(z_2)$

$q(z_1,z_2|x)=q(z_z|x)q(z_2|z_1)$

$\mathcal{L}(\theta,\phi)=\mathbb{E}_{q(z_1,z_2|x)}[\log p(x|z_1)-\log q(z_1|x)+\log p(z_1|z_2)-\log q(z_2|z_1) + \log [(z_2)]$

## 三、 Diffusion Model图示

![](./img/P54_3.png)
![](./img/P54_4.png)

## 四、扩散过程（Diffusion Process）

1、给定初始数据分布$x_0 \sim q(x)$，可以不断地向分布中添加高斯噪声，该噪声的标准差是以固定值$\beta_t$而确定的，均值是以固定值$\beta_t$和当前t时刻的数据$x_t$决定的。这一过程是一个马尔科夫链过程。

2、随着t的不断增大，最终数据分布$x_T$变成了一个各项独立的高斯分布。

![](./img/P54_5.png)

3、任意时刻的$q(x_t)$推导也可以完全基于$x_0$和$\beta_t$来计算出来，而不需要做迭代

注意这里。两个正态分布$X \sim N(\mu_1,\sigma_1)$和$Y \sim N(\mu_2,\sigma_2)$的叠加后的分布$aX+bY$的均值为$a\mu_1+b\mu_2$，方差为$a^2\sigma^2_1+b^2\sigma^2_2$。所以$\sqrt{\alpha_t-\alpha_t\alpha_{t-1}}z_{t-2}+\sqrt{1-\alpha_t}z_{t-1}$可以参数重整化成只含有一个随机变量$z$构成的$\sqrt{1-\alpha_t\alpha_{t-1}}z$的形式。

![](./img/P54_6.png)

## 五、逆扩散过程（Reverse Process）

逆过程是从高斯噪声中恢复原始数据，我们可以假设它也是一个高斯分布，但是无法逐步地去拟合分布，所以需要构建一个参数分布去做估计。逆扩散过程仍然是一个马尔科夫链过程。
![](./img/P54_7.png)

## 六、后验的扩散条件概率$q(x_{t-1}|x_t,x_0)$分布是可以用公式表达的

也就是说，给定$x_t$和$x_0$，我们是可以计算出$x_{t-1}$

注意：高斯分布的概率密度函数是$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

注意：$ax^2+bx=a(x+\frac{b}{2a})^2+C$

![](./img/P54_8.png)

根据前面$x_0$与$x_t$之间的关系式，我们可以知道

$x_0 = \frac{1}{\sqrt{\bar{\alpha}_t}}(x_t-\sqrt{1-\bar{\alpha}_t}z_t)$

将$x_0$的表达式带入到$q(x_{t-1}|x_t,x_0)$的分布中，可以重新给出该分布的均值表达式，也就是说，在给定$x_0$的条件下，后验条件高斯分布的均值计算只与$x_t$和$z_t$有关。$z_t$是t时刻的随机正态分布变量，源自参数重整化。

![](./img/P54_9.png)