# 采样      
  
#### 深度学习中的采样  
  
**$\color{red}{\text{一直的疑问是：采样都是在一个确定的概率分布下采样的。而神经网络中，一直都是在参数}\theta下的概率分布为,P_{\theta}(X)的情况下采样。}$**   
**$\color{red}{\text{（既然是在参数为知的情况下采样的吗？）} }$**   
  
**$\color{red}{\text{其实不是，要知道神经网络，是迭代的过程，每一次迭代中}\theta \text{都是已知的。也就是每一次迭代中} P_{\theta}(X)\text{也是已知的。  }} $**  
**$\color{red}{\text{只是在不同的迭代周期中。}\theta  和P_{\theta}(X) \text{是不同的。}} $**    

<br>

#### 如何根据概率分布进行采样  
   
* 机器学习中反复提及的"按某分布抽样"，抽样不就是从总体中抽取一部分组成样本集，如何形象的理解按分布抽样呢？    
  
  离散分布抽样：  
$$\begin{array}{c|lcr}
x & 0\text{~}1 & \text 1\text{~}2 & 2\text{~}3 \\
 \hline
p & 0.24 & 0.26 & 0.5
\end{array}$$  
  按概率抽取样本。按概率0.24抽取$0\text{~}1$内一个随机数。    
    
<br>   

**具体的采样操作：**    
  
* 利用线性同余发生器（$X_{n+1}=(aX_n+b) \quad mod \quad m$）产生均匀分布$U[0,1]$的伪随机数列。
  
  1、首先，均匀分布$U[0,1]$是最容易采样的。  
    
  2、其它常见分布的样本，可以由均匀分布$U[0,1]$的样本转换得到。   
    
    如二维正态分布：$(Z_1,Z_21)$可以通过独立采样均匀分布$U[0,1]$样本对$(X_1,X_2)$,转化得到:$Z_1=\sqrt{-2ln X_1}cos (2\pi X_2) \quad Z_2=\sqrt{-2ln X_1}sin (2\pi X_2)$  
      
  <br>  
  
  **但是对于不常见的复杂分布，（神经网络得到的复杂分布）我们改怎么采样呢。**  
    
  对于这些非常见的概率分布，这意味着我们没法方便的得到这些非常见的概率分布的样本集。那这个问题怎么解决呢？  
     
  
<br>   
  
<br>  

## 几种基本的采样方法      
 
#### 采样引言（蒙特卡罗方法）  
  
  蒙特卡罗是一个赌场的名字，用蒙特卡罗这个名字表示这是一个随机模拟的方法。最早蒙特卡罗方法用于求解一些不太好求解的求和或者积分问题。$$\theta=\int_a^b f(x)dx \quad$$  
  假如其中f(x)是一个非常难以积分的函数（极其复杂，难以求出原函数）那么这个积分比较难求。  
    
 故有：我们可以通过蒙特卡罗方法来模拟求解近似值。如何模拟呢？  
   
 ![](img/MC_1.jpg)  
   
则一个简单的近似求解方法是在[a,b]之间随机的采样一个点。比如 $x_0$ ，然后用 $f(x_0)$ 代表在[a,b]区间上所有的 $f(x)$ 的值。那么上面的定积分的近似求解为:   

$$(b-a)f(x_0)$$  
  
当然，用一个值代表[a,b]区间上所有的 $f(x)$ 的值，这个假设太粗糙。那么我们可以采样[a,b]区间的n个值： $x_0,x_1,……，x_{n-1}$ ，用它们的均值来代表[a,b]区间上所有的 $f(x)$ 的值。这样我们上面的定积分的近似求解为:   
  
$$(b-a)\frac{1}{N}\sum_{i=1}^nf(x_i)$$  
  
虽然上面的方法可以一定程度上求解出近似的解，但是它隐含了一个假定，即x在[a,b]之间是均匀分布的，**而绝大部分情况，x在[a,b]之间不是均匀分布的。**如果我们用上面的方法，则模拟求出的结果很可能和真实值相差甚远。  
  
怎么解决这个问题呢？

**如果我们可以得到x在[a,b]的概率分布函数p(x)，那么我们的定积分求和可以这样进行**：  
  
$$\theta =\int_a^bf(x)dx =\int_a^b p(x)\frac{f(x)}{p(x)}dx$$  
    
首先抽取足够多的样本（x坐标）$x_1,x_2,……，x_n$，这些是随机变量， 独立同分布(均值为EX)。那么根据大数定律有：$\underset{n\rightarrow \infty}{lim}P\{|\frac{1}{n}\sum_{k=1}^n x_k -EX|<\epsilon\}=1 \quad$     

**$\color{red}{\text{蒙特卡罗方法为：}}$**  
$$\theta =\int_a^bf(x)dx =\int_a^b p(x)\frac{f(x)}{p(x)}dx \approx \frac{1}{n} \sum_{i=0}^n\frac{f(x)}{p(x)}$$
      
<br>  

#### 概率分布采样  
  
  对于蒙特卡罗方法，最关键的就是要知道P（X）的概率分布，知道概率分布之后，可以根据这个分布，去采样N个样本。   
    
  $\color{red}{\text{具体如何根据一个概率分布去采样n个样本？（具体操作）}}$   
  
  **这种方法只适用常见的概率分布：先适用线性同余发生器从均匀分布U[0,1]种采样，再把这样样本变换为常见概率分布的样本** 
    
<br>  
  
#### 接收-拒绝采样  
  
  这种方法适用于那些不常见的复杂分布，的采样。  
    
  p(x) 太复杂在程序中没法直接采样，那么我设定一个程序可采样的分布 q(x) 比如高斯分布，然后按照一定的方法拒绝某些样本，以达到接近 p(x) 分布的目的，其中q(x)叫做 proposal distribution。  
    
  ![](img/MC_2.jpg)   
    
  具体采样过程：设定一个方便采样的常用概率分布函数 q(x)，以及一个常量 k，使得 p(x) 总在 kq(x) 的下方  
    
  1、首先从容易采样的分布q(x)种采样一个样本$Z_0$  
    
  2、从均匀分布$U[0,kq(Z_0) ]$采样一个$\mu_0$,如果$\mu_0$落在灰色区域，则拒绝，否则，则接收。  
    
 3、 重复上述过程，直到接收n个样本$z_1,z_2,……，z_n$  
   
 4、则蒙特卡罗，得到的最后结果为：$\approx \;\; \frac{1}{n} \sum_{i=0}^n\frac{f(z_i)}{p(z_i)}$

<br>      
  

#### 蒙特卡罗方法小结

  **$\color{red}{\text{蒙特卡罗方法为：}}$**  
$$\theta =\int_a^bf(x)dx =\int_a^b p(x)\frac{f(x)}{p(x)}dx \approx \frac{1}{n} \sum_{i=0}^n\frac{f(x)}{p(x)}$$  
  
  可以看出来蒙特卡罗方法是用来求和或者求积分的。（蒙特卡罗方法不是用来采样的）。  
    
  利用拒绝-接收，常见概率分布采样，我们可以使用蒙特卡罗方法。  
    
  **但是对于有些分布：  
  1、一些二维分布（x,y）,有时候只有条件分布P（X|Y),P(Y|X)，很难得到联合分布P（X，Y）一般形式，这时就无法用蒙特卡罗方法。  
  2、对于一些高维分布$P(x_1,……,x_n)$我们要找到适合的 k ,q(x)是很困难的。**  
    
  可以看出，要想将蒙特卡罗方法作为一个通用的采样模拟求和的方法，必须解决如何方便得到各种复杂概率分布的对应的采样样本集的问题。  
    
  蒙特卡罗方法不是采样方法，但是马尔可夫链蒙特卡罗方法是采样方法。

<br>    
  
<br>     
  
## 马尔可夫链蒙特卡罗方法（MCMC）   

  
   看同文件下的MCMC文件。

<br>   
  
<br>

## 吉布斯采样（Gibbs sampling）