# Lecture 5: Prior

## Instructor： 胡传鹏（博士）[Dr. Hu Chuan-Peng]

### 南京师范大学心理学院[School of Psychology, Nanjing Normal University]
 


学习目标：
- 先验是什么？
- 为什么需要先验，先验重要吗？
- (理论上讲)如何在模型中构建先验？


![Image Name](https://cdn.kesci.com/upload/image/ril3rktwk9.png?imageView2/0/w/960/h/960)

## 回顾：

在探究地球有多少表面被水覆盖的问题中。

我们通过将地球抛到空中，并且以当你抓住它时右手食指下的表面是水还是陆地进行实验。通过重复上述步骤不断的收集证据，我们可以慢慢地接近真相。

**当我们在没有获得数据时**
我们可能认为陆地和水面出现是相同的，即为均匀分布（下图中的虚线部分）。

$p \sim U(0,1)$

比如 10次的结果如下(W代表水，L代表陆地)：L W L L W W W L W W。

**每一次事件发生，都可能会改变我们都对概率认知:**

![Image Name](https://cdn.kesci.com/upload/image/rhqd6akbc6.gif?imageView2/0/w/640/h/640)


**不同的先验和数据(似然)会产生不同的后验分布**

![Image Name](https://cdn.kesci.com/upload/image/rhqcb9gji7.png?imageView2/0/w/960/h/960)

本节课的关注点就在于更深入的**了解先验的含义**与**不同的先验如何带来不同的影响**。

**先验（A priori）** 在拉丁文中指“在经验之前”，即无需经验或先于经验获得的知识。也就是还没有获得数据时我们对研究问题的看法。


### 先验概率与似然

如何通过概率去描述先验？如何理解先验概率的意义？

在前面我们已经学习了**似然与概率**的关系，在这里我们可以凭借与似然的对比去理解先验概率的含义。

接着以探究地球海水覆盖率为例。
- **似然指在参数已知的情况下，某个特定的数据出现的概率**。

比如，已知海水的覆盖率为50%（参数），那么扔10地球，得到5次海水和5次陆地的**似然**是0.5。

已知海水的覆盖率为100%（参数），那么扔10地球，得到5次海水和5次陆地的**似然**是0。


![Image Name](https://cdn.kesci.com/upload/image/ripe5fpwy6.png?imageView2/0/w/960/h/960)


当然我们，海水的覆盖率也可能为0.3，或者0.7. 

![Image Name](https://cdn.kesci.com/upload/image/ripe6s5jz5.png?imageView2/0/w/960/h/960)

- **概率指的是某个事件发生的可能性**。

在本例中有两种可能：
* 在某一参数下（小世界需要），任何一个可能结果发生的可能性，例如，$P(W | p=0,7)$
* 在未知的世界中，参数取值的可能性，$p \sim ?$


![Image Name](https://cdn.kesci.com/upload/image/ripg4o6z7f.png?imageView2/0/w/960/h/960)


- **先验概率指，在获得数据之前对于*参数*出现的信念或者概率**。

比如，在未获得数据时，我们可以先验的认为地球上海面覆盖率为0.5，当然也可以认为是0.7，甚至认为它可以是0到1的任何值。这个推测是主观的。

![Image Name](https://cdn.kesci.com/upload/image/rip14lldva.png?imageView2/0/w/960/h/960)


* $p(data | \theta)$: 似然，不是有效的概率分布，反映了在**可能的参数取值下**得到某个特定数据的可能性；
* $p(\theta)$: 先验，是有效的概率分布；反映了研究在观测到特定数据**前**对模型参数的信念

下一步：贝叶斯公式中，先验如何与似然结合，从而得到后验概率。

## Part 2: How to combine likelihood and prior to form a posterior

接下来我们将介绍贝叶斯公式背后的机制，尤其是先验的改变会如何影响到后验分布

下面的例子提供了一种关于贝叶斯规则的直觉理解

一个袋子里有四个鹅卵石，只有两种颜色：白和蓝。

两种颜色的石头各有几块是未知的 (Source: Statistical rethinking)。

根据已有的信息，可以判断四个石头颜色组合的可能情况有五种：

![Image Name](https://cdn.kesci.com/upload/image/rhq5sehdsv.png?imageView2/0/w/360/h/360)

当我们摸到一个鹅卵石，我们得知这个鹅卵石是蓝色的，现在我们需要根据摸到的这个鹅卵石的颜色来判断盒子中蓝色鹅卵石的数量。

由于我们事先并没有得到任何有关这个袋子中鹅卵石的数量的信息，故我们假定这个盒子中蓝色鹅卵石的数量的概率是均匀分布的，且各种数量的蓝色鹅卵石出现的概率之和为1。

In [21]:
import numpy as np               # numpy 是专门用于数组运算的包
import matplotlib.pyplot as plt  # matplotlib.pyplot 是专门用于画图的包
from scipy.stats import uniform  # 从scipy.stats里载入均匀分布的函数

# 起点为0，终点为5(不包括5)，步长为1生成5个数
x = np.arange(start = 0, stop = 5, step = 1)

# 均匀分布的概率密度函数,x为变量，0为均匀分布起点，5为均匀分布的点的数量
y_prior = uniform.pdf(x,loc = 0,scale = 5)

plt.bar(x,y_prior,width=0.5) # 画条形图
plt.title("Prior")  # 添加标题
plt.ylabel("probability") # 添加y轴标签

print(f"袋子里的蓝色鹅卵石的数量分别为0,1,2,3,4的情况下，先验概率分别为{y_prior}")

袋子里的蓝色鹅卵石的数量分别为0,1,2,3,4的情况下，先验概率分别为[0.2 0.2 0.2 0.2 0.2]


我们假定X为摸到的球的颜色

$X \in \left \{ 0,1 \right \}$ 

$X = 0$ 代表白色鹅卵石

$X = 1$ 代表蓝色鹅卵石

当我们摸到一个鹅卵石，这只鹅卵石是蓝色鹅卵石，那么我们该如何推断袋子中蓝色鹅卵石的总数？

假定袋子中有$\alpha$个蓝色鹅卵石，$\alpha \in \left \{ 0,1,2,3,4 \right \}$

在不同$\alpha$条件下，观察到一个蓝色鹅卵石的概率为$Pr(X=1|Y = \alpha) = \alpha/4$

根据上节课学到的知识，我们知道这个是不同$\alpha$条件下，我们观察到一个鹅卵石是蓝色鹅卵石的似然。

In [2]:
# 起点为0，终点为5(不包括5)，步长为1生成5个数
x = np.arange(start = 0, stop = 5, step = 1)

# Pr(X=1|Y = \alpha) = \alpha/4
y_likelihood = x/4

plt.bar(x,y_likelihood,width=0.5) # 画条形图
plt.title("Likelihood")           # 添加标题
plt.ylabel("likelihood")          # 添加y轴标签

print(f"袋子里的蓝色鹅卵石的数量分别为0,1,2,3,4的情况下,似然分别为{y_likelihood}")

袋子里的蓝色鹅卵石的数量分别为0,1,2,3,4的情况下,似然分别为[0.   0.25 0.5  0.75 1.  ]


![Image Name](https://cdn.kesci.com/upload/image/rhq5v48hnv.png?imageView2/0/w/960/h/960)


![Image Name](https://cdn.kesci.com/upload/image/rit66mt8tm.jpg?imageView2/0/w/640/h/640)


**Bayes' rule**


$P(\theta|data) = \frac{P(data|\theta)*P(\theta)}{P(data)} \propto P(data|\theta)*P(\theta)$

根据贝叶斯定理，我们在给定当前观察到的现象的情况下，对参数的概率的信念会随着参数的先验概率和给定参数下的似然而发生信念的更新。

例如，在先验分布的一种情况（如存在0蓝色石头）对其信念会随着当前数据（有一个蓝色球）而更新：

In [3]:
y_prior = 1.0/5                  # 先验为均匀分布
likelihood = 0                   # 袋中蓝色鹅卵石的数量为0时，出现蓝色鹅卵石的似然为0
posterior = (y_prior*likelihood) # 袋中蓝色鹅卵石数量为0时的后验概率

print(f"袋中蓝色鹅卵石的为0的情况, 当观察到一个蓝色石头后，其后验概率分别为{posterior}")

袋中蓝色鹅卵石的为0的情况, 当观察到一个蓝色石头后，其后验概率分别为0.0


如果我们更新全部的5种情况，则会得到5种情况的全部后验分布：

In [4]:
x = np.arange(start = 0, stop = 5, step = 1) # 起点为0，终点为5(不包括5)，步长为1生成5个数

# 均匀分布的概率密度函数,x为变量，0为均匀分布起点，5为均匀分布的点的数量
y_prior = uniform.pdf(x,loc = 0,scale = 5)

# Pr(X=1|Y = \alpha) = \alpha/4
y_likelihood = x/4

# p(data) = \sum{p(data|\theta)p(\theta)}
y_margin = np.sum(y_prior*y_likelihood)

# P(\theta|data) = \frac{P(data|\theta)*P(\theta)}{P(data)} 
y_posterior = (y_prior*y_likelihood)/y_margin
plt.bar(x,y_posterior,width=0.5) # 画条形图
plt.title("Posterior") # 添加标题
plt.ylabel("Posterior") # 添加y轴标签

print(f"袋子里的蓝色鹅卵石的数量分别为0,1,2,3,4,5的情况下,后验概率分别为{y_posterior}")

袋子里的蓝色鹅卵石的数量分别为0,1,2,3,4,5的情况下,后验概率分别为[0.  0.1 0.2 0.3 0.4]


In [17]:
######################################################
#
# 练习阶段
#
# Tips:思考如何表征袋子中不同蓝色鹅卵石的数量
#
# 目的：求出蓝色鹅卵石数量分别为[0,1,2,3,4]的情况下的后验概率
#
######################################################
import numpy as np     # numpy 是专门用于数组运算的包
import matplotlib.pyplot as plt # matplotlib.pyplot 是专门用于画图的包
from scipy.stats import uniform # 从scipy.stats里载入均匀分布的函数

# 起点为0，终点为5(不包括5)，步长为1生成5个数
x = np.arange(start = 0, stop = 5, step = 1)

# 均匀分布的概率密度函数,x为变量，0为均匀分布起点，5为均匀分布的点的数量
y_prior = uniform.pdf(x,loc = 0,scale = 5)

# Pr(X=1|Y = \alpha) = \alpha/4
y_likelihood = x/4

# p(data) = \sum{p(data|\theta)p(\theta)}
margin = np.sum(y_prior*y_likelihood)

# 袋中蓝色鹅卵石的数量为&&&
nx = 3

# 袋中蓝色鹅卵石的数量为0时的先验概率
prior = y_prior[nx]

# 袋中蓝色鹅卵石的数量为0时的似然
likelihood = y_likelihood[nx]

# 袋中蓝色鹅卵石数量为0时的后验概率
posterior = (prior*likelihood)/margin

print(f"袋子里的蓝色鹅卵石的数量分别为{nx}的情况下,后验概率分别为{posterior}")

袋子里的蓝色鹅卵石的数量分别为3的情况下,后验概率分别为0.30000000000000004


In [20]:
?uniform.pdf

当先验发生改变时，会发生什么变化呢？

若我们提前知道袋子里两种颜色的鹅卵石的数量很接近，那么先验该怎么改变呢？

袋子里更有可能会有两个蓝色或白色的鹅卵石，而0个或4个蓝色或白色的鹅卵石的概率最低，于是形成了新的先验。

袋子中蓝色鹅卵石的数量分别为0，1，2，3，4，的情况下，先验概率分别为[1/12, 1/6, 1/2, 1/6, 1/12]

In [16]:
######################################################
# 练习阶段
#
# Tips1: 改变哪个变量可以为先验概率赋值 
# Tips2: 改变哪个变量可以表示盒子中不同蓝色鹅卵石的数量
#
# 目的1：先验概率如何表征
# 目的2：求出蓝色鹅卵石数量分别为[0,1,2,3,4]的后验概率
######################################################

import numpy as np # numpy 是专门用于数组运算的包
import matplotlib.pyplot as plt  # matplotlib.pyplot 是专门用于画图的包
from scipy.stats import uniform # 从scipy.stats里载入均匀分布的函数

# 起点为0，终点为5(不包括5)，步长为1生成5个数
x = np.arange(start = 0, stop = 5, step = 1)

# 盒子里的球的数量分别为0，1，2，3，4的情况下，先验概率分别为[1/12, 1/6, 1/2, 1/6, 1/12]
y_prior = &&&

# Pr(X=1|Y = \alpha) = \alpha/4
y_likelihood = x/4

# p(data) = \sum{p(data|\theta)p(\theta)}
margin = np.sum(y_prior*y_likelihood)

# 袋中蓝色鹅卵石的数量为&&&
nx = 3

# 袋中蓝色鹅卵石的数量为0时的先验概率
prior = y_prior[nx]

# 袋中蓝色鹅卵石的数量为0时的似然
likelihood = y_likelihood[nx]

# 袋中蓝色鹅卵石数量为0时的后验概率
posterior = (prior*likelihood)/margin

print(f"袋子里的蓝色鹅卵石的数量分别为{nx}的情况下,后验概率分别为{posterior}")

SyntaxError: invalid syntax (2420851362.py, line 19)

### 应用

假定我们旋转地球仪，手指落在陆地上的概率为为$\theta$,我们旋转10次中发现有3次手指指向为陆地；

手指指向陆地的次数为Z；

在这种情况下，我们的似然为
 $\operatorname{Pr}(Z = 3\mid \theta) = \binom{10}{3} \theta^{3}(1-\theta)^{10-3}$

在旋转地球仪之前，我们认为陆地的比例是任何的，从0到1之间皆有可能。

In [5]:
import numpy as np # numpy 是专门用于数组运算的包
import matplotlib.pyplot as plt  # matplotlib.pyplot 是专门用于画图的包
from scipy.stats import uniform  # 从scipy.stats里载入均匀分布的函数

# 起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)

# 均匀分布的概率密度函数,x为变量，0为均匀分布起点，100为均匀分布的点的数量
y_prior = uniform.pdf(x,loc = 0,scale = 100)

plt.plot(x,y_prior)        # 画折线图
plt.title("Prior")         # 添加标题
plt.ylabel("probability")  # 添加y轴标签

Text(0, 0.5, 'probability')

In [6]:
from scipy.special import comb   # comb这个函数是专门用来算组合数的

# 生成起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)
theta = x  # 参数在x中取值
y_likelihood = comb(10,3)*((theta)**(3))*((1-theta)**(10-3)) # 根据公式计算每个theta值对应的likelihood

# 画图
plt.plot(x,y_likelihood)  # 使用plot进行画图
plt.title("Likelihood")   # 添加标题
plt.ylabel("likelihood")  # 添加y轴标签

Text(0, 0.5, 'likelihood')

In [7]:
import numpy as np               # numpy 是专门用于数组运算的包
import matplotlib.pyplot as plt  # matplotlib.pyplot 是专门用于画图的包

# 生成起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)

# P(\theta|data) = \frac{P(data|\theta)*P(\theta)}{P(data)} 
y_posterior = (y_prior*y_likelihood)/np.sum(y_prior*y_likelihood)

plt.plot(x,y_posterior)
plt.title("Posterior")            # 添加标题
plt.ylabel("probability density") # 添加y轴标签

Text(0, 0.5, 'probability density')

如果我们的先验发生变化：
* 陆地的比例是0 ～ 1之间类似于正态分布，均值为0.3，标准差为0.1。

查看先验的效果：

In [8]:
from scipy.stats import norm     # 从scipy.stats里输入正态分布的函数

x = np.arange(start = 0, stop = 1, step = 0.01) # 生成起点为0，终点为1(不包括1)，步长为0.01生成数组
y_prior = norm.pdf(x,0.3,0.1)  # 正态分布的概率密度函数,x为变量，0.3为平均值，0.1为标准差

# 画图
plt.plot(x,y_prior) # 使用拆线图
plt.title("Prior")  # 添加标题
plt.ylabel("probability") # 添加y轴标签

Text(0, 0.5, 'probability')

查看likelihood的效果

In [9]:
# 起点为0，终点为1(不包括1)，步长为0.01生成数组，作为先验的参数空间
x = np.arange(start = 0, stop = 1, step = 0.01)
theta = x

#  $\operatorname{Pr}(Z = 3\mid \theta) = \binom{10}{3} \theta^{3}(1-\theta)^{10-3}$
y_likelihood = comb(10,3)*((theta)**(3))*((1-theta)**(10-3)) 

plt.plot(x,y_likelihood)  # 画条形图
plt.title("Likelihood")   # 添加标题
plt.ylabel("likelihood")  # 添加y轴标签

Text(0, 0.5, 'likelihood')

可视化后验

In [10]:
# 起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)

# P(\theta|data) = \frac{P(data|\theta)*P(\theta)}{P(data)} 
y_posterior = (y_prior*y_likelihood)/np.sum(y_prior*y_likelihood)

plt.plot(x,y_posterior) # 画折线图
plt.title("Posterior")  # 添加标题
plt.ylabel("probability density") # 添加y轴标签

Text(0, 0.5, 'probability density')

若我们有非常强的假设，认为陆地的比例决不可能小0.3。也就是说，参数的取值中，0～0.3的概率为0，(0.3, 1]为均匀分布。

In [11]:
# 起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)

# 先验概率认为theta不可能低于0.3
y_prior = np.concatenate([np.repeat(0,30),np.repeat(1,70)])/np.sum(np.concatenate([np.repeat(0,30),np.repeat(1,70)]))

plt.plot(x,y_prior) # 画折线图
plt.title("Prior") # 添加标题
plt.ylabel("probability") # 添加y轴标签

Text(0, 0.5, 'probability')

In [12]:
# 起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)
theta = x

#  $\operatorname{Pr}(Z = 3\mid \theta) = \binom{10}{3} \theta^{3}(1-\theta)^{10-3}$
y_likelihood = comb(10,3)*((theta)**(3))*((1-theta)**(10-3))

plt.plot(x,y_likelihood) # 画条形图
plt.title("Likelihood") # 添加标题
plt.ylabel("likelihood") # 添加y轴标签

Text(0, 0.5, 'likelihood')

In [10]:
# 起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)
# P(\theta|data) = \frac{P(data|\theta)*P(\theta)}{P(data)} 
y_posterior = (y_prior*y_likelihood)/np.sum(y_prior*y_likelihood)

plt.plot(x,y_posterior)  # 画折线图
plt.title("Posterior")   # 添加标题
plt.ylabel("probability density") # 添加y轴标签

Text(0, 0.5, 'probability density')

假设有一个儿童，他认为陆地比例的先验概率在0.3以下极低，0.3处最高，超过0.3的取值越线性下降。

In [13]:
# 起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)

# 正态分布的概率密度函数,x为变量，0.5为平均值，0.1为标准差
y_prior = np.concatenate([np.exp(np.linspace(0,0,30)),np.exp(np.linspace(1,0.3,70))])/np.sum(np.concatenate([np.exp(np.linspace(0,0,30)),np.exp(np.linspace(1,0.3,70))]))

plt.plot(x,y_prior)  # 画折线图
plt.title("Prior")  # 添加标题
plt.ylabel("probability")  # 添加y轴标签

Text(0, 0.5, 'probability')

In [14]:
# 起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)
theta = x
#  $\operatorname{Pr}(Z = 3\mid \theta) = \binom{10}{3} \theta^{3}(1-\theta)^{10-3}$
y_likelihood = comb(10,3)*((theta)**(3))*((1-theta)**(10-3))

plt.plot(x,y_likelihood) # 画条形图
plt.title("Likelihood") # 添加标题
plt.ylabel("likelihood")  # 添加y轴标签

Text(0, 0.5, 'likelihood')

In [15]:
# 起点为0，终点为1(不包括1)，步长为0.01生成数组
x = np.arange(start = 0, stop = 1, step = 0.01)

# P(\theta|data) = \frac{P(data|\theta)*P(\theta)}{P(data)} 
y_posterior = (y_prior*y_likelihood)/np.sum(y_prior*y_likelihood)

plt.plot(x,y_posterior)  # 画折线图
plt.title("Posterior")  # 添加标题
plt.ylabel("probability density")  # 添加y轴标签

Text(0, 0.5, 'probability density')

## Part 3: 先验的延伸

#### 离散与连续

无论是似然还是先验概率，我们发现，可以通过增加事件的数量将离散的事件变为连续的变量。

![Image Name](https://cdn.kesci.com/upload/image/ripggbklwc.png?imageView2/0/w/960/h/960)

#### informative vs. uninformative

先验概率可以由主观设定。但后验概率由先验概率和似然组成，因此设置不同的先验概率对于似然和后验的影响是不同的。

**无信息的先验（uninformative prior)** : 在该先验下，后验概率分布完全由似然决定。

根据先前的知识或者经验，认为某些参数取值的可能性大于另一些取值，此时的先验就是 **informative （有信息的）**。

### 先验概率与频率论点估计

即使我们知道了可以主观的设置先验概率，但是它对于统计的意义是什么？

这需要结合频率论中的点估计进行理解。

在前面学习过最大似然估计后我们了解到，最大似然是根据数据推测参数值，并且这个推测过程是一个点估计的过程，因此符合频率学派的假设。
频率学派的假设为： 
- 参数是真实存在且不会变化的固定真值。比如，硬币朝上的概率为0.5，这个概率是不会因为扔硬币这个事件导致概率发生变化。
- 可以通过可以重复多次的方法来估计该真值。比如，虽然扔两三次硬币难以估计硬币朝上的概率，但是通过无限的重复，我们可以得到的估计会越来越接近正值。

频率学派的问题在于：
- 参数真值可能并不固定。比如心理特征可能不存在固定不变的正值。
- 无法完成反复的测量。比如第一次对于心理特征的测量会影响第二次测量，或者对于癌症病人很少能获得其患两次相同癌症的数据。

为了解决频率学派的问题，贝叶斯学派，将概率引入参数当中，允许参数发生变化。

为了使得对参数的估计从点估计变化为概率估计。我们需要似然函数$p(data|\theta)$以及先验分布$p(\theta)$。

即通过贝叶斯公式$p(\theta|data)=p(data|\theta)p(\theta)$，将似然函数$p(data|\theta)$假设的“数据从参数中生成”的过程逆转为 后验概率$p(\theta|data)$假设的“参数从数据中生成”的过程。

可见，要完成这个过程，先验必不可少。

### 信念 vs. 概率

对于先验其实有两种不同的理解方式：

1. 将先验理解为参数的**客观可变性**。这个理解可以从频率论点估计出发，此时的先验概率和后验概率都表达了对于点估计结果的不确定性（**uncertainty**），即参数不是固定不变的，参数的值取决于真值和噪音。

2. 将先验理解为对参数的**主观信念**。另一种理解方式认为参数固定不变，但是我们对他的信心和信念有所不同。比如对于硬币朝上的概率为0.5，即参数为0.5，我们可以完全的相信这个参数，也可以相信该参数为0，1或者其他值。

这两种方式殊途同归，虽然理解的角度不同，但都致力于解释频率学派点估计存在的问题。

#### 先验的主观性

虽然先验的设定可以弥补频率学派点估计的问题，但是先验是主观设定的，这是否会导致统计结果不够客观？

正如第一节课所提到的：**任何统计分析方法都不可能完全客观，因此主观性是一个相对概念: **

* 一方面，相对于频率学派的主观性暗含在各种**前提预设**中，贝叶斯学派通过设定先验的方式来体现主观性，这更加透明，不易让人产生误解。

* 另一方面，更为宏观的来说，样本的抽取，数据清理方式的选择，分析方法的选择，$p$值的设定，这些都存在主观性。因此，频率学派并没有想象的那么‘客观’。


因此， 主观不一定是坏事，如何合理利用主观性才是问题的关键。


**不同的先验和数据(似然)会产生不同的后验分布: Prior Predictive Check**

![Image Name](https://cdn.kesci.com/upload/image/rhqcb9gji7.png?imageView2/0/w/720/h/720)

### 总结：
- 先验是什么？ 先验是观测到数据前，研究者对模型及其**参数**的概念分布选择
- 为什么需要先验，先验重要吗？先验非常重要，决定了后验分布的模式
- (理论上讲)如何在模型中构建先验？经验 + prior predictive check