# LGE - SNU AI Scientist 고급과정 [확률통계 및 통계 방법론]
## 과제3 (MCMC)
### TA: 홍현경(hyungyeong81@snu.ac.kr)

## **문제 1. Gibbs Sampling (Seasonal Flu Shot Example)**
20명의 사람이 겨울이 시작되는 시점에 독감 백신을 접종하였다고 가정하자. 이제 독감 백신의 효과를 확인하기 위해, 겨울이 끝나는 시점에 20명의 사람들이 독감에 걸렸는지를 확인한다고 하자. 이를 확률변수로 표현하면 다음과 같다.
$$
X_i =
\begin{cases}
1 & \text{i번째 사람이 독감에 걸리지 않은 경우} \\
0 & \text{i번째 사람이 독감에 걸린 경우}
\end{cases}
$$
원래대로라면 겨울이 끝나는 시점에 20명의 사람 모두에 대해 독감 감염 여부를 확인해야 하지만, 어떠한 이유로 인하여 1~19번째 사람만 감염 여부 확인이 가능하고 20번째 사람은 감염 여부를 확인할 수 없었다고 하자.


$Y = \sum_{i = 1}^{19}X_i$로 정의하자. $\theta$를 독감 백신이 효과가 있을 확률이라고 하면, $Y$에 대한 확률밀도함수는 다음과 같이 주어진다.
$$
p(y | \theta) = \binom{19}{y}\theta^y(1-\theta)^{19-y}
$$
만약 $X_{20}$이 관측되어 우리가 완전한 데이터를 가지고 있고, $\theta$에 대한 prior distribution을 $\text{Uniform}(0, 1)$로 설정한다면, 다음과 같은 $\theta$에 대한 posterior distribution을 구할 수 있다.
$$
p(\theta | y, x_{20}) \propto \theta^{y + x_{20}}(1-\theta)^{20-y-x_{20}}
$$
하지만 $X_{20}$은 관측되지 않았으므로 $\theta$와 $X_{20}$에 대한 조건부사후분포를 각각 구하면 다음과 같이 나타낼 수 있다.
$$
\theta | X_{20}, Y \sim \text{Beta}(Y + X_{20} + 1, 20 - Y - X_{20} + 1)
$$

$$
X_{20} | Y, \theta \sim \text{Bernoulli}(\theta)
$$

이제 Python을 이용하여 Gibbs sampling을 진행해보자.

(basic setting) 우선, 다음의 코드를 실행하여라.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import beta, bernoulli

# data for the 19 observed individuals
obs = np.array([1,1,1,1,1,0,1,1,1,1,0,1,1,0,1,1,0,0,1])

# y is defined as the sum of 19 observed values
y = obs.sum()

### **[ 문제 1-(1) ]** Gibbs Sampling 코드 작성 및 결과 시각화
### **[Gibbs Sampling]** $X_{20}, \theta$ 에 대한 Gibbs sampling 코드를 작성하여라. $\theta$의 initial values는 각각 1과 0.5로 설정하고,  sampling size T는 10000으로 설정하여라. 또한 $X_{20}, \theta$의 처음 5000개의 samples에 대해 burn-in을 적용하여라.

### **[결과 시각화]** burn-in을 적용한 후의 $\{ \theta^{(t)}, t = 1, \dots, T \}$에 대한 히스토그램과 수렴 확인을 위한 trace plot을 함께 나타내보자. 단, matplotlib.pyplot의 subplot을 이용하여라.

### *아래의 Gibbs sampling 과정을 참고하여라.*

1. $x_{20}, \theta$의 initial values를 설정한다.
2. sampling size $T$를 설정한다.
3. Gibbs sampling 결과를 저장할 빈 리스트를 정의한다.
4. $x_{20}^{(0)}, \theta^{(0)}$의 값을 선언한다.
5. for loop를 이용하여 $x_{20}, \theta$의 값을 업데이트 하는 과정을 $T$개의 samples를 얻을 때 까지 반복한다.
6. $x_{20}, \theta$의 처음 5000개의 samples에 대해 burn-in을 적용한다.

In [None]:
#-------------
# 코드 작성
#-------------



### **[ 문제 1-(2) ]** $\theta$에 대하여 다음의 값들을 구하여라.
### (a) $\theta$에 대한 posterior mean
### (b) $\theta$에 대한 posterior median
### (c) $\theta$에 대한 posterior variance
### (d) $\theta$에 대한 95% credible interval

In [None]:
#-------------
# 코드 작성
#-------------



**(참고, 문제X)** observed data를 이용하여 구한 $\theta$의 MLE는 다음과 같이 sample mean으로 주어진다.\
하지만, 이는 missing value인 $x_{20}$을 반영하고 있지 않으므로 편향된(biased) 추정량이다.

In [None]:
# MLE for theta (based on the observations)
print("MLE for theta (based on the observations): {:.3f}".format(np.mean(obs)))

### **[ 문제 1-(3) ]** $x_{20}$에 대하여 다음의 값들을 구하여라.
### (a) $x_{20}$에 대한 posterior mean
### (b) $x_{20}$에 대한 posterior variance

In [None]:
#-------------
# 코드 작성
#-------------



## **문제 2. Metropolis-Hastings Algorithm**

관측값의 분포가

$$
X_1, \cdots, X_n | \theta \sim N(\theta, 1), \ \theta \in \mathbb{R}
$$

이고, $\theta$의 사전분포가

$$
\theta \sim t(\nu), \ \nu \ge 1
$$

일 때, $\theta$의 사후분포에 대한 sample을 Metropolis-Hastings algorithm으로 추출하려고 한다.


관측값의 분포와 $\theta$의 사전분포가 위와 같이 주어졌을 때 $\theta$에 대한 사후분포는 다음과 같이 나타낼 수 있다.

$$
\pi(\theta | X_1, \cdots, X_n) \propto e^{-\frac{n}{2}(\theta - \bar{X})^2}\left( 1 + \frac{1}{\nu}\theta^2 \right)^{-\frac{\nu + 1}{2}}, \ \theta \in \mathbb{R}
$$


이제, 제안분포를 다음과 같이 설정하자.

$$
Y \sim N(\bar{X}, \frac{1}{n})
$$

즉, 제안분포 $q$는 평균이 $\bar{X}$이고, 분산이 $\frac{1}{n}$인 정규분포의 확률밀도함수에 해당한다.


이에 따라 acceptance ratio를 계산하면 다음과 같다.

$$
\alpha(\theta^{(t-1)}, Y) = \min \left( 1, \dfrac{\left( 1 + \dfrac{1}{\nu}Y^2 \right)^{-\frac{\nu + 1}{2}}}{\left( 1 + \dfrac{1}{\nu}(\theta^{(t-1)})^2 \right)^{-\frac{\nu + 1}{2}}} \right)
$$

즉, 후보 $Y$는 $\alpha(\theta^{(t-1)}, Y)$의 확률로 다음 상태 $\theta^{(t)}$로
받아들여진다.


$\nu = 5$로 설정하자. 이제, 아래의 물음에 답하여라.

(basic setting) 우선, 아래의 코드를 실행하여라.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import uniform, norm

# true theta value(true theta의 값은 사실 unknown이지만 편의를 위해 theta = 3에서 데이터를 추출하자)
theta_true = 3

# 시드 고정
np.random.seed(1004)

# 관측치 생성
n = 100
obs = norm.rvs(loc = theta_true, scale = 1, size = n)
x_bar = np.mean(obs)

# nu 값 설정
nu = 5

### **[ 문제 2-(1) ]** Metropolis-Hastings Algorithm 코드 작성 및 결과 시각화

### **[Metropolis-Hastings Algorithm 코드 작성]** Metropolis-Hastings algorithm을 위한 코드를 작성하여라. $\theta$의 initial value는 x_bar로 설정하고, sampling size T는 10000으로 설정하여라. 또한 $\theta$의 처음 5000개의 samples에 대해 burn-in을 적용하여라.

### **[결과 시각화]** burn-in을 적용한 후의 $\{ \theta^{(t)}, t = 1, \dots, T \}$에 대한 히스토그램과 trace plot을 함께 나타내보자. 단, matplotlib.pyplot의 subplot을 이용하여라.


### *아래의 Metropolis-Hastings Algorithm의 과정을 참고하여라.*

1. $\theta$의 초기값을 설정한다.
2. sampling size $T$를 설정한다.
3. Metropolis-Hastings algorithm을 이용한 sampling 결과를 저장할 빈 리스트를 정의한다.
4. $\theta_{(0)}$의 값을 선언한다.
5. for loop를 이용하여 $\theta$의 값을 업데이트 하는 과정을 $T$개의 samples를 얻을 때 까지 반복한다.
6. $\theta$의 처음 5000개의 samples에 대해 burn-in을 적용한다.


In [None]:
#-------------
# 코드 작성
#-------------



### **[ 문제 2-(2) ]** $\theta$에 대하여 다음의 값들을 구하여라.
### (a) $\theta$에 대한 posterior mean
### (b) $\theta$에 대한 posterior median
### (c) $\theta$에 대한 posterior variance
### (d) $\theta$에 대한 95% credible interval

In [None]:
#-------------
# 코드 작성
#-------------

