# Baesian Basics and Sampling

## 1. Bayesian Intro.

### Bayes Theorem.

$$P(Z|X) = \frac{P(X|Z)P(Z)}{P(X)}$$

> conditional probability를 inverse-probability로 표현

* $Z$: unknown random. 관측 불가능
* $X$: $Z$에 의해서 결정되며, 관측 가능

> 관측되지 않은 $Z$의 확률를 관측된 사건 $X$로 표현하는 것

`-` $Z$에 확률을 줄 수 있다고 말함: philosophical issue로 판별

* $Z$를 unknown quantity (as fixed)로 보면 상당히 다루기 어려우나, 랜덤으로 보면 쉬움
* 확률 변수를 동원하여, 그 확률 변수로부터 규칙을 설명하는 것

> DNN random initial -> random result. $\to$ prediction이 고정되지 못함. 베이지안 관점에서 맞는 사실임

`-` Inference / prediction

* Inference: 기저의 분포를 식별. $\to$ 샘플로부터 모집단에 대한 여러 정보 및 관계를 알아내는 것. 추정.
* Prediction: 예측의 영역. $\to$ 베이지안에서의 중요 개념. 확률적으로 prediction의 개념을 정교화

> hypothesis: 기계학습에서는 모델의 의미로서 사용되는 경향이...

`Example`: 0/1의 특정 숫자가 주어졌을 때, 1이 나올 확률 (수식을 이해하는 것까지 바라진 않는다...?)

$$R_i \sim \text{Bernoulli}(w), ~ i \in [n], ~ w \sim \text{Beta}(1, 1)$$

> $w$를 unknown parameter가 아닌 확률변수라고 가정 (Uniform Prior)

$$p(r=1|R_1, R_2, ..., R_n)?$$

`Solution`

* $w$를 알고 있다면, 그냥 확률은 $w$가 될 것... 관측값에 대하여 $w$는 어떻게 바뀌는가?

> MLE에서 비율로 사용하는 것과 동일하지 않다.
>
> Prior가 바뀌면 확률이 바뀜

$$\frac{\sum_i R_i + 1}{n + 2} ~~~~ \frac{\sum_i R_i}{n}$$

> MLE와는 Prior 때문에 추정량이 다름


* $\hat p$: MLE, $\hat p_B$: Baysian
* 0.5를 중심으로 안쪽으로 모이도록 조정됨 $\to$ $\hat p$을 0.5쪽으로 조금 끌어당긴 것이 $\hat p_B$이다.
* 최종적으로는 Prior의 평균 방향으로 당겨진 것 (여기선 Uniform): Shirinkage Effect

> Prior를 어떻게 설정하는지에 따라 Shirinkage 방향이 바뀜

`-` Interpretation

* n과 $\sum R_i$가 충분히 크다면, prior의 영향이 작아짐: data dominating
> Sample size가 작을 수밖에 없을 때 prior effect가 커짐
* 보통은 prior를 어떻게 주어도 MLE보다 약간 값이 작게 나오는 경향이 많음 $\to$ 성능이 더 좋아지는 경우가 있음
> 아무리 값이 작아도, 그 값이 매우 다수인 경우 그 영향력이 클 수 있다. $\to$ shirinkage를 도입하여 큰 값은 덜 줄이고 작은 값은 많이 줄임. sample mean 쓰는 것 보다 prior를 잘 사용함으로써 여러가지 상황에서의 문제를 줄일 수 있음

`-` 정리

* 모수를 변화시키면서 예측을 수행시킬 수 있으며, 이는 일반적으로 평균과 다르다. (대수의 법칙에 따라 평균과 유사)
* 평균보다 절대값이 작아지는 것이 도움이 된다.

## 2. Prior, Model, and Posterior

### Notations

* $p(\theta)$: random parameter에 대한 확률 (pdf) $\to$ law or **prior** p
* $p(y | \theta)$: data distribution given $\theta$
* $L(\theta) = p(y | \theta)$: $y$를 fixed scalar로 취급할 때, $\theta$의 값을 변화시킴에 따라 변화하는 Likelihood. pdf가 아님($\theta$ 관점).
* $p(\theta | y)$: posterior distribution given $y$

`-` Posterior and usage of its components.

$$p(\theta | y) = \frac{p(y|\theta)p(\theta)}{p(y)} := \frac{L(\theta|y) p(\theta)}{p(y)} \propto L(\theta | y)p(\theta)$$

* $p(y)$는 상수 같은 거니까 그대로 둬도 됨
* $\theta$가 argument라는 점을 명시해주기 위해서 Likelihood로 정의를 바꿈
* 커널만 알면, 상수로 취급되는 부분은 전부 유도해낼 수 있음 $\to$ 어차피 적분값으로 나누면, 확률밀도함수의 기본 성질을 만족하게 됨

`-` Prior

* Distribution for parameter (when no observation) $\to$ 정보를 입력. (평균, 분산, shape, ... 등등의 subject)
* Construction
> 1. 해당 도메인의 전문가들이 모여 분포를 파악 elicitation
> 2. 평균, 분산만 대충 파악하고 가우시안/베타 분포...
> 3. **non-informative**: prior가 gaussian이면 mean에 몰리므로 데이터가 들어와도 $L(\theta|y)$가 왜곡될 수 있음. uniform이여도 구간이 정해져 있어서 곤란... 그냥 $p(w) = c, -\infty < w < \infty$를 사용. $\to$ posterior를 들여왔을 때 적분해서 1이 되기만 하면 충분하다...
>
>   Example: $p(\mu) ∝ 1, p(\sigma) ∝ \frac{1}{\sigma} \to$ scale이 바뀌어도 형태가 계속해서 유지됨... 적분해도 1이 안나옴

* 샘플이 커지면 prior effect가 작아짐 ㅇㅇ
* Complex가 높은 모델(DNN: Weight + Bias에 모두 Prior를 줘야 함)의 경우, 샘플이 Prior Effect를 압도할 수 없게 됨
> 이때문에 베이지안에서 딥러닝을 사용하기 어려움... non-informative도 적분이 안되는 경우도 있음...

`-` Model or Likelihood

* 데이터는 posterior에 Likelihood로 영향을 줄 수 있음
* 데이터의 크기가 커질수록 Posterior에 데이터가 주는 영향력이 커짐 ㅇㅇ

`-` Posterior

* random parameter의 posterior $\to$ 분포를 추정하는 문제
* Posterior는 분포임 (point estimator가 아님. 분포를 만들어버린 다음에 점과 구간을 뽑아내는 것. 훨씬 informative한 객체)
> 분포를 근사할 때, pdf의 커널 정도로 샘플링하는 테크닉. 샘플로 population의 estimate를 계산

`-` Properties of posterior

$y_1, y_2$가 관측되었을 때, $\theta$의 posterior를 계산

1. $p(\theta | y_1, y_2) \propto L(\theta | y_1, y_2) p(\theta) \to p(y_2 | \theta, y_1) p(\theta | y_1)$

> $p(\theta) \to p(\theta | y_1) \to p(\theta | y_1, y_2) \to \cdots$의 방식으로 순차적인 업데이트가 가능
>
> posterior를 prior처럼 사용하는 방식으로, 온라인 러닝에서 유용하게 사용됨

2. $p(\theta | y) = k(\theta)h(y) \to h(y) = 1/ \int k(\theta)\theta$

### Example

`-` Beta-binomial

$$\begin{align}
y|\theta & \sim \text{Binom}(n, \theta) \\
p(\theta) & ≡ \text{Beta}(\theta, \alpha, \beta) = \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma (\alpha + \beta)} \theta^{\alpha - 1}(1-\theta)^{\beta - 1} \\
E[\theta] & = \frac{\alpha}{\alpha + \beta}, ~ \text{Var}(\theta) = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}
\end{align}$$

> prior를 Beta분포로 함

* Joint distribution of $p(y, \theta) = p(y | \theta)p(\theta)$.

> 베타 분포를 먹인 순간부터, 항이 정리됨
>
> 상수가 바뀌는 것은 나중에 처리하면 되고, $\theta$에 대한 항만 정리하면...

$$\theta^{\alpha + y - 1}(1 - \theta)^{n-y +\beta-1}$$

* Posterior of $\theta$ given $y$

$$p(\theta | y) \propto \theta^{\alpha + y - 1}(1 - \theta)^{n-y +\beta-1} ≡ \text{Beta}(\theta | y + \alpha, n - y + \beta)$$

> $E[\theta | y] = \frac{y + \alpha}{n + \alpha + \beta} = \frac{y}{n} \times \frac{n}{n + \alpha + \beta} + \frac{\alpha}{\alpha + \beta} \times \frac{\alpha + \beta}{n + \alpha + \beta} \to$ $n$이 커질수록 prior effect가 줄어들고, data가 dominant해짐. posterior의 mean은 sample mean과 prior의 mean으로 이뤄짐
>
> $Var(\theta | y) = O(\frac{1}{n}) \to$ 샘플이 커질수록 posterior의 분산이 작아짐. 즉, 분포가 한 점에 수렴. 보통 작아짐 ㅇㅇ

`-` Normal-normal in mean

$$\begin{align}
y | \theta & \sim N(\theta, \sigma^2) \\
\theta & \sim N(0, \kappa \sigma^2)
\end{align}$$

> 단, $\sigma^2$는 known scalar

* Joint distribution of $p(y, \theta) = p(y | \theta)p(\theta)$

> 어떻게든 $h(\theta)$와 그 바깥의 것으로 나눔 (지수족 느낌으로다가)
>
> 정규 분포의 포맷으로 어떻게든 바꿈 ㅇㅇ

$$p(\theta | y) \propto N(\theta | y(1 + 1/\kappa)^{-1}, (1 + 1/\kappa)^{-1}\sigma^2)$$

* Properties

1. mean은 아래와 같이 표현될 수 있음

$$y \times \frac{1}{1 + 1/\kappa} + 0 \times \frac{1/\kappa}{1 + 1/\kappa}$$

> Sample에서 계산한 $y$와, prior에서의 mean이 합쳐져 있음


2. 각 통계량

$$\begin{align}
E[\theta | y] & = \bar{y} \times \frac{n}{n + 1/\kappa} + \mu_0 \times \frac{1/\kappa}{n + 1/\kappa} \\
\text{Var}(\theta | y) & = \frac{\sigma^2}{n + 1/\kappa}
\end{align}$$

> 분산을 줄이는 효과가 있음: Prior가 Overfitting을 막을 수 있음
>
> 평균 추정에서 bias가 존재하게 됨. 데이터가 커질 수록 상쇄됨

3. $1/\kappa$는 sample size of the prior라고 함. 보통 상수로 택하여, 데이터를 보기 전에 결정함.

4. marginal, joint, conditional 전부 normal임

`-` Normal-normal in mean and variance

* Prior를 독립으로 하지 않고, 조건부로 처리

$$y | \theta, \sigma^2 \sim N(\theta, \sigma^2), ~~ \theta | \sigma^2 \sim N(0, \kappa \sigma^2)$$

* $p(1/\sigma^2) \propto (1/\sigma^2)^{-1}$ (improper prior)

* Joint distribution of $p(y, \theta, 1/\sigma^2)$

$$(2\pi \sigma^2)^{-\frac12} \exp (-0.5(y - \theta)^2/\sigma^2)(\kappa\sigma^2)^{-\frac12} \exp(-0.5 \theta^2 / (\kappa \sigma^2))(1/\sigma^2)^{-\frac12}$$

* Posterior of $\theta$ given $y$.

$$p(\theta | 1/\sigma^2, y) \propto N(\theta, y(1 + 1/\kappa)^{-1}, (1+1/\kappa)^{-1}\sigma^2)$$

$$p(1/\sigma^2 | y) \propto (1/\sigma^2)^{\frac12 - 1}$$

> 감마 분포를 따름 (카이제곱 분포로 유도되며, 최종적으로 posterior of $\theta$ $p(\theta | y)$는 t분포가 나옴)

### 정?리