# Chapter 1. 베이지안 추론의 철학

---

<img src='https://paulbarsch.files.wordpress.com/2012/05/bayes-theorem.png' width = 800>

### 프로그래밍 환경
- [Probabilistic Programming] tf 2.2 & tfp 0.10
- [Visualization] plotly

In [None]:
## Basics
from __future__ import absolute_import, division, print_function
warning_status = "ignore" #@param ["ignore", "always", "module", "once", "default", "error"]
import warnings
warnings.filterwarnings(warning_status)
with warnings.catch_warnings():
    warnings.filterwarnings(warning_status, category=DeprecationWarning)
    warnings.filterwarnings(warning_status, category=UserWarning)
    
## python packages
import os
import numpy as np

## visualization packages
import plotly.express as px
import plotly.graph_objs as go
import plotly.figure_factory as ff
from plotly.offline import iplot

## import tensorflow
import tensorflow as tf
import tensorflow_probability as tfp
tfd = tfp.distributions
tfb = tfp.bijectors

## Color map
class _TFColor(object):
    """Enum of colors used in TF docs."""
    red = '#F15854'
    blue = '#5DA5DA'
    orange = '#FAA43A'
    green = '#60BD68'
    pink = '#F17CB0'
    brown = '#B2912F'
    purple = '#B276B2'
    yellow = '#DECF3F'
    gray = '#4D4D4D'
    def __getitem__(self, i):
        return [
            self.red,
            self.orange,
            self.green,
            self.blue,
            self.pink,
            self.brown,
            self.purple,
            self.yellow,
            self.gray,
        ][i % 9]
TFColor = _TFColor()

print(tf.__version__)
print(tfp.__version__)

## 1.1 서론
- 베이지안 추론(Bayesian Inference)은 간단히 말해 새로운 증거(new evidence)를 본 뒤 자신의 믿음(beliefs)을 업데이트 하는 것이다.

### 1.1.1 베이지안 심리상태

- 베이지안 추론은 불확실성(Uncertainty)를 유지한다는 점에서 전통적인 통계적 추론과 다름.
- 베이지안 세계관은 확률을 사건에서 믿을 수 있는 정도(measure of believability in an event)를 계량한 척도로 해석함.
    - 즉, 사건의 발생을 얼마나 자신하는가?

**빈도주의자 vs 베이지안**
- 빈도주의자 관점
    - 기본적으로 빈도주의자들은 **확률을 반복 가능한 임의의 사건의 빈도수**로 해석함.
    - 이러한 맥락에서 빈도주의자들은 **항공기 사고 확률**을 오랫동안 발생한 비행기 사고의 빈도로 생각함.
    - 빈도주의자의 확률은 확률은 논리적으로 이치에 맞지만, 오랫동안 사건 발생을 관찰할 수 없으면 알기 어려운 한계가 있음. (e.g. 대통령 선거)
        - 빈도주의자들은 이러한 한계점을 해결하기 위해서 대체현실을 가정하고, 대체 현실 전반에 거쳐 발생하는 사건의 빈도가 확률을 규정한다고 주장함으로써 확률을 구함.
        - 직관적이지 않음
    
- 베이지안 관점
    - 베이지안은 확률을 사건 발생에 대한 믿음 또는 확신의 척도로 해석함.
    - 확률은 의견이나 견해를 요약한 것.
        - 사건 $A$에 대하여 $P(A) = 0$ $\longrightarrow$ 사건 $A$가 반드시 발생하지 않는다고 확신함.
        - 사건 $A$에 대하여 $P(A) = 1$ $\longrightarrow$ 사건 $A$가 반드시 발생한다고 확신함.
    - **북극의 빙하가 이번 세기말까지 다 녹아 없어진다.**
        - 여러번 반복할 수 없는 사건이지만, 우리는 북극의 빙하가 녹아 없어지는 확률을 계산하고 싶을 수 있다.
        - 위 statement에 대한 초기 믿음을 계량화 한 것을 $P(A_0)$라고 하자.
        - 만약 우리가 새로운 증거 (북극에 대한 인공위성 관측)를 통해 우리의 믿음을 업데이트할 수 있다. $P(A_1)$
        - 이러한 방식으로 우리는 새로운 증거를 바탕으로 우리의 믿음의 정도를 계속해서 조정해 나갈 수 있다.
            - let $\mathcal{D}$은 관측된 데이터(observed data) 
            - $P(\mathbf{w})$은 사건 $A$의 사전확률분포 ($A_0$)
            - $P(\mathbf{w}|\mathcal{D})$은 사건 $A$의 사후확률분포 ($A_1$)
            - $$P(\mathbf{w}|\mathcal{D}) = {P(\mathcal{D}|\mathbf{w})P(\mathbf{w}) \over P(\mathcal{D})}$$
            


- 사건 $A$에 대한 우리의 (기본적인) 믿음의 양을 $P(A)$로 표현하고, 이 믿음의 양을 **사전확률**이라고 정의함.
- 증거 $X$가 주어졌을 때, 사건 $A$의 확률은 $P(A|X)$로 표현하고 증거를 통해 업데이트된 우리의 믿음을 계량화한 것임. 업데이트된 믿음의 양을 **사후확률**이라고 함.
- 우리는 새로운 증거 $X$를 본 후에 이전의 믿음을 완전히 버리는 것이 아닌, 새로운 증거를 포함해 **사전확률**을 재계산한다.
- 사건에 사전적인 불확실성을 도입하는 것은 우리의 추측이 잠재적으로 틀릴 수 있음을 인정하는 것이다.
    - 데이터, 증거, 기타 정보를 통해 우리의 믿음을 업데이트하면, 우리의 추측은 덜 틀리게 되고, 궁극적으로 좀 더 정확한 추론을 가능하게 한다.

### 1.1.2 실제 베이지안 추론
- 프로그래밍 관점에서 빈도주의자와 베이지안의 비교
    - 빈도주의자는 함수의 리턴으로 **요약통계**와 **추정결과**를 반환함.
        - [input] 내 코드는 X 테스트를 모두 통과함. 내 코드에 버그가 없는가?
        - [return] YES, 요약통계 p-value = 0.001
    - 베이지안은 함수의 리턴으로 **확률**을 반환함.
        - [input] 내 코드에는 종종 버그가 있다. 내 코드는 X 테스트를 모두 통과함. 내 코드에 버그가 없는가?
        - [return] {"Yes" : 93%, "No" : 7%}
        - 이러한 부분이 베이지안을 딥러닝과 함께 사용하기 좋은 점인 것 같음. 
        - "내 코드에는 종종 버그가 있다."라는 사전확률을 수용함.

**증거 포함하기**
- 우리는 더 많은 증거를 모을수록 우리의 사전 믿음은 새로운 증거에 의해 희석된다.
    - 수학적으로 데이터를 통해 계속적으로 사후분포 추정하는 것.
- 증거의 갯수(데이터)가 무한히 많아지면 빈도주의자와 베이지안의 추론 결과는 일치해진다.
- 증거의 갯수가 적을 때, 추론은 훨씬 불안정해지는데, 베이지안은 이러한 상황에서 빈도주의자들보다 더 뛰어나다.
    - 사전확률을 도입하고 확률을 반환함으로써, 불확실성을 유지함. 
- 표본의 크기가 아무리 크더라도 우리는 필터링을 통해 소규모 그룹에 대한 비교 분석을 계속해서 진행함. 즉, 표본의 크기는 결코 크지 않다.

### 1.1.3 빈도주의자의 방법이 틀렸나?
- NO!
    - 빈도주의자들의 방법은 여전히 강력함. (e.g. LASSO Regression, EM 알고리즘)
    - 베이지안 방법은 이러한 방법이 해결하지 못하는 문제를 풀거나 더 유연한 모델링으로 현재 시스템을 보완하는데 사용할 수 있다.

### 1.1.4 빅데이터에 대한 논의
- 빅데이터의 예측 분석 문제는 상대적으로 간단한 알고리즘으로 해결됨.
- 빅데이터의 어려움은 engineering적인 문제임.
- 더 어려운 분석 문제는 미디엄 데이터, 스몰 데이터에 대한 문제다.
    - 베이지안은 이러한 문제들을 해결하는데 매우 좋은 도구임.

---

## 1.2 베이지안 프레임워크

- **베이즈 정리**
    - 사전 믿음 (사전확률분포)
    - 증거 (관측된 데이터)
    - 믿음의 업데이트 (사후확률분포)
    - 위 세 조건에 대한 관계식이 바로 **베이즈 정리**임.
- 베이지안 추론은 단순히 사전확률과 사후확률을 연결하기 위해서 베이즈 정리를 사용함.

### 1.2.1 예제: 동전 던지기
**문제 상황**
- 실제 앞면이 나올 확률이 존재한다고 믿고 있으나, 앞면이 등장할 확률 $p$에 대한 사전적인 견해가 없다.
- 실제 동전을 던지고, 앞면과 뒷면의 관측 결과를 기록한다.

> 점점 더 많은 동전을 던지고 관측할수록 $p$에 대한 우리의 추론은 어떻게 변하는가?

### 1.2.2 예제: 사서일까? 농부일까?

## 1.3 확률분포

## 1.4 컴퓨터를 사용하여 베이지안 추론하기