# Bayesian Inference

통계적 추론 방법의 하나로 기존의 사전 지식(사전 확률)과 새로운 데이터를 결합하여 관심 있는 변수나 사건의 사후 확률을 추정하는 방법. Bayes’ theorem을 기반으로 하여 새로운 정보가 주어질 때마다 확률을 갱신하여 더욱 정확한 추론을 가능하게 한다.

BI에서의 파라미터는 분포의 형태나 성질(평균, 분산 등)을 결정하는 값이 아닌 특정 사건이나 조건을 모형의 파라미터로 취급할 수 있다.
## Bayesian theorem
두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리. 
사전 확률로부터 사후 확률을 구할 수 있다는 Bayesian probability의 해석에 근거한다.

이는 세계에서 일어나는 사건들은 결과만이 주어져 있을 뿐 그것의 원인이 되는 확률 변수나 사건들의 확률 분포가 명확하지 않은 경우가 대부분인데 이에 매우 유용하다.
어떠한 사건에 대한 가설을 설정하고 베이즈 확률론을 통해 그 가설이 참일 가능성(가능도)을 계산할 수 있다. 

이는 연역적 추론에 기반한 전통적인 확률 계산인 일어날 수 있는 모든 경우의 수를 알고 있는 상태에서 특정한 조건의 사건이 일어날 경우의 빈도를 계산하는 고전적인 확률의 정의가 아닌 귀납적, 경험적인 추론에 기반한 확률. 

즉, 어떠한 사건이 일어날 것이라는 합리적 기대의 척도로 해석한다. 따라서 어떠한 지식에 대한 신뢰나 논리적 추론의 결과로 해석된다.
## 사전 확률
어떤 증거를 고려하기 전에 해당 양에 대해 가정하는 확률 분포이다. 예를 들어 미래 선거에서 특정 정치인에게 투표할 유권자의 상대적 비율을 나타내는 것과 같이 불확실한 양이다.

즉 사전 확률이란 결국 그 확률의 추론 과정이 굳이 명확하지 않다. 이는 여러 정보들에 대한 사람의 다소 주관적인 신뢰의 차이들로 구성된 개인의 어떤 조건 하의 사건에 대한 믿음의 정도이기 때문이다.

따라서 베이즈 정리에 따라 새로운 데이터를 고려하여 사전 확률과 우도를 결합하여 계산된 사후 확률은 사전 확률의 갱신으로 이해될 수 있다. 

사전 확률을 구성하고 있는 데이터의 분산의 크기와 정보량에 따라 사전 확률의 세기가 결정되어 강한 사전 확률을 가지고 있는 경우 새로운 정보로 갱신되는 사후 확률의 변동이 적어진다.

weakly informative priors는 변수에 대한 추정 범위를 느슨하게 설정하는 것으로 정규화의 기능이 있다.

**불확실성 하에서 의사 결정 문제를 수학적으로 다룰 때 중요하게 사용된다.**

## 확률 분포
![image.png](attachment:image.png)
1. 균등 분포
    
    $f(x) = U(a,b) = \begin{cases} \frac{1}{b-a}, & \text{if } a \leq x \leq b \\ 0, & \text{otherwise} \end{cases}$
    
    - 모든 가능한 값에 대해 같은 확률을 할당하며, 비정보적 사전 확률로 사용된다.
    - 데이터에 대한 선험 정보가 없거나, 모든 값이 동등하게 가능하다고 가정할 경우. ex. 주사위 던지기, 
    - 파라미터: a (최소값), b (최대값). 모든 값이 동일한 확률을 가지며, a와 b 사이에서 균등하게 분포된다.        
![image-2.png](attachment:image-2.png)
2. 정규 분포
    
    $f(x)=N(\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
    
    - 데이터가 평균과 분산을 중심으로 정규 분포를 따를 것이라고 가정할 때
    - 연속형 데이터로, 중앙값을 중심으로 대칭적인 분포가 예상될 때. ex. 사람들의 키, 시험 점수. 사회적 현상, 자연 현상.
    - 파라미터: μ (평균), σ² (분산). 분포의 중심 위치를 μ가 결정하고, σ²가   분포의 퍼짐 정도를 결정한다.     
![image-3.png](attachment:image-3.png)
3. 베타 분포
    - $f(x)=Beta(α,β)=\frac{x^{α−1}(1−x)^{β−1}} {B(α,β)}, 0<x<1$
        
        $B(α,β)=∫^1_0x^{α−1}(1−x)^{β−1}dx$
        
        $B(α,β)=B(β,α) (Symmetric)$
        
        $B(α,β)=\frac{Γ(α)Γ(β)}{Γ(α+β)}$
        
        $\alpha=\beta$인 경우, $x=\frac{1}{2}$을 중심으로 좌우 대칭이 된다.
        
        $\alpha < \beta$이면 오른쪽으로, $\alpha > \beta$이면 왼쪽으로 치우치게 된다.
        
        $\alpha, \beta$가 양의 정수이고, $n = \alpha + \beta - 1$일때, 확률 변수 X는 $\alpha, \beta$인 베타 분포를 따르고 확률 변수 Y는 성공률 p의 n회 시행인 이항 분포를 따르면, $P(X≤p)=P(Y≥α)$이다.
        
    - 사건의 확률이 [0, 1] 내에서 어떻게 분포되는 지를 보여준다. 매개변수의 신뢰도를 반영할 수 있다.
    - 대표적으로 성공-실패와 같은 이항 사건의 사전 확률 분포를 설정할 때 유용하다.  ex. 성공률 추정
    - 파라미터: α, β. [0, 1] 구간에서 확률을 모델링하며, α와 β가 분포의 모양을 결정합니다. 성공 확률의 신뢰도를 표현할 때 주로 사용된다.      
![image-4.png](attachment:image-4.png)
4. 감마 분포
    - $f(x)=GAM(α,β)=\frac{1}{βαΓ(α)}x^{α−1}e^{-\frac{x}{β}},x>0$
        
        # $Γ(α)=\int^{∞}_{0}x^{α−1}e^{−x}dx$
        
        $\alpha > 1$일 때, $r(α)=(α−1)Γ(α−1)$
        
        $Γ(1)=1$
        
        $Γ(n)=(n−1) !$
        
        $Γ(12)=√π$
        
    - 일정 간격 동안 발생 횟수의 평균 $\frac{1}{\beta}$이 주어질 때 $\alpha$번째 사건이 일어나기까지 걸리는 시간의 확률 분포. 지수 분포를 일반화한 것이다.
    - 포아송 분포의 사전 확률로 사용되며, 사후 확률 추정에 유리하다.
    - 파라미터: α (형상 파라미터), β (비율 또는 스케일 파라미터). 연속적인 양수 값에 대해 확률을 할당하며, α가 커질수록 그래프는 종 모양에 가까워지고, β가 커질수록 더 퍼지는 형태를 띄게된다.
        
        $\alpha=\frac{\nu}{2}, \beta=2$일때 이 분포는 자유도가 $\nu$인 카이 제곱 분포를 따르게 된다. 카이제곱 분포는 모분산을 구할 때, 적합도 검정을 할 때, 독립성/동질성 검정 등 범주형 자료분석을 할 때 쓰인다.
![image-5.png](attachment:image-5.png)    
5. 디리클레 분포
    - 다차원 확률 변수의 사전 확률로 사용, 카테고리 값들의 확률을 모델링할 때 적합하다.
    - 여러 개의 범주형 데이터에 대한 사전 확률을 설정할 때. 다항 분포나 다중 카테고리 분포의 사전 분포로 사용된다.
    - 파라미터: $α_i$ (각 범주에 대한 파라미터). 여러 카테고리에 대한 확률을 동시에 모델링할 때 사용되며, 각 $α_i$가 개별 카테고리의 중요도를 조정한다.
![image-6.png](attachment:image-6.png)
1. 포아송 분포
    - 특정 시간 동안 사건 발생 횟수를 모델링할 때 사용된다. 
    - 카운트 데이터(ex. 시간당 사건 발생 횟수) 모델링에 유리하다.
    - 파라미터: λ (평균 발생률). 단위 시간당 사건 발생 횟수를 나타내며, λ는 일정 시간 동안의 평균 사건 발생 횟수를 결정한다.
![image-7.png](attachment:image-7.png)
1. 지수 분포
    
    $f(x)=\text{Exp}(\beta)=\frac{1}{\beta}e^{-\frac{x}{\beta}}$
    
    - 사건 간의 시간 간격을 모델링할 때 사용한다. $\alpha=1$인 특수한 감마분포
    - 연속적인 사건 간의 시간 간격이나 대기 시간을 표현할 때 사용된다.
    - 파라미터: λ (평균 발생률). 사건 사이의 대기 시간을 모델링하는 데 사용되며, λ는 특정 사건의 단위 시간당 평균 발생률을 나타낸다. 소요시간 평균 값 $\beta$와 평균 발생 횟수 $\lambda$는 역수 관계이다. $\beta = \frac{1}{\lambda}$
![image-8.png](attachment:image-8.png)
1. 제프리 사전 확률
    - 정보가 거의 없거나 데이터의 스케일에 불변성을 부여하고자 할 때 사용된다. 비정보적 사전확률.
    - 모델에 대한 비편형적인 사전 확률을 설정할 때. ex. 위치 추정, 분산 추정
    - 파라미터: 없음 (문제의 정보 구조에 따라 비정보적 분포로 사용됨). 매개변수의 스케일에 대한 불확실성을 반영하며, 일반적으로 특정 문제에 대한 불변성을 유지하도록 설계된다.
![image-9.png](attachment:image-9.png)
1. 위블 분포
    - 고장률이나 생존 분석에서 자주 사용된다.
    - 제품의 수명 분포나 대기 시간 분석에 적합하다.
    - 파라미터: k (형상 파라미터), λ (스케일 파라미터). 고장률이나 생존 기간을 모델링하며, k가 분포의 꼬리 모양을, λ가 시간 스케일을 조정한다.
![image-10.png](attachment:image-10.png)
10. 학생 분포
    - 정규 분포와 유사하지만 꼬리가 더 두꺼워 이상치에 강인한 분포.
    - 평균 추정 시 이상치를 포함할 가능성이 있을 때 정규 분포 대신 유용하다.
    - 파라미터: ν (자유도). 평균에 대한 신뢰도를 나타냅니다. 자유도 ν가 작을수록 분포의 꼬리가 두꺼워져 이상치에 더 강인해진다.

## 우도 함수

관측된 데이터가 모델의 파라미터(평균, 분산, 분포, etc.)와 어떻게 관련되는 지를 보여주는 함수로 데이터 자체가 특정 파라미터를 더 설명할 수 있는 경우, 우도 함수는 특정 값들이 더 가능성이 높다는 정보를 제공하게 된다.

예를 들어 관측된 데이터가 어떤 평균 근처에 밀집되어 있다면 우도 함수는 특정 파라미터, 그 평균 값과 낮은 분산 값의 파라미터가 더 가능성이 높다는 정보를 제공한다. 따라서 우도 함수는 데이터가 가지고 있는 정보를 반영한다.

### 최대 우도 추정(MLE)

주어진 데이터에 가장 잘 맞는 모델의 파라미터 값을 추정하는 방법.

## Uninformative priors

정보가 거의 없는 사전 확률, 주관적으로 추정되지 않은 객관적 사전 확률(이를테면 변수가 양수 or 특정 한계보다 작다같은 객관적 정보로 표현되는)로 변수에 대해 모호하거나 일반적인 정보를 나타낸다.

이는 분석자가 특정 값에 대한 강한 믿음이나 정보를 갖고 있지 않다는 상황을 의미하므로 모든 가능한 경우에 대해 동일하거나 매우 약한 확률을 할당한다.

이로 인해 새로운 데이터의 영향력이 더욱 크게 작용하므로 이런 상황에서의 베이지안 분석의 사후 확률은 거의 우도 함수를 따르므로 최대 우도 추정과 같은 전통적 분석과 유사한 결과를 제공한다. 

이런 사전 정보가 거의 없는 불확실성 상태의 본질에 의해 논리적으로 요구되는 확률 분포를 찾으려는 시도인 객관적이고 비정보적인 사전 확률을 설정하는 주류 방식은 Jeffreys 사전 확률과 최대 엔트로피 원칙(MAXENT)이다.

## Jeffreys 사전 분포:
    

$$
I(\theta) = E\left[-\frac{\partial^2}{\partial\theta^2} \log L(\theta|y)\right]
$$

- Jeffreys 사전분포는 이 매개변수 $\theta$에 대한 Fisher 정보 행렬의 **determinant**의 제곱근을 기반으로 설정된다.

 

$$
p(\theta) \propto \sqrt{\det I(\theta)}
$$

이 정의는 데이터가 제공하는 정보량을 매개변수 공간에 균일하게 분포시켜 Uninformative priors로 사용될 수 있다.

Jeffreys 사전분포의 핵심 특징인 매개변수 변환에 대해 불변성을 유지한다는 특징은 매개변수 $\theta$를 $\phi = f(\theta)$로 변환해도, 해당 분포가 동일한 형태를 유지한다는 의미이다. 즉, Jeffreys 사전분포를 통해 추정한 확률 분포는 어떤 변환이 적용되더라도 일관성을 유지한다.

예시)

정규 분포 예시:

정규 분포 y ~ N(0, σ²)에서, 모수 σ에 대한 Jeffreys 사전분포를 계산해보면

$$
\log L(y|\sigma) \propto -\frac{y^2}{2\sigma^2}
$$

$$
\frac{\partial}{\partial\sigma} \log L(y|\sigma) \propto \frac{y^2}{\sigma^3}
$$

$$
\frac{\partial^2}{\partial\sigma^2} \log L(y|\sigma) \propto -\frac{y^2}{\sigma^4}
$$

$$
I(\sigma) = \frac{3}{\sigma^2}
$$

으로 Jeffrey 사전분포는 다음과 같이 된다.

$$
p(\sigma) = \sqrt{I(\sigma)} \propto \frac{1}{\sigma}
$$

매개변수를 $\phi = \sigma^2$로 변환할 경우

$$
σ = \sqrt{\phi}
$$

이고

$$
\frac{\partial \sigma}{\partial \phi} = \frac{1}{2\sqrt{\phi}}
$$

$$
\frac{\partial \phi}{\partial \sigma} = 2\sigma
$$

- **변수 변환 기법**을 통해 p(φ)를 구하면

$$
p_{\phi}(\phi) = p_{\sigma}(\sqrt{\phi}) \cdot \left|\frac{\partial \sigma}{\partial \phi}\right| \propto \frac{1}{\sqrt{\phi}} \cdot \frac{1}{\sqrt{\phi}} = \frac{1}{\phi}
$$

으로 매개변수가 변환되더라도 동일한 형태의 사전분포를 얻을 수 있다.

이는 Fisher 정보를 기반으로 한 비정보적 사전 분포로 데이터가 주어지지 않은 경우에도 효과적으로 사용할 수 있다.

최대 엔트로피 원칙(MAXENT):

주어진 제약 조건 하에서 가능한  확률 분포 중 엔트로피가 최대인 분포를 선택하는 방법론. 주어진 정보 외에 추가적인 가정을 최소화하여 가장 무지한 상태를 유지하는 분포(불확실성을 최대화하는)를 찾는 데 사용된다. 

이를 통해 불필요한 편향을 비하고 데이터에 충실한 모델링을 가능하게 한다.

## 사후 확률

베이즈 정리를 적용하여 가능도에 의해 요약된 정보로 사전 확률을 업데이트하여 얻어지는 조건부 확률의 한 유형.

증거 X가 주어진 매개변수 $\theta$의 확률을 의미하며 p(θ|X)으로 표기된다.

이는 

$$
p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}
$$

으로 정의되며 $p(\theta)$는 매개변수의 사전 확률 분포이고 $p(x|\theta)$는 매개변수 $\theta$가 주어졌을 때 관측 x가 일어날 가능도를 의미하고 $p(x)$는 Evidence x로 관측 데이터 x에 대해 매개변수 $\theta$가 가지는 모든 가능한 값에 대한 정보가 포함된 확률인 데이터 x의 전체 확률이다. 정규화 상수라고도 하며 사후 확률을 정규화하여 확률이 1이 되도록 만드는 역할을 한다.

따라서

$$
p(x) = \int p(x|\theta)p(\theta)d\theta
$$

로 정의된다.

이런 정의에 의해 사후 확률은 사전 확률의 곱에 비례한다.

예시

학교에 학생의 60%가 남학생이고 40%가 여학생일 때 여학생은 바지와 치마를 동일한 비율로 입고 모든 남학생을 바지를 입는다. 

이 경우 한 학생을 관찰했을 때 바지를 입고있었다. 이 때 이 학생이 여학생일 확률은 얼마인가?

p(여학생|바지) = p(바지|여학생)p(여학생)/p(바지)

p(바지|여학생)=0.5

p(여학생)=0.4

p(바지)=0.6+0.2=0.8

따라서 p(여학생|바지) = 0.2/0.8 = 0.25

여러 확률 변수를 가지는 경우 한 확률 변수가 다른 변수의 값을 가졌을 때의 사후 확률 분포는 사전 분포에 가능도 함수를 곱하고 evidence로 나누어 계산할 수 있다.

$$
f_{X|Y=y}(x) = \frac{f_X(x)L_{X|Y=y}(x)}{\int_{-\infty}^{\infty} f_X(u)L_{X|Y=y}(u)du}
$$

사후 확률은 사후 확률의 신뢰 구간을 제공함으로써 무작위 변수에 대한 불확실성을 요약하는 것이 중요하다.

---
## 용어 설명

### Fisher 정보 행렬
$I(\theta)$는 Fisher 정보 행렬로 매개변수 $\theta$에 대한 로그 가능도 함수를 두번 미분한 값의 음의 기댓값으로 정의되며 이는 파라미터 공간에서 로그 가능도 함수의 곡률을 나타내어 곡률이 클수록 해당 파라미터에 대한 정보가 많음을 의미한다.

또한 피셔 정보 행렬은 다변량 정규분포의 공분산 행렬과 유사한 역할을 하여 파라미터들 간의 상관관계를 나타내며 이를 통해 파라미터 추정의 정확도를 평가할 수 있다.

### determinant
매개변수 공간에서의 정보 밀도를 나타낸다. 특정 매개변수 값 주변에서 데이터가 제공하는 정보의 양을 측정하는 지표로 매개변수 추정의 민감도를 반영한다. 피셔 정보 행렬의 행렬식이 클수록 해당 매개변수 값 주변에서 데이터가 더 많은 정보를 제공함을 의미한다.

### 변수 변환의 원리
    
확률 밀도 함수 p(θ)에서 변수 θ를 ϕ=g(θ)와 같은 새로운 변수로 변환할 때, 확률의 총합이 일정하게 유지되도록 밀도를 재조정해야 한다.

### 주요 아이디어: 확률 보존의 원칙

변환 전후에 **확률이 보존**되어야 한다. 즉, 작은 구간 θ에서의 확률과 이에 대응하는 ϕ의 구간에서의 확률이 동일해야 하므로

변수 θ의 값이 작은 구간 [θ, θ+dθ]에 있을 확률은 pθ(θ)⋅dθ, 새로운 구간 dϕ에서의 확률은 pϕ(ϕ)⋅dϕ이다.

변환 전 확률과 변환 후 확률이 같아야 하므로,

$$
p_{\theta}(\theta) \cdot d\theta = p_{\phi}(\phi) \cdot d\theta
$$

$$
p_{\theta}(\theta) \cdot d\theta = p_{\phi}(\phi) \cdot \frac{d\phi}{d\theta} \cdot d\theta
$$

이므로

$$
p_{\phi}(\phi) = p_{\theta}(\theta) \cdot \left|\frac{d\theta}{d\phi}\right|
$$

이다.