# [ 0. 조건부 확률 ]
- 베이즈룰의 기본이 되는 조건부 확률

- 일반적으로 사건 A가 일어났을 때 사건 B의 조건부확률은 다음과 같다.
\begin{align}
P(B|A) = \frac{n(A \cap B)}{n(A)}
\end{align}

<img src = "https://i.esdrop.com/d/f/s6N1SDUxar/S0Y9eIhOdI.jpg" width=800 />

- 참고 : http://www.estat.me/estat/eLearning/kr/eStatU/chapter05.html

## Example 1 : ADP 25회
남성, 여성의 등산, 수영에 대한 취미 선호도 빈도표(2x2)를 보고, 남성 중에서 등산을 좋아할 확률을 구하시오.
<img src="https://github.com/Datamanim/datarepo/blob/main/adp/25/problem3_3.png?raw=true" width=200/>

In [15]:
import pandas as pd

df_swim = pd.DataFrame([[20, 10], [15,30]],
                       index = ["남자", "여자"],
                       columns = ["등산", "수영"])
df_swim

Unnamed: 0,등산,수영
남자,20,10
여자,15,30


In [16]:
male_hiking_count = df_swim.loc["남자", "등산"]
total_male_count = df_swim.loc["남자"].sum()

probability_male_hiking = male_hiking_count / total_male_count

print("남성 중 등산을 좋아할 확률:", probability_male_hiking)

남성 중 등산을 좋아할 확률: 0.6666666666666666


---

# [ 1. 베이즈룰 ]

- 두 확률변수의 사전확률과 사후확률 사이의 관계를 나타내는 정리

<img src ="https://i.esdrop.com/d/f/s6N1SDUxar/3ksQ37It3Q.jpg" width=700 />

## Example 1 : ADP 29회 
L1,L2,L3 세 개의 생산라인에서 각각 13%, 37%, 50%를 생산하며 각각 1.1% , 2.1%, 3.3% 불량률을 갖는다. 불량 제품이 나왔을 때 L1 라인에서 생산되었을 확률을 구하시오. (소수점 둘째자리에서 반올림)

In [11]:
# 주어진 확률
l1 = 0.13
l2 = 0.37
l3 = 0.50

ratio_l1 = 0.011
ratio_l2 = 0.021
ratio_l3 = 0.033

# 불량 제품이 나올 확률
ratio_t = ratio_l1 * l1 + ratio_l2 * l2 + ratio_l3 * l3

# 베이즈 정리를 사용하여 P(L1|불량) 계산
l1_ratio_t = (ratio_l1 * l1) / ratio_t
result = round(l1_ratio_t, 2)
print(result)

0.06


## Example 2 : ADP 24회
바이러스 감염 분류표를 보고 베이지안 분류 방법을 사용해 양성으로 예측된 사람이 실제로 양성일 확률을 구하라. (유병률 0.01)

<img src ="https://i.esdrop.com/d/f/3uJKEwVXJL/qCn5px1ydX.jpg" width=800/>

In [4]:
import pandas as pd

data = pd.DataFrame([[370, 10], [15,690]],
                    index = ["예측_양성", "예측_음성"],
                    columns=["실제_감염", "실제_비감염"])
data

Unnamed: 0,실제_감염,실제_비감염
예측_양성,370,10
예측_음성,15,690


In [5]:
pro_a_and_b = ((1/100) * (370/385))
print(pro_a_and_b)

pro_b =  ((1/100) * (370/385)) + ((99/100) * (10/700))
pro_a_bar_b = pro_a_and_b / pro_b
print(pro_a_bar_b)

0.00961038961038961
0.4045926735921268


In [6]:
tp = 370
fn = 15

fp = 10
tn = 690

disease_rate = 0.01

result = (tp/(tp + fn)) * disease_rate/((tp/(tp +fn)) * disease_rate + ((fp/(tn+fp)) * (1 - disease_rate)))
print(result)

0.4045926735921268


## Example 3
<img src ="https://i.esdrop.com/d/f/s6N1SDUxar/gMOiLhDW15.jpg" width=800 />

---

# [ 2. 베이지안 회귀 ]

- 베이지안 회귀분석은 베이즈룰을 기반으로 하는 통계적 모델링 방법
- 베이즈룰 : 두 확률변수의 사전확률과 사후확률 사이의 관계를 나타내는 정리

</br>

- **확률론적인 방법**을 이용하여 회귀분석을 수행하는 방법
- 베이지안 회귀는 베이즈 정리를 기반으로 사전 확률분포에서 MCMC기법에 의해 선정된 관측값을 반영하여, 사후 확률분포를 추산하는 방식
- 모든 관측값이 반영되었을 때 새로운 값 관측값(unobserved data) x에 대한 출력값 y를 확률 분포에 의해 결정할 수 있는 **예측 분포(Prodictive distribution)를 만드는 모델**

## 베이지안 회귀분석의 흐름
> 
> 
> 1) 베이지안 회귀분석에서는 모델 파라미터들의 값이 어떤 분포를 따르는지를 나타내는 사전 분포(prior distribution)를 이전 경험이나 지식에 기반하여 먼저 정의
> 
> → 만약 문제가 출제 된다면 사전 분포를 미리 정의해줄 것임 (26회 기출처럼)
> 
> 2) 데이터를 관측하여 이 사전 분포를 업데이트한 사후 분포(posterior distribution)를 추정
> 
> 3) 추정된 사후 분포를 통해 불확실성을 고려한 예측 분포(predictive distribution)를 계산
>

## 장점 : 불확실성 고려

- 베이지안 회귀분석에서는 사전분포를 설정함으로써, 회귀계수에 대한 불확실성을 추정 가능
- 미래 데이터에 대한 예측분포(predictive distribution)를 추정할 수 있어 **불확실성을 고려한 예측을 수행할 수 있음**


### 🔎 불확실성을 고려한다는 의미는 무엇일까?

- 베이지안 회귀분석은 **추정한 파라미터(모델 계수)가 실제 값과 어느 정도의 오차 범위 내에 존재할 가능성이 있는지를 확률적으로 계산**하여, 이러한 **추정 결과를 확률 분포 형태로 나타내기 때문에 추정한 값이 가질 수 있는 불확실성을 표현**할 수 있음
- 단순 회귀분석에서는 독립 변수의 값이 주어지면 종속 변수의 값이 단 하나의 값으로 결정되는 것과 달리, 베이지안 회귀분석에서는 미래 데이터에 대한 예측 분포를 추정함으로써 불확실성을 반영
- 즉, 점추정 방식의 단순 회귀와는 다르게 베이지안 방법론에서는 ‘평균이 4, 어떤 분산으로 되어있는 정규분포로 파라미터가 분포되어있다’고 말하며 **확률분포를 따짐**

## 마르코프 체인 몬테카를로법 (MCMC)

- 베이지안 회귀분석에서 **사후 분포를 추정하는 데에 사용되는 기법**
- MCMC : 마르코프 체인 + 몬테카를로 합친 알고리즘
    - 마르코프 체인 : 어떤 상태가 바로 이전 상태의 결과에 영향을 받는 상황을 의미
    - 몬테카를로 : 무작위 샘플링을 의미
- 초기값(initial value)을 기반으로 사후 분포를 추정하며, 이 때 생성된 샘플은 이전 샘플 값에 의존
- 이전 샘플에서 시작해 천천히 샘플 공간을 탐색하며, 목표 분포에 수렴할 때까지 샘플링을 수행
- MCMC 알고리즘을 통해 얻은 샘플은 사후 분포의 모양을 나타내며, 이를 통해 모델 파라미터의 불확실성을 추정할 수 있음

## Example 1 : ADP 26회

height(키), weight(몸무게), waist(허리둘레) 컬럼을 가진 problem7.csv파일을 가지고 다음을 분석하라      
A시의 20대 남성 411명을 임의로 추출하여 키, 몸무게, 허리둘레를 조사하여 기록한 데이터이다.         
이 데이터를 이용하여 20대 남성의 키와 허리둘레가 체중에 영향을 미치는지 알아보고자 한다.     

- 데이터 url :https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/problem7.csv

아래 조건을 참고하여 회귀계수(반올림하여 소수점 두자리)를 구하시오.    
- 베이지안 회귀   
- 시드넘버 1234로 지정
- 1000번의 burn-in 이후 10,000의 MCMC를 수행
- 회귀계수의 사전분포는 부적절한 균일분포(improper uniform prior distribution), 오차항의 분산의 사전분포는 역감마 분포로 지정. 이때, 형상(Shape)모수와 척도(Scale)모수는 각각 0.005로 지정.

참고
- 베이지안 회귀가 아닌 다른 회귀로 충분히 해결할 수 있지만, ADP 난이도와 합격률 유지를 위해 본 문제같은 어려운 문제들이 등장하는 추세
- 이런 통수치는 문제들은 `help()`를 적극적으로 이용할 것
    - 반드시 import 후에 help 사용 가능
    - 문제에서 주어진 조건(옵션)들을 활용할 수 있는 함수를 찾기

```R
data <- read.csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/problem7.csv")

library(rjags)
library(runjags)

model_string <- "
model {
  # Define variables
  for (i in 1:n) {
    y[i] ~ dnorm(mu[i], tau)
    mu[i] <- beta[1] + beta[2]*x1[i] + beta[3]*x2[i]
  }
  beta[1] ~ dunif(-1000, 1000)  # Improper uniform prior
  beta[2] ~ dunif(-1000, 1000)  # Improper uniform prior
  beta[3] ~ dunif(-1000, 1000)  # Improper uniform prior
  tau ~ dgamma(0.005, 0.005)    # Inverse gamma prior
}
"

# Set seed
set.seed(1234)

# Prepare data
data_jags = list("x1" = data$height,
                 "x2" = data$waist,
                 "y" = data$weight,
                 "n" = nrow(data))

# Run MCMC
jags_model <- jags.model(textConnection(model_string),
                         data = data_jags,
                         n.chains = 3)
update(jags_model, 1000)
samples <- coda.samples(jags_model, variable.names = c("beta", "tau"), n.iter = 10000)

summary(samples)
```

```R
# Output

Compiling model graph
   Resolving undeclared variables
   Allocating nodes
Graph information:
   Observed stochastic nodes: 411
   Unobserved stochastic nodes: 4
   Total graph size: 1736

Initializing model

  |++++++++++++++++++++++++++++++++++++++++++++++++++| 100%
> update(jags_model, 1000)
  |**************************************************| 100%
> samples <- coda.samples(jags_model, variable.names = c("beta", "tau"), n.iter = 10000)
  |**************************************************| 100%
> summary(samples)

Iterations = 2001:12000
Thinning interval = 1 
Number of chains = 3 
Sample size per chain = 10000 

1. Empirical mean and standard deviation for each variable,
   plus standard error of the mean:

            Mean      SD  Naive SE Time-series SE
beta[1] -26.5886 8.75340 0.0505378        3.03867
beta[2]   0.4824 0.27197 0.0015702        0.07157
beta[3]   0.2143 0.54911 0.0031703        0.12431
tau       0.2491 0.05628 0.0003249        0.01122

2. Quantiles for each variable:

            2.5%      25%      50%      75%   97.5%
beta[1] -42.7128 -32.2536 -26.5532 -19.8254 -9.5844
beta[2]  -0.1515   0.3367   0.5501   0.6677  0.8695
beta[3]  -0.5297  -0.2884   0.1777   0.4790  1.3939
tau       0.1316   0.2135   0.2567   0.2912  0.3410
```

```R
# 7-2 문제 해답
키가 180cm이고 허리둘레가 85cm인 남성의 몸무게를 추정하려면 다음과 같이 계산

mu = beta[1] + beta[2]180 + beta[3]85
mu = -26.59 + 0.48180 + 0.2185
mu = 74.14

따라서 추정된 몸무게는 약 74.14kg
```