# Naive Bayes

## 확률의 개념
### 확률
특정한 사건이 일어날 가능성

### 조건부 확률
어떤 사건 A가 일어났을 때 다른 사건 B가 일어날 확률
$P(B|A) = {P(A ∩ B) \over P(A)}$


### 독립
사건 A가 일어나는 것에 상관 없이 사건 B가 일어날 확률이 일정할 때
$P(A ∩ B) = P(A)P(B)$


### 조건부 독립
사건 C가 일어났을 때 서로 다른 사건 A, B가 독립일 때
$P(A, B|C) = P(A|C) = P(B|C)$

## 베이즈 정리
### 베이즈 정리의 수식
$P(B|A) = {P(A|B)P(B) \over P(A)}$

### 베이즈 정리를 통한 결과값 도출 예시
속도 -> 승패 데이터

|Speed(X)|Result(Y)|
|---|---|
|Fast|Win|
|Fast|Win|
|Slow|Lose|
|Slow|Lose|
|Fast|Lose|
|Slow|Win|
|Fast|?|

마지막 행의 결과를 Bayes 정리를 이용해 예측해보기
$P(Y = win) = {3 \over 5}$
$P(Y = lose) = {2 \over 5}$

$P(X = fast) = {3 \over 5}$
$P(X = slow) = {2 \over 5}$

$P(X = fast | Y = win) = {2 \over 3}$
$P(X = slow | Y = win) = {1 \over 3}$

$P(X = fast | Y = lose) = {1 \over 2}$
$P(X = slow | Y = lose) = {1 \over 2}$

<br/>
알고 있는 부분은 `X=Fast` 이므로 `X=Fast`일 때 `Y=win` 혹은 `Y=lost`의 확률을 알고싶음
$P(Y=win | X= fast) = {P(X=fast|Y=win)P(Y=win)\over P(X=fast)}$
$P(Y=lose | X= fast) = {P(X=fast|Y=lose)P(Y=lose)\over P(X=fast)}$

실제로 값을 넣어서 계산
$P(Y=win | X= fast) = {P(X=fast|Y=win)P(Y=win)\over P(X=fast)}$
$ = {2/3 \times 3/5 \over 3/5} = {2 \over 3}$
$P(Y=lose | X= fast) = {P(X=fast|Y=win)P(Y=lose)\over P(X=fast)}$
$ = {1/2 \times 2/5 \over 3/5} = {1 \over 3}$

`Y=win`의 확률이 더 높으므로 이겼을 것이라고 예측 가능


### 베이즈 정리의 한계
변수가 많아질 수록 계산량이 기하급수적으로 늘어남

|Speed(X1)|Condition(X2)|Weather(X3)|Result(Y)|
|---|---|---|---|
|Fast|Good|Hot|Win|
|Fast|Good|Hot|Win|
|Slow|Bad|Hot|Lose|
|Fast|Bad|Cold|Lose|
|Slow|Good|Cold|Win|
|Fast|Good|Hot|?|

위와 같이 변수가 많아지면 계산이 다음과 같음
$P(X = x | Y=y) = P(X1 = fast, X2=good, X3=hot | win$
$P(x=x| Y=y) for all x, y -> (2^d -1) k, d: 관측치 수, k: class 수$


계산량을 줄이기 위해서는 조건부 독립을 가정해야함
-> Y 가 주어졌을 때 각 변수의 조건부 독립값을 곱하여 계산
$P(X=x | Y=y) = P(X1=fast, X2=good, X3=hot | Y=win)$
$P(X=x | Y=y) = P(X1=fast|Y=win)P(X2=good|Y=win)P(X3=hot|Y=win)$


## Naive Bayes
- 종속 변수(Y)가 주어졌을 떄 입력 변수(X)들은 모두 조건부 독립
- 예측 변수들의 정확한 조건부 확률은 각 조건부 확률의 곱으로 충분히 잘 추정할 수 있다는 단순한 가정
- 데이터 셋을 순진하게 믿음 -> Naive Bayes

### 예시 데이터를 통해 Naive Bayes로 결과값 예측
데이터셋

|X1|X2|X3|Y|
|---|---|---|---|
|1|1|0|1|
|0|1|0|1|
|1|1|1|0|
|0|0|1|1|
|0|0|1|0|
|1|0|1|0|
|1|0|0|1|
|0|0|1|?|

#### X1=0, X2=0, X3=1일 때 Y=1일 확률
$P(y=1|X1=0, X2=0, X3=1) = P(X1=0|Y=1)P(X2=0|Y=1)P(X3=1|Y=1)P(Y=1)$
$P(X1=0|Y=1) = {2 \over 4}$
$P(X2=0|Y=1) = {2 \over 4}$
$P(X3=1|Y=1) = {1 \over 4}$
$P(Y=1)={4 \over 7}$

따라서
$P(y=1|X1=0, X2=0, X3=1) = P(X1=0|Y=1)P(X2=0|Y=1)P(X3=1|Y=1)P(Y=1) $
$= {2\over4} \times {2 \over 4} \times {1 \over 4} \times {4 \over 7} = {1 \over 28} = 0.036$

<br/>

#### X1=0, X2=0, X3=1일 때 Y=0일 확률
$P(y=0|X1=0, X2=0, X3=1) = P(X1=0|Y=0)P(X2=0|Y=0)P(X3=1|Y=0)P(Y=0)$
$P(X1=0|Y=0) = {1 \over 3}$
$P(X2=0|Y=0) = {2 \over 3}$
$P(X3=1|Y=0) = {1}$
$P(Y=0)={3 \over 7}$

따라서
$P(y=0|X1=0, X2=0, X3=1) = P(X1=0|Y=0)P(X2=0|Y=0)P(X3=1|Y=0)P(Y=0)$
$= {1\over3} \times {1 \over 3} \times {1} \times {3 \over 7} = {2 \over 21} = 0.095$

<br/>

**$P(y=0|X1=0, X2=0, X3=1)$ 값이 0.095로 0.036인 $P(y=1|X1=0, X2=0, X3=1)$보다 크므로 Y=0이라고 예측 가능**

### Laplace Smoothing
- count를 통해 계산하다보면 한 번도 나오지 않는 경우도 있을 수 있음
  - 확률이 0이 되는 것을 방지해야함
- 최소한의 확률을 정해주는 방식으로 해결

<최소 확률>
$P(x|c) = {count(x, c) + 1 \over \sum_{x ∈ v} count(x,c) + v}$ $v$=입력변수의 개수

### Naive Bayes 장단점
장점
- 변수가 많을 때 좋음
- 텍스트 데이터에서 큰 강점을 보임

단점
- 희귀한 확률이 나왔을 때 처리하기 힘듦
- 조건부 독립이라는 가정 자체가 비현실적