# 나이브 베이즈


## 13.1 바보 스팸 필터
메시지가 스팸인 경우를 $S$, 메시지에 '비트코인'이라는 단어가 포함되어 있는 경우 $B$라고 정의 \
메시지에 '비트코인'이라는 단어가 포함되었을 때(조건) 해당 메시지가 스팸일 확률 by. 베이즈 정리 

$P(S|B) = [P(B|S)P(S)] / [P(B|S)P(S) + P(B|-S)P(-S)]$

만약, 메시지가 스팸일 확률과 스팸이 아닐 확률이 동일($P(S) = P{-S) = 0.5$), 아래와 같이 정리할 수 있다.

$P(S|B) = P(B|S) / [P(B|S) + P(B|-S)]$

예를 들어 스팸 메시지 중 50%, 스팸이 아닌 메시지 중 1%만이 비트코인이라는 단어를 포함한다면, 비트코인이라는 단어를 포함하고 있는 메시지가 스팸일 확률은 

0.5 / (0.5 + 0.01) = 98%

## 13.2 조금 더 똑똑한 스팸 필터
더 많은 단어 ${w}_1, {w}_2, ..., {w}_n$이 주어졌다고 하고, 단어 ${w}_i$가 메시지에 포함되는 경우를 ${X}_i$로 나타내자. \
스팸 메시지에 i번째 단어가 포함되어 있는 확률인 $P({X}_i | S)$와 스팸이 아닌 메시지에 i번째 단어가 포함되어 있는 확률인 $P({X}_i | -S)$가 주여졌다고 해보자. \
나이브 베이즈(Naive Bayes)의 핵심은 **메시지가 스팸이나 아니냐가 주어졌다는 조건하에 각 단어의 존재(혹은 부재)는 서로 조건부 독립이다.** 라는 가정에 기반을 둔다. $\rightarrow$ 이를 직관적으로 이해하면, 어떤 스팸 메시지가 비트코인이라는 단어를 포함하고 있다는 점이 같음 메시지가 롤렉스라는 단어를 포함하고 있는지를 판단하는 데 도움을 주지 않는다는 것을 의미 

$\Rightarrow$ $P({X}_i = {x}_1,...,{X}_n = {x}_n | X) = P({X}_1 = {x}_1 | S) x ... x P({X}_n = {x}_n | S)$

나이즈(단순한) 베이즈라는 이름에서 알 수 있듯이, 나이브 베이즈는 너무 극단적인 가정을 한다. 예를 들어 사전에 수록된 단어가 비트코인과 롤렉스뿐이며, 모든 스팸 메시지의 반은 '비트코인을 얻으세요'에 관한 메시지이고, 나머지 스팸 메시지는 '정품 롤렉스'에 대한 메시지라고 해보자. 이러한 경우 나이브 베이즈는 스팸 메시지에 비트코인과 롤렉스라는 단어가 포함된 확률을 다믕과 같이 추정한다. 

$P({X}_1 = 1, {X}_2 = 1 | S) = P({X}_1 = 1|S) P({X}_2 = 1|S) = .5 x .5 = .25$

이 경우 비트코인과 롤렉스가 동시에 등장하지 않는다는 점을 무시하였다. 비록 말도 안 되는 가정으로 모델을 만들었지만 성능은 상당히 뛰어나며, 이는 실제 스팸 필터로 사용되어 왔다. \

'비트코인'이라는 단어만으로 스팸을 걸러내는 필터에서도 사용된 베이즈 정리를 통해 메시지가 스팸일 확률을 다음과 같이 계산할 수 있다. \

$P(S|X = x) = P(X = x|S) / [P(X = x|S) + P(X = x | -S)]$

나이브 베이지 정리에 의하면, 각 단어가 메시지에 포함될 확률값을 모두 곱해서 위 식의 우변에 위치한 확률값을 모두 구할 수 있다. \
실제 구현시 끊임없이 확률값을 곱하는 것을 피하자. 컴퓨터가 0에 가까운 부동소수점(floating point number)을 제대로 처리하지 못해서 언더플로(underflow) 문제가 발생한다. 부동소수점 문제를 피하기 위해 $p_1 * ... * p_n$은 다음과 같이 계산한다. \
$exp(\log(p_1) + ... + \log(p_n))$ \
