# 나이브 베이즈 모델
나이브 베이즈(Naive Bayes) 모델은 실용적으로 사용 가능한 기계 학습 기법 가운데 가장 널리 쓰이는 것 가운데 하나로 분류 성능도 우수하며 학습 시간이 짧고 기억 공간도 많이 차지하지 않는다. **나이브**라는 표현은 베이즈 정리에 있어서 모든 자질들은 서로 독립적이라는 가정을 하기 때문에 붙여진 것이다. 실제 상황에 있어서 자질들이 서로 독립적일 가능성은 매우 적다. 그러므로 이 독립 가정(independent assumption)은 옳지 않다. 그럼에도 불구하고 이 모델은 좋은 성능을 보인다.

## 베이즈 정리
나이브 베이즈 분류기는 베이즈 정리에 기반한다. 이를 이해하기 위해 위에서 준비한 이진 분류 자료를 예로 들어 보자. 먼저 다음과 같이 변수를 정리하자.

| **변수**   | **값**        | **의미**                |
| :--------:| :-----------: | :-------------------: |
| $C$   | "pol", "soc" | 기사의 주제(정치 혹은 경제) |
| $F_1$ | 0 이상의 정수   | 단어 "정치"의 빈도        |
| $F_2$ | 0 이상의 정수   | 단어 "사회"의 빈도        |

나이브 베이즈 모델의 학습 단계에서는 두 자질 $F_1$과 $F_2$가 주어졌을 때에 부류 $C$가 결정될 확률을 구한다. 이 확률은 $P(C|F_1,F_2)$와 같이 조건부 확률로 나타낼 수 있다. 그런데 이 조건부 확률을 직접 구하는 것은 매우 어려운 일이므로 베이즈에 의해 발견된 다음의 정리를 이용해야 한다.

$$
    P(A)P(B|A) = 
    P(B)P(A|B)
$$

이제 $A$를 두 개의 자질 $F_1$과 $F_2$가 동시에 발생할 확률로 대치하고 $B$를 부류 $C$로 보면 다음의 관계가 성립한다.

$$
    P(F_1,F_2)P(C|F_1,F_2) = 
    P(C)P(F_1,F_2|C)
$$

그러므로 우리가 애초에 구하려면 조건부 확률 \\(P(C|F_1,F_2)\\)는 다음과 같이 다른 확률들의 조합으로 표현된다.

$$
    P(C|F_1,F_2) = 
    \frac{P(C)P(F_1,F_2|C)}{P(F_1,F_2)}
$$

* $P(C)$는 $C$의 사전 확률(prior probability)로서 각 문서의 자질에 관한 정보가 없이 구하는 값이다. 학습 자료에서 특정 부류의 비율을 계산하여 구한다.
* $P(F_1,F_2)$는 관측치로서 자질 $F_1$과 $F_2$가 함께 나타날 확률이다. 이는 학습 자료에서 두 자질에 함께 나타난 문서의 비율을 계산하여 구한다.
* 확률 $P(F_1,F_2|C)$를 구하는 것은 간단하지 않으므로 단순화가 필요하다.

## 독립 가정
사슬 규칙(chain rule)에 따르면 다음의 관계가 성립한다.

$$
    P(F_1,F_2|C) = 
    P(F_1|C)P(F_2|C,F_1)
$$

그러나 여전히 이 확률을 구하는 것은 어렵다. 그러므로 자질 $F_1$과 $F_2$가 서로에 대하여 독립적이라는, 다른 말로 하면 서로 관련이 없다는 가정을 하면 다음과 같이 식이 단순화된다.

$$
    P(F_1,F_2|C) = 
    P(F_1|C)P(F_2|C)
$$

이제까지의 내용을 종합하면 애초에 구하려던 확률은 다음의 식으로 정리된다.

$$
    P(C|F_1,F_2) = 
    \frac{P(C)P(F_1|C)P(F_2|C)}{P(F_1,F_2)}
$$

## 나이브 베이즈 분류기
주어진 신문 기사에 대하여 주제를 판별하는 분류 과제는 다음과 같은 두 확률을 구하여 값이 큰 경우를 선택하는 것이 된다.

$$
    P(C=\mathrm{"pol"}|F_1,F_2) = 
    \frac{P(C="pol")P(F_1|C=\mathrm{"pol"})P(F_2|C=\mathrm{"pol"})}{P(F_1,F_2)}
$$

$$
    P(C=\mathrm{"soc"}|F_1,F_2) = 
    \frac{P(C="soc")P(F_1|C=\mathrm{"soc"})P(F_2|C=\mathrm{"soc"})}{P(F_1,F_2)}
$$

위에서 분모 $P(F_1,F_2)$는 두 식에 공통으로 포함되어 있으므로 생략 가능하다. 물론 이는 나이브 베이즈 분류기의 목표가 확률값을 구하는 것이 아니라 주어진 관측치에 대하여 어떤 부류가 발생할 가능성이 높은지를 따지는 것이기 때문에 가능한 일이다. 그러므로 나이브 베이즈 분류기는 아래의 식으로 요약된다.

$$
    C_{NB} = 
    \arg \max_{c\in C}P(C=c)P(F_1|C=c)P(F_2|C=c)
$$

이 때 $C=\{\mathrm{"pol"},\mathrm{"soc"}\}$이다.