# Chapter 11. 나이브 베이지안 분류기
## 2. 베이즈 분류기 구현하기
### 01 - 베이즈 분류기 만들기
- 전체 데이터는 20개, 이 중 스팸메일임을 나타내는 메일은 6개, 'viagra'라는 단어가 들어있는 이메일은 6개, 스팸메일 중 'viagra'라는 단어가 있는 이메일은 3개
    - 이 데이터를 기반으로 'viagra'단어가 들어 있을 때 해당 메일이 스팸일 확률인 $P(spam|viagra)$ 구하기
        - $P(spam|viagra) = \frac{P(spam)P(viagra|spam)}{P(viagra)}$
        - $P(viagra) = \frac{6}{20}$, $P(spam) = \frac{6}{20}$
        - $P(viagra|spam)$ = \frac{3}{6}$
            - $\therefore P(spam|viagra) = \frac{\frac{6}{20} \times \frac{3}{6}}{\frac{6}{20}} = \frac{1}{2}$

### 02 - 코드로 표현하기
- 판다스 모듈을 이용하여 코드로 나타내기

In [1]:
# 데이터 구성하기

from pandas import Series, DataFrame
import pandas as pd
import numpy as np

viagra_spam = {'viagra' : [1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1],
                'spam' : [1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1]}
df = pd.DataFrame(viagra_spam, columns = ['viagra', 'spam'])
np_data = df.values

In [2]:
sum((np_data[:, 0] == 1) & (np_data[:, 1] == 1)) / 20

0.15

In [3]:
p_viagra = sum(np_data[:, 0] == 1) / len(np_data)
p_viagra

0.3

In [4]:
p_spam = sum(np_data[:, 1] == 1) / len(np_data)
p_spam

0.3

In [5]:
p_v_cap_s = sum((np_data[:, 0] == 1) & (np_data[:, 1] == 1)) / len(np_data)
p_v_cap_s

0.15

In [6]:
p_n_v_cap_s = sum((np_data[:, 0] == 0) & (np_data[:, 1] == 1)) / len(np_data)
p_n_v_cap_s

0.15

In [7]:
# 베이즈 정리를 사용하여 'viagra'라는 단어가 들어갔을 때 스팸메일일 확률(P(spam|viagra))의 확률
p_spam * (p_v_cap_s / p_spam) / p_viagra

0.5

In [8]:
# P(spam|~viagra)의 확률
p_spam * (p_n_v_cap_s / p_spam) / (1 - p_viagra)

0.2142857142857143

- 한 개의 변수로 베이즈 정리를 적용한 베이즈 분류기를 만들어 봄
- 실제상황에서 다음과 같은 문제가 발생 가능
    - 'viagra'라는 단어 외에 영향을 주는 단어가 있을 수 있음
    - 오히려 스팸에서 제외되는 메일에 'viagra'라는 단어가 있을 수 있음

- 이와 같은 문제를 해결하기 위해 등장한 것이 나이브 베이지안 분류기(Naive Bayesian Classifier)