## 2.3.4 나이브 베이즈 분류기 (naive bayes)
- 선형 분류기보다 훈력 속도가 빠르나 일반화 성능이 조금 느림
- 각 특성을 개별로 취급해 파라미터를 학습하고 각 특성에서 클래스별 통계를 단순하게 취합하기 때문
- sklean에서 구현된 나이브 베이즈 분류기는 GaussianNB, BernoulliNB, MultinomialNB
- GaussianNB는 연속적인 어떤 데이터에도 적용 가능
- BernoulliNB는 이진 테이터에 적용
- MultinomialNB는 카운트 데이터 (특성이 어떤 것을 헤아린 정수 카운트 -> 문장에 나타난 단어의 횟수)에 적용
- 텍스트 데이터 분류할 때 사용

In [3]:
%matplotlib inline
import sys 
sys.path.append('..')
from preamble import *

In [4]:
X = np.array([[0, 1, 0, 1],
              [1, 0, 1, 1],
              [0, 0, 0, 1],
              [1, 0, 1, 0]])
y = np.array([0, 1, 0, 1])

In [5]:
counts = {}
for label in np.unique(y):
    # 클래스마다 반복
    # 특성마다 1이 나타난 횟수를 셈
    counts[label] = X[y == label].sum(axis=0)
print("feature count:\n{}".format(counts))

feature count:
{0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])}


## 장단점과 매개변수
- MultinomialNB와 BernoulliNB는 모델의 복잡도를 조절하는 alpha 매개변수 하나를 가지고 있음
- alpha가 주어지면 알고리즘이 모든 특성에 양의 값을 가진 가상의 데이터 포인트를 alpha 개수만큼 추가
    - 통계 데이터를 완만하게 만듦
    - alpha가 크면 더 완만해지고 모델 복잡도는 낮아짐
- alpha 에 따른 알고리즘 성능 변동은 비교적 크지는 않음 -> alpha 값이 성능 향상에 크게 기여하지 않음 -> 단 조절 시 정확도를 높일 수 있음
- GaussianNB는 대부분 매우 고차원인 데이터셋에 사용하고, 다른 두 나이브 베이즈 모델은 텍스트 같은 희소한 데이터를 카운트 하는 데 사용
- MultinomialNB는 보통 0이 아닌 특성이 비교적 많은 데이터셋에서 BernoulliNB보다 성능이 높음
- 나이브 베이즈 모델과 선형 모델의 장단점은 비슷함
    - 훈련과 예측 속도가 빠르고 훈련 과정을 이해하기 쉬움
    - 희소한 고차원 데이터에서 잘 작동
    - 비교적 매개변수에 민감하지 않음
    - 선형 모델로 학습 시간이 오래걸리는 큰 데이터셋에 대해 나이브 베이즈 모델을 시도해볼 수 있음