In [1]:
# %load basic.py
from IPython.display import set_matplotlib_formats, display
import numpy as np
import pandas as pd
import mglearn
import matplotlib
import matplotlib.pyplot as plt
from matplotlib import rc, font_manager
from cycler import cycler

font_name = font_manager.FontProperties(fname = "C:/Windows/Fonts/H2GTRM.TTF").get_name()
rc('font', family = font_name)
matplotlib.rcParams['axes.unicode_minus'] = False

set_matplotlib_formats('pdf', 'png')
plt.rcParams['savefig.dpi'] = 300
plt.rcParams['figure.dpi'] = 300
plt.rcParams['image.cmap'] = "viridis"
plt.rcParams['image.interpolation'] = "none"
plt.rcParams['savefig.bbox'] = "tight"
plt.rcParams['lines.linewidth'] = 2
plt.rcParams['legend.numpoints'] = 1
plt.rc('axes', prop_cycle=(
    cycler('color', mglearn.plot_helpers.cm_cycle.colors) +
    cycler('linestyle', ['-', '-', "--", (0, (3, 3)), (0, (1.5, 1.5))])))


np.set_printoptions(precision=3, suppress=True)

pd.set_option("display.max_columns", 8)
pd.set_option('precision', 2)

__all__ = ['np', 'mglearn', 'display', 'plt', 'pd']

In [2]:
# %load import_set2.py

# sklearn dataset
from sklearn.datasets import load_breast_cancer
from sklearn.datasets import load_boston
from sklearn.datasets import make_blobs
from sklearn.datasets import make_moons
from sklearn.datasets import make_circles
from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split
from sklearn.tree import export_graphviz
import graphviz
import os
from mpl_toolkits.mplot3d import Axes3D, axes3d

# sklearn에 있는 모델들
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

## 2.3.4 나이브 베이즈 분류기

**나이브 베이즈(naive bayes) 분류기**는  
각 특성을 개별로 취급해 파라미터를 학습하고 각 특성에서 클래스별 통계를 단순하게 취합하기 때문에 선형 모델과 매우 유사합니다.  
- scikit-learn에 구현된 나이브 베이즈 분류기는 **GaussianNB, BernoulliNB, MultinomiaNB** 세 가지입니다.  
- GaussianNB는 연속적인 어떤 데이터에도 적용할 수 있고 BernoulliNB는 이진데이터, MultinomiaNB는 카운터 데이터에 적용됩니다.  
- BernoulliNB과 MultinomiaNB는 대부분 텍스트 데이터를 분류할 때 사용합니다.  
- BernoulliNB 분류기는 각 클래스의 특성 중 0이 아닌 것이 몇 개인지 셉니다.  
- MultinomiaNB는 클래스별로 특성의 평균을 계산합니다.  
- GaussianNB는 클래스별로 각 특성의 표준편차와 평균을 저장합니다.

#### BernoulliNB 분류기의 예시

In [3]:
X = np.array([[0, 1, 0, 1], [1, 0, 1, 1], [0, 0, 0, 1], [1, 0, 1, 0]])
y = np.array([0, 1, 0, 1])

In [4]:
counts = {}
for label in np.unique(y):
    # 각 클래스에 대해 반복
    # 특성마다 1이 나타난 횟수를 센다.
    counts[label] = X[y == label].sum(axis = 0)
print("특성 카운트 :\n", counts)

특성 카운트 :
 {0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])}


MultinomiaNB와 BernoulliNB의 예측 공식은 선형 모델과 같지만 나이브 베이즈 모델의 coef_는 기울기 w가 아니라서 의미가 다릅니다.

### 장단점과 매개변수

MultinomiaNB와 BernoulliNB는 모델의 복잡도를 조절하는 alpha 매개변수 하나를 가집니다.  
alpha가 크면 통계 데이터를 더 완만하게 만들고 모델의 복잡도는 낮아집니다.  
(alpha값이 성능 향상에 크게 기여하지 않지만 어느 정도 정확도를 높일 수 있습니다.)

GaussianNB는 대부분 매우 고차원 dataset에 사용하고, 다른 두 나이브 베이즈 모델은 텍스트같은 희소한 데이터를 카운트하는데 사용합니다.  
(MultinomiaNB는 보통 0이 아닌 특성이 많은 dataset에서 BernoulliNB보다 성능이 높습니다.)  

나이브 베이즈 모델의 장단점은 선형 모델과 비슷합니다.  
1. 훈련과 예측 속도가 빠르며 훈련 과정을 이해하기 쉽습니다.
2. 희소한 고차원 데이터에서 잘 작동하며 비교적 매개변수에 민감하지 않습니다.  
3. **선형 모델로는 학습시간이 너무 오래 걸리는 매우 큰 dataset에는 나이브 베이즈 모델을 시도해볼 만하여 종종 사용됩니다.**