# 18장. 나이브 베이즈

이 노트북을 주피터 노트북 뷰어(nbviewer.jupyter.org)로 보거나 구글 코랩(colab.research.google.com)에서 실행할 수 있습니다.

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://nbviewer.org/github/rickiepark/machine-learning-with-python-cookbook/blob/master/18.ipynb"><img src="https://jupyter.org/assets/share.png" width="60" />주피터 노트북 뷰어로 보기</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/machine-learning-with-python-cookbook/blob/master/18.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩(Colab)에서 실행하기</a>
  </td>
</table>

## 18.1 연속적인 특성으로 분류기 훈련하기

In [1]:
# 라이브러리를 임포트합니다.
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB

# 데이터를 로드합니다.
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 가우시안 나이브 베이지 객체를 만듭니다.
classifer = GaussianNB()

# 모델을 훈련합니다.
model = classifer.fit(features, target)

In [2]:
# 새로운 샘플을 만듭니다.
new_observation = [[ 4,  4,  4,  0.4]]

# 클래스를 예측합니다.
model.predict(new_observation)

array([1])

In [3]:
# 각 클래스별 사전 확률을 지정한 가우시안 나이브 베이즈 객체를 만듭니다.
clf = GaussianNB(priors=[0.25, 0.25, 0.5])

# 모델을 훈련합니다.
model = classifer.fit(features, target)

## 18.2 이산적인 카운트 특성으로 분류기 훈련하기

In [4]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# 텍스트를 만듭니다.
text_data = np.array(['I love Brazil. Brazil!',
                      'Brazil is best',
                      'Germany beats both'])

# BoW(bag of words)를 만듭니다.
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

# 특성 행렬을 만듭니다.
features = bag_of_words.toarray()

# 타깃 벡터를 만듭니다.
target = np.array([0,0,1])

# 각 클래스별 사전 확률을 지정한 다항 나이브 베이즈 객체를 만듭니다.
classifer = MultinomialNB(class_prior=[0.25, 0.5])

# 모델을 훈련합니다.
model = classifer.fit(features, target)

In [5]:
# 새로운 샘플을 만듭니다.
new_observation = [[0, 0, 0, 1, 0, 1, 0]]

# 새로운 샘플의 클래스를 예측합니다.
model.predict(new_observation)

array([0])

## 18.3 이진 특성으로 나이브 베이지 분류기 훈련하기

In [6]:
# 라이브러리를 임포트합니다.
import numpy as np
from sklearn.naive_bayes import BernoulliNB

# 세 개의 이진 특성을 만듭니다.
features = np.random.randint(2, size=(100, 3))

# 이진 타깃 벡터를 만듭니다.
target = np.random.randint(2, size=(100, 1)).ravel()

# 각 클래스별 사전 확률을 지정하여 베르누이 나이브 베이즈 객체를 만듭니다.
classifer = BernoulliNB(class_prior=[0.25, 0.5])

# 모델을 훈련합니다.
model = classifer.fit(features, target)

In [7]:
model_uniform_prior = BernoulliNB(class_prior=None, fit_prior=True)

## 18.4 예측 확률 보정하기

In [8]:
# 라이브러리를 임포트합니다.
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.calibration import CalibratedClassifierCV

# 데이터를 로드합니다.
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 가우시안 나이브 베이즈 객체를 만듭니다.
classifer = GaussianNB()

# 시그모이드 보정을 사용해 보정 교차 검증을 만듭니다.
classifer_sigmoid = CalibratedClassifierCV(classifer, cv=2, method='sigmoid')

# 확률을 보정합니다.
classifer_sigmoid.fit(features, target)

# 새로운 샘플을 만듭니다.
new_observation = [[ 2.6,  2.6,  2.6,  0.4]]

# 보정된 확률을 확인합니다.
classifer_sigmoid.predict_proba(new_observation)

array([[0.31859969, 0.63663466, 0.04476565]])

In [9]:
# 가우시안 나이브 베이즈를 훈련하고 클래스 확률을 예측합니다.
classifer.fit(features, target).predict_proba(new_observation)

array([[2.31548432e-04, 9.99768128e-01, 3.23532277e-07]])

In [10]:
# 보정된 확률을 확인합니다.
classifer_sigmoid.predict_proba(new_observation)

array([[0.31859969, 0.63663466, 0.04476565]])