# 베이즈 정리

- 조건부 확률로 계산

### 연속적인 특성으로 분류기 훈련

- 베이즈 이론은 새로운 정보 P(A|B)와 사전 확률P(A)가 주어졌을 때 어떤 사건이 일어날 확률

- 직관적인 방법 사용
- 작은 양의 데이터에서 사용 가능
- 훈련과 예측에 비용이 적음
- 환경이 바뀌어도 자주 안정적인 결과 만듬

- 나이브 베이즈 분류기는 각 특성과 특성의 가능도가 독립적이라 가정

In [1]:
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB

iris = datasets.load_iris() # 데이터 로드
features = iris.data
target = iris.target

classifer = GaussianNB() # 가우시안 나이브 베이지 객체 생성
model = classifer.fit(features, target) # 모델 훈련
new_observation = [[ 4, 4, 4, 0.4]] #New Sample Data
model.predict(new_observation) # 클래스 예측

# 각 클래스별 사전 확률을 지정한 가우시안 나이브 베이즈 객체 생성
clf = GaussianNB(priors=[0.25, 0.25, 0.5])
model = classifer.fit(features, target) # 모델 훈련

### 이산적인 카운트 특성으로 분류기 훈련

- 다항 나이브 베이즈가 가장 많이 사용되는 경우중 하나는 BoW나 tf-idf방식을 사용한 텍스트 분류이다.

In [2]:
import numpy as np
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

text_data = np.array(['I love Brazil. Brazil!','Brazil is best','Germany beats both'])

count = CountVectorizer() # BoW(bag of words) 생성
bag_of_words = count.fit_transform(text_data)
features = bag_of_words.toarray() # 특성 행렬 생성
target = np.array([0,0,1]) # 타깃 벡터 생성

#MultinomialNB를 사용해 두 클래스(brazil과 germany)에 대한 사전 확률을 지정하여 모델을 훈련
# 각 클래스별 사전 확률을 지정한 다항 나이브 베이즈 객체 생성
classifer = MultinomialNB(class_prior=[0.25, 0.5])
model = classifer.fit(features, target) # 모델 훈련
#New Sample Data
new_observation = [[0, 0, 0, 1, 0, 1, 0]] 
# 새로운 샘플의 클래스 예측
model.predict(new_observation) 

array([0])

### 이진 특성으로 나이브 베이지 분류기 훈련

- 모든 특성이 두 종류의 값만 발생할 수 있는 이진 특성이라고 가정
- 텍스트 분류에 많이 사용
- 사전 확률 지정시 class_prior 매개변수에 클래스별 사전 확률 담은 리스트 전달
- 균등분포를 사용하려면 fit_prior=False로 지정

In [3]:
import numpy as np
from sklearn.naive_bayes import BernoulliNB

# 세 개의 이진 특성 만듬
features = np.random.randint(2, size=(100, 3))

# 이진 타깃 벡터 만듬
target = np.random.randint(2, size=(100, 1)).ravel()

# 각 클래스별 사전 확률을 지정하여 베르누이 나이브 베이즈 객체 만듬
classifer = BernoulliNB(class_prior=[0.25, 0.5])
model = classifer.fit(features, target) # 모델 훈련

model_uniform_prior = BernoulliNB(class_prior=None, fit_prior=True)

### 예측 확률 보정

- 타깃 클래스에 대한 예측 확률의 순위는 유효하지만 예측 확률이 0 또는 1에 극단적으로 가까워지는 경향이 있음
- 반환된 예측 확률은 k-폴드의 평균
- CalibratedClassifierCV는 플랫의 시그모이드 모델과 등위회귀 두개의 보정 방법 지원

In [4]:
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.calibration import CalibratedClassifierCV

iris = datasets.load_iris() # 데이터 로드
features = iris.data
target = iris.target

classifer = GaussianNB() # 가우시안 나이브 베이즈 객체 생성
# 시그모이드 보정을 사용해 보정 교차 검증을 만듬
classifer_sigmoid = CalibratedClassifierCV(classifer, cv=2, method='sigmoid')
classifer_sigmoid.fit(features, target) # 확률을 보정
new_observation = [[ 2.6, 2.6, 2.6, 0.4]] #New Sample Data
classifer_sigmoid.predict_proba(new_observation) # 보정된 확률을 확인

array([[0.31859969, 0.63663466, 0.04476565]])

In [6]:
#가우시안 나이브 베이즈를 훈련하고 클래스 확률을 예측
classifer.fit(features, target).predict_proba(new_observation)
classifer_sigmoid.predict_proba(new_observation) # 보정된 확률을 확인

array([[0.31859969, 0.63663466, 0.04476565]])