In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 가우시안 나이브베이즈

In [9]:
## 가우시안 나이브 베이즈
from sklearn.naive_bayes import GaussianNB

## iris 데이터셋 로드
iris = load_iris()
df_X = pd.DataFrame(iris.data, columns=iris.feature_names)
df_Y = pd.DataFrame(iris.target, columns = ['target'])

In [10]:
# 테스터셋 분리
X_train, test_X, y_train, test_y = train_test_split(df_X, df_Y, train_size = 0.8,
                                                   test_size = 0.2, random_state = 123)

In [11]:
X_train.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
17,5.1,3.5,1.4,0.3
98,5.1,2.5,3.0,1.1
66,5.6,3.0,4.5,1.5
126,6.2,2.8,4.8,1.8
109,7.2,3.6,6.1,2.5


In [13]:
## 나이브 베이즈는 가우시안 나이브 베이즈
gnb = GaussianNB()

## 학습
# train 데이터로 학습을 진행 후, X_test 데이터로 결과를 예측하여 y_pred 입력
fitted = gnb.fit(X_train, y_train)
y_pred = fitted.predict(test_X)
y_pred
print(y_pred)

[1 2 2 1 0 2 1 0 0 1 2 0 1 2 2 2 0 0 1 0 0 1 0 2 0 0 0 2 2 0]


  y = column_or_1d(y, warn=True)


In [15]:
# 실제값과 y의 예측값을 비교하여 틀린 개수 확인
print("테스트 데이터 수 : %d, 틀린개수 : %d" % (test_X.shape[0],
                                     (np.array(test_y.target.tolist()) != y_pred).sum()))

테스트 데이터 수 : 30, 틀린개수 : 1


In [16]:
## 예측한 클래스와 해당 예측 데이터의 클래스별 확률
# 클래스
print(fitted.classes_)

# 분류된 클래스 수
print(fitted.class_count_)

# 테스트 데이터
print(test_X[:1], "\n")

# 테스트 데이터 1개에 대한 클래스가 나온 확률
print(fitted.predict_proba(test_X)[:1], "\n")

# 테스트 데이터 1개의 클래스
print(fitted.predict(test_X)[:1], "\n")

[0 1 2]
[37. 44. 39.]
    sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
72                6.3               2.5                4.9               1.5 

[[7.24143720e-126 9.23061979e-001 7.69380215e-002]] 

[1] 



In [18]:
## 특정 값의 클래스별 확률 확인
print(fitted.predict_proba(test_X)[[1,20]])

# 1번째 데이터는 2범주일 확률이 99%
# 20번째 데이터는 0범주일 확률이 100%

# 특정 변수의 범주별 클래스 확인
fitted.predict(test_X)[[1,20]]

[[1.81805757e-197 1.22131524e-005 9.99987787e-001]
 [1.00000000e+000 8.57846082e-017 1.77097412e-025]]


array([2, 0])

In [19]:
# Confusion matrix 확인
from sklearn.metrics import confusion_matrix

confusion_matrix(test_y, y_pred)

# 0,1범주는 모두 옳게 분류
# 2범주는 1개 오답
# 나이브 베이즈는 투자대비 효용이 높은 간단한 머신러닝 모델

array([[13,  0,  0],
       [ 0,  6,  0],
       [ 0,  1, 10]], dtype=int64)

# 다항분포 나이브 베이즈 (Multinomial Navie Bayes)

In [23]:
## Multinomial Naive Bayes
from sklearn.naive_bayes import MultinomialNB

# 난수 생성
import numpy as np

# 0부터 3까지 난수 생성, 변수 10개 , 샘플 사이즈 4개
mNB_train_X  = np.random.randint(4, size = (4,10))
mNB_train_y = np.array([1,2,3,4])

In [24]:
mNB_train_X

array([[1, 3, 0, 1, 0, 0, 0, 2, 1, 2],
       [2, 1, 0, 0, 1, 1, 3, 3, 0, 3],
       [0, 2, 2, 0, 3, 1, 2, 1, 0, 2],
       [1, 1, 2, 3, 3, 3, 1, 3, 3, 2]])

In [25]:
mNB_train_y

array([1, 2, 3, 4])

In [26]:
# 학습 
mNB = MultinomialNB()

fitted_mNB = mNB.fit(mNB_train_X, mNB_train_y)

# 첫 번째 값의 예측 결과 확인
print(fitted_mNB.predict(mNB_train_X[:1]))

# 첫 번째 값의 각 클래스별 확률 확인
fitted_mNB.predict_proba(mNB_train_X[:1])

[1]


array([[0.96357258, 0.02305516, 0.00558235, 0.0077899 ]])

In [44]:
# 사전 확률 설정
# class가 발생되는 사전 확률을 미리 알고 있었던 경우라고 설정
clmNB_2 = MultinomialNB(class_prior = [0.1,0.5,0.1,0.1])
clmNB_2.fit(mNB_train_X, mNB_train_y)

In [45]:
clmNB_2.predict_proba(mNB_train_X[:1])

array([[0.88221421, 0.10554261, 0.00511101, 0.00713217]])