# Naive Bayes 실습

# 1. Gaussian Naive Bayes

- 데이터, 모듈 불러오기

In [1]:
# 데이터 분석을 위한 라이브러리 불러오기
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB

In [2]:
import pandas as pd

In [3]:
iris = datasets.load_iris() # sample data load

In [None]:
# iris데이터
'''
<feature>
Sepal Length 꽃받침의 길이
Sepal Width 꽃받침의 너비 
Petal Length 꽃잎의 길이  
Petal Width 꽃잎의 너비
<label>
Species 꽃의 종류: setosa / versicolor / virginica 3종류로 구분'''


In [4]:
print(iris)  # 로드된 데이터가 속성-스타일 접근을 제공하는 딕셔너리와 번치 객체로 표현된 것을 확인
print(iris.DESCR) # Description 속성을 이용해서 데이터셋의 정보를 확인

In [5]:
# feature에 저장된 value, feature이름 확인
# print(iris.data)
print(iris.feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [6]:
# target에 저장된 value, target이름 확인
# print(iris.target)
print(iris.target_names)

['setosa' 'versicolor' 'virginica']


In [14]:
# 데이터프레임 생성
# df_X: iris의 feature 저장
df_X=pd.DataFrame(data = iris.data, columns = iris.feature_names)
# df_Y: iris의 target 저장
df_Y=pd.DataFrame(data = iris.target)

In [11]:
df_X.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [12]:
df_Y.head()

Unnamed: 0,0
0,0
1,0
2,0
3,0
4,0


- 모델 피팅

In [15]:
# 가우시안 나이브 베이즈
gnb = GaussianNB() # 나이브 베이지 분류기 생성
fitted = gnb.fit(iris.data, iris.target) # 생성한 분류기 학습시키기
y_pred = fitted.predict(iris.data) # 학습된 분류기로 값 예측

In [16]:
fitted.predict_proba(iris.data)[[1,48,51,100]]
'''1번째 데이터 : 0범주의 확률이 1
48번째 데이터 : 0범주의 확률이 1
51번째 데이터 : 1범주의 확률이 0.94
100번째 데이터 : 2범주의 확률이 1'''

array([[1.00000000e+000, 1.51480769e-017, 2.34820051e-025],
       [1.00000000e+000, 2.63876217e-018, 2.79566024e-025],
       [7.27347795e-102, 9.45169639e-001, 5.48303606e-002],
       [3.23245181e-254, 6.35381031e-011, 1.00000000e+000]])

In [17]:
fitted.predict(iris.data)[[1,48,51,100]]

array([0, 0, 1, 2])

- Confusion matrix 구하기

In [18]:
from sklearn.metrics import confusion_matrix

In [19]:
# confusion_matrix = 분류결과표
# 정답 클래스는 행(row)으로 예측한 클래스는 열(column)로 나타낸다.
confusion_matrix(iris.target,y_pred)
'''
정답 클래스가 0, 예측 클래스가 0인 표본의 수 : 50개
정답 클래스가 1, 예측 클래스가 1인 표본의 수 : 47개 / 정답 클래스가 1, 예측 클래스가 2인 표본의 수 : 3개
정답 클래스가 2, 예측 클래스가 1인 표본의 수 : 3개  / 정답 클래스가 2, 예측 클래스가 2인 표본의 수 : 47개
'''
# 간단하지만 Performance가 상당히 좋다! -> 나이브 베이즈의 장점

array([[50,  0,  0],
       [ 0, 47,  3],
       [ 0,  3, 47]], dtype=int64)

- Prior 설정하기

In [20]:
# Prior: 특정 결과의 출현확률이 더 많다고 가중치를 주는 행위이다. 
# Prior을 직접 설정하여 분류작업을 진행

# 분류 결과를 2로 예측할 결과를 높이면,
gnb2 = GaussianNB(priors=[1/100, 1/100, 98/100]) 
fitted2 = gnb2.fit(iris.data, iris.target)
y_pred2 = fitted2.predict(iris.data)
confusion_matrix(iris.target, y_pred2)

# 2가 나올 확률(표에선 세 번째 값) 높였더니 정답 클래스가 2인 꽃을 2로 예측할 확률은 100%
# 그러나 정답 클래스가 1인 꽃까지 2로 분류해버림 -> trade-off

array([[50,  0,  0],
       [ 0, 33, 17],
       [ 0,  0, 50]], dtype=int64)

In [21]:
# 분류 결과를 1로 예측할 결과를 높이면,
gnb2 = GaussianNB(priors=[1/100, 98/100, 1/100])
fitted2 = gnb2.fit(iris.data, iris.target)
y_pred2 = fitted2.predict(iris.data)
confusion_matrix(iris.target, y_pred2)

# 역시 trade-off

array([[50,  0,  0],
       [ 0, 50,  0],
       [ 0, 14, 36]], dtype=int64)

# 2. Multinomial naive bayes

- 모듈 불러오기 및 데이터 생성

In [22]:
from sklearn.naive_bayes import MultinomialNB

In [23]:
import numpy as np

In [24]:
# Multinomial Naive Bayes모델은 X도 범주형 데이터여야 하기 때문에
# 난수를 생성하는 방식을 통해서 Multinomial Naive Bayes모델을 실습
# 난수이기 때문에 의미없는 데이터 분류지만 "이렇게 모델 학습한다~" 정도만 알아두기

# 0 ~ 4까지 정수 범위에서 row 6, column 100인 행렬 생성. 즉, ( 6 x 100 ) array
X = np.random.randint(5, size=(6, 100))
y = np.array([1, 2, 3, 4, 5, 6])

In [26]:
print(X)

[[3 4 4 3 2 2 4 0 1 2 0 3 2 2 0 3 1 1 1 2 0 4 1 3 0 0 3 3 4 3 1 0 3 4 2 3
  1 3 4 1 4 1 2 1 0 0 0 0 0 1 3 4 2 1 3 0 1 4 0 0 3 3 4 0 2 4 0 0 1 3 3 2
  2 0 1 4 2 0 3 4 4 2 1 4 2 0 3 1 0 4 3 2 2 0 3 3 0 3 4 4]
 [3 3 2 1 2 3 3 0 1 0 1 0 0 3 0 2 1 3 2 0 2 1 4 0 2 2 2 4 4 0 0 2 3 3 3 2
  3 3 1 2 4 3 3 0 4 0 1 1 1 1 0 2 1 1 0 2 0 4 0 1 0 0 1 2 0 2 4 3 4 4 2 2
  2 3 2 4 1 3 2 3 2 1 2 0 0 4 4 3 3 0 1 0 2 1 3 2 0 1 2 1]
 [1 4 1 1 0 4 3 3 2 1 3 4 2 4 4 1 3 3 3 0 3 1 1 3 3 3 1 3 1 4 0 1 1 4 0 2
  2 2 1 2 2 2 4 3 0 2 3 3 2 3 3 3 4 4 0 0 0 3 1 4 3 4 0 1 3 0 1 1 2 1 1 4
  4 2 3 0 3 2 3 3 1 2 0 4 4 3 4 2 1 2 3 4 4 4 1 1 0 4 3 1]
 [3 1 1 2 2 3 1 3 0 4 1 0 0 1 3 4 0 3 0 1 2 4 0 3 0 0 2 1 3 3 4 4 4 2 2 4
  3 1 1 0 2 3 4 0 3 1 1 0 2 3 4 3 2 1 0 3 2 3 0 2 2 3 1 4 3 2 2 0 1 3 0 3
  4 4 0 1 4 4 0 2 2 2 2 0 1 3 2 4 1 2 3 3 4 1 3 0 3 4 1 3]
 [0 4 0 0 4 3 1 0 1 2 3 2 1 3 0 2 3 3 0 4 4 3 4 0 4 0 4 0 1 1 1 3 0 4 0 2
  3 0 3 1 4 2 0 2 2 3 4 0 1 4 3 0 1 3 1 1 0 2 4 1 4 2 3 1 0 3 2 3 3 0 3 1
  2 3 2 3 0 3 3 2 1 4 1 

In [27]:
y

array([1, 2, 3, 4, 5, 6])

- Multinomial naive bayes 모델 생성

In [39]:
clf = MultinomialNB()
clf.fit(X, y) # 분류기 학습 시키기

X[2:3]

array([[1, 4, 1, 1, 0, 4, 3, 3, 2, 1, 3, 4, 2, 4, 4, 1, 3, 3, 3, 0, 3, 1,
        1, 3, 3, 3, 1, 3, 1, 4, 0, 1, 1, 4, 0, 2, 2, 2, 1, 2, 2, 2, 4, 3,
        0, 2, 3, 3, 2, 3, 3, 3, 4, 4, 0, 0, 0, 3, 1, 4, 3, 4, 0, 1, 3, 0,
        1, 1, 2, 1, 1, 4, 4, 2, 3, 0, 3, 2, 3, 3, 1, 2, 0, 4, 4, 3, 4, 2,
        1, 2, 3, 4, 4, 4, 1, 1, 0, 4, 3, 1]])

In [46]:
print(clf.predict(X[2:3])) # X[2:3]과 같은 X를 가지면 범주 3으로 분류한다.

[3]


In [40]:
clf.predict_proba(X[2:3])

array([[2.01654363e-33, 2.50443701e-36, 1.00000000e+00, 1.10887843e-32,
        1.25206730e-35, 2.79546622e-38]])

- prior 변경해보기

In [41]:
# 위와 마찬가지로 prior를 변경시킬 수 있고, 그 결과 2라고 예측할 확률이 전보다 조금 높아진 것을 볼 수 있다.
clf2 = MultinomialNB(class_prior=[0.1, 0.5, 0.1, 0.1, 0.1, 0.1])
clf2.fit(X, y)

MultinomialNB(class_prior=[0.1, 0.5, 0.1, 0.1, 0.1, 0.1])

In [44]:
clf2.predict_proba(X[2:3])

array([[2.10763551e-40, 5.70857296e-31, 5.49166195e-35, 1.80791767e-39,
        1.00000000e+00, 4.21800589e-36]])

In [45]:
print(clf.predict(X[0:1]))
print(clf.predict(X[1:2]))
print(clf.predict(X[2:3]))
print(clf.predict(X[3:4]))
print(clf.predict(X[4:5]))
print(clf.predict(X[5:6]))

[1]
[2]
[3]
[4]
[5]
[6]
