# Naive Bayes 실습

In [None]:
# 나이브베이즈 분류 알고리즘은 텍스트 분류에서 많이 사용되는 알고리즘이다.
# EX) 텍스트 출현 빈도 분류(정상메일/스팸메일) 확률을 각각 계산 후 확률이 더 높은 쪽으로 결과 출력.

# 1. Gaussian Naive Bayes

- 데이터, 모듈 불러오기

In [1]:
from sklearn import datasets #내장데이터셋 사용(iris와 같은)
from sklearn.naive_bayes import GaussianNB

In [2]:
import pandas as pd

In [3]:
iris = datasets.load_iris() #샘플 데이터 load
df_X=pd.DataFrame(iris.data) # feature
df_Y=pd.DataFrame(iris.target) #label

In [4]:
df_X.head()

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [5]:
df_Y.head()

Unnamed: 0,0
0,0
1,0
2,0
3,0
4,0


- 모델 피팅 Gaussian Naive Bayes

In [6]:
gnb = GaussianNB() # 가우시안 나이브 베이즈 모델
fitted=gnb.fit(iris.data,iris.target)# 학습 시작
y_pred=fitted.predict(iris.data)# 학습 결과를 기존 데이터에 적용

In [7]:
#predict_proba 함수는 각 샘플에 대해 어느 클래스에 속할 확률을 0에서 1 사이의 값으로 돌려준다. 
#predict 함수는 새로운 속성들을 넣었을 때 그 클래스에 속하는지 속하지 않는지를 나타내는 1 또는 0으로 구성된 벡터를 반환해준다.
fitted.predict_proba(iris.data)[[1,48,51,100]] # 특정 변수의 결과 뽑기(확률)

array([[1.00000000e+000, 1.51480769e-017, 2.34820051e-025],
       [1.00000000e+000, 2.63876217e-018, 2.79566024e-025],
       [7.27347795e-102, 9.45169639e-001, 5.48303606e-002],
       [3.23245181e-254, 6.35381031e-011, 1.00000000e+000]])

In [None]:
#  위의 결과는 학습 결과를 확률로 나타낸 것이다. target은 "0","1","2" 3가지 경우가 존재한다. 

# 1번째 데이터의 경우 "0"범주의 확률이 "1"이고,

# 48번째 데이터의 경우 "0"범주의 확률이 "1"이고,

# 51번째 데이터의 경우 "1"범주의 확률이 "0.94"이고,

# 100번째 데이터의 경우 "2"범주의 확률이 "1"이다.

In [8]:
fitted.predict(iris.data)[[1,48,51,100]] # 특정 변수의 결과 뽑기(범주)

array([0, 0, 1, 2])

In [None]:
# 이는 확률의 결과가 아니라, 예측한 범주를 직접적으로 출력하는 결과물이다. 

- Confusion matrix 구하기

In [9]:
from sklearn.metrics import confusion_matrix  #혼동행렬

In [12]:
confusion_matrix(iris.target,y_pred)

array([[50,  0,  0],
       [ 0, 47,  3],
       [ 0,  3, 47]], dtype=int64)

In [None]:
# 범주"의 경우 3개의 오답이 발생한 것을 볼 수 있다. 이처럼 나이브 베이즈는 투자대비 효용이 높은 간단한 머신러닝 모델임을 확인할 수 있다.

- Prior 설정하기</br>
나이브베이즈에서는 prior를 설정할 수 있다.</br>
특정 결과의 출현확률이 더 많다고 가중치를 주는 행위이다.


In [13]:
# "2범주"에 prior를 높게 줘서, 가중치를 주는 경우
gnb2=GaussianNB(priors=[1/100,1/100,98/100])
fitted2 = gnb2.fit(iris.data, iris.target)
y_pred2 = fitted2.predict(iris.data)
confusion_matrix(iris.target,y_pred2)

array([[50,  0,  0],
       [ 0, 33, 17],
       [ 0,  0, 50]], dtype=int64)

In [14]:
# 위의 경우를 보면, 기존에 prior을 설정 안해주었을 때 보다, 가중치를 높게 준 "2범주"의 정확도가 올랐다. 
# 3개 오답에서 0개 오답으로 해당 범주의 오답 개수가 줄었다. 
# 하지만, 가중치가 낮아진 "1범주"의 경우 오답이 눈에 띄게 늘어나는 결과가 나타난다.

In [None]:
#  이처럼 특정 범주의 분류 정확성을 높일 필요가 있을 때, 가중치를 주는 prior 설정을 통해서 특정 범주의 정확성을 높일 수 있다. 
# 하지만 이는 trade-off의 관계로 다른 범주의 정확성을 희생해야한다.

# 2. Multinomial naive bayes

In [22]:
# 모듈 불러오기 및 데이터 생성
#  iris 데이터는 연속형 Featue변수를 갖고 있기 때문에, 다항분포 나이브 베이즈를 실습할 수 없다. 그렇기에 난수를 생성하는 방식을 통해서 Multinomial Naive Bayes모델을 실습하도록 하겠다.  

In [16]:
from sklearn.naive_bayes import MultinomialNB # Multinomial Naive Bayes 라이브러리

In [17]:
import numpy as np # 난수생성을 위한 행렬 라이브러리

In [18]:
X = np.random.randint(5, size=(6, 100))  # 0부터 4까지 난수 생성, 변수 100개, sample size = 6
y = np.array([1, 2, 3, 4, 5, 6])

In [19]:
X

array([[2, 3, 1, 1, 3, 1, 2, 4, 0, 2, 0, 4, 0, 4, 3, 3, 3, 1, 2, 1, 2, 3,
        4, 0, 4, 2, 2, 4, 2, 3, 4, 4, 2, 3, 4, 4, 4, 2, 0, 1, 2, 0, 3, 0,
        1, 2, 1, 0, 2, 3, 2, 3, 4, 3, 3, 2, 0, 3, 2, 3, 2, 4, 4, 0, 1, 3,
        1, 4, 1, 0, 3, 1, 2, 2, 2, 3, 4, 3, 3, 0, 1, 1, 3, 2, 1, 0, 1, 0,
        0, 2, 3, 2, 2, 2, 1, 0, 4, 1, 1, 4],
       [4, 4, 2, 2, 2, 0, 1, 1, 1, 0, 0, 4, 4, 1, 0, 2, 3, 4, 2, 0, 3, 4,
        4, 2, 4, 4, 1, 2, 3, 1, 4, 3, 0, 3, 3, 2, 1, 3, 4, 1, 2, 2, 4, 3,
        3, 4, 1, 0, 0, 1, 4, 3, 0, 3, 3, 0, 2, 1, 4, 4, 4, 0, 1, 0, 2, 3,
        3, 0, 4, 0, 1, 3, 2, 4, 3, 1, 2, 2, 1, 2, 2, 3, 4, 4, 2, 1, 4, 3,
        3, 1, 1, 4, 1, 4, 4, 0, 0, 3, 1, 2],
       [4, 0, 1, 3, 0, 1, 1, 0, 3, 1, 4, 4, 4, 2, 3, 3, 0, 4, 2, 1, 0, 2,
        1, 4, 2, 4, 2, 4, 2, 1, 3, 4, 4, 4, 0, 1, 4, 0, 1, 3, 3, 2, 1, 3,
        0, 3, 3, 1, 0, 4, 3, 1, 4, 0, 3, 2, 4, 1, 0, 4, 1, 1, 2, 2, 1, 4,
        0, 2, 2, 1, 1, 3, 2, 0, 3, 2, 4, 1, 1, 1, 0, 0, 2, 4, 3, 4, 2, 4,
        4, 2, 4, 2, 3,

In [20]:
y

array([1, 2, 3, 4, 5, 6])

- Multinomial naive bayes 모델 생성

In [23]:
clf = MultinomialNB()
clf.fit(X, y)

MultinomialNB()

In [24]:
print(clf.predict(X[2:3]))

[3]


In [None]:
# 인덱스 "2"에 온 target(3)을 맞춘 것

In [26]:
clf.predict_proba(X[2:3])

array([[4.35721892e-35, 1.67470403e-31, 1.00000000e+00, 6.32860120e-41,
        2.85409867e-30, 5.77523822e-34]])

In [None]:
# X[2]은 "범주3"일때 확률이 1로 나타난다. 
# 그 결과 3으로 예측을 한 것이고 이는 정답이다.

- prior 변경해보기

In [27]:
clf2 = MultinomialNB(class_prior = [0.1,0.5,0.1,0.1,0.1,0.1])
clf2.fit(X,y)

MultinomialNB(class_prior=[0.1, 0.5, 0.1, 0.1, 0.1, 0.1])

In [None]:
#  Multinomial Naive Bayes의 경우 parameter의 이름이 class_prior로 바뀌었다.
#이번에는 범주가 "1"~"6"까지 6개가 있기에 prior리스트에 6개 값을 넣었다. 
# "범주 2"에 가중치를 주었으니, "범주2"의 확률이 올라갔을 것을 예측할 수 있다.

In [28]:
clf2.predict_proba(X[2:3])   

array([[4.35721892e-35, 8.37352013e-31, 1.00000000e+00, 6.32860120e-41,
        2.85409867e-30, 5.77523822e-34]])

In [None]:
#  위의 결과를 보면 그대로 예측값은 "범주3"의 확률이 1로 가장 높다. 
# 하지만, 자세히 보면 이전 .predict_proba() 결과와 비교해볼때, prior를 높게 줘서 가중치를 부여한 "범주2"의 확률이 5.872e-35에서 2.936e-34로 증가한 것을 확인할 수 있다. 
# 이처럼 prior을 통해 가중치를 부여한 범주는 오답일지라도, 정답이라고 판단하는 확률이 증가하는 것을 확인할 수 있다.  