### Naive Bayes Classifier 

**1. Gaussian Naive Bayes**

- 데이터, 모듈 불러오기

In [4]:
import pandas as pd
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB

In [5]:
iris = datasets.load_iris()
df_X = pd.DataFrame(iris.data)
df_Y = pd.DataFrame(iris.target)

In [6]:
df_X.head()

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [7]:
df_Y.head()

Unnamed: 0,0
0,0
1,0
2,0
3,0
4,0


- 모델 피팅

In [8]:
gnb = GaussianNB()
fitted = gnb.fit(iris.data, iris.target)
y_pred = fitted.predict(iris.data)

In [10]:
# 1, 48, 51, 100의 데이터에 대한 클래스 확률값을 확인
fitted.predict_proba(iris.data)[[1, 48, 51, 100]]

array([[1.00000000e+000, 1.51480769e-017, 2.34820051e-025],
       [1.00000000e+000, 2.63876217e-018, 2.79566024e-025],
       [7.27347795e-102, 9.45169639e-001, 5.48303606e-002],
       [3.23245181e-254, 6.35381031e-011, 1.00000000e+000]])

In [11]:
fitted.predict(iris.data)[[1, 48, 51, 100]]

array([0, 0, 1, 2])

In [12]:
from sklearn.metrics import confusion_matrix

In [13]:
confusion_matrix(iris.target, y_pred)

array([[50,  0,  0],
       [ 0, 47,  3],
       [ 0,  3, 47]], dtype=int64)

- Prior 설정하기  

In [14]:
gnb2 = GaussianNB(priors=[1/100, 1/100, 98/100])
fitted2 = gnb2.fit(iris.data, iris.target)
y_pred2 = fitted2.predict(iris.data)
confusion_matrix(iris.target, y_pred2)

array([[50,  0,  0],
       [ 0, 33, 17],
       [ 0,  0, 50]], dtype=int64)

In [15]:
gnb2 = GaussianNB(priors=[1/100, 98/100, 1/100])
fitted2 = gnb2.fit(iris.data, iris.target)
y_pred2 = fitted2.predict(iris.data)
confusion_matrix(iris.target, y_pred2)

array([[50,  0,  0],
       [ 0, 50,  0],
       [ 0, 14, 36]], dtype=int64)

In [17]:
"""
=> 전체 모집단 데이터에서 각 클래스에 해당할 확률값을 넣어주는 것인데, 실제로 알 수 없으니 임의로 설정하여 테스트  
잘 맞추고 싶은 클래스에 Prior을 높게 설정해서 나이브 베이즈드 분류모델(Classifier)의 해당 클래스에 대해 데이터를 올바르게
할당하도록 만들 수 있으나, 모든 클래스에 데이터가 관측될 확률이 "1" 이므로 다른 클래스에 대해 성능이 낮아지는
"Trade-off"가 발생한다.
"""

'\n=> 전체 모집단 데이터에서 각 클래스에 해당할 확률값을 넣어주는 것인데, 실제로 알 수 없으니 임의로 설정하여 테스트  \n잘 맞추고 싶은 클래스에 Prior을 높게 설정해서 나이브 베이즈드 분류모델(Classifier)의 해당 클래스에 대해 데이터를 올바르게\n할당하도록 만들 수 있으나, 모든 클래스에 데이터가 관측될 확률이 "1" 이므로 다른 클래스에 대해 성능이 낮아지는\n"Trade-off"가 발생한다.\n'

**2. Multinomial Naive Bayes**

In [18]:
import numpy as np
from sklearn.naive_bayes import MultinomialNB

In [30]:
# 100개의 변수(차원)를 가진 6개의 관측데이터(X) 와 6개의 클래스를 갖는 출력변수(y) 설정
X = np.random.randint(6, size=(6, 100))
y = np.array([1, 2, 3, 4, 5, 6])

In [31]:
X

array([[0, 3, 2, 0, 1, 3, 0, 5, 4, 1, 1, 5, 1, 2, 0, 2, 5, 1, 4, 2, 0, 4,
        3, 2, 2, 4, 4, 2, 4, 2, 3, 3, 4, 5, 0, 5, 3, 5, 2, 1, 4, 1, 3, 0,
        2, 4, 1, 0, 5, 5, 2, 3, 3, 5, 3, 0, 0, 5, 3, 5, 3, 1, 0, 3, 0, 4,
        0, 4, 0, 2, 2, 4, 4, 0, 2, 0, 4, 5, 1, 1, 4, 2, 2, 5, 4, 5, 0, 3,
        3, 2, 0, 3, 3, 1, 4, 1, 0, 4, 4, 1],
       [2, 1, 4, 3, 5, 3, 5, 5, 0, 1, 3, 3, 3, 3, 4, 3, 3, 4, 5, 5, 5, 1,
        1, 3, 1, 5, 5, 4, 0, 4, 5, 5, 4, 2, 5, 3, 1, 4, 2, 4, 4, 1, 1, 0,
        5, 0, 2, 3, 3, 3, 5, 1, 5, 3, 2, 0, 1, 1, 3, 2, 5, 3, 5, 0, 0, 0,
        4, 0, 1, 5, 3, 1, 0, 5, 1, 1, 2, 2, 2, 0, 0, 1, 0, 4, 3, 5, 1, 4,
        4, 3, 2, 2, 1, 5, 5, 2, 4, 1, 2, 1],
       [1, 1, 0, 3, 3, 3, 1, 3, 3, 0, 2, 4, 4, 5, 0, 0, 2, 2, 4, 5, 1, 5,
        0, 5, 2, 1, 3, 4, 3, 0, 5, 1, 3, 4, 0, 2, 4, 2, 3, 2, 5, 2, 4, 0,
        0, 5, 2, 2, 1, 1, 2, 5, 5, 1, 2, 4, 2, 2, 0, 5, 0, 4, 4, 0, 3, 1,
        3, 1, 0, 3, 3, 2, 3, 1, 1, 0, 5, 5, 1, 3, 3, 0, 2, 0, 1, 5, 1, 5,
        2, 1, 2, 3, 2,

- Multinomial Naive Bayes 모델 생성

In [32]:
# 회귀분석 등의 기존 통계적 방법으로는 분석이 불가능하나 나이브 베이즈드 모델은 가능함
clf = MultinomialNB()
clf.fit(X, y)

MultinomialNB()

In [37]:
# 두번째 관측데이터의 예측 클래스 확인
print(clf.predict(X[2:3]))

[3]


In [38]:
# 각 클래스에 해당할 확률 확인 => 세번째 범주에 해당할 확률이 '1.0'로 가장 높다
clf.predict_proba(X[2:3]) 

array([[1.09499688e-33, 3.61030817e-41, 1.00000000e+00, 6.99793101e-48,
        1.40314060e-38, 2.03742576e-47]])

- Prior 변경

In [50]:
clf2 = MultinomialNB(class_prior=[0.1, 0.5, 0.1, 0.1, 0.1, 0.1])
clf2.fit(X, y)

MultinomialNB(class_prior=[0.1, 0.5, 0.1, 0.1, 0.1, 0.1])

In [51]:
clf2.predict_proba(X[2:3])

array([[1.09499688e-33, 1.80515409e-40, 1.00000000e+00, 6.99793101e-48,
        1.40314060e-38, 2.03742576e-47]])

In [52]:
"""
각 클래스에 속할 Prior 값을 높게 설정하면 해당 클래스에 속할 예측확률이 증가하고, 
반대로 낮게 설정하면 해당 클래스에 속할 예측확률이 낮아지게 된다.
"""

'\n각 클래스에 속할 Prior 값을 높게 설정하면 해당 클래스에 속할 예측확률이 증가하고, \n반대로 낮게 설정하면 해당 클래스에 속할 예측확률이 낮아지게 된다.\n'