## Naive Bayes 실습

### 1. Gaussian Naive Bayes
- 가우시안 나이브 베이즈는 표본 평균과 표본 분산을 가진 정규분포 하에서 베이즈 정리를 사용한 것 


- 데이터, 모듈 불러오기

In [2]:
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
import pandas as pd

In [4]:
iris = datasets.load_iris()
x = pd.DataFrame(iris.data)
y = pd.DataFrame(iris.target)

In [5]:
x.head()

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [6]:
y.head()

Unnamed: 0,0
0,0
1,0
2,0
3,0
4,0


- 모델 만들기

In [7]:
gnb = GaussianNB()                                      # 가우시안 나이브 베이즈 모델
fitted_model = gnb.fit(iris.data,iris.target)           # 학습 시작
y_pred = fitted_model.predict(iris.data)                # 학습 결과를 기존 데이터에 적용

In [8]:
fitted_model.predict_proba(iris.data)[[1,48,51,100]]              # 특정 변수의 결과 뽑기(확률)

array([[1.00000000e+000, 1.51480769e-017, 2.34820051e-025],
       [1.00000000e+000, 2.63876217e-018, 2.79566024e-025],
       [7.27347795e-102, 9.45169639e-001, 5.48303606e-002],
       [3.23245181e-254, 6.35381031e-011, 1.00000000e+000]])

In [9]:
y_pred[[1,48,51,100]]                        # 특정 변수의 결과 뽑기(범주)

array([0, 0, 1, 2])

- Confusion matrix 구하기(성능 확인)

In [10]:
from sklearn.metrics import confusion_matrix

In [11]:
confusion_matrix(iris.target,y_pred)             #투자대비 효용이 높은 머신러닝 모델

array([[50,  0,  0],
       [ 0, 47,  3],
       [ 0,  3, 47]], dtype=int64)

- Prior 설정하기(특정 결과의 출현확률이 더 많다고 가중치를 주는 행위)

In [12]:
#'1범주'에 prior를 높게 줘서, 가중치를 주는 경우
gnb2 = GaussianNB(priors=[1/100,98/100,1/100])
fitted_model2 = gnb2.fit(iris.data,iris.target)
y_pred2 = fitted_model2.predict(iris.data)
confusion_matrix(iris.target,y_pred2)

array([[50,  0,  0],
       [ 0, 50,  0],
       [ 0, 14, 36]], dtype=int64)

### 2. Multinomial naive bayes
- 모듈 불러오기 및 데이터 생성

In [14]:
from sklearn.naive_bayes import MultinomialNB
import numpy as np

In [15]:
x = np.random.randint(5,size=(6,100))        # 0부터 4까지 난수 생성, 변수 100개, sample size = 6
y = np.array([1,2,3,4,5,6])

In [19]:
clf = MultinomialNB()
clf.fit(x,y)

MultinomialNB()

In [21]:
clf.predict_proba(x[2:3])

array([[4.77849411e-43, 4.47229625e-40, 1.00000000e+00, 4.34503419e-34,
        4.05007722e-35, 6.62595508e-35]])

- prior 변경해보기

In [22]:
clf2 = MultinomialNB(class_prior=[0.1,0.5,0.1,0.1,0.1,0.1])
clf2.fit(x, y)

MultinomialNB(class_prior=[0.1, 0.5, 0.1, 0.1, 0.1, 0.1])

In [24]:
clf2.predict_proba(x[2:3])

array([[4.77849411e-43, 2.23614812e-39, 1.00000000e+00, 4.34503419e-34,
        4.05007722e-35, 6.62595508e-35]])