# Scikit-learn을 활용한 나이브 베이즈 분류기
나이브 베이즈(Naive Bayes)는 베이즈 이론(Bayes theorem)의 확률 모델을 기반으로 하는 매우 단순하지만 강력한 분류 모형이다.



### 날씨, 기온에 따른 축구 여부 분류
2개의 Feature (Weather, Temp)와 1개의 Label (Play)로 구성된 dataset을 생성한다.  

* weather 구분 : 0='흐림', 1='비', 2='맑음'
* temp 구분 : 0='시원',1='더움',2='보통'
* label 구분 : 0='경기 안함', 1='경기 함'

In [1]:
import numpy as np

In [2]:
weather = np.array([2, 2, 0, 1, 1, 1, 0, 2, 2, 1, 2, 0, 0, 1])
temp = np.array([1, 1, 1, 2, 0, 0, 0, 2, 0, 2, 2, 2, 1, 2])
label = np.array([0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0])

In [3]:
features = zip(weather,temp)
features = list(features)
print(features)

[(2, 1), (2, 1), (0, 1), (1, 2), (1, 0), (1, 0), (0, 0), (2, 2), (2, 0), (1, 2), (2, 2), (0, 2), (0, 1), (1, 2)]


* sklearn을 활용하여 나이브 베이즈 분류기 모델을 생성한다.  
* 모델 생성 -> 훈련 데이터 Fitting -> 분류로 실행한다.

In [4]:
#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB

#Create a Gaussian Classifier
model = GaussianNB()

# Train the model using the training sets
model.fit(features,label)

#Predict Output
predicted= model.predict([[0,2]]) # 0:Overcast, 2:Mild

print("Predicted Value:", predicted) # 1: Yes
print("Predicted probability:", model.predict_proba([[0,2]]))

Predicted Value: [1]
Predicted probability: [[0.00770751 0.99229249]]


> 예측 결과: 날씨가 흐림이고 기온이 보통일 때, "경기 함"으로 분류된다.

### 나이브 베이즈를 활용한 wine 데이터 분류

사이킷런에서 기본 제공하는 와인 데이터를 사용하여 와인의 class('class_0' 'class_1' 'class_2')를 분류하는 분류 모형을 생성한다.

In [5]:
#Import scikit-learn dataset library
from sklearn import datasets

#Load dataset
wine = datasets.load_wine()

# print the names of the 13 features
print("Features: ", wine.feature_names)

# print the label type of wine(class_0, class_1, class_2)
print("Labels: ", wine.target_names)

Features:  ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
Labels:  ['class_0' 'class_1' 'class_2']


In [6]:
wine.data.shape

(178, 13)

In [7]:
wine.data[0:5]

array([[1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
        3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, 1.120e+01, 1.000e+02, 2.650e+00,
        2.760e+00, 2.600e-01, 1.280e+00, 4.380e+00, 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, 1.860e+01, 1.010e+02, 2.800e+00,
        3.240e+00, 3.000e-01, 2.810e+00, 5.680e+00, 1.030e+00, 3.170e+00,
        1.185e+03],
       [1.437e+01, 1.950e+00, 2.500e+00, 1.680e+01, 1.130e+02, 3.850e+00,
        3.490e+00, 2.400e-01, 2.180e+00, 7.800e+00, 8.600e-01, 3.450e+00,
        1.480e+03],
       [1.324e+01, 2.590e+00, 2.870e+00, 2.100e+01, 1.180e+02, 2.800e+00,
        2.690e+00, 3.900e-01, 1.820e+00, 4.320e+00, 1.040e+00, 2.930e+00,
        7.350e+02]])

In [8]:
wine.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

### 데이터 나누기
데이터를 train 데이터와 test 데이터로 나눈다.

In [9]:
# Import train_test_split function
from sklearn.model_selection import train_test_split

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3, random_state=109)

### 모형의 생성, 훈련

가우시안 나이브 베이즈 모형을 사용하여 와인 데이터 분류 모형을 만들어 훈련한다.  


In [10]:
#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB

#Create a Gaussian Classifier
gnb = GaussianNB()

#Train the model 
gnb.fit(X_train, y_train)

#Predict
y_pred = gnb.predict(X_test)

나이브베이즈 모형에서 predict_proba를 사용하면 각 클래스에 대한 예측 확률값을 출력한다.

In [35]:
prob = np.round(gnb.predict_proba(X_test),2)

print(np.hstack((y_pred.reshape(-1,1),prob)))

[[0.   1.   0.   0.  ]
 [0.   0.55 0.45 0.  ]
 [1.   0.   1.   0.  ]
 [2.   0.   0.   1.  ]
 [0.   1.   0.   0.  ]
 [1.   0.23 0.77 0.  ]
 [0.   1.   0.   0.  ]
 [0.   1.   0.   0.  ]
 [1.   0.   1.   0.  ]
 [0.   1.   0.   0.  ]
 [2.   0.   0.44 0.56]
 [2.   0.   0.18 0.82]
 [2.   0.   0.   1.  ]
 [2.   0.   0.   1.  ]
 [0.   1.   0.   0.  ]
 [1.   0.   1.   0.  ]
 [1.   0.   1.   0.  ]
 [0.   1.   0.   0.  ]
 [0.   1.   0.   0.  ]
 [1.   0.   0.97 0.03]
 [2.   0.   0.   1.  ]
 [1.   0.   1.   0.  ]
 [0.   1.   0.   0.  ]
 [2.   0.   0.   1.  ]
 [0.   1.   0.   0.  ]
 [0.   1.   0.   0.  ]
 [1.   0.   1.   0.  ]
 [2.   0.   0.   1.  ]
 [0.   1.   0.   0.  ]
 [1.   0.   1.   0.  ]
 [2.   0.   0.   1.  ]
 [1.   0.   1.   0.  ]
 [1.   0.   1.   0.  ]
 [0.   1.   0.   0.  ]
 [1.   0.   1.   0.  ]
 [1.   0.   0.95 0.05]
 [0.   1.   0.   0.  ]
 [2.   0.   0.   1.  ]
 [2.   0.   0.   1.  ]
 [0.   1.   0.   0.  ]
 [2.   0.   0.   1.  ]
 [1.   0.04 0.96 0.  ]
 [0.   1.   0.   0.  ]
 [0.   1.  

### 모형의 정확도 평가
테스트 데이터로 모형을 평가하고 정확도를 출력한다.

In [11]:
#Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics

# Model Accuracy
print("Accuracy:", metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9074074074074074


### 실습

1. 가우시안 나이브 베이즈(GaussianNB)를 다항분포 나이브 베이즈(MultinomialNB)로 바꾸어 모형을 생성하고 정확도(accuracy)와 분류 확률(predict_proba)을 출력해 보시오.