# Scikit-learn을 활용한 나이브 베이즈 분류기
나이브 베이즈(Naive Bayes)는 베이즈 이론(Bayes theorem)의 확률 모델을 기반으로 하는 매우 단순하지만 강력한 분류 모형이다.



### 날씨, 기온에 따른 축구 여부 분류
2개의 Feature (Weather, Temp)와 1개의 Label (Play)로 구성된 dataset을 생성한다.  

* weather 구분 : 0='흐림', 1='비', 2='맑음'
* temp 구분 : 0='시원',1='더움',2='보통'
* label 구분 : 0='경기 안함', 1='경기 함'

In [1]:
import numpy as np

In [2]:
weather = np.array([2, 2, 0, 1, 1, 1, 0, 2, 2, 1, 2, 0, 0, 1])
temp = np.array([1, 1, 1, 2, 0, 0, 0, 2, 0, 2, 2, 2, 1, 2])
label = np.array([0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0])

In [3]:
features = zip(weather,temp)
features = list(features)
print(features)

[(np.int64(2), np.int64(1)), (np.int64(2), np.int64(1)), (np.int64(0), np.int64(1)), (np.int64(1), np.int64(2)), (np.int64(1), np.int64(0)), (np.int64(1), np.int64(0)), (np.int64(0), np.int64(0)), (np.int64(2), np.int64(2)), (np.int64(2), np.int64(0)), (np.int64(1), np.int64(2)), (np.int64(2), np.int64(2)), (np.int64(0), np.int64(2)), (np.int64(0), np.int64(1)), (np.int64(1), np.int64(2))]


* sklearn을 활용하여 나이브 베이즈 분류기 모델을 생성한다.  
* 모델 생성 -> 훈련 데이터 Fitting -> 분류로 실행한다.

In [4]:
#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB

#Create a Gaussian Classifier
model = GaussianNB()

# Train the model using the training sets
model.fit(features,label)

#Predict Output
predicted= model.predict([[0,2]]) # 0:Overcast, 2:Mild

print("Predicted Value:", predicted) # 1: Yes
print("Predicted probability:", model.predict_proba([[0,2]]))

Predicted Value: [1]
Predicted probability: [[0.00770751 0.99229249]]


> 예측 결과: 날씨가 흐림이고 기온이 보통일 때, "경기 함"으로 분류된다.

### 나이브 베이즈를 활용한 유방암 종양 데이터 분류

사이킷런에서 기본 제공하는 유방암 종양 데이터를 사용하여 종양의 악성/양성을 분류하는 모형을 생성한다.

In [None]:
#Import scikit-learn dataset library
from sklearn import datasets

#Load dataset
cancer = datasets.load_breast_cancer()

In [None]:
print(cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [None]:
# print the names of the features
print("Features: ", cancer.feature_names)

# print the label
print("Labels: ", cancer.target_names)

Features:  ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
Labels:  ['malignant' 'benign']


### 데이터 나누기
데이터를 train 데이터와 test 데이터로 나눈다.

In [None]:
# Import train_test_split function
from sklearn.model_selection import train_test_split

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target,
                                                    test_size=0.3, random_state=109)

### 모형의 생성, 훈련

가우시안 나이브 베이즈 모형을 사용하여 와인 데이터 분류 모형을 만들어 훈련한다.  


In [None]:
#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB

#Create a Gaussian Classifier
gnb = GaussianNB()

#Train the model
gnb.fit(X_train, y_train)

#Predict
y_pred = gnb.predict(X_test)

In [None]:
y_pred[:5]

array([1, 1, 0, 0, 1])

나이브베이즈 모형에서 predict_proba를 사용하면 각 클래스에 대한 예측 확률값을 출력한다.

In [None]:
prob = gnb.predict_proba(X_test)

prob[:5]

array([[2.40016272e-11, 1.00000000e+00],
       [4.31199661e-16, 1.00000000e+00],
       [1.00000000e+00, 4.97518710e-50],
       [1.00000000e+00, 9.04939408e-87],
       [2.14184617e-09, 9.99999998e-01]])

### 모형의 정확도 평가
테스트 데이터로 모형을 평가하고 정확도를 출력한다.

In [None]:
gnb.score(X_test, y_test)

0.9532163742690059

## 실습하기
1. sklearn의 wine 데이터를 다음과 같이 읽어들이시오.
```
from sklearn.datasets import load_wine
data = load_wine()
x = data.data
y = data.target
```

2. GaussianNB을 사용하여 와인의 종류를 분류하는 분류모형을 생성하시오.
3. 생성된 모형의 정확도를 출력하시오.

In [7]:
from sklearn.datasets import load_wine
data = load_wine()
X = data.data
y = data.target

In [14]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, MultinomialNB

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, random_state=42, stratify=y)

In [None]:
gnb = GaussianNB()
gnb.fit(X_train, y_train)
y_pred = gnb.predict(X_test)

In [12]:
prob = gnb.predict_proba(X_test)

prob[:5]

array([[9.99999995e-01, 5.30435531e-09, 3.82985844e-30],
       [9.23539407e-14, 1.00000000e+00, 5.69670711e-13],
       [1.00000000e+00, 1.63643288e-23, 2.04888740e-49],
       [1.00000000e+00, 8.87942731e-11, 1.95959058e-28],
       [9.92192406e-01, 7.80759352e-03, 4.04359165e-19]])

In [13]:
gnb.score(X_test, y_test)

1.0

In [15]:
mnnb = MultinomialNB()
mnnb.fit(X_train, y_train)
y_pred = mnnb.predict(X_test)

mnnb.score(X_test, y_test)

0.8888888888888888