# 나이브베이즈 알고리즘 실습

##### 서로 조건부 독립인 피처를 가정하고, 베이즈 이론을 기반으로 하는 알고리즘

##### 
---

#####  8.6.2 wine 데이터를 활용하여 wine 종류를 구분하는 실습

# Dataset import
## 데이터 불러오기

In [1]:
import pandas as pd
import numpy as np

In [3]:
# pandas, numpy 불러오지 않고 쓰면 긴 메세지가 뜨는 것을 확인할 수 있었다.

from sklearn import datasets
raw_wine = datasets.load_wine()

In [4]:
# 데이터 셋 내 피처 살펴보기
raw_wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

# 피처, 타깃 데이터 지정

In [5]:
X = raw_wine.data
y = raw_wine.target

## 트레이닝, 테스트 데이터 분할

In [6]:
from sklearn.model_selection import train_test_split
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state = 1)

## 데이터 표준화

In [7]:
from sklearn.preprocessing import StandardScaler
std_scale = StandardScaler()
std_scale.fit(X_tn)                               # X 트레이닝 데이터 기준으로 std scaler fitting, Xtn Xte모두.
X_tn_std = std_scale.transform(X_tn)
X_te_std = std_scale.transform(X_te)

# 나이브 베이즈 분류모델


## 모델링
### 데이터 학습

In [9]:
from sklearn.naive_bayes import GaussianNB          # 가우시안 나이브 베이즈 분류기를 import
clf_gnb = GaussianNB()              # 2개의 이웃을 기준으로 판별
clf_gnb.fit(X_tn_std, y_tn)

GaussianNB()

### 데이터 예측

In [10]:
gnb_pred = clf_gnb.predict(X_te_std)
print(gnb_pred)

[2 1 0 1 0 2 1 0 2 1 0 0 1 0 1 1 2 0 1 0 0 1 2 1 0 2 0 0 0 2 1 2 2 0 1 1 1
 1 1 0 0 1 2 0 0]


## 정확도 평가

리콜 평가를 진행해본다.

In [15]:
from sklearn.metrics import recall_score

recall = recall_score(y_te, gnb_pred, average = 'macro')
recall

1.0

In [16]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_te, gnb_pred)
accuracy

1.0

녜?

### confusion matrix 확인

confusion matrix를 통해 예측값과 실제값의 일치 정도를 확인해본다.

In [17]:
from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_te, gnb_pred)
conf_matrix

array([[18,  0,  0],
       [ 0, 17,  0],
       [ 0,  0, 10]])

잘못 분류된 것이 없는 것으로 확인되었다.
### 분류 리포트 확인


In [18]:
from sklearn.metrics import classification_report

class_rep = classification_report(y_te, gnb_pred)
print(class_rep)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        18
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        10

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45



틀린 내용이 없는 것이 조금 불편하다. 교재 실습에서는 이러지 않았는데 말이다. 

이번에는 표준화 없이 진행해보도록 한다.

# 실험1: 데이터 표준화 없이 진행하기
---

## 모델링
### 데이터 학습

In [20]:
from sklearn.naive_bayes import GaussianNB
clf_gnb_nstd = GaussianNB()
clf_gnb_nstd.fit(X_tn, y_tn)

GaussianNB()

### 데이터 예측

In [21]:
gnb_nstd_pred = clf_gnb_nstd.predict(X_te)
print(gnb_nstd_pred)

[2 1 0 1 0 2 1 0 2 1 0 0 1 0 1 1 2 0 1 0 0 1 2 1 0 2 0 0 0 2 1 2 2 0 1 1 1
 1 1 0 0 1 2 0 0]


## 정확도 평가

리콜률과 정확도를 평가해본다.

In [22]:
from sklearn.metrics import recall_score

recall = recall_score(y_te, gnb_nstd_pred, average = 'macro')
recall

1.0

In [23]:
from sklearn.metrics import accuracy_score

accuracy_nstd = accuracy_score(y_te, gnb_nstd_pred)
accuracy_nstd

1.0

...
### confusion matrix 확인

예측값과 실제값의 일치 정도를 확인해본다.

In [24]:
from sklearn.metrics import confusion_matrix

conf_matrix = confusion_matrix(y_te, gnb_nstd_pred)
conf_matrix

array([[18,  0,  0],
       [ 0, 17,  0],
       [ 0,  0, 10]])

### 분류 리포트 확인


In [25]:
from sklearn.metrics import classification_report

class_rep = classification_report(y_te, gnb_nstd_pred)
print(class_rep)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        18
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        10

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45



### Commentary

wine 데이터 역시 데이터셋이 워낙 작은 것도 있고, 데이터 자체가 잘 되어있는 것인지 분류가 확실하게 잘 되었다. 

그래서 표준화같은 과정을 거치지 않고도 좋은 결과를 보여주었다.

