In [1]:
import warnings
warnings.filterwarnings(action='ignore')
%config Completer.use_jedi = False
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['axes.unicode_minus'] = False
plt.rcParams['font.family'] = 'NanumGothicCoding'
plt.rcParams['font.size'] = 10
import seaborn as sns

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

나이브 베이즈(Naive Bayes)는 서로 조건부 독립(Conditional Indepeneance)인 피쳐를 가정하고, 베이즈 이론을 기반으로 하는 머신러닝 알고리즘이다.

Y가 주어졌을 때 X<sub>1</sub>과 X<sub>2</sub>가 독립일 경우 아래의 식을 만족한다.

$$P(X_1, X_2|Y) = P(X_1|Y)P(X_2|Y)$$

와인 데이터를 사용해 와인 종류를 분류하는 모델을 생성하고 학습시킨다.

In [2]:
# 데이터 불러오기
raw_data = datasets.load_wine() # 사이킷런이 제공하는 와인 데이터를 불러온다.

# 피쳐, 레이블 데이터 저장
xData = raw_data.data # 피쳐 데이터를 저장한다.
yData = raw_data.target # 피쳐 데이터에 따른 레이블을 저장한다.
print(xData.shape, yData.shape)

# 학습 데이터와 테스트 데이터로 분할
x_train, x_test, y_train, y_test = train_test_split(xData, yData, random_state=0)
print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)

# 데이터 표준화
std_scale = StandardScaler() # 표준화 스케일러 객체를 만든다.
x_train = std_scale.fit_transform(x_train) # 학습 데이터를 스케일러로 표준화 하고 적용한다.
x_test = std_scale.transform(x_test) # 테스트 데이터를 학습 데이터로 표준화 스케일러에 적용한다.

# 모델 생성 후 데이터 학습
from sklearn.naive_bayes import GaussianNB # 가우시안 나이브 베이즈 알고리즘을 사용하기 위해 import 한다.
# from sklearn.naive_bayes import BernoulliNB # 베르누이 나이브 베이즈 알고리즘을 사용하기 위해 import 한다.
# from sklearn.naive_bayes import MultinomialNB # 다항분포 나이브 베이즈 알고리즘을 사용하기 위해 import 한다.
# 가우시안 나이브 베이즈 모델을 만든다.
clf = GaussianNB()
# 표준화된 학습 데이터와 학습 데이터에 따른 레이블 데이터로 가우시안 나이브 베이즈 모델을 학습시킨다.
clf.fit(x_train, y_train)

(178, 13) (178,)
(133, 13) (45, 13) (133,) (45,)


GaussianNB()

학습된 모델로 테스트 데이터를 예측한다.

In [3]:
# predict() 메소드의 인수로 표준화된 테스트 데이터를 넘겨서 예측한다.
predict = clf.predict(x_test)
print(predict)

[0 2 1 0 1 1 0 2 1 1 2 2 0 0 2 1 0 0 2 0 0 0 0 1 1 1 1 1 1 2 0 0 1 0 0 0 2
 1 1 2 0 0 1 1 1]


학습된 모델을 평가한다.

In [4]:
# 혼동 행렬
# confusion_matrix() 메소드의 인수를 테스트 데이터의 실제값, 예측값 순서로 넘겨서 혼동 행렬를 만든다.
conf_matrix = confusion_matrix(y_test, predict)
print(conf_matrix)

[[16  0  0]
 [ 2 18  1]
 [ 0  0  8]]


In [5]:
# 분류 리포트
# classification_report() 메소드의 인수를 테스트 데이터의 실제값, 예측값 순서로 넘겨서 분류 리포트를 만든다.
# target_names 속성으로 분류 리포트에 레이블의 실제값을 출력할 수 있다.
class_report = classification_report(y_test, predict, target_names=raw_data.target_names) 
# class_report = classification_report(y_test, predict, target_names=['A', 'B', 'C']) 
print(class_report)

              precision    recall  f1-score   support

     class_0       0.89      1.00      0.94        16
     class_1       1.00      0.86      0.92        21
     class_2       0.89      1.00      0.94         8

    accuracy                           0.93        45
   macro avg       0.93      0.95      0.94        45
weighted avg       0.94      0.93      0.93        45

