In [None]:
from sklearn import datasets

In [None]:
# Numerical data에 대해서 살펴보자.
iris = datasets.load_iris()

In [None]:
# 먼저 사용할 데이터에 대해서 살펴보자.
print(iris.DESCR)

In [None]:
iris.data[:10]

In [None]:
iris.target[:10]

Gaussian Naive Bayes는 likelihood를 Gaussian을 이용하여 나타낸다. 즉,
$$P(x_i|y)=\frac{1}{\sqrt{2\pi\sigma_{y}^{2}}}exp{(-\frac{(x_i-\mu_y)^2}{2\sigma_{y}^{2}})}$$

## 1. EDA

각 feature의 분포를 시각화해보자.

In [None]:
import seaborn as sns

In [None]:
# 첫 번째 feature
sns.distplot(iris.data[:, 0])

In [None]:
# 두 번째 feature
sns.distplot(iris.data[:, 1])

In [None]:
# 세 번째 feature
sns.distplot(iris.data[:, 2])

In [None]:
# 네 번째 feature
sns.distplot(iris.data[:, 3])

중심극한정리에 의하면 결국, 정규분포에 근사하게 된다.

## 2. 데이터를 학습 데이터와 테스트 데이터로 구분합니다.

In [None]:
# 검증 데이터를 사용하지 않습니다. (사용할 필요성이 없습니다.)
from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)

In [None]:
print('Train x', train_x[:1])
print('Train y', train_y[:1])

In [None]:
# 카테고리의 비율이 적절하게, 그리고 원본 데이터와 비교하여 비율이 비슷하게 나누어졌는지 확인해봅니다.
from collections import Counter

In [None]:
print('원본 데이터의 비율 :', Counter(iris.target))
print('학습 데이터의 비율 :', Counter(train_y))
print('테스트 데이터의 비율 :', Counter(test_y))

## 3. 모델을 학습합니다.

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()
# 학습 셋으로만 scaling을 실시합니다.
scaler = scaler.fit(train_x)
scaled_train_x = scaler.transform(train_x)
# 학습 셋에 이용했던 scaler를 테스트 셋에 이용합니다.
scaled_test_x = scaler.transform(test_x)

GaussianNB에서 scaling을 하지 않고 모델을 학습하고, 테스트해도 같은 결과가 나옵니다. 왜 그럴까요? Likelihood를 다른 것을 사용하게 하면(가우시안말고) scaling이 필요할 수 있습니다. 하지만 모델을 학습할 때는 GNB말고 다양한 모델을 학습시키기 때문에, 데이터를 scaling 하여 다른 학습모델에서도 테스트할 수 있도록 미리 scaling 작업을 해 주면 좋습니다.

In [None]:
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()

In [None]:
gnb_model = gnb.fit(scaled_train_x, train_y)

## 4. 모델을 테스트합니다.

In [None]:
pred = gnb_model.predict(scaled_test_x)
print("Accuracy :", (pred == test_y).sum() / len(test_x))