# 3. 나이브 베이즈

## 3.1 핵심 개념

**나이브베이즈란 사건 B가 주어졌을때 사건 A가 일어날 확률인 P(A|B) 인 조건부 확률과 베이즈 정리를 이용한 알고리즘** 이다. <u>나이브(Naive)란 예측에 사용되는 특성치(X)가 상호 독립적이라는 가정하에 확률을 계산한다는 순진한 가정을 전제로 진행한다는 의미에서 붙여진 이름</u>입니다.

즉, 모든 특성치들이 레이블을 분류 혹은 예측하는데에 동득한 역할을 한다는 의미입니다.(다중공선성이 없다는 가정) 또한 베이즈는 특성치가 클래스 전체의 확률 분포에 대비하여 특정 클래스에 속할 확률을 베이즈 정리를 기반으로 계산한 것입니다. ???

## 3.2 scikit-learn

나이브 베이즈는 sklearn.naive_bayes 패키지에 속해 있습니다.

그 중 **분류 문제에서는 가우시안 나이브베이즈 알고리즘을 주로 사용**합니다. <u>가우시안은 가우스 분포, 즉, 정규분포상에서 발생확률을 계산하기 때문에 붙여진 이름</u>입니다. 이 가우시안 나이브베이즈는 연속형 자료일 경우 발생확률을 정규분포상에서 확률(likelyhood:우도)을 구해서 계산하게 됩니다.

|sklearn.naive_bayes|NaiveBayes|
|:--|:--|
|sklearn.naive_bayes.BernoulliNB() |Naive Bayes classifier for multivariate Bernoulli models.|
|sklearn.naive_bayes.CategoricalNB() |Naive Bayes classifier for categorical features|
|sklearn.naive_bayes.ComplementNB() |The Complement Naive Bayes classifier described in Rennie et al|
|sklearn.naive_bayes.GaussianNB() |Gaussian Naive Bayes (GaussianNB)|
|sklearn.naive_bayes.MultinomialNB() |Naive Bayes classifier for multinomial models|

GaussianNB의 주요 하이퍼파라미터는 var_smoothing 입니다.

**라플라스 스무딩**  
라플라스 스무딩이란 ? 나이브베이즈 분류에서 특정 케이스를 만족하는 대상을 클래스로 분류시키고자 하였을때, 그 분류기준을 100% 만족하지 않더라도 대상 표본의 일정 값을 더하여 우도가 0이 되는걸 방지하는 기법. 가령 훈련 데이터에 없던 케이스이거나 이상값이 들어올지라도 매칭 케이스를 찾을 수 있도록 하는 변조 값.

|Hyper Parameter||
|:--|:--|
|var_smoothing|디폴드 값으로 0.00000001 이다. 안정적인 연산을 위해 분산에 더해지는 모든 특성치의 최대 분산 비율이 권장된다.|


※ **회귀문제에서는 나이브 베이즈 알고리즘이 잘 맞지는 않다.** 이보다는 linear_model 패키지에 있는 Baysian regressor 를 활용하는것이 회귀 문제에서는 보다 좋은 선택이다.


|sklearn.linear_model|Linear Models|
|:--|:--|
|Bayesian regressors||
|linear_model.ARDRegression() |Bayesian ARD regression|
|linear_model.BayesianRidge() |Bayesian ridge regression.|

<br/>
<br/>
BayesianRidge 모델의 하이퍼 파라미터는 alpha_1 과 lambda_1 가 있습니다.

|Hyper Parameter||
|--:|:--|
|alpha_1|기본값 1e-6. 감마분포의 alpha 파라미터 사전 설정 값|
|lambda_1|기본값 1e-6. 감마분포의 lambda 파라미터 사전 설정 값|

## 3.3 분석 코드

### Part1. 분류(Classification)

In [2]:
# 경고레벨조정
import warnings
warnings.filterwarnings("ignore")

# 데이터 로드
import pandas as pd
data = pd.read_csv("./extrafiles/breast-cancer-wisconsin.csv", encoding='utf-8')

# 컬럼정보 확인
print(data.columns)

# 독립변수/ 종속변수 분리
X = data[['code', 'Clump_Thickness', 'Cell_Size', 'Cell_Shape',
       'Marginal_Adhesion', 'Single_Epithelial_Cell_Size', 'Bare_Nuclei',
       'Bland_Chromatin', 'Normal_Nucleoli', 'Mitoses']]
y = data[['Class']]

# train-test data 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, stratify=y)

# stratify 효과 - 범주형 변수를 유사한 비율로 train / test 데이터로 분리시켜 준다.
print(y_train.mean())
print(y_test.mean())

# 표준화 작업 - MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

Index(['code', 'Clump_Thickness', 'Cell_Size', 'Cell_Shape',
       'Marginal_Adhesion', 'Single_Epithelial_Cell_Size', 'Bare_Nuclei',
       'Bland_Chromatin', 'Normal_Nucleoli', 'Mitoses', 'Class'],
      dtype='object')
Class    0.349609
dtype: float64
Class    0.350877
dtype: float64


In [3]:
# 가우시안 나이브 베이즈 모델 적용
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X_scaled_train, y_train)
pred_train = model.predict(X_scaled_train)
model.score(X_scaled_train, y_train)

0.96484375

**가우시안 나이브 베이즈 모델** 적용시 기본 파라미터 값으로는 96.48%에 달한다.

In [4]:
# 훈련데이터 혼동행렬 정보 확인
from sklearn.metrics import confusion_matrix
confusion_train = confusion_matrix(y_train, pred_train)
print("훈련데이터 오차행렬 : \n", confusion_train)

훈련데이터 오차행렬 : 
 [[318  15]
 [  3 176]]


![혼동행렬](./extrafiles/matrix.png)

In [6]:
# 훈련데이터 분류 레포트 작성
from sklearn.metrics import classification_report
cfreport_train = classification_report(y_train, pred_train)
print("분류예측 레포트 : \n", cfreport_train)

분류예측 레포트 : 
               precision    recall  f1-score   support

           0       0.99      0.95      0.97       333
           1       0.92      0.98      0.95       179

    accuracy                           0.96       512
   macro avg       0.96      0.97      0.96       512
weighted avg       0.97      0.96      0.97       512



In [7]:
# 테스트데이터 예측결과 생성
pred_test = model.predict(X_scaled_test)
model.score(X_scaled_test, y_test)

0.9590643274853801

In [8]:
# 테스트데이터 분류 레포트 작성
confusion_test = confusion_matrix(y_test, pred_test)
print("테스트데이터 오차행렬 : \n", confusion_test)

테스트데이터 오차행렬 : 
 [[106   5]
 [  2  58]]


- 훈련용데이터 예측율 : 96.48%
- 테스트데이터 예측율 : 95.90%


In [11]:
# 분류예측 레포트 작성
cfreport_test = classification_report(y_test, pred_test)
print("분류예측 레포트 : \n", cfreport_test)

분류예측 레포트 : 
               precision    recall  f1-score   support

           0       0.98      0.95      0.97       111
           1       0.92      0.97      0.94        60

    accuracy                           0.96       171
   macro avg       0.95      0.96      0.96       171
weighted avg       0.96      0.96      0.96       171



In [14]:
# 하이퍼 파라미터 튜닝 - Grid Search
from sklearn.model_selection import GridSearchCV
param_grid = {'var_smoothing':[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}
grid_search = GridSearchCV(GaussianNB(), param_grid, cv=5)
grid_search.fit(X_scaled_train, y_train)

GridSearchCV(cv=5, estimator=GaussianNB(),
             param_grid={'var_smoothing': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]})

In [15]:
# 파라미터 튜닝 결과 확인
print("Best Parameter : {}".format(grid_search.best_params_))
print("Best Score : {:.4f}".format(grid_search.best_score_))
print("Test set Score : {:.4f}".format(grid_search.score(X_scaled_test, y_test)))

Best Parameter : {'var_smoothing': 0}
Best Score : 0.9629
Test set Score : 0.9591


In [17]:
# 하이퍼 파라미터 튜닝2 - Randomized Search
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_distribs = {'var_smoothing':randint(low=0, high=20)}
random_search = RandomizedSearchCV(GaussianNB(), param_distributions=param_distribs, n_iter=100, cv=5)
random_search.fit(X_scaled_train, y_train)

RandomizedSearchCV(cv=5, estimator=GaussianNB(), n_iter=100,
                   param_distributions={'var_smoothing': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001FB93F41B80>})

In [18]:
# 파라미터 튜닝 결과값 확인
print("Best Parameter : {}".format(random_search.best_params_))
print("Best Score : {:.4f}".format(random_search.best_score_))
print("Test set Score : {:.4f}".format(random_search.score(X_scaled_test, y_test)))

Best Parameter : {'var_smoothing': 0}
Best Score : 0.9629
Test set Score : 0.9591


### Part2. 회귀(Regression)

**나이브 베이즈의 회귀모델 알고리즘 이름은 BayesianRidge 이다.**  데이터는 주택가격 파일을 기준으로 진행한다.

In [19]:
# 데이터 로드
data2 = pd.read_csv('./extrafiles/house_price.csv', encoding='utf-8')

print(data2.columns)

X = data2[data2.columns[1:5]]
y = data2[['house_value']]

print(X.columns)

# train-test data 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# stratify 효과 - 범주형 변수를 유사한 비율로 train / test 데이터로 분리시켜 준다.
print(y_train.mean())
print(y_test.mean())

# 표준화 작업 - MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

Index(['housing_age', 'income', 'bedrooms', 'households', 'rooms',
       'house_value'],
      dtype='object')
Index(['income', 'bedrooms', 'households', 'rooms'], dtype='object')
house_value    189260.967812
dtype: float64
house_value    188391.001357
dtype: float64


In [21]:
# 훈련데이터 베이지안 릿지 적용
from sklearn.linear_model import BayesianRidge
model = BayesianRidge()
model.fit(X_scaled_train, y_train)
pred_train = model.predict(X_scaled_train)
model.score(X_scaled_train, y_train)

0.5455724466331763

In [22]:
# 테스트데이터 베이지안 릿지 적용
pred_test = model.predict(X_scaled_test)
model.score(X_scaled_test, y_test)

0.5626859871488648

In [23]:
# 연속형 데이터의 성능지표, R-square 와 RMSE
import numpy as np
from sklearn.metrics import mean_squared_error
MSE_train = mean_squared_error(y_train, pred_train)
MSE_test = mean_squared_error(y_test, pred_test)

print("훈  련데이터 RMSE : ", np.sqrt(MSE_train))
print("테스트데이터 RMSE : ", np.sqrt(MSE_test))

훈  련데이터 RMSE :  64340.34302948542
테스트데이터 RMSE :  63220.68115643447


In [25]:
# 하이퍼 파라미터 튜닝 - Grid Search
from sklearn.model_selection import GridSearchCV
param_grid = {'alpha_1' : [1e-6, 1e-5, 0.0001, 0.001, 0.01, 0.1, 1, 2, 3, 4], 'lambda_1':[1e-06, 1e-05, 0.0001, 0.001, 0.01, 0.1, 1, 2, 3, 4]} # 하이퍼 파라미터 후보들
grid_search = GridSearchCV(BayesianRidge(), param_grid, cv=5)
grid_search.fit(X_scaled_train, y_train)

GridSearchCV(cv=5, estimator=BayesianRidge(),
             param_grid={'alpha_1': [1e-06, 1e-05, 0.0001, 0.001, 0.01, 0.1, 1,
                                     2, 3, 4],
                         'lambda_1': [1e-06, 1e-05, 0.0001, 0.001, 0.01, 0.1, 1,
                                      2, 3, 4]})

In [26]:
# 파라미터 튜닝 결과 확인
print("Best Parameter : {}".format(grid_search.best_params_))
print("Best Score : {:.4f}".format(grid_search.best_score_))
print("Test set Score : {:.4f}".format(grid_search.score(X_scaled_test, y_test)))

Best Parameter : {'alpha_1': 4, 'lambda_1': 1e-06}
Best Score : 0.5452
Test set Score : 0.5627


In [28]:
# 하이퍼 파라미터 튜닝2 - Randomized Search
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_distribs =  {'alpha_1' : randint(low=1e-06, high=10), 'lambda_1': randint(low=1e-06, high=10)} # 하이퍼 파라미터 후보들
random_search = RandomizedSearchCV(BayesianRidge(), param_distributions=param_distribs, n_iter=50, cv=5) #n_iter : 랜덤서치 탐색 횟수
random_search.fit(X_scaled_train, y_train)

RandomizedSearchCV(cv=5, estimator=BayesianRidge(), n_iter=50,
                   param_distributions={'alpha_1': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001FB9592A5B0>,
                                        'lambda_1': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001FB9592A760>})

In [29]:
# 파라미터 튜닝 결과값 확인
print("Best Parameter : {}".format(random_search.best_params_))
print("Best Score : {:.4f}".format(random_search.best_score_))
print("Test set Score : {:.4f}".format(random_search.score(X_scaled_test, y_test)))

Best Parameter : {'alpha_1': 8, 'lambda_1': 0}
Best Score : 0.5452
Test set Score : 0.5627


**[종합정리]**  
BayesianRidge 모델 또한 회귀문제에서 기본, 그리드탐색, 랜덤탐색 유사한 결과를 보여 줍니다. 추후 다루게 되는 선형모델, 릿지, 라쏘등 다른 회귀모델과 결과를 비교해보면 유사한 결과의 정확도를 보입니다.
다만, **BayesianRidge 모델은 회귀모델에서 자주 사용되는 알고리즘은 아닙니다.**