# Naive Bayes Algorithm

### Definition
Classification 목적으로 주로 사용되는 알고리즘. 속성들 사이의 독립을 가정하는 **Bayes Theorem** 을 적용한 확률적 분류기법

**Laplace Smoothing**: 학습 벡터에 제시되어 있지 않은 요소가 있는 새로운 입력 벡터로 나이브 베이즈 분류기 (Naive Bayes Classifier)에 입력되면, 조건부 확률이 0이 되어 정상적으로 분류되지 않는 경우를 방지하기 위해 확률 값을 보정하는데 사용하는 기법. 

**Log 변환**: 입력 벡터를 구성하는 요소가 많을 수록 입력 벡터에 대한 각각의 조건부 확률이 낮아짐. 
- 조건부 확률 값의 비교가 불가능한 underflow 현상 발생
- underflow 현상 해결 위해 조건부 확률 계산식에 로그를 적용, 조건부 확률 값을 연산.

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

import pandas as pd
import numpy as np


In [5]:
tennis_data = pd.read_csv('playtennis.csv')
labels = { 'Outlook': ['Sunny', 'Overcast', 'Rain'], 
           'Temperature':['Hot', 'Mild', 'Cool'], 
           'Humidity':['High','Normal'],
           'Wind':['Weak','Strong'],
           'PlayTennis':['No','Yes'] }
i = 0
for col in list(labels.keys()):
    for val in labels[col]:
        tennis_data[col] = tennis_data[col].replace(val,i)
        i += 1
    
print("Preprocessing done: \n", tennis_data)

Preprocessing done: 
     Outlook  Temperature  Humidity  Wind  PlayTennis
0         0            3         6     8          10
1         0            3         6     9          10
2         1            3         6     8          11
3         2            4         6     8          11
4         2            5         7     8          11
5         2            5         7     9          10
6         1            5         7     9          11
7         0            4         6     8          10
8         0            5         7     8          11
9         2            4         7     8          11
10        0            4         7     9          11
11        1            4         6     9          11
12        1            3         7     8          11
13        2            4         6     9          10


Outlook, Temperature, Humidity, Wind 값을 dataframe 형태로 추출

In [9]:
X = np.array(pd.DataFrame(tennis_data, columns = ['Outlook', 'Temperature', 'Humidity', 'Wind']))
y = np.array(pd.DataFrame(tennis_data, columns = ['PlayTennis']))

X_train, X_test, y_train, y_test = train_test_split(X,y)

gnb_clf= GaussianNB() #가우시안 나이브 베이즈 모듈을 변수 gnb_clf에 저장
gnb_clf = gnb_clf.fit (X_train, y_train)

gnb_prediction = gnb_clf.predict(X_test)

print(gnb_prediction)

[11 10 10 10]


  y = column_or_1d(y, warn=True)


In [10]:
from sklearn.metrics import confusion_matrix, classification_report, f1_score, accuracy_score

In [11]:
print('Confusion matrix')
print(confusion_matrix(y_test, gnb_prediction))

Confusion matrix
[[0 0]
 [3 1]]


In [13]:
print('Classification Report')
print(classification_report(y_test, gnb_prediction))

Classification Report
              precision    recall  f1-score   support

          10       0.00      0.00      0.00         0
          11       1.00      0.25      0.40         4

    accuracy                           0.25         4
   macro avg       0.50      0.12      0.20         4
weighted avg       1.00      0.25      0.40         4



In [15]:
fmeasure = round(f1_score(y_test, gnb_prediction, average = 'weighted'),2)
accuracy = round(accuracy_score(y_test, gnb_prediction, normalize = True),2)

In [17]:
df_nbclf= pd.DataFrame(columns=['Classifier','F-measure','Accuracy'])
df_nbclf.loc[len(df_nbclf)]=['Naive Bayes', fmeasure, accuracy]
df_nbclf

Unnamed: 0,Classifier,F-measure,Accuracy
0,Naive Bayes,0.4,0.25
