# 나이브 베이즈 알고리즘
기계학습분야에서 지도학습(supervised learning) 알고리즘.
분류(Classification)의 목적으로 사용하고, 속성들 사이의 독립을 가정하는 베이즈 정리(Bayes theorem)를 적용한 확률적 분류기법이다.

## 베이즈 정리
두 확률 변수의 **사전확률**과 **사후확률** 사이의 관계를 설명하는 수학적 정리
 - 사전확률 : 어떤 사건에 대해 원인과 결과가 있다고 가정했을 때, 원인이 있을 때 결과가 발생할 확률
 - 사후확률 : 결과가 발생했다는 가정(=조건)에서, 어떤 원인이 발생했을 확률
 - 우도(likelihood) : 원인이 발생했다는 조건에서 결과가 발생했을 확률

## 베이즈 공식
![스크린샷, 2017-11-14 00-31-40](https://i.imgur.com/NjO4rJx.png)
P(A|B) : 사건 B가 일어난 상태에서 사건 A가 일어날 확률

![스크린샷, 2017-11-14 00-56-53](https://i.imgur.com/CSTrjiO.png)
그림과 같이 주사위 2개를 던졌을 때 두 주사위의 차이가 2일 확률이 아니라 주사위를 2개 던졌는데 그중 6이 없는 상태에서 두 주사위의 차이가 2가 될 확률을 구하는 것이다. 따라서 표본공간이 주사위 2개를 던졌을 때 나올 수 있는 모든 결과의 집합에서 주사위 2개를 던졌는데 그중 6이 없는 모든 결과의 집합으로 줄어들었을 때 두 주사위의 차이가 2일 확률을 구하는 것이다.

#### 각 사건의 확률값 보정
![스크린샷, 2017-11-14 00-59-27](https://i.imgur.com/vJXxfXu.png)
줄어든 표본공간의 전체 확률값은 `1`이다. 1이 되어야 하니까 각 값을 `보정`해야 함. 원래 표본공간은 3개이고, 6의 값을 인정하지 않는 조건에 해당하는 집합의 원소가 25개다.

![스크린샷, 2017-11-14 01-00-43](https://i.imgur.com/oi9Mm4t.png)




## 사후 확률 계산 시 발생하는 문제 해결 기법  

**라플라스 스무딩** : 베이즈 정리에 의한 조건부 확률을 계산할 때 학습에 제시되지 않은 요소가 입력에 존재를 하는 경우를 방지하기 위해 확률 값을 보정하는 기법

**Log 변환** : 항상 1보다 작은 값을 갖는 확률의 특성상 입력 벡터를 구성하는 요소가 많아질수록 입력벡터에 대한 각각의 조건부 확률이 너무 작아져서 비교가 불가능한 underflow현상이 발생할 수 있다. 이러한 문제를 해결하기 위해 조건부 확률 계산식에 **로그**를 적용한다.

# 실습

[진행과정]
1. 예제 데이터를 이용하여 빈도/우도 테이블 생성
2. 나이브 베이즈 방정식을 사용하여 각 클래스의 사전확률 계산
3. 입력 벡터에 대한 사후 확률 계산
 
계산되어 나온 사후 확률 중 가장 높은 사후확률을 갖는 클래스
 
학습 벡터 : outlook, temperature, humidity(조건, 특징 벡터를 이루는 구성 요소, 학습벡터, 특징값)
클래스 : playTennis(분류하고자 하는 타깃값, 테니스를 칠 수 있을지 없을지 예측)

## 1. 사후 확률 구하기 
![스크린샷, 2017-11-14 01-12-26](https://i.imgur.com/wUHX6NX.png)
outlook 벡터를 이용해 빈도 테이블을 만든다.

## 2. 사전 확률 구하기
![스크린샷, 2017-11-14 01-13-36](https://i.imgur.com/pIyHTHJ.png)

[클래스 YES에 대한 사전확률] 9/14=0.64
[클래스 NO에 대한 사전확률] 5/14=0.36

## 3. 우도 구하기
결과가 발생한 조건에서 원인이 발생하는 확률(우도) 구하기
[결과값이 Yes일 때, Overcast가 발생할 확률] 4/9=0.44
[결과값이 No일 때, Overcast가 발생할 확률] 발생하지 않음.
[결과값이 No일 때, Outlook벡터의 Rain일 확률] 2/5=0.4
[결과값이 Yes일 때, Outlook벡터의 Rain일 확률] 3/9=0.33
[결과값이 No일 때, Outlook벡터의 Sunny일 확률] 3/5=0.6
[결과값이 Yes일 때, Outlook벡터의 Sunny일 확률] 2/9=0.22


# 파이썬 실습

![스크린샷, 2017-11-15 02-19-29](https://i.imgur.com/JDZzbCj.png)
Outlook 벡터 중에서 Sunny가 발생했을 때, No가 얼마나 발생하는지에 대한 확률
즉, No가 발생할 사전확률과 No가 발생했을 때 Sunny가 발생했을 확률인 우도를 곱한 값을 **Sunny**가 발생할 사전확률로 나눈다.

No가 발생활 사전확률 P(No) = 0.36

### 사후확률
![스크린샷, 2017-11-15 02-21-47](https://i.imgur.com/2YyHwZA.png)
Rain이 발생했을 때, No가 발생할 확률.

**나머지 사후확률값 구해보기!!**


![스크린샷, 2017-11-15 02-23-36](https://i.imgur.com/i1DeaMK.png)
Outlook 벡터와 클래스에 대한 사전확률 및 사후확률과 우도를 구한 과정을 Temperature 벡터와 Humidity 벡터에 각각 적용을 하면
Temperature 벡터와 Humidity 벡터, 클래스에 대한 사전확률, 사후 확률, 우도 등도 함께 마저 구할 수 있게 된다.


## Temperature 데이터 이용
1. 사후확률 구하기
 - Temperature에는 Hot, Mild, Cold이 있고 PlayTennis의 범주는 Yes, NO로 나뉜다.
 - 빈도 테이블을 만들기
 - 우도 테이블 만들기

2. 사전 확률 구하기(Cool)
 - Cool의 사전확률 = Cool의 수 / Temperature 벡터 전체 요소 수(4/14)
 - Hot의 사전확률 = Hot의 수 / Temperature 벡터 전체 요소 수(4/14)
 - Mild이 사전확률 = Mild의 수 / Temperature 벡터 전체 요소 수(2/14)
 - 클래스 No의 사전확률 = 5/14
 - 클래스 Yes의 사전확률 = 9/14
 
3. 우도 구하기
 - 결과가 발생할 조건에서 원인이 발생하는 확률
 - 클래스가 Yes일 때 Tempearture 벡터가 Cool일 확률 = 3/9
 - 클래스가 No일 때 Temperature 벡터가 Cool일 확률 = 1/5
 - 클래스가 Yes일 때 Temperature 벡터가 Hot일 확률 = 2/9
 - 클래스가 No일 때, Temperature 벡터가 Hot일 확률 = 2/5
 - 클래스가 Yes일 때 Temperature 벡터가 Mild일 확률 = 4/9
 - 클래스가 No일 때 Temperature 벡터가 Mild일 확률 = 2/
 
4. Temperature 벡터가 발생했을 때, 클래스가 발생할 사후확률
    ![스크린샷, 2017-11-15 02-33-16](https://i.imgur.com/VrODkfN.png)
 - 즉, No가 발생할 사전 확률가 No가 발생했을 떄 Cool이 발생할 확률인 우도를 곱한 값을 Cool이 발생할 사전확률로 나누어주면 된다.
 - 0.25 = Cool이 발생했을 때, No가 발생할 사후확률값
 

## Humidity 데이터 이용

1. 사후확률 구하기
 - 빈도 테이블 생성 및 우도테이블 생성
 
2. 사전확률 구하기(NO)
     ![스크린샷, 2017-11-15 02-38-21](https://i.imgur.com/odmywRH.png)

3. 우도 구하기
    ![스크린샷, 2017-11-15 02-39-37](https://i.imgur.com/H5yakGW.png)
    
4. Hmidity 벡터가 발생했을 때, 클래스가 발생할 사후 확률
    ![스크린샷, 2017-11-15 02-40-56](https://i.imgur.com/mInoWBr.png)

5. Normal 이라는 벡터가 발생했을 때, No가 발생할 사후 확률
    ![스크린샷, 2017-11-15 02-41-55](https://i.imgur.com/LZLhwqO.png)
    
    
![스크린샷, 2017-11-15 02-44-02](https://i.imgur.com/tKBt4sk.png)


In [25]:
from sklearn.model_selection import train_test_split
    # sklearn.model_selection : scikit-learn 패키지 중 클래스를 나누거나 함수를 통해 train/test를 나눌 때, 모델 검증에 사용되는 서브 패키지
    # train_test_split : 배열 또는 행렬을 임의의 훈련(train) 및 테스트(test) 하위 집합으로 분할하는 모듈
from sklearn.naive_bayes import GaussianNB
    # sklearn.navie_bayes : scikit-learn 패키지 중 나이브 베이즈 기반 모델이 있는 서브 패키지
    # Gaussian : 연속적인 값을 지닌 데이터 처리시, 각 클래스의 연속적인 값들이 가우스 분포(정규분포)를 따른다고 가정하는 나이브 베이즈 모듈중 하나

import pandas as pd # 데이터를 구조화된 형식으로 가공 및 분석할 수 있또록 하는 자료구조를 제공하는 패키지
import numpy as np # Numerical Python의 줄임말로, 고성능 계산, 데이터 분석에 관련된 패키지

tennis_data = pd.read_csv('play_tennis.csv')
tennis_data

Unnamed: 0,Outlook,Temperature,Humidity,Wind,PlayTennis
0,Sunny,Hot,High,Weak,No
1,Sunny,Hot,High,Strong,No
2,Overcast,Hot,High,Weak,Yes
3,Rain,Mild,High,Weak,Yes
4,Rain,Cool,Normal,Weak,Yes
5,Rain,Cool,Normal,Strong,No
6,Overcast,Cool,Normal,Strong,Yes
7,Sunny,Mild,High,Weak,No
8,Sunny,Cool,Normal,Weak,Yes
9,Rain,Mild,Normal,Weak,Yes


## 문자열 타입에서 숫자 타입으로 변환을 하는 전처리 과정

In [17]:
tennis_data.Outlook = tennis_data.Outlook.replace('Sunny', 0)
tennis_data.Outlook = tennis_data.Outlook.replace('Overcast', 1)
tennis_data.Outlook = tennis_data.Outlook.replace('Rain', 2)

tennis_data.Temperature = tennis_data.Temperature.replace('Hot', 3)
tennis_data.Temperature = tennis_data.Temperature.replace('Mild', 4)
tennis_data.Temperature = tennis_data.Temperature.replace('Cool', 5)

tennis_data.Humidity = tennis_data.Humidity.replace('High', 6)
tennis_data.Humidity = tennis_data.Humidity.replace('Normal', 7)

tennis_data.Wind = tennis_data.Wind.replace('Weak', 8)
tennis_data.Wind = tennis_data.Wind.replace('Strong', 9)

tennis_data.PlayTennis = tennis_data.PlayTennis.replace('No', 10)
tennis_data.PlayTennis = tennis_data.PlayTennis.replace('Yes', 11)

tennis_data


Unnamed: 0,Outlook,Temperature,Humidity,Wind,PlayTennis
0,0,3,6,8,10
1,0,3,6,9,10
2,1,3,6,8,11
3,2,4,6,8,11
4,2,5,7,8,11
5,2,5,7,9,10
6,1,5,7,9,11
7,0,4,6,8,10
8,0,5,7,8,11
9,2,4,7,8,11


In [18]:
# 1. 변수 tennis_data의 칼럼의 값들을 데이터프레임 형태로 추출하고
  # np.array를 이용해 추출한 데이터를 배열 형태로 변환한 후 변수 X에 저장

# 2. 변수 tennis_data의 컬럼(PlayTennis)의 값을 데이터프레임 형태로 추출하고
  # np.array를 이용해 추출한 데이터를 배열 형태로 변환한 후 변수 y에 저장

# 데이터프레임으로 만들고 -> 다시 array 형태로 만든다.
X = np.array(pd.DataFrame(tennis_data, columns = ['Outlook', 'Temperature', 'Humidity', 'Wind'])) # 독립변수(조건 1. Outlook, 2. Temperature, 3. Humidity, 4. Wind)
y = np.array(pd.DataFrame(tennis_data, columns = ['PlayTennis'])) # target 값 (종속변수)
print("X : ", X, type(X)) # array가 되어서 나타남
print("y : ", y)  

X :  [[0 3 6 8]
 [0 3 6 9]
 [1 3 6 8]
 [2 4 6 8]
 [2 5 7 8]
 [2 5 7 9]
 [1 5 7 9]
 [0 4 6 8]
 [0 5 7 8]
 [2 4 7 8]
 [0 4 7 9]
 [1 4 6 9]
 [1 3 7 8]
 [2 4 6 9]] <class 'numpy.ndarray'>
y :  [[10]
 [10]
 [11]
 [11]
 [11]
 [10]
 [11]
 [10]
 [11]
 [11]
 [11]
 [11]
 [11]
 [10]]


In [19]:
# 14개의 데이터(0~13) 일부를 train 데이터로, 일부를 test 데이터로 한다.
# 일반적으로 train을 7.5(=8), test를 2.5(=2)로 둔다.
# 즉, 훈련 데이터 : 14개 x 0.8 = 11개 정도
# 그리고 나머지 3개를 테스트 데이터로 사용한다.
X_train, X_test, y_train, y_test = train_test_split(X, y)
    # 변수 X : 4개 컬럼에 대한 데이터
    # 변수 y : Playtennis 컬럼의 데이터
    # X_train과 y_train에 75%
    # X_test과 y_test에 25%가 할당됨

print(len(X_train))
print(len(X_test))
print(len(y_train))
print(len(y_test))
print("=====================================")
print("X_train : ", X_train) # 임의의 순서로 데이터를 선별. 
print("=====================================")
print("X_test : ", X_test)
print("=====================================")
print("y_train  : ", y_train) # X_train의 행에 맞는 y값을 가져온다.
print("=====================================")
print("y_test : ", y_test)
print(len(X_test)/(len(X_train)+len(X_test)))

10
4
10
4
X_train :  [[2 4 6 8]
 [2 5 7 9]
 [2 4 7 8]
 [0 4 6 8]
 [1 5 7 9]
 [0 4 7 9]
 [1 3 7 8]
 [1 3 6 8]
 [2 5 7 8]
 [0 3 6 8]]
X_test :  [[0 5 7 8]
 [1 4 6 9]
 [0 3 6 9]
 [2 4 6 9]]
y_train  :  [[11]
 [10]
 [11]
 [10]
 [11]
 [11]
 [11]
 [11]
 [11]
 [10]]
y_test :  [[11]
 [11]
 [10]
 [10]]
0.2857142857142857


In [20]:
gnb_clf = GaussianNB()
gnb_clf = gnb_clf.fit(X_train, y_train) # gnb_clf의 함수 fit()에 변수 X_train, y_train(훈련 데이터)을 입력해 가우시안(Gaussian) 나이브 베이즈 모델 생성
gnb_prediction = gnb_clf.predict(X_test) # 입력한 변수 X_test에 대한 클래스 예측 값을 저장
print(gnb_prediction) ## 10 : NO, 11: YES,

[11 11 10 11]


  y = column_or_1d(y, warn=True)


## 성능 테스트

In [22]:
'''
Naive Bayes 모델의 predict 함수를 사용해 X_test 데이터에 대한 예측값과 실제값 y_test를 비교해 모델의 성능을 평가

성능 평가에 사용될 평가요소 : confusion_matrix, classification_report, f1_score, accuracy_score
성능 평가를 하기 위해 모듈을 import
'''

from sklearn.metrics import confusion_matrix       # 오차 행렬(2x2), y축은 실제값, x축은 예측값
from sklearn.metrics import classification_report
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score

In [24]:
print("Confusion Matrix")
print(confusion_matrix(y_test, gnb_prediction))
    # [10이라는 숫자가 우리 모델에 의해서 10이라고 나온 것이 1개 있음, 11로 나온 것이 1개 있음]
    # [11이라는 숫자가 우리 모델 예측기에 의해서 10으로 나온 것이 0개, 11을 예측기로 돌렸더니 11로 나온 것이 2개]
    
    # 세로축 : 원래 값
    # 가로축 : 예측된 결과

Confusion Matrix
[[1 1]
 [0 2]]


In [25]:
'''
Classification Report는 분류에 대한 측정 항목을 보여주는 보고서

Classfication Report의 측정 항목 : 클래스 별 precision, recall, f1-score와
                                                  전체 데이터의 precision, recall, f1-score
'''

# Confusion Matrix : classification_report는 분류에 대한 측정 목록을 보여줌.

print("Classification Report")
print(classification_report(y_test, gnb_prediction))

    # no에 대한 preicision, recall, f1-score, support
    # yes에 대한 precision, recall, f1-score, support

Classification Report
             precision    recall  f1-score   support

         10       1.00      0.50      0.67         2
         11       0.67      1.00      0.80         2

avg / total       0.83      0.75      0.73         4



In [30]:
'''
f1_score 함수에 파라미터로 실제값 y_test와 예측값 gnb_prediction을 넣고 average를 weighted로 설정
weighted는 클래스별로 가중치를 적용하는 역할을 한다.

이렇게 3개의 라마티러르 넣고 f1_score를 구한 후, round 함수를 이용해 소수점 2번째 자리까지 표현한 값을 변수 fmeasure에 저장한다.
'''
fmeasure = round(f1_score(y_test, gnb_prediction, average='weighted'), 2)

'''
accuracy_score 함수에 파라미터로 실제값 y_test와 normalize를 True로 설정한다. 
'True'는 정확도를 계산해서 출력해주는 역할을 한다.
'False'로 설정하면 올바르게 분류된 데이터의 수를 출력한다.
이렇게 3개의 파라미터를 넣고 accuracy를 구한 후 round 함수를 이용해 소수점 2번째 자리까지 표현한 값을 변수 accuracy에 저장한다.
'''

accuracy = round(accuracy_score(y_test, gnb_prediction, normalize=True), 2)


0.75


In [33]:
# 칼럼이 Classifier, F-Meaure, Accuracy인 데이터르에미을 변수 df_nbclf에 저장
df_nbclf = pd.DataFrame(columns=['Classifier', 'F-Measure', 'Accurcay'])

'''
컬럼 Classifier에는 Naie Bayes로 저장하고, 데이터프레임 df_nbclf의 해당 위치에 fmeasure 데이터와 accuracy 데이터를 데이터프레임에 저장한다.
'''

df_nbclf.loc[len(df_nbclf)] = ['Naive Bayes', fmeasure, accuracy]


# 저장한 데이터프레임을 출력합니다.
df_nbclf

Unnamed: 0,Classifier,F-Measure,Accurcay
0,Naive Bayes,0.73,0.75
