## NaiveBayes

- 나이브 베이즈(Naïve Bayes)는 기계학습(Machine Learning)에서 지도학습(Supervised Learning) 알고리즘으로써 주로 분류(Classification)의 목적으로 사용
- 속성들 사이의 독립을 가정하는 베이즈 정리(Bayes theorem)를 적용한 확률적 분류기법

#### 베이즈 정리(Bayes theorem)
- 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리 
    - 사전 확률의 정보를 이용해 사후 확률을 추정
- 사전 확률(Prior probability)
    - 가지고 있는 정보를 기초로 정한 초기 확률
    - 가정 : 어떤 사건에 대한 원인과 결과 발생 -> 원인이 있을 때 결과가 발생할 확률
- 사후 확률(Posterior probability)
    - 결과가 발생했다는 조건에서 어떤 원인이 발생했을 확률
    - 가정 : 결과 발생 -> 결과가 발생 했을 때 원이이 발생할 확률
- 우도(Likelihood)
    - 원인이 발생했다는 조건에서 결과가 발생했을 확률 (y가 이미 관찰된 값, 즉 알려진 값으로 간주하고, mu를 변수로 보는 개념이 likelihood가 된다.)
    
#### 베이즈 공식(Bayes’ formula)
> 조건부 확률     
$P(B \mid A) = {P(A \cap  B) \over P(A)}$

> 확률의 곱셈정리    
$P(A \cap B) = P(A)P(B \mid A) = P(B)P(A \mid B)$

> 조건부 확률식을 확률 곱셈정리로 치환 = 베이즈 공식    
$P(B \mid A) = {P(A)P(B \mid A) \over P(A)} = {P(B)P(A \mid B) \over P(A)}$

- A:원인,B:결과
- P(A): 원인이 발생할 사전 확률
- P(B): 결과가 발생할 사전 확률
- P(B|A): 원인이 발생했을 때, 결과가 발생할 확률 (사전 확률)
- P(A|B): 결과가 발생했을 때, 원인이 발생할 확률 (사후 확률)

#### 조건부 확률(Conditional Probability)
- P(B|A) 사건 A가 일어난 상태에서 사건 B가 일어날 확률
- A를 전체로 보고 그 안에서 B가 일어날 확률

![week10_1.png](images/week10_1.png)

#### 사후 확률 계산 시 발생하는 문제 해결 기법
- 라플러스 스무딩(Laplace Smoothing 또는 Additive Smoothing)
    - 학습 벡터에 제시되어 있지 않은 요소가 있는 새로운 입력 벡터로 나이브 베이즈 분류기(Naïve Bayes Classifier)에 입력되면, 조건부 확률이 0이 되어 정상적으로 분류가 되지 않는 경우를 방지하기 위해 확률 값을 보정하는데 사용되는 기법
- Log 변환
    - 확률은 항상 1 보다 작은 값을 갖는 특성 존재
    - 입력 벡터를 구성하는 요소가 많을수록 입력 벡터에 대한 각각의 조건부 확률이 매우 낮아져, 조건부 확률 값의 비교가 불가능한 ‘underflow’현상 발생
    - Underflow 현상을 해결하기 위해 조건부 확률 계산식에 로그를 적용해 조건부 확률 값을 연산하는 기법

In [1]:
from sklearn.model_selection import train_test_split 
#sklearn.model_selection : scikit-learn 패키지 중 클래스를 나눌 때, 함수를 통해 train/test를 나눌 때, 모델 검증에 사용되는 서브 패키지
#배열 또는 행렬을 임의의 훈련(train) 및 테스트(test) 하위 집합으로 분할하는 모듈
from sklearn.naive_bayes import GaussianNB
#sklearn.naïve_bayes : scikit-learn 패키지 중 나이브 베이즈 기반 모델이 있는 서브 패키지
#Gaussian : Gaussian(가우시안)은 연속적인 값을 지닌 데이터를 처리 할 때, 각 클래스의 연속적인 값들이 가우스 분포(정규 분포)를 가정하는 나이브 베이즈 모듈 중 하나

import numpy as np
import pandas as pd

In [2]:
tennis_data = pd.read_csv("playtennis.csv") #csv 파일을 로드
tennis_data

Unnamed: 0,Outlook,Temperature,Humidity,Wind,Class
0,Sunny,Hot,High,Weak,No
1,Sunny,Hot,High,Strong,No
2,Overcast,Hot,High,Weak,Yes
3,Rain,Mild,High,Weak,Yes
4,Rain,Cool,Normal,Strong,Yes
5,Rain,Cool,Normal,Strong,No
6,Overcast,Cool,Normal,Weak,Yes
7,Sunny,Mild,High,Weak,No
8,Sunny,Cool,Normal,Weak,Yes
9,Rain,Mild,High,Weak,No


In [3]:
tennis_data.Outlook = tennis_data.Outlook.replace("Sunny", 0)
tennis_data.Outlook = tennis_data.Outlook.replace("Overcast", 1)
tennis_data.Outlook = tennis_data.Outlook.replace("Rain", 2)

tennis_data.Temperature = tennis_data.Temperature.replace("Hot", 3)
tennis_data.Temperature = tennis_data.Temperature.replace("Mild", 4)
tennis_data.Temperature = tennis_data.Temperature.replace("Cool", 5)

tennis_data.Humidity = tennis_data.Humidity.replace("High", 6)
tennis_data.Humidity = tennis_data.Humidity.replace("Normal", 7)

tennis_data.Wind = tennis_data.Wind.replace("Weak", 8)
tennis_data.Wind = tennis_data.Wind.replace("Strong", 9)

tennis_data.Class = tennis_data.Class.replace("No", 10)
tennis_data.Class = tennis_data.Class.replace("Yes", 11)

tennis_data

#tennis_data의 각 컬럼(Outlook, Temperature, ...)의 값(Sunny, Overcast, ...)을 문자열(String) 타입에서 
#숫자(int) 타입으로 대치(replace)해 변수 tennis_data의 각 컬럼별 저장 * 나이브 베이즈 모델에 train, test 데이터 값으로 사용하기 위한 전처리 과정

Unnamed: 0,Outlook,Temperature,Humidity,Wind,Class
0,0,3,6,8,10
1,0,3,6,9,10
2,1,3,6,8,11
3,2,4,6,8,11
4,2,5,7,9,11
5,2,5,7,9,10
6,1,5,7,8,11
7,0,4,6,8,10
8,0,5,7,8,11
9,2,4,6,8,10


In [4]:
X = np.array(pd.DataFrame(tennis_data, columns = ["Outlook", "Temperature", "Humidity", "Wind"])) #독립변수
#컬럼(Outlook, Temperature, Humidity, Wind)의 값들을 데이터프레임 형태로 추출해 배열로 저장
y = np.array(pd.DataFrame(tennis_data, columns = ["Class"])) #종속변수 #정답 레이블
#컬럼(Class)의 값들을 데이터프레임 형태로 추출해 배열로 저장

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y) #train과 test 구분 #일반적으로 train(7.5) : test(2.5)

In [6]:
gnb_clf = GaussianNB() #가우시안 나이브 베이즈 모델
gnb_clf = gnb_clf.fit(X_train, y_train) #학습
gnb_prediction = gnb_clf.predict(X_test) #예측값

print(gnb_prediction)

[10 10 10 10]


  y = column_or_1d(y, warn=True)


In [7]:
from sklearn.metrics import confusion_matrix #분류 결과 건수를 confusion matrix로 구성하는 모듈
from sklearn.metrics import classification_report #Precision, Recall, F-measure를 제공하는 모듈
from sklearn.metrics import f1_score #F-measure를 계산하는 모듈
from sklearn.metrics import accuracy_score #정확도를 수치로 계산하는 모듈

#모델의 성능 측정 위한 패키지

In [8]:
print("Confusion Matrix") #오차 행렬 #y축이 실제값 x축이 예측값
print(confusion_matrix(y_test, gnb_prediction)) #정답값, 예측값

#TT ~ TF

Confusion Matrix
[[1 0]
 [3 0]]


In [9]:
print("Classification Report") #분류에 대한 측정 항목 표시
print(classification_report(y_test, gnb_prediction))

Classification Report
             precision    recall  f1-score   support

         10       0.25      1.00      0.40         1
         11       0.00      0.00      0.00         3

avg / total       0.06      0.25      0.10         4



  'precision', 'predicted', average, warn_for)


In [10]:
fmeasure = round(f1_score(y_test, gnb_prediction, average="weighted"), 2) #정답값, 예측값
#weight는 클래스 별 가중치 적용. #round(, 2)로 소수점 2째자리까지 표현

accuracy = round(accuracy_score(y_test, gnb_prediction, normalize=True), 2) #정답값, 예측값
#nomalize True로 하면 정확도로 계산. False로 하면 데이터 수를 출력 #round(, 2)로 소수점 2째자리까지 표현

  'precision', 'predicted', average, warn_for)


In [11]:
df_nbclf = pd.DataFrame(columns=["Classifier", "F-Measure", "Accuracy"]) #컬럼명 지정
df_nbclf.loc[len(df_nbclf)] = ["Naive Bayes", fmeasure, accuracy] 

df_nbclf

#https://datascienceschool.net/view-notebook/704731b41f794b8ea00768f5b0904512/

Unnamed: 0,Classifier,F-Measure,Accuracy
0,Naive Bayes,0.1,0.25
