# 나이브 베이즈 알고리즘
기계학습분야에서 지도학습(supervised learning) 알고리즘.
분류(Classification)의 목적으로 사용하고, 속성들 사이의 독립을 가정하는 베이즈 정리(Bayes theorem)를 적용한 확률적 분류기법이다.

## 베이즈 정리
두 확률 변수의 **사전확률**과 **사후확률** 사이의 관계를 설명하는 수학적 정리
 - 사전확률 : 어떤 사건에 대해 원인과 결과가 있다고 가정했을 때, 원인이 있을 때 결과가 발생할 확률
 - 사후확률 : 결과가 발생했다는 가정(=조건)에서, 어떤 원인이 발생했을 확률
 - 우도(likelihood) : 원인이 발생했다는 조건에서 결과가 발생했을 확률

## 베이즈 공식
![스크린샷, 2017-11-14 00-31-40](https://i.imgur.com/NjO4rJx.png)
P(A|B) : 사건 B가 일어난 상태에서 사건 A가 일어날 확률

![스크린샷, 2017-11-14 00-56-53](https://i.imgur.com/CSTrjiO.png)
그림과 같이 주사위 2개를 던졌을 때 두 주사위의 차이가 2일 확률이 아니라 주사위를 2개 던졌는데 그중 6이 없는 상태에서 두 주사위의 차이가 2가 될 확률을 구하는 것이다. 따라서 표본공간이 주사위 2개를 던졌을 때 나올 수 있는 모든 결과의 집합에서 주사위 2개를 던졌는데 그중 6이 없는 모든 결과의 집합으로 줄어들었을 때 두 주사위의 차이가 2일 확률을 구하는 것이다.

#### 각 사건의 확률값 보정
![스크린샷, 2017-11-14 00-59-27](https://i.imgur.com/vJXxfXu.png)
줄어든 표본공간의 전체 확률값은 `1`이다. 1이 되어야 하니까 각 값을 `보정`해야 함. 원래 표본공간은 3개이고, 6의 값을 인정하지 않는 조건에 해당하는 집합의 원소가 25개다.

![스크린샷, 2017-11-14 01-00-43](https://i.imgur.com/oi9Mm4t.png)




## 사후 확률 계산 시 발생하는 문제 해결 기법  

**라플라스 스무딩** : 베이즈 정리에 의한 조건부 확률을 계산할 때 학습에 제시되지 않은 요소가 입력에 존재를 하는 경우를 방지하기 위해 확률 값을 보정하는 기법

**Log 변환** : 항상 1보다 작은 값을 갖는 확률의 특성상 입력 벡터를 구성하는 요소가 많아질수록 입력벡터에 대한 각각의 조건부 확률이 너무 작아져서 비교가 불가능한 underflow현상이 발생할 수 있다. 이러한 문제를 해결하기 위해 조건부 확률 계산식에 **로그**를 적용한다.

# 실습

[진행과정]
1. 예제 데이터를 이용하여 빈도/우도 테이블 생성
2. 나이브 베이즈 방정식을 사용하여 각 클래스의 사전확률 계산
3. 입력 벡터에 대한 사후 확률 계산
 
계산되어 나온 사후 확률 중 가장 높은 사후확률을 갖는 클래스
 
학습 벡터 : outlook, temperature, humidity(조건, 특징 벡터를 이루는 구성 요소, 학습벡터, 특징값)
클래스 : playTennis(분류하고자 하는 타깃값, 테니스를 칠 수 있을지 없을지 예측)

## 1. 사후 확률 구하기 
![스크린샷, 2017-11-14 01-12-26](https://i.imgur.com/wUHX6NX.png)
outlook 벡터를 이용해 빈도 테이블을 만든다.

## 2. 사전 확률 구하기
![스크린샷, 2017-11-14 01-13-36](https://i.imgur.com/pIyHTHJ.png)

[클래스 YES에 대한 사전확률] 9/14=0.64
[클래스 NO에 대한 사전확률] 5/14=0.36

## 3. 우도 구하기
결과가 발생한 조건에서 원인이 발생하는 확률(우도) 구하기
[결과값이 Yes일 때, Overcast가 발생할 확률] 4/9=0.44
[결과값이 No일 때, Overcast가 발생할 확률] 발생하지 않음.
[결과값이 No일 때, Outlook벡터의 Rain일 확률] 2/5=0.4
[결과값이 Yes일 때, Outlook벡터의 Rain일 확률] 3/9=0.33
[결과값이 No일 때, Outlook벡터의 Sunny일 확률] 3/5=0.6
[결과값이 Yes일 때, Outlook벡터의 Sunny일 확률] 2/9=0.22
