## ■ 머신러닝의 종류 3가지
    1. 지도학습
        - 분류: kNN, 나이브베이즈
        - 회귀
    2. 비지도 학습
    3. 강화학습

### ■ 나이브 베이즈 알고리즘이란
    머신러닝의 종류 중 지도학습의 한 종류
    훈련 데이터를 활용해 특징 값이 제공하는 증거를 기반으로 결과가 관측될 확률 계산

### ■ 나이브 베이즈 알고리즘이 사용되는 분야
    1. 스팸 이메일 필터링과 같은 텍스트 분류
    2. 컴퓨터 네트워크에서 침입이나 비정상행위 탐지
    3. 일련의 관찰된 증상에 대한 의학적 질병 진단

#### 예제 : 비아그라가 포함되어져 있는 메일이 스펨메일일 확률
$$P(스팸|비아그라)={{P(비아그라|스팸)*P(스팸)}\over{P(비아그라)}}$$
```
베이즈 이론을 적용해서 메세지가 스팸이 될 확률을 측정한 후 사후확률을 계산해서 사후확률이 50% 보다 크다면 이 메세지는 햄보다 스팸이 될 가능성이 좀 더 크다
```

### ■ 비아그라 뿐만 아니라 다른 단어들도 여러개 있는 경우의 스팸일 확률

![우도표](우도표.png)

    비아그라 단어 하나만 가지고 스팸메일인지 분류하면 정확하게 분류가 안될 수 있으니 다른 단어들도 같이 포함시켜야 한다.
    
$$P(스팸|비아그라∩￢돈∩￢식료품∩구독취소)=??$$

    비아그라와 구독취소는 포함되어져 있는데 돈과 식료품은 포함되지 않는 메일이 스팸일 확률?
    
$$P(A|B)={{P(B|A)*P(A)}\over{P(B)}}={{P(비아그라∩￢돈∩￢식료품∩구독취소|스팸)*P(스팸)}\over{P(비아그라∩￢돈∩￢식료품∩구독취소)}}$$
<br><br>
$${{{4}\over{20}}*{{10}\over{20}}*{{20}\over{20}}*{{12}\over{20}}}\over{P(비아그라∩￢돈∩￢식료품∩구독취소)}$$

    메세지가 햄일 확률?
<br>
$$P(비아그라|햄)*P(￢돈|햄)*P(￢식료품|햄)*P(구독취소|햄)*P(햄)={{1}\over{80}}*{{66}\over{80}}*{{71}\over{80}}*{{23}\over{80}}*{{80}\over{100}}$$
<br><br>  

    스팸일 확률?
$${{0.012}\over{0.012+0.002}}=0.857$$
<br><br>
    
    햄일 확률?
$${{0.002}\over{0.012+0.002}}=0.143$$
<br><br>
    
    비아그라, 식료품, 구독취소가 포함되어있는 메일이 스팸일 확률은?
$${{P(비아그라∩￢돈∩식료품∩구독취소|스팸)*P(스팸)}\over{P(비아그라∩￢돈∩식료품∩구독취소)}}$$
<br><br>
        
    식료품이 포함되었을 때 확률이 0이므로 스팸일 확률이 0이 된다는 한계가 발생
    따라서 라플라스 추정량을 주어서 나이브 베이즈 모델의 성능을 올림


```R
# 1. 버섯 데이터를 R 로 로드한다. 
mushroom <- read.csv("mushrooms.csv", header=T, stringsAsFactors=TRUE)
View(mushroom)

# 2. 8124 독버섯 데이터만 따로 빼서 mush_test.csv 로 저장한다. 
mush_test <- mushroom[8123, ]
mush_test 
write.csv( mush_test, "mush_test.csv",row.names=FALSE )

# 3. 8124 독버섯 데이터를 훈련 데이터에서 제외 시키시오 !
nrow(mushroom)
mushrooms <- mushroom[ -8123,  ] 
nrow(mushrooms)

# 4. mushrooms 데이터를 훈련 데이터와 테스트 데이터로 나눈다 ( 훈련 데이터는 75%,  테스트 데이터는 25% )
set.seed(1)
dim(mushrooms)

train_cnt <- round( 0.75*dim(mushrooms)[1] )
train_cnt 

train_index <- sample( 1:dim(mushrooms)[1], train_cnt, replace=F)

mushrooms_train <- mushrooms[ train_index,  ]
mushrooms_test <- mushrooms[- train_index,  ] 

nrow(mushrooms_train)  #  6092
nrow(mushrooms_test)    #  2031 

str(mushrooms_train)

# 5. 나이브 베이즈 알고리즘으로 독버섯과 일반 버섯을 분류하는 모델을 생성한다.
library(e1071) #        모든 컬럼들
#                          ↓
model1 <- naiveBayes(type~ . ,  data=mushrooms_train)
#                     ↑
#                   라벨 컬럼명 
model1

# 6. 위에서 만든 모델과 테스트 데이터를 가지고 독버섯과 일반버섯을 잘 분류하는지 예측해 본다.
result1 <- predict( model1, mushrooms_test[  , -1] )
result1 

# 7. 이원 교차표를 그려서 최종 분류 결과를 확인한다. 
library(gmodels)
CrossTable( mushrooms_test[  ,1], result1) 
#                   ↑                ↑
#                  실제              예측 

# 8. 위의 모델의 성능을 올리시오 !
model2 <- naiveBayes(type~ . ,  data=mushrooms_train, laplace=0.0004)

result2 <- predict( model2, mushrooms_test[ , -1] )

CrossTable( mushrooms_test[ ,1], result2) 

# 위의 모델에  별도로 구분해 놓은 테스트 데이터 한개(독버섯) 8123 번 데이터를 넣어서 독버섯인지 정상인지 확인하시오 ! 

result3 <- predict( model2, mush_test )
```