# Naive Bayes 

> 베이즈 추청이란? 
- 표본 정보와 사전 정보를 함께 사용하여 모수를 추정하는 것이 바람직 
- 스팸일 때, 그 단어가 나올 확률을 기반으로 그 단어가 나올 때, 스팸일 확률을 구하는 것 

> 나이브 베이즈의 특징 
- 지도학습
- `모든 feature가 독립`이라고 가정 
- 가장 단순한 지도학습 중 하나 
- 정확도가 높고 대용량 데이터에 대해 속도가 빠름 

> 어떻게 동작하는가? 
- 사전 확률, 사후확률 구함 
    - 그 단어가 나올 때, 스팸일 확률은? 
    - 사전 확률 : 단어가 나올 확률, 스팸인 확률 
    - 사후 확률 : 스팸일 때, 그 단어가 나올 확률 
- 베이즈 정리 공식에 대입 

> 장점 
- 간단하고, 빠르며, 정확한 모델이다.
- computation cost가 작다 
- 큰 데이터 셋에 적합하다. 
- 연속형보다 `이산형 데이터`에서 성능이 좋다 => glass 데이터에는 그래서 정확도 안좋군 
- multiple class 예측을 위해서 사용할 수 있다. 

> 단점 
- feature 간의 독립성이 있어야 한다. (하지만 실제 데이터에서는 모든 feature가 독립인 경우는 드물다)
- feature간의 상관성이 없다고 해야 함 
- 독립성이 있다는 가정하에 성립되는 모델이기에 실생활에 바로 적용하기에는 어려움이 있다.




In [3]:
import pandas as pd 

df = pd.read_csv('./data/glass.csv')
df.head()

Unnamed: 0,RI,Na,Mg,Al,Si,K,Ca,Ba,Fe,Type
0,1.52101,13.64,4.49,1.1,71.78,0.06,8.75,0.0,0.0,1
1,1.51761,13.89,3.6,1.36,72.73,0.48,7.83,0.0,0.0,1
2,1.51618,13.53,3.55,1.54,72.99,0.39,7.78,0.0,0.0,1
3,1.51766,13.21,3.69,1.29,72.61,0.57,8.22,0.0,0.0,1
4,1.51742,13.27,3.62,1.24,73.08,0.55,8.07,0.0,0.0,1


In [4]:
df.Type.unique()

array([1, 2, 3, 5, 6, 7], dtype=int64)

In [6]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

df_x = scaler.fit_transform(df.drop('Type', axis = 1))


In [7]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(df_x, df['Type'])

In [8]:
# 나이브베이즈 

from sklearn.naive_bayes import GaussianNB

model = GaussianNB()

model.fit(x_train, y_train)

model.score(x_test, y_test)

0.5185185185185185

In [12]:
from sklearn import metrics
y_pred = model.predict(x_test)
metrics.accuracy_score(y_test, y_pred)

# 정확도가 낮게 나오는 이유는 glass 데이터가 연속형 데이터이기 때문인 것 같다

0.5185185185185185

In [13]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred)

array([[15,  1,  1,  0,  1,  0],
       [13,  1,  0,  3,  0,  0],
       [ 1,  0,  0,  0,  1,  0],
       [ 0,  3,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  3,  1],
       [ 0,  0,  0,  1,  0,  9]], dtype=int64)

In [15]:
print(metrics.classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           1       0.52      0.83      0.64        18
           2       0.20      0.06      0.09        17
           3       0.00      0.00      0.00         2
           5       0.00      0.00      0.00         3
           6       0.60      0.75      0.67         4
           7       0.90      0.90      0.90        10

    accuracy                           0.52        54
   macro avg       0.37      0.42      0.38        54
weighted avg       0.45      0.52      0.46        54



## Naive Bayes의 종류 
[참고](https://todayisbetterthanyesterday.tistory.com/17)
### 가우시안 나이브 베이즈 
> 가우시안 나이브 베이즈란? 
- 표본 평균과 표본 분산을 가진 정규분포 하에서 베이즈 정리를 사용한 것 
- 즉, 정규분포를 가정한 표본들을 대상으로 조건부 독립을 나타내, 항상 같은 분모를 갖는 조건하에서, 분자의 값이 가장 큰 경우,즉 확률이 가장 높은 경우를 "선택"하는 것이다. 

> 언제 사용? 
- 설명변수가 연속형일 대 사용하는 방법 
- 적은 데이터로도 효율적인 성능을 낼 수 있다. 
- 특징들의 값들이 `정규분포(가우시안부포)`되어 있다는 가정하에 조건분 확률을 계산 

> 사용시, 고려 
- prior(가중치) 설정 가능 (다항분포 나이브 베이즈에서도 가능)

### Multinominal Naive Bayes 
> 다항분포 나이브 베이즈란? 
- [참고](https://bigdatamaster.tistory.com/109)
- 비연손적인 데이터 값에 대해서 여러가지 분류중에서 선택, 분류하는 방법임 


> 언제 사용? 
- 이산형일 때 사용
- 데이터의 특징이 출현 횟수로 표현됐을 때 사용 
    - ex) 주사위를 10번 던졌을 때, 1이 한 번, 2가 두 번 .. 
    - 이와 같이 데이터의 출현 횟수에 따라 값을 달리한 데이터 ㅇ사용
    - ex) 영화 감상평을 토대로 긍정적/부정적 리뷰 분류 



### Bernoulli Naive Bayes 
> 이항분포 나이브 베이즈란? 
- 데이터의 특징이 0 또는 1로 표현됐을 때 사용 
    - ex) 주사위를 10번 던졌을 때, 1이 한 번, 2가 두번 3이 3번나오면 10번 던진 결과 데이터를 (1,1,1,0,0,0) 이런식으로 표현 
    - ex) 스팸 메일 분류 


### 기타 
> 스무딩이란? 
- 이산적인 데이터의 경우, 빈도수가 0인 경우 발생 
- 학습데이터에 없던 단어가 실제상황에서 나타나게 되면 확률이 0이 되어 스팸 분류가 어려워짐 
- 스무딩은 학습데이터에 없던 데이터가 출현해도 빈도수에 1을 더해 확률이 0이 되는 현상을 방지 

## Out-of-core 나이브베이즈 모델 fitting 

- 데이터가 너무 큰 경우, sklearn에서는 `partial-fit`함수 제공한다. 