# 나이브 베이즈(Naive Bayes)
- 대표적인 확률 기반 머신러닝 분류 알고리즘
- 나이브 베이즈 분류 알고리즘은 데이터를 나이브(단순)하게 독립적인 사건으로 가정함
- 이 독립 사건들을 베이즈이론에 대입시켜 가장 높은 확률 레이블로 분류하는 알고리즘

### 베이즈 이론
$P(A|B) = P(B|A) * P(A) \div P(B)$

P(A|B): 어떤 사건 B가 일어났을 때 사건 A가 일어날 확률 (예 - 천둥이 쳤을 때, 비가 오고 있을 확률)
P(B|A): 어떤 사건 A가 일어났을 때 사건 B가 일어날 확률 (예 - 비가 올 때, 천둥이 칠 확률)

P(A): 어떤 사건 A가 일어날 확률

- 모든 사건이 밠갱한 횟수: 7 + 3 + 2
- A 사건이 발생한 횟수:  7 + 3
- B 사건이 발생한 횟수:  3 + 2
- A사건과 B사건이 동시에 발생한 횟수: 3
- P(A) = 10
- P(B) = 5
- B사건이 일어났을 때 A사건이 일어났을 확률: 3 / (3+2) = 0.6
- A사건이 일어났을 때 B사건이 일어났을 확률: 0.3 * 10 / 5 == 

### 나이브 베이즈 알고리즘을 머신러닝에 응용
P(Label | Feature) = P(Feature | Label) * P(Label) / P(Feature)

## 베르누이: 문자 분류에 좋음
## 가우시안: 숫자 분류에 좋음

---
# 가우시안 나이브 베이즈

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
import numpy as np
np.random.seed(5)

In [2]:
df = pd.read_csv('data/iris.csv')

In [4]:
csv_data = df[['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth']]
csv_label = df['Name']

In [6]:
X_train, X_test, y_train, y_test = train_test_split(csv_data, csv_label, test_size=0.2)
X_train.shape

(120, 4)

In [7]:
model = GaussianNB()
model.fit(X_train, y_train)

GaussianNB()

In [8]:
model.score(X_test, y_test)

0.9

---
# 베르누이 나이브 베이즈를 활용한 스팸 분류

In [None]:
# 배르누이 나이브베이즈 분류를 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB
model = BernoulliNB()

---
# 다항분포 나이브베이즈 영화리뷰 감정 분석