# 나이브 베이즈 (Naive Bayes)
- 확률 기반 머신러닝 분류 알고리즘의 대표적.
- 나이브 베이즈 분류 알고리즘은 데이터를 나이브(단순) 하게 독립적인(차집합) 사건으로 가정.
- 이 돌깁 사건들을 베이즈 이론데 대입시켜 가장 높은 확률 레이블로 분류를 실행하는 알고리즘.

### 베이지 이론
$P(A|B) = P(B|A) * P(A) \div P(B)$
- P(A|B) : 어떤 사건 B가 일어났을때 사건 A가 일어날 확률  
- P(B|A) : 어떤 사건 A가 일어났을때 사건 B가 일어날 확률 
- p(A) : 어떤 사건 A가 일어날 확률
- 수학적인 이론 공식은 그냥 써

<img src="../Data/나이브.png"  width="300" height="150">

- 모든 사건이 발생한 횟수 : 7 + 3 + 2
- A사건이 발생한 횟수 : 7 + 3  -> P(A) = 10
- B사건이 발생한 횟수 : 2 + 3  -> P(B) = 5
- A사건과 B사건이 동시(교집합)에 일어난 횟수 : 3
- B사건이 일어났을때 A사건이 일어날 '확률'은? => P(A|B) = 3 / (3 + 2) = 0.6
- A사건이 일어났을때 B사건이 일어날 '확률'은? => P(B|A) = 3 / (7 + 3) = 0.3

> 0.6 = 0.3 * 10 / 5 

### 나이브 베이즈 알고리즘을 머신러닝에 응용하기
##### P(Label | Feature) =  P(Feature | Label) * P(Label) / P(Feature)

<img src="../Data/나이브2.png" width="300" height="200">

### 치킨집에서 저녁에 손님이 주문을 할때 맥주를 주문할 확률
- label : 주문
- P(주문|저녁) = P(저녁 | 주문) * P(주문) \ P(저녁)

In [36]:
(3 / 4) * (4 / 10) / (5 / 10)

0.6000000000000001

---
# 가우시안 나이브 베이즈를 이용한 붓꽃 분류
- 숫자가지고 노는애

In [37]:
import pandas as pd
from sklearn.model_selection import train_test_split
# 나이브 베이즈
from sklearn.naive_bayes import GaussianNB

import numpy as np
np.random.seed(5)

In [38]:
df = pd.read_csv('../Data/iris.csv')
csv_data = df[['SepalLength','SepalWidth','PetalLength','PetalWidth']]
csv_label = df['Name']

In [39]:
# 학습과 테스트로 나누기 
X_train, X_test, y_train, y_test = train_test_split(csv_data, csv_label, test_size=0.2)

In [40]:
X_train.shape

(120, 4)

In [41]:
X_test.shape

(30, 4)

In [42]:
model = GaussianNB()
model.fit(X_train, y_train)

GaussianNB()

In [43]:
model.score(X_test, y_test)

0.9

---
# 베르누이 나이브 베이즈를 활용한 스팸 분류
- 문자 가지고 노는애

### 베르누이 나이브베이즈를 위한 라이브러리
- 문자를 가지고 오면 다 숫자화 시켜줘야함

In [44]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB

In [45]:
df = pd.read_csv("../Data/email_train.csv")
df.head()

Unnamed: 0,email title,spam
0,free game only today,True
1,cheapest flight deak,True
2,limited time offer only today only today,True
3,today meeting schedule,False
4,your flight schedule attached,False


### 데이터 다듬기
sklearn의 베르누이 나이브베이즈 분류기는 숫자만 다루기 때문에 True와 False를 1과 0으로 치환
- R에서만 true=1, false =0이고 파이썬은 숫자로 바꿔줘야함

In [46]:
# map에 있는 bool값 처리하는법 map({True:1, False:0})
df['label'] = df['spam'].map({True:1, False:0})
df

Unnamed: 0,email title,spam,label
0,free game only today,True,1
1,cheapest flight deak,True,1
2,limited time offer only today only today,True,1
3,today meeting schedule,False,0
4,your flight schedule attached,False,0
5,your credit card statement,False,0


In [47]:
# 학습에 사용할 데이터와 분류값을 나누기
df_x = df['email title']
df_y = df['label']

In [48]:
df_x

0                        free game only today
1                        cheapest flight deak
2    limited time offer only today only today
3                      today meeting schedule
4               your flight schedule attached
5                  your credit card statement
Name: email title, dtype: object

In [49]:
df_y

0    1
1    1
2    1
3    0
4    0
5    0
Name: label, dtype: int64

베르누이 나이브베이즈의 입력데이터는 고정된 크기의 벡터로써 0과 1로 구분된 데이터 이어야 합니다.(감정분류 1, 0)   
sklearn의 CountCectorizer를 사용하여 쉽게 구현할수 있습니다   
0,1로 구성되어 있다고 해서 onehot인코딩이 아님!!  
CountCectorizer는 입력된 데이터(6개의 이메일)에 출현된 모든 단어의 갯수만큼의 크기를 벡터로 만든후 각각의 이메일을 그 고정된 벡터로 표현합니다.

In [50]:
cv = CountVectorizer(binary=True)
# transform = 변형한다.
X_traincv = cv.fit_transform(df_x)

In [51]:
# *** 0과 1로 되어있어도 one-hot는 아님!
# 컬럼이름들의 1, 0 있냐 없냐를 표시해놓은것 알아야해!
encoded_input = X_traincv.toarray()
encoded_input

array([[0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1]])

In [52]:
# 벡터의 17개의 인덱스가 각각 무슨단어?
print(cv.get_feature_names())

['attached', 'card', 'cheapest', 'credit', 'deak', 'flight', 'free', 'game', 'limited', 'meeting', 'offer', 'only', 'schedule', 'statement', 'time', 'today', 'your']


In [53]:
# 1번 메일의 단어 구성
cv.inverse_transform(encoded_input[0].reshape(1, -1))

[array(['free', 'game', 'only', 'today'], dtype='<U9')]

In [54]:
bnb = BernoulliNB()
y_train = df_y.astype('int')
bnb.fit(X_traincv, y_train)

BernoulliNB()

In [55]:
# 테스트데이터 다듬기
test_df = pd.read_csv("../Data/email_test.csv")
test_df

Unnamed: 0,email title,spam
0,free flight offer,True
1,hey traveler free flight deal,True
2,limited free game iffer,True
3,today flight schedule,False
4,your credit card attached,False
5,free credit card offer only today,False


In [56]:
test_df['label'] = test_df['spam'].map({True:1, False:0})
test_x = test_df['email title']
test_y = test_df['label']
x_testcv = cv.transform(test_x)

In [57]:
bnb.score(x_testcv, test_y)

0.8333333333333334

---
# 다항분포 나이브베이즈 영화리뷰 감정 분류

In [58]:
train_movie = pd.read_csv("../Data/naive_movie.csv")
train_movie.head()

Unnamed: 0,movie_review,type
0,this is great great movie. I will watch again,positive
1,I like this movie,positive
2,amazing movie in this year,positive
3,cool my boyfriend also said the movie is cool,positive
4,awesome of the awesome movie ever,positive


In [59]:
test_movie = pd.read_csv("../Data/naive_movie_test.csv")
test_movie.head()

Unnamed: 0,movie_review,type
0,great great great movie ever,positive
1,I like this amazing movie,positive
2,my boyfriend said great movie ever,positive
3,cool cool cool,positive
4,awesome boyfriend said cool movie ever,positive


In [60]:
train_movie['type'] = train_movie['type'].map({'positive':1, 'negative':0})
train_movie

Unnamed: 0,movie_review,type
0,this is great great movie. I will watch again,1
1,I like this movie,1
2,amazing movie in this year,1
3,cool my boyfriend also said the movie is cool,1
4,awesome of the awesome movie ever,1
5,shame I wasted money and time,0
6,regret on this move. I will never never what m...,0
7,I do not like this movie,0
8,I do not like actors in this movie,0
9,boring boring sleeping movie,0


In [61]:
x_train = train_movie['movie_review']
y_train = train_movie['type']

In [62]:
cv = CountVectorizer(binary=True)
x_traincv = cv.fit_transform(x_train)
train_movie_input = x_traincv.toarray()
train_movie_input[0]

array([0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0])

In [63]:
# 1번 메일의 단어 구성
cv.inverse_transform(train_movie_input[0].reshape(1, -1))

[array(['again', 'great', 'is', 'movie', 'this', 'watch', 'will'],
       dtype='<U9')]

In [64]:
test_movie['type'] = test_movie['type'].map({'positive':1, 'negative':0})
x_test = test_movie['movie_review']
y_test = test_movie['type']

In [65]:
x_testcv = cv.transform(x_test)

In [66]:
bnb = BernoulliNB()
y_train = y_train.astype('int')
bnb.fit(x_traincv, y_train)

BernoulliNB()

In [67]:
bnb.score(x_testcv, y_test)

1.0