# 나이브 베이즈(Naive Bayes)

- 확률 기반 머신러닝 분류 알고리즘의 대표적  
- 나이브 베이즈 분류 알고리즘은 데이터를 나이브하게(단순) 하게 독립적인 사건으로 가정.
- 이 독립 사건들을 베이즈 이론에 대입시켜서 가장 높은 확률 레이블로 분류를 실행하는 알고리즘.
-  Naive는 간단한 이란 뜻 심플같은, 간단한 베이즈 이론 이란 뜻

### 베이즈 이론
P(A|B) = P(B|A) * P(A) $\div P(B)$

P(A|B) : 어떤 사건 B가 일어났을 때 A가 일어날 확률
P(B|A) : 어떤 사건 A가 일어났을 때 B가 일어날 확률

P(A) : 어떤 사건 A가 일어날 확률

예)
- 모든 사건이 발생한 횟수 : 7 + 3 + 2
- A 사건이 발생한 횟수 : 7 + 3 
- B 사건이 발생한 횟수 : 3 + 2
- A사건과 B사건이 동시에 발생한 횟수 : 3 
- P(A) : 10
- P(B) : 5
- B사건이 일어났을 때 A사건이 일어날 확률은 ? 
- P(A|B) = 3 / (3+2) = 0.6
- A사건이 일어났을 때 B사건이 일어날 확률은 ? 
- P(B|A) = 3 / (7+3) = 0.3

따라서 0.6 = 0.3 * 10 / 5



### 나이브 베이즈 알고리즘을 머신러닝에 응용하기
P(Label|Feature) = P(Feature|Label) * P(Label) / P(Feature)

### 치킨집에서 저녁에 손님이 주문을 할 때 맥주를 주문할 확률
주문했는데 저녁일 확률 3/4  
저녁인데 맥주를 주문할 확률 3/5  
P(주문|저녁) = P(저녁|주문) * P(주문) / P(저녁) = (3 / 4) * (4/10) / (5/10) = 3 / 5 

---
# 가우시안 나이브 베이즈를 이용한 붓꽃 분류


In [8]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

import numpy as np
np.random.seed(5)

In [9]:
df = pd.read_csv("../Data/iris.csv")
df.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [10]:
csv_data = df[['SepalLength','SepalWidth','PetalLength','PetalWidth']]
csv_label = df['Name']

In [13]:
X_train, X_test, y_train, y_test = train_test_split(csv_data, csv_label, test_size=0.2,stratify=csv_label)

In [14]:
X_train.shape

(120, 4)

In [15]:
X_test.shape

(30, 4)

In [16]:
model = GaussianNB()
model.fit(X_train,y_train)


GaussianNB()

In [18]:
model.score(X_test,y_test)

1.0

---
# 베르누이 나이브 베이즈를 활용한 스팸 분류 
- 중요! 숫자면 가우시안 문자면 베르누이 

In [19]:
# 베르누이 나이브베이즈를 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
# 문장을 숫자화 시켜주는 라이브러리

from sklearn.naive_bayes import BernoulliNB

In [22]:
import pandas as pd
import numpy as np

df = pd.read_csv("../Data/email_train.csv")



### 데이터 다듬기
sklearn의 베르누이 나이브베이즈 분류기는 숫자만 다루기 때문에 True와 False를 1과 0으로 치환

In [24]:
df['label'] = df['spam'].map({True:1,False:0})
df

Unnamed: 0,email title,spam,label
0,free game only today,True,1
1,cheapest flight deak,True,1
2,limited time offer only today only today,True,1
3,today meeting schedule,False,0
4,your flight schedule attached,False,0
5,your credit card statement,False,0


In [47]:
# 학습에 사용할 데이터의 분류값을 나누기 
df_x = df['email title']
df_y = df['label']

In [48]:
df_x

0                        free game only today
1                        cheapest flight deak
2    limited time offer only today only today
3                      today meeting schedule
4               your flight schedule attached
5                  your credit card statement
Name: email title, dtype: object

In [49]:
df_y

0    1
1    1
2    1
3    0
4    0
5    0
Name: label, dtype: int64

베르누이 나이브베이즈의 입력데이터는 고정된 크기의 벡터로써 0과 1로 구분된 데이터 이어야 합니다.(원핫인코딩 아님)  
sklearn의 CountVectorizer를 사용하여 쉽게 구현할 수 있습니다.  
CountVectorizer는 입력된 데이터(6개의 이메일)에 출현된 모든 단어의 갯수 만큼의 크기를 벡터로 만든 후
각각의 이메일을 그 고정된 벡터로 표현 합니다.

In [75]:
cv = CountVectorizer(binary=True,) # 
x_traincv = cv.fit_transform(df_x)

In [76]:
encoded_input = x_traincv.toarray()

In [77]:
# 벡터의 17개의 인덱스가 각각 무슨 단어?
print(cv.get_feature_names())

['attached', 'card', 'cheapest', 'credit', 'deak', 'flight', 'free', 'game', 'limited', 'meeting', 'offer', 'only', 'schedule', 'statement', 'time', 'today', 'your']


In [78]:
encoded_input[0]

array([0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0])

In [79]:
# 1번 메일의 단어 구성
cv.inverse_transform(encoded_input[0].reshape(1,-1))

[array(['free', 'game', 'only', 'today'], dtype='<U9')]

In [80]:
bnb = BernoulliNB()
y_train = df_y.astype('int')
bnb.fit(x_traincv,y_train)
# pd.DataFrame(encoded_input,columns=cv.get_feature_names())

BernoulliNB()

In [81]:
x_traincv

<6x17 sparse matrix of type '<class 'numpy.int64'>'
	with 23 stored elements in Compressed Sparse Row format>

In [82]:
# 테스트 데이터 다듬기 
test_df = pd.read_csv("../Data/email_test.csv")
test_df

Unnamed: 0,email title,spam
0,free flight offer,True
1,hey traveler free flight deal,True
2,limited free game iffer,True
3,today flight schedule,False
4,your credit card attached,False
5,free credit card offer only today,False


In [96]:
test_df['label'] = test_df['spam'].map({True:1,False:0})
test_x = test_df['email title']
test_y = test_df['label']


In [97]:
test_x

0                    free flight offer
1        hey traveler free flight deal
2              limited free game iffer
3                today flight schedule
4            your credit card attached
5    free credit card offer only today
Name: email title, dtype: object

In [98]:
type(df_x)

pandas.core.series.Series

In [99]:
x_testcv = cv.transform(test_x)

In [100]:
test_y

0    1
1    1
2    1
3    0
4    0
5    0
Name: label, dtype: int64

In [101]:
x_testcv

<6x17 sparse matrix of type '<class 'numpy.int64'>'
	with 21 stored elements in Compressed Sparse Row format>

In [102]:
bnb.score(x_testcv,test_y)

0.8333333333333334

---
# 다항분포 나이브베이즈 영화리뷰 감정 분류

In [104]:
mv_train = pd.read_csv("../Data/naive_movie.csv")
mv_train

Unnamed: 0,movie_review,type
0,this is great great movie. I will watch again,positive
1,I like this movie,positive
2,amazing movie in this year,positive
3,cool my boyfriend also said the movie is cool,positive
4,awesome of the awesome movie ever,positive
5,shame I wasted money and time,negative
6,regret on this move. I will never never what m...,negative
7,I do not like this movie,negative
8,I do not like actors in this movie,negative
9,boring boring sleeping movie,negative


In [105]:
mv_test = pd.read_csv("../Data/naive_movie_test.csv")
mv_test

Unnamed: 0,movie_review,type
0,great great great movie ever,positive
1,I like this amazing movie,positive
2,my boyfriend said great movie ever,positive
3,cool cool cool,positive
4,awesome boyfriend said cool movie ever,positive
5,shame shame shame,negative
6,awesome director shame movie boring movie,negative
7,do not like this movie,negative
8,I do not like this boring movie,negative
9,aweful terrible boring movie,negative


In [113]:
train_data = mv_train['movie_review']
train_label = mv_train['type'].map({'positive':1, 'negative':0})
test_data = mv_test['movie_review']
test_label = mv_test['type'].map({'positive':1, 'negative':0})

In [114]:
# from sklearn.feature_extraction.text import CountVectorizer
# 문장을 숫자화 시켜주는 라이브러리

from sklearn.naive_bayes import BernoulliNB
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(binary=True)
bnb = BernoulliNB()

train_cv = cv.fit_transform(train_data)
test_cv = cv.transform(test_data)

In [115]:
bnb.fit(train_cv,train_label)

BernoulliNB()

In [117]:
bnb.score(test_cv,test_label)
bnb.predict_proba(test_cv)

array([[0.07439591, 0.92560409],
       [0.26561836, 0.73438164],
       [0.00578059, 0.99421941],
       [0.3164557 , 0.6835443 ],
       [0.00578059, 0.99421941],
       [0.72727273, 0.27272727],
       [0.72727273, 0.27272727],
       [0.94617325, 0.05382675],
       [0.97684515, 0.02315485],
       [0.52631579, 0.47368421]])