# 나이브 베이즈(Naive Bayes) : 단순(simple = naive)
- 확률 기반 머신러닝 분류 알고리즘의 대표적
- 나이브 베이즈 분류 알고리즘은 데이터를 나이브(단순) 하게 독립적인 사건(차집합)으로 가정.
- 이 독립 사건들을 베이즈이론에 대입시켜 가장 높은 확률 레이블로 분류를 실행하는 알고리즘.

### 베이즈 이론
$P(A|B) = P(B|A) * P(A) \ div P(B)$

P : 확률
P(A|B) : 어떤 사건 B가 일어났을때 사건 A가 일어날 확률          
P(B|A) : 어떤 사건 A가 일어났을때 사건 B가 일어날 확률           
P(A) : 어떤 사건 A가 일어날 확률              

![](../Data/b.png)

- 모든 사건이 발생한 횟수 : 7 + 3 + 2        
- A 사건이 발생하는 횟수 : 7 + 3          
- B 사건이 발생하는 횟수 : 3 + 2          
- A사건과 B사건이 동시에 일어난 횟수 : 3           
- P(A) = 10          
- P(B) = 5         
- B사건이 일어났을때 A사건이 일어날 확률은 ?        
- P(A|B) = 3 / (3 + 2) = 0.6       
- A사건이 일어났을때 B사건이 일어날 확률은 ?         
- P(B|A) = 3 / (7 + 3) = 0.3 (증명 : 0.6 = 0.3 * 10 / 5)         

---
### 나이브 베이즈 알고리즘 머신러닝에 응용하기
P(Label|Feature) = P(Feature|Label) * P(Label) / P(Feature)

### 치킨집에서 저녁에 손님이 주문을 할때 맥주를 주문할 확률

![](../Data/c.png)

P(주문|저녁) = P(저녁|주문) * P(주문) / P(저녁) = (3 / 4) * (4 / 10) / (5 / 10) = 0.6


---
# 가우시안 나이브 베이즈를 이용한 붓꽃 분류

In [9]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

import numpy as np
np.random.seed(5)

In [10]:
df = pd.read_csv("../Data/iris.csv")


In [11]:
csv_data = df[['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth']]
csv_label = df['Name']

In [12]:
X_train, X_test, y_train, y_test = train_test_split(csv_data,csv_label,test_size=0.2)

In [13]:
X_train.shape

(120, 4)

In [14]:
y_train.shape

(120,)

In [15]:
model = GaussianNB()
model.fit(X_train, y_train)

GaussianNB()

In [16]:
model.score(X_test, y_test)

0.9

---
# 베르누이 나이브 베이즈를 활용한 스팸 분류

In [17]:
# 베르누이 나이브베이즈를 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB

In [18]:
pd.read_csv("../Data/email_test.csv")
df = pd.read_csv("../Data/email_train.csv")
df

Unnamed: 0,email title,spam
0,free game only today,True
1,cheapest flight deak,True
2,limited time offer only today only today,True
3,today meeting schedule,False
4,your flight schedule attached,False
5,your credit card statement,False


# 데이터 다듬기
sklearn의 베르누이 나이브베이즈 분류기는 숫자만 다루기 때문에 True와 False를 1과0으로 치환

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   email title  6 non-null      object
 1   spam         6 non-null      bool  
dtypes: bool(1), object(1)
memory usage: 182.0+ bytes


In [20]:
df['label'] =df['spam'].map({True:1, False:0}) # map 딕셔너리 처리하기 아주 유용함
df

Unnamed: 0,email title,spam,label
0,free game only today,True,1
1,cheapest flight deak,True,1
2,limited time offer only today only today,True,1
3,today meeting schedule,False,0
4,your flight schedule attached,False,0
5,your credit card statement,False,0


In [21]:
# 학습에 사용할 데이터와 분류값을 나누기
df_x = df['email title']
df_y = df['label']

In [22]:
df_x

0                        free game only today
1                        cheapest flight deak
2    limited time offer only today only today
3                      today meeting schedule
4               your flight schedule attached
5                  your credit card statement
Name: email title, dtype: object

In [23]:
df_y

0    1
1    1
2    1
3    0
4    0
5    0
Name: label, dtype: int64

베르누이 나이브베이즈 입력데이터는 고정된 크기의 벡터로써 0과 1로 구분된 데이터 이어야 합니다.         
sklearn 와 CountVectorizer를 사용하여 쉽게 구현할 수 있습니다.         
CountVectorizer는 입력된 데이터(6개의 이메일)에 출현된 모든 단어의 갯수 만큼의 크기를 벡터로 만든후   
각각의 이메일을 그 고정된 벡터로 표현 합니다.         

In [24]:
cv = CountVectorizer(binary=True)
x_traincv =cv.fit_transform(df_x)

In [25]:
encoded_input = x_traincv.toarray()
encoded_input

array([[0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1]])

In [26]:
# 벡터의 17개의 인덱스가 각각 무슨 단어?
print(cv.get_feature_names())
# free game only today 가 1 이다. 위의 encoded_input의 결과 값을 보면 확인 할 수 있다.

['attached', 'card', 'cheapest', 'credit', 'deak', 'flight', 'free', 'game', 'limited', 'meeting', 'offer', 'only', 'schedule', 'statement', 'time', 'today', 'your']


In [27]:
# 1번 메일의 단어 구성
cv.inverse_transform(encoded_input[0].reshape(1,-1))

[array(['free', 'game', 'only', 'today'], dtype='<U9')]

In [28]:
bnb = BernoulliNB()
y_train = df_y.astype('int')
bnb.fit(x_traincv, y_train)

BernoulliNB()

In [29]:
# 테스트 데이터 다듬기
test_df =  pd.read_csv("../Data/email_test.csv")
test_df.head()

Unnamed: 0,email title,spam
0,free flight offer,True
1,hey traveler free flight deal,True
2,limited free game iffer,True
3,today flight schedule,False
4,your credit card attached,False


In [30]:
test_df['label'] = test_df['spam'].map({True:1,False:0})
test_x = test_df['email title']
test_y = test_df['label']
x_testcv = cv.transform(test_x)

In [31]:
bnb.score(x_testcv, test_y)

0.8333333333333334

---
### 다항분포 나이브베이즈 영화리뷰 감정 분류 - train


In [32]:
movie_train =pd.read_csv("../Data/naive_movie.csv")
movie_train.head()

Unnamed: 0,movie_review,type
0,this is great great movie. I will watch again,positive
1,I like this movie,positive
2,amazing movie in this year,positive
3,cool my boyfriend also said the movie is cool,positive
4,awesome of the awesome movie ever,positive


In [33]:
movie_train.type

0    positive
1    positive
2    positive
3    positive
4    positive
5    negative
6    negative
7    negative
8    negative
9    negative
Name: type, dtype: object

In [34]:
movie_train['num'] = movie_train['type'].map({'positive':1,'negative':0})
movie_train

Unnamed: 0,movie_review,type,num
0,this is great great movie. I will watch again,positive,1
1,I like this movie,positive,1
2,amazing movie in this year,positive,1
3,cool my boyfriend also said the movie is cool,positive,1
4,awesome of the awesome movie ever,positive,1
5,shame I wasted money and time,negative,0
6,regret on this move. I will never never what m...,negative,0
7,I do not like this movie,negative,0
8,I do not like actors in this movie,negative,0
9,boring boring sleeping movie,negative,0


In [35]:
x=movie_train['movie_review']
y=movie_train['num']

In [36]:
cv = CountVectorizer(binary=True)
x_traincv =cv.fit_transform(x)

In [37]:
encoded_input = x_traincv.toarray()
encoded_input

array([[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1],
       [0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0,
        0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
        0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1,
        0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
        1, 0, 0, 0, 0, 0, 0, 0

In [38]:
cv.inverse_transform(encoded_input[0].reshape(1,-1))

[array(['again', 'great', 'is', 'movie', 'this', 'watch', 'will'],
       dtype='<U9')]

In [39]:
bnb = BernoulliNB()
y_train = y.astype('int')
bnb.fit(x_traincv, y)

BernoulliNB()

---
### 다항분포 나이브베이즈 영화리뷰 감정 분류 - test

In [40]:
movie_test =pd.read_csv("../Data/naive_movie_test.csv")
movie_test.head()

Unnamed: 0,movie_review,type
0,great great great movie ever,positive
1,I like this amazing movie,positive
2,my boyfriend said great movie ever,positive
3,cool cool cool,positive
4,awesome boyfriend said cool movie ever,positive


In [41]:
movie_test['num2'] = movie_test['type'].map({'positive':1, 'negative':0})
movie_test.head()

Unnamed: 0,movie_review,type,num2
0,great great great movie ever,positive,1
1,I like this amazing movie,positive,1
2,my boyfriend said great movie ever,positive,1
3,cool cool cool,positive,1
4,awesome boyfriend said cool movie ever,positive,1


In [42]:
x=movie_test['movie_review']
y=movie_test['num2']

In [43]:
x_testcv = cv.transform(x)
x_testcv

<10x37 sparse matrix of type '<class 'numpy.int64'>'
	with 39 stored elements in Compressed Sparse Row format>

In [44]:
bnb.score(x_testcv, y) #bnb는 train의 데이터를 넣었다. 그래서 정확도를 확인할 수 있다.

1.0

In [45]:
x_testcv

<10x37 sparse matrix of type '<class 'numpy.int64'>'
	with 39 stored elements in Compressed Sparse Row format>