# 나이브 베이즈(Naive Bayes)
- 확률 기반 머신러닝 분류 알고리즘의 대표적.
- 나이브 베이즈 분류 알고리즘은 데이터를 나이브(단순,심플) 하게 독립적인 사건(차집합)으로 가정.
- 이 독립 사건들을 베이즈이론에 대입시켜 가장 높은 확률 레이블로 분류를 실행하는 알고리즘.

### 베이즈 이론
$P(A|B) = P(B|A) * P(A) \div P(B)$  

P(A|B) : 어떤 사건 B가 일어났을때 사건 A가 일어날 확률  
P(B|A) : 어떤 사건 A가 일어났을때 사건 B가 일어날 확률  
P(A) : 어떤 사건 A가 일어날 확률<br>
<img src='../Data/나이브베이즈.png' width=300 height=300>

### 나이브 베이즈 알고리즘을 머신러닝에 응용하기
P(Label | Feature) = P(Feature | Label) * p(Label) / P(Feature)

### 치킨집에서 저녁에 손님이 주문시 맥주를 시킬 확률

<img src='../Data/치킨집.png' width=230 height=280>

P(주문|저녁) = P(저녁|주문) * P(주문) / P(저녁) = 3/4 * 4/10 / 5/10 = 0.6  
> 저녁에 주문시 맥주를 시킬 확률은 0.6, 60%이다.

---
# 가우시안 나이브 베이즈를 이용한 붓꽃 분류

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

import numpy as np
np.random.seed(5)

In [4]:
df = pd.read_csv('../Data/iris.csv')
df.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [6]:
csv_data = df[['SepalLength','SepalLength','PetalLength','PetalWidth']]
csv_label = df['Name']

In [9]:
X_train, X_test, y_train, y_test = train_test_split(csv_data, csv_label, test_size=0.2)

In [10]:
X_train.shape

(120, 4)

In [11]:
X_test.shape

(30, 4)

In [13]:
model = GaussianNB()
model.fit(X_train, y_train)

GaussianNB()

In [14]:
model.score(X_test, y_test)

0.9

---
# 베르누이 나이브 베이즈를 활용한 스팸 분류
- 가우시안(숫자) / 베르누이(문자)

In [24]:
# 베르누이 나이브베이즈를 위한 라이브러리
    # 문자를 숫자로 만들어주는 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB

In [17]:
df = pd.read_csv('../Data/email_train.csv')
df

Unnamed: 0,email title,spam
0,free game only today,True
1,cheapest flight deak,True
2,limited time offer only today only today,True
3,today meeting schedule,False
4,your flight schedule attached,False
5,your credit card statement,False


# 데이터 다듬기
sklearn의 베르누이 나이브베이즈 분류기는 숫자만 다루기 때문에 True와 False를 1 과 0 으로 치환한다.

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   email title  6 non-null      object
 1   spam         6 non-null      bool  
dtypes: bool(1), object(1)
memory usage: 182.0+ bytes


In [20]:
# df에 label이라는 컬럼 생성
    # map은 딕셔너리이다
df['label'] = df['spam'].map({ True : 1, False : 0 })
df

Unnamed: 0,email title,spam,label
0,free game only today,True,1
1,cheapest flight deak,True,1
2,limited time offer only today only today,True,1
3,today meeting schedule,False,0
4,your flight schedule attached,False,0
5,your credit card statement,False,0


In [21]:
# 학습에 사용할 데이터와 분류값을 나누기
df_x = df['email title']
df_y = df['label']

In [22]:
df_x

0                        free game only today
1                        cheapest flight deak
2    limited time offer only today only today
3                      today meeting schedule
4               your flight schedule attached
5                  your credit card statement
Name: email title, dtype: object

In [23]:
df_y

0    1
1    1
2    1
3    0
4    0
5    0
Name: label, dtype: int64

베르누이 나이브베이즈의 입력 데이터는 고정된 크기의 벡터로써 0 과 1로 구분된 데이터이어야 합니다.  
sklearn의 CountVectorizer를 사용하여 쉽게 구현할 수 있습니다.(one-hot encoding이 아님!!)  
CountVectorizer는 입력된 데이터(6개의 이메일)에 출현된 모든 단어의 갯수만큼의 크기를 벡터로 만든후  
각각의 이메일을 그 고정된 벡터로 표현 합니다.  

<img src='../Data/카운트벡터라이저.png' width=600 height=280>


In [25]:
cv = CountVectorizer(binary=True)
x_traincv = cv.fit_transform(df_x)

In [31]:
encoded_input = x_traincv.toarray()
encoded_input

array([[0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1]])

In [32]:
# 벡터의 17개의 인덱스가 각각 무슨 단어?

print(cv.get_feature_names())

['attached', 'card', 'cheapest', 'credit', 'deak', 'flight', 'free', 'game', 'limited', 'meeting', 'offer', 'only', 'schedule', 'statement', 'time', 'today', 'your']


In [33]:
# 1번 메일의 단어 구성
cv.inverse_transform(encoded_input[0].reshape(1, -1))

[array(['free', 'game', 'only', 'today'], dtype='<U9')]

In [34]:
bnb = BernoulliNB()
y_train = df_y.astype('int')
bnb.fit(x_traincv,y_train)

BernoulliNB()

In [35]:
# 테스트 데이터 다듬기
test_df = pd.read_csv('../Data/email_test.csv')
test_df

Unnamed: 0,email title,spam
0,free flight offer,True
1,hey traveler free flight deal,True
2,limited free game iffer,True
3,today flight schedule,False
4,your credit card attached,False
5,free credit card offer only today,False


In [36]:
test_df['label'] = test_df['spam'].map({True:1, False:0})
test_x = test_df['email title']
test_y = test_df['label']
x_testcv = cv.transform(test_x)

In [37]:
bnb.score(x_testcv, test_y)

0.8333333333333334

---
# 다항분포 나이브베이즈 영화리뷰 감정분류

In [54]:
movie_train = pd.read_csv('../Data/naive_movie.csv')
movie_train

Unnamed: 0,movie_review,type
0,this is great great movie. I will watch again,positive
1,I like this movie,positive
2,amazing movie in this year,positive
3,cool my boyfriend also said the movie is cool,positive
4,awesome of the awesome movie ever,positive
5,shame I wasted money and time,negative
6,regret on this move. I will never never what m...,negative
7,I do not like this movie,negative
8,I do not like actors in this movie,negative
9,boring boring sleeping movie,negative


In [55]:
# df_movie에 label이라는 컬럼 생성
    # map은 딕셔너리이다
movie_train['label'] = movie_train['type'].map({ 'positive' : 1, 'negative' : 0 })
movie_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   movie_review  10 non-null     object
 1   type          10 non-null     object
 2   label         10 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 368.0+ bytes


In [56]:
# 학습에 사용할 데이터와 분류값을 나누기
movie_train_x = movie_train['movie_review']
movie_train_y = movie_train['label']

In [57]:
movie_test = pd.read_csv('../Data/naive_movie_test.csv')
movie_test

Unnamed: 0,movie_review,type
0,great great great movie ever,positive
1,I like this amazing movie,positive
2,my boyfriend said great movie ever,positive
3,cool cool cool,positive
4,awesome boyfriend said cool movie ever,positive
5,shame shame shame,negative
6,awesome director shame movie boring movie,negative
7,do not like this movie,negative
8,I do not like this boring movie,negative
9,aweful terrible boring movie,negative
