In [3]:
import numpy as np
import pandas as pd

from sklearn.metrics import accuracy_score

#베르누이 나이브베이즈를 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB

np.random.seed(5)

# 문제 정의
* 베르누이 나이브베이즈 분류 모델을 사용하여 스팸메일 분류

# 데이터 수집

In [4]:
email_list = [
                {'email title': 'free game only today', 'spam': True},
                {'email title': 'cheapest flight deal', 'spam': True},
                {'email title': 'limited time offer only today only today', 'spam': True},
                {'email title': 'today meeting schedule', 'spam': False},
                {'email title': 'your flight schedule attached', 'spam': False},
                {'email title': 'your credit card statement', 'spam': False}
             ]

df = pd.DataFrame(email_list)
df

#key : column
#boolean형의 데이터는 수치화함

Unnamed: 0,email title,spam
0,free game only today,True
1,cheapest flight deal,True
2,limited time offer only today only today,True
3,today meeting schedule,False
4,your flight schedule attached,False
5,your credit card statement,False


## 데이터 다듬기
* sklearn의 베르누이 나이브베이즈 분류기(BernoulliNB)는 숫자만을 다루기 때문에 True와 False를 1과 0으로 치환함

In [5]:
df['label']=df['spam'].map({True:1, False:0})
df

Unnamed: 0,email title,spam,label
0,free game only today,True,1
1,cheapest flight deal,True,1
2,limited time offer only today only today,True,1
3,today meeting schedule,False,0
4,your flight schedule attached,False,0
5,your credit card statement,False,0


In [None]:
# 학습에 사용될 데이터와 분류값을 나눈다

In [6]:
df_x = df['email title']
df_y = df['label']

In [7]:
#객체 얻어오기
cv = CountVectorizer(binary=True)

# 학습하고, 학습한 데이터를 transform하라는 함수 (fit + transform)
# 단어를 숫자로 표시할때, get_feature_names_out()의 함수를 0~ 할당한 뒤 순서대로 있으면 1, 없으면 0으로 처리
x_traincv = cv.fit_transform(df_x)

In [11]:
encoded_input = x_traincv.toarray()
encoded_input

array([[0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1]], dtype=int64)

In [13]:
#중복되어 있는 것은 의미가 없음. 
cv.get_feature_names_out()

array(['attached', 'card', 'cheapest', 'credit', 'deal', 'flight', 'free',
       'game', 'limited', 'meeting', 'offer', 'only', 'schedule',
       'statement', 'time', 'today', 'your'], dtype=object)

0: attached 1: card 2: cheapest 3: credit 4:deal 5:flight 6:free  
7: game 8:limited 9:meeting 10:offer 11:only 12:schedule   
13: statement 14: time 15:today 16:your

In [21]:
print(cv.inverse_transform(encoded_input[[0]]))
print(cv.inverse_transform(encoded_input[[1]]))
print(cv.inverse_transform(encoded_input[[2]]))
print(cv.inverse_transform(encoded_input[[3]]))

[array(['free', 'game', 'only', 'today'], dtype='<U9')]
[array(['cheapest', 'deal', 'flight'], dtype='<U9')]
[array(['limited', 'offer', 'only', 'time', 'today'], dtype='<U9')]
[array(['meeting', 'schedule', 'today'], dtype='<U9')]


In [9]:
# 단어의 등장 빈도수
cv.vocabulary_ 

{'free': 6,
 'game': 7,
 'only': 11,
 'today': 15,
 'cheapest': 2,
 'flight': 5,
 'deal': 4,
 'limited': 8,
 'time': 14,
 'offer': 10,
 'meeting': 9,
 'schedule': 12,
 'your': 16,
 'attached': 0,
 'credit': 3,
 'card': 1,
 'statement': 13}

# 베르누이 나이브베이즈 분류

In [26]:
# 학습 데이터로 베르누이 분류기를 학습

#인스턴스생성
bnb = BernoulliNB()

y_train = df_y.astype('int')
bnb.fit(x_traincv, y_train)

#bnb는 가장 최적화된 모델로 저장된 것

In [27]:
#테스트 데이터 다듬기
test_email_list = [
                {'email title': 'free flight offer', 'spam': True},
                {'email title': 'hey traveler free flight deal', 'spam': True},
                {'email title': 'limited free game offer', 'spam': True},
                {'email title': 'today flight schedule', 'spam': False},
                {'email title': 'your credit card attached', 'spam': False},
                {'email title': 'free credit card offer only today', 'spam': False}
             ]

test_df = pd.DataFrame(test_email_list)
test_df['label']=test_df['spam'].map({True:1, False:0})

test_x = test_df['email title']
test_y = test_df['label']

#다시 학습시키면 절대 안되고(다시 학습시키는 것이기 때문에)
#transform만
x_testcv = cv.transform(test_x)

# 테스트

In [28]:
predicted = bnb.predict(x_testcv)

# 정확도(Accuracy)

In [29]:
accuracy_score(test_y, predicted)

0.8333333333333334