In [1]:
import numpy as np
import pandas as pd

from sklearn.metrics import accuracy_score

# 베르누이 나이브베이즈를 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB

np.random.seed(5)

# 문제 정의
* 베르누이 나이브베이즈 분류 모델을 사용하여 스팸 메일을 분류하기

# 데이터 수집

In [2]:
email_list = [
                {'email title': 'free game only today', 'spam': True},
                {'email title': 'cheapest flight deal', 'spam': True},
                {'email title': 'limited time offer only today only today', 'spam': True},
                {'email title': 'today meeting schedule', 'spam': False},
                {'email title': 'your flight schedule attached', 'spam': False},
                {'email title': 'your credit card statement', 'spam': False}
             ] #이메일로 전달되는 타이틀 텍스트를 보고 스팸메일인지 스팸메일이 아닌지를 확인하여 처리

df = pd.DataFrame(email_list)
df

Unnamed: 0,email title,spam
0,free game only today,True
1,cheapest flight deal,True
2,limited time offer only today only today,True
3,today meeting schedule,False
4,your flight schedule attached,False
5,your credit card statement,False


## 데이터 다듬기
* sklearn의 베르누이 나이브베이즈 분류기(BernoulliNB_모델 생성)는 숫자만을 다루기 때문에, True와 False를 1과 0으로 치환함.

In [4]:
df['label'] = df['spam'].map({True:1, False:0})
df #분석에 적합한 데이터의 정리를 위한 전처리 -> 정답에 해당하는 데이터를 숫자형으로 자료형 변환을 함

Unnamed: 0,email title,spam,label
0,free game only today,True,1
1,cheapest flight deal,True,1
2,limited time offer only today only today,True,1
3,today meeting schedule,False,0
4,your flight schedule attached,False,0
5,your credit card statement,False,0


In [5]:
# 학습에 사용될 데이터와 분류값을 나눈다.
df_x = df['email title'] #학습데이터
df_y = df['label'] #정답데이터

In [6]:
#***베르누이 나이브베이즈는 결과 값이 0과 1로 표현되지만 입력데이터 또한 0과 1로 구분되어져 있는 데이터여야 한다!!
#그렇다면 email title을 어떻게 0과 1로 나눌 수 있을까? 

cv = CountVectorizer(binary=True) #객체를 반환해줌
x_traincv = cv.fit_transform(df_x) #그 객체를 학습하고난 다음에 학습된 데이터를 transform하여 리턴해달라는 것임. 
                                   # 빠르게 내부 알고리즘을 적용해서 두 동작을 한번에 처리하게끔 하는 기능이다.

In [7]:
encoded_input = x_traincv.toarray() #배열의 형태로 데이터를 변환하여 저장
encoded_input
#0과 1로 email title 데이터를 어떻게 바꿔주느냐 
#-> 내부에서는 단어들을 하나하나 분리함 (없는 단어들은 다 써주고 겹치면 냅둠. 횟수는 중요하지 않음, 표시만 하면 되는 것임)
#처음 등장하는 단어를 쭉 열거해보고 단어의 수를 세어봤을 때 15개라고 할 때, 15칸의 메모리를 확보한다.
#그 이후 단어마다 인덱스 번호를 붙임. 그러고 다시 문장들을 살펴봄 -> 등장하는 단어들을 보고 할당된 공간에 1을 표시함. 나머지는 0으로 채움
#즉, 입력데이터를 숫자형으로 표시를 해줘야 하는데 이때, 등장하는 단어들을 보고 표시용으로 해당하는 단어에 맞는 할당 메모리 인덱스에 1을 담아주도록 하는 것이다.
#    하나의 메일마다 15바이트가 할당되는 것임 (해당하는 단어는 1, 해당하지 않는 단어는 0)
# 그렇게 하나의 메일에 제목에 등장한 단어들에 해당 단어들을 메모리에 담아주고 얼만큼 담겨졌는지를 세어봄

array([[0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1]], dtype=int64)

In [13]:
print(cv.inverse_transform(encoded_input[[0]])) #첫번째 위치에 있는 제목에 문장을 복원시키도록 함 
print(cv.inverse_transform(encoded_input[[1]]))
print(cv.inverse_transform(encoded_input[[2]]))
print(cv.inverse_transform(encoded_input[[3]]))

[array(['free', 'game', 'only', 'today'], dtype='<U9')]
[array(['cheapest', 'deal', 'flight'], dtype='<U9')]
[array(['limited', 'offer', 'only', 'time', 'today'], dtype='<U9')]
[array(['meeting', 'schedule', 'today'], dtype='<U9')]


In [14]:
cv.get_feature_names_out() #알파벳 순서로 배치

array(['attached', 'card', 'cheapest', 'credit', 'deal', 'flight', 'free',
       'game', 'limited', 'meeting', 'offer', 'only', 'schedule',
       'statement', 'time', 'today', 'your'], dtype=object)

In [8]:
cv.vocabulary_ #vocabulary_: 단어에 등장 빈도수를 관리하고 있는 필드이다.

{'free': 6,
 'game': 7,
 'only': 11,
 'today': 15,
 'cheapest': 2,
 'flight': 5,
 'deal': 4,
 'limited': 8,
 'time': 14,
 'offer': 10,
 'meeting': 9,
 'schedule': 12,
 'your': 16,
 'attached': 0,
 'credit': 3,
 'card': 1,
 'statement': 13}

# 베르누이 나이브베이즈 분류

In [15]:
#내부적으로 0이 들어갔을 때 스무딩에 의해서 0이 들어가지 않도록 자체 처리됨
# 학습 데이터로 베르누이 분류기를 학습.
bnb = BernoulliNB() #객체 생성

y_train = df_y.astype('int') #정수형으로 바꾸기
bnb.fit(x_traincv, y_train) #입력데이터에 대한 학습이 끝나면 최적화되어진 모델로 자체 업그레이드됨!!

In [17]:
# 테스트 데이터 다듬기
test_email_list = [
                {'email title': 'free flight offer', 'spam': True},
                {'email title': 'hey traveler free flight deal', 'spam': True},
                {'email title': 'limited free game offer', 'spam': True},
                {'email title': 'today flight schedule', 'spam': False},
                {'email title': 'your credit card attached', 'spam': False},
                {'email title': 'free credit card offer only today', 'spam': False}
             ] #테스트용 데이터

test_df = pd.DataFrame(test_email_list)
test_df['label'] = test_df['spam'].map({True:1, False:0})

test_x = test_df['email title']
test_y = test_df['label']

#***이미 학습을 시켰기 때문에 학습을 다시 시키면 안됨. 만약 다시시키게 되면 초기화됨
#위치가 동일해야 모델이 제대로 생성이 되어졌는지를 확인해야하기 때문이다!!
x_testcv = cv.transform(test_x)

# 테스트

In [18]:
predicted = bnb.predict(x_testcv) #예측값 요청

# 정확도(Accuarcy)

In [19]:
accuracy_score(test_y, predicted)

0.8333333333333334