# Naive Bayes 분류기를 이용한 스팸 메일 분류기

## 1. 데이터 전처리

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
df = pd.read_csv('data/spam.csv', encoding='latin1')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data/spam.csv'

In [None]:
del df['Unnamed: 2']
del df['Unnamed: 3']
del df['Unnamed: 4']
df['v1'] = df['v1'].replace(['ham','spam'],[0,1])
df.head()

In [None]:
df.info()

In [3]:
# Null 값을 가진 샘플이 있는지 확인
df.isnull().values.any()

NameError: name 'df' is not defined

In [4]:
# 데이터 중복이 있는지 확인
df['v2'].nunique()

NameError: name 'df' is not defined

In [5]:
# 데이터 중복 제거
df = df.drop_duplicates('v2', keep='first')

NameError: name 'df' is not defined

In [6]:
df['v1'].value_counts().plot(kind='bar')

NameError: name 'df' is not defined

In [7]:
df.groupby('v1').size()

NameError: name 'df' is not defined

In [None]:
X_data = df['v2']
y_data = df['v1']
print('메일 본문의 개수: {}'.format(len(X_data)))
print('레이블의 개수: {}'.format(len(y_data)))

## 2. Naive Bayes 분류기 적용

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB  # 다항분포 나이브 베이즈 모델
from sklearn.metrics import accuracy_score     # 정확도 계산

In [None]:
# 테스트용 데이터 20% 분리
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = \
    train_test_split(X_data, y_data, test_size=.2, random_state=2020)

In [None]:
# 훈련 데이터를 BoW로 만들어줌
dtmvector = CountVectorizer()
X_train_dtm = dtmvector.fit_transform(X_train)
print(X_train_dtm.shape)

In [None]:
model = MultinomialNB()
model.fit(X_train_dtm, y_train)
# alpha=1.0은 라플라스 스무딩이 적용되었음을 의미, 중간에 0이 안 나오도록 작은 값을 줌

In [None]:
X_test_dtm = dtmvector.transform(X_test) # 테스트 데이터를 DTM으로 변환
print(X_test_dtm.shape)

In [None]:
predicted = model.predict(X_test_dtm) # 테스트 데이터에 대한 예측
print("정확도: %.4f" % accuracy_score(y_test, predicted)) # 예측값과 실제값 비교

### TF-IDF 적용한 경우

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer

In [None]:
# Term Frequency - Inverse Document Frequency 적용
tfidf_transformer = TfidfTransformer()
tfidfv = tfidf_transformer.fit_transform(X_train_dtm)
print(X_train_dtm.shape)

In [None]:
model.fit(tfidfv, y_train)

In [None]:
tfidfv_test = tfidf_transformer.fit_transform(X_test_dtm)
predicted = model.predict(tfidfv_test) # 테스트 데이터에 대한 예측
print("정확도: %.4f" % accuracy_score(y_test, predicted)) # 예측값과 실제값 비교
# 결과가 더 좋아지진 않는다