##### Import Package

In [1]:
import pandas as pd
import numpy as np

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.cross_validation import train_test_split

##### Get Data

In [2]:
spam_df = pd.read_csv("./spam/spam.csv", sep="`").fillna("-")
comment_df = pd.read_csv("./spam/comment.csv", sep="`").fillna("-")
len(spam_df), len(comment_df)

(14529, 49999)

In [3]:
spam_df["status"]=1
comment_df["status"]=0

In [4]:
df = pd.concat([spam_df, comment_df]).reset_index(drop=True)

##### split data

In [5]:
X_train, X_test, y_train, y_test = train_test_split(df.content, df.status, test_size=0.1, random_state=1)
len(X_train), len(X_test), len(y_train), len(y_test)

(58075, 6453, 58075, 6453)

##### make model

In [6]:
clf = Pipeline([
            ('vect', TfidfVectorizer()),
            ('clf', MultinomialNB(alpha=0.01)),
        ])

In [7]:
%time model = clf.fit(X_train[:],y_train[:]) 

CPU times: user 3.58 s, sys: 113 ms, total: 3.7 s
Wall time: 3.71 s


##### confusion matrix, calssification report

In [8]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

%time y_pred = model.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

CPU times: user 255 ms, sys: 10.5 ms, total: 265 ms
Wall time: 266 ms
[[4746  218]
 [ 474 1015]]
             precision    recall  f1-score   support

          0       0.91      0.96      0.93      4964
          1       0.82      0.68      0.75      1489

avg / total       0.89      0.89      0.89      6453



In [9]:
X_test[41123], y_pred[7]

('글을 읽어보니 예수의 가르침대로라면 여자목사도 많아야 하는데 왜 교회에 가면 목사들이 죄다 남자들인가 ?   장로 역시 죄다 남자들뿐이다.',
 1)

In [10]:
pd.DataFrame({"content":X_test, "category1":y_pred, "category2":y_test})

Unnamed: 0,category1,category2,content
61505,0,0,제발 눈가리고 아웅하는 기사 쓰지 말기 바란다. 용선료 낮춘것 맞냐? 줄어드는 만큼...
63407,0,0,노출 성추행 성범죄 등등 있는데...한쪽에서는 벗고 설치기 경쟁을
52819,0,0,피부를 진정시키자!!
59632,0,0,지난번이 지난 학기 얘기면 이미 상환이 다 끝났습니다. 장학재단에서 확인해보세요
61839,0,0,"일베 사이트 논란 당시, 대부분 언론의 분석은 대량실업 사회에서 남성들의 좌절감에 ..."
50573,0,0,꼭 연예인 깡패를 보는것 같군
41123,0,0,글을 읽어보니 예수의 가르침대로라면 여자목사도 많아야 하는데 왜 교회에 가면 목사들...
1419,1,1,절하 하십니까? 저는 구멍가게를 하면서 살아가고 있는 소 시민의 한사람으로 너무답답...
59043,0,0,야당은 대안이 없어도 되고 문제제기만 하면 된다고 말했던 사람이....ㅋㅋ 코메디다..
12302,1,1,"남의것 좋아하고 , 공짜좋아하고 , 빈둥빈둥 놀면서 불평불만만 연발 ,\n못사는책임..."
