In [1]:
import nltk

In [2]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [3]:
import numpy as np
import pandas as pd
from nltk.corpus import stopwords # stopword : 불용어 (the, a, ...)
import string

In [4]:
df = pd.read_csv("spam.csv")
df

Unnamed: 0.1,Unnamed: 0,num,label,text,label_num
0,0,1,spam,your free lottery,1
1,1,2,spam,free lottery free you,1
2,2,3,ham,your free apple,0
3,3,4,ham,free to contact me,0
4,4,5,ham,I won award,0
5,5,6,spam,my lottery ticket,1


## 베이지안 확률

In [8]:
def process_text(text):
    # text에서 구두점 삭제
    nopunc = [char for char in text if char not in string.punctuation] # list comprehension
    nopunc = ''.join(nopunc)
    
    # text에서 무의미한 단어(접미사, 조사 등)는 삭제 --> stopwords (불용어) 제거
    # 소문자로 전부 변환 (대/소문자 구분)
    cleaned_words = [word for word in nopunc.split() if word.lower() not in stopwords.words('english')]
    return cleaned_words

In [6]:
# process_text 함수를 적용하여 데이터 세트의 텍스트 데이터를 토큰화 (분절)
df['text']

0         your free lottery
1    free lottery free you 
2          your free apple 
3       free to contact me 
4               I won award
5        my lottery ticket 
Name: text, dtype: object

In [9]:
df['text'].head().apply(process_text)

0          [free, lottery]
1    [free, lottery, free]
2            [free, apple]
3          [free, contact]
4                  [award]
Name: text, dtype: object

In [11]:
# text를 토큰 수의 행렬로 변환
from sklearn.feature_extraction.text import CountVectorizer
messages_bow = CountVectorizer(analyzer = process_text).fit_transform(df['text'])
messages_bow

<6x6 sparse matrix of type '<class 'numpy.int64'>'
	with 11 stored elements in Compressed Sparse Row format>

In [12]:
# data를 train, test로 분류
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(messages_bow,
                                                   df['label_num'], test_size=0.20, random_state=0)

In [13]:
# naive_beyes 다항식 나이브베이즈 모델 사용, 훈련
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(X_train, y_train) # train 데이터로 fit 해야 함.

MultinomialNB()

In [14]:
print(classifier.predict(X_train)) # 예측 값 출력
print(y_train.values)              # 실제 관측 값 출력

[1 0 1 0]
[1 0 1 0]


In [15]:
# 학습 데이터셋에 모델 정확도
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix, accuracy_score

pred = classifier.predict(X_train) # 예측값 출력

# 사이킷런 패키지의 metrics 패키지에는 정밀도(precision), 재현율(sensitivity), F1 점수(f1 score)를 구함.
print(classification_report(y_train, pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         2
           1       1.00      1.00      1.00         2

    accuracy                           1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4



1. precision(정밀도)      : 정확한 예측, 에측(Predict) 기준, TP 진짜 양성인 것을 맞추는 것
2. recall(재현율, 민감도) : 재현 실제, 실제(Actual) 기준
3. f1-score               : 정밀도와 재현율의 조화 평균(둘 다 중요한 지표니깐 중요!)
4. 정밀도와 재현율은 상충관계(trade off) 
5. 산업군 마다 중요도가 틀림
    - 의료 : 재현율(암환자_True Positive 에게 암(Positive)라 진단해야 함) 
    - 반도체 : 정밀도 (정확히 예측하는 제품을 생산해 정확하게 실제에 딱 맞춤)

In [16]:
# confusion matrix

confusion_matrix(y_train, pred) # 실제값, 예측값

array([[2, 0],
       [0, 2]], dtype=int64)

In [17]:
accuracy_score(y_train, pred)

1.0

In [18]:
# 테스트 데이터 셋 모델의 정확도 평가
classifier.predict(X_test)

array([1, 1], dtype=int64)

In [19]:
# 실제 관측값 출력
print(y_test.values)

[1 0]


In [22]:
# 테스트 셋에서 모델 평가
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix, accuracy_score

pred = classifier.predict(X_test) # X_test : test data(실제 새로운 데이터)
print(confusion_matrix(y_test, pred)) # 실제 라벨, 예측 라벨

[[0 1]
 [0 1]]


In [24]:
print(accuracy_score(y_test, pred)) # 예측률 : 0.5(50%)

0.5


In [None]:
# train 데이터는 100%, test 데이터는 50% -> 쓰레기