In [1]:
import csv
from numpy import *
import re
from konlpy.tag import Kkma
from konlpy.utils import pprint

In [13]:
# 모든 문서에 있는 모든 유일한 단어 목록을 생성한다.
def create_vocab_list(data_set):
    # 비어있는 집합 생성
    vocab_set = set([]) 
    for document in data_set:
        # 연산자 | 는 두 개의 집합 유형의 변수를 합치는 데 사용하는 연산자.
        # 두 개의 집합 통합 생성
        # ex) {'a', 'b', 'c'} | {'c', 'd', 'e'} 
        #     -> {'a', 'b', 'c', 'd', 'e'} 
        vocab_set = vocab_set | set(document)
    return list(vocab_set)

# 주어진 문서 내에 어휘 목록에 있는 단어가 존재하는지 아닌지를 표현하기 위해 어휘 목록, 문서, 
# 1과 0의 출력 벡터를 사용한다.
def set_of_words_2_vec(vocab_list, input_set):
    # 모두 0인 벡터 생성
    return_vec = [0] * len(vocab_list) 
    for word in input_set:
        if word in vocab_list:
            return_vec[vocab_list.index(word)] = 1
        else:
            print ("the word: %s is not in my Vocablulary!" % word)
    return return_vec

def train(train_matrix, train_category):
    # 문서의 수
    num_train_docs = len(train_matrix)
    
    # 한문서의 최대 단어수
    num_words = len(train_matrix[0])
    
    # 폭력적인 문서의 확률 계산
    # 1의 값이 폭력적이기 때문에 train_category를 합하면 폭력적인 문서의 수가 나온다.
    # 폭력적인 문서 수 / 전체 문서 수
    # 현재는 분류 항목이 두개 이기때문에 가능 / 분류 항목이 2개 이상이면 이부분을 수정해야 한다.
    p_abusive = sum(train_category) / float(num_train_docs)
    
    # 확률 초기화
    # zerors: num_words(인자값) 수 만큼 0. 배열 만듬
    p_0_num = ones(num_words) 
    p_1_num = ones(num_words)
    p_0_denom = 2.0
    p_1_denom = 2.0
    
    # 벡터 추가 
    for i in range(num_train_docs):
        if train_category[i] == 1:
            p_1_num += train_matrix[i]
            p_1_denom += sum(train_matrix[i])
        else:
            p_0_num += train_matrix[i]
            p_0_denom += sum(train_matrix[i])

    # 원소 나누기
    p_1_vect = log(p_1_num / p_1_denom)
    p_0_vect = log(p_0_num / p_1_denom)
    return p_0_vect, p_1_vect, p_abusive

def classify(vec_2_classify, p_0_vec, p_1_vec, p_class_1):
    # 원소 곱하기
    # 방식은 두 벡터의 첫 번째 원소들을 곱한 뒤, 두 번째 원소들을 곱하고, 이런식으로 계속해서 끝까지 곱해 가는 방식이다. 
    # 그런다음, 어휘집에 있는 모든 단어들에 대한 값을 더하고, 분류 항목의 로그 확률에 더한다.
    # 
    p1 = sum(vec_2_classify * p_1_vec) + log(p_class_1)
    p0 = sum(vec_2_classify * p_0_vec) + log(1.0 - p_class_1)
    
    if p1 > p0:
        return 1
    else:
        return 0

In [3]:
data = []
with open('data.csv', 'r') as f:
    reader = csv.reader(f) 
    for row in reader:
        row[0] = row[0].strip()
        data.append(row)
data = data[1:]

In [4]:
# 큰 문자열을 처리하며, 문자열 리스트로 텍스트를 구문 분석한다.
# 길이가 1개 이하인 단어는 탈락
def text_parse(big_string):
    list_of_tokens = kkma.nouns(big_string)
    return [token for token in list_of_tokens if len(token) > 1]

In [5]:
kkma = Kkma()
doc_list = []
class_list = []
full_text = []

print (data[3][0])
print (text_parse(data[3][0]))

조합이안됩니다처음부터 끝~~~~까지
['조합', '처음']


In [6]:
for i in range(0, 200):
    word_list = text_parse(data[i][0])
    doc_list.append(word_list)
    full_text.extend(word_list)
    class_list.append(int(data[i][1]))

In [20]:
# 검사 집합과 훈련집합을 생성한다.
vocab_list = create_vocab_list(doc_list)
training_set = list(range(200))
test_set = []

In [21]:
# 30개를 랜덤으로 생성해서 훈련용 데이터와 검사용데이터로 나눈다.
for i in range(30):
    rand_index = int(random.uniform(0, len(training_set)))
    test_set.append(training_set[rand_index])
    del(training_set[rand_index])

In [22]:
train_matrix = []
train_classes = []
# 검사 집합에 있는 모든 아이템을 반복하며, 각 이메일과 어휘집에 있는 단어들로부터 set_of_words_2_vec를 사용하여 단어 벡터를 생성한다.
for doc_index in training_set:
#     train_matrix.append(set_of_words_2_vec(vocab_list, doc_list[doc_index]))
    train_matrix.append(bag_of_words_2_vec_MN(vocab_list, doc_list[doc_index]))
    train_classes.append(class_list[doc_index])
    


In [23]:
# 단어들은 분류에 필요한 확률을 계산하기위해 train 데이터를 사용한다.
p_0_v, p_1_v, p_spam = train(array(train_matrix), array(train_classes))
error_count = 0

In [24]:
# 검사 집합을 반복하고 검사 집합 내에서 각 이메일을 분류한다. 
# 분류가 제데로 되지 않았다면 오류 개수를 증가한다.
for doc_index in test_set:
#     word_vector = set_of_words_2_vec(vocab_list, doc_list[doc_index])
    word_vector = bag_of_words_2_vec_MN(vocab_list, doc_list[doc_index])
    if classify(array(word_vector), p_0_v, p_1_v, p_spam) != class_list[doc_index]:
        error_count += 1
print ('The error rate is: ', float(error_count) / len(test_set))  

The error rate is:  0.5333333333333333
