## 분류를 위한 텍스트 데이터 전처리

In [27]:
#단어집 만들기
voca = {}
with open('SMSSpamCollection') as file_handle:
    for line in file_handle: #텍스트 파일을 한줄씩 읽기
        splits = line.split() #각 줄을 space로 구분해 list화
        label = splits[0] #문장의 첫 시작은 라벨링
        text = splits[1:] 
        
        for word in text:
            lower = word.lower()
            if not lower in voca: ###lower in voca?: 맞다. 빈 voca dict
                voca[lower] = len(voca) #기존 사전에 해당 단어가 없으면 고유번호 할당 {'단어': 고유번호}

In [28]:
#단어집 활용해 '단어 빈도 피처' 생성
import numpy as np

features = []
with open('SMSSpamCollection') as file_handle:
    for line in file_handle: #한 줄에 SMS 데이터 하나(문서 하나)
        feature = np.zeros(len(voca))
        splits = line.split()
        text = splits[1:] ###splits?
        for word in text:
            lower = word.lower()
            feature[voca[lower]] += 1 #feature라는 벡터의 고유번호번째 0에 +1 (빈도 count)
        
        feature = feature / sum(feature)
        features.append(feature)

여기서 features는 넘파이 리스트로써 각각의 넘파이 리스트가 한 문서의 피처를 담고 있음.
각 단어가 몇 번씩 나왔는지 np.zero 넘파이 배열에 기록하고, 한 문서가 끝나면 전체 단어 개수로 각 단어의 출현 수를 나눠, 각 단어 빈도 피처값을 계산. 즉, 저장된 하나의 넘파이 배열은 문서 하나(SMS 하나)를 뜻함. -> 0인 항목들이 대부분이므로, _sparse matrix_화 시킬 수 있다.

In [32]:
#레이블 처리
labels = []
with open('SMSSpamCollection') as file_handle:
    for line in file_handle:
        splits = line.split()
        label = splits[0]
        if label == 'spam':
            labels.append(1)
        else:
            labels.append(0)

In [38]:
len(features[1])

13627

In [37]:
labels[1]

0

In [39]:
len(features), len(labels)

(5574, 5574)

위까지 feature와 label의 수작업 준비. sklearn의 CountVectorizer, TfidTransformer 통한 피처 생성과 pickle 라이브러리 활용한 내용 저장 가능

In [40]:
import pickle
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

spam_header = 'spam\t'
no_spam_header = 'ham\t'
documents = []
labels = []

with open('SMSSpamCollection') as file_handle:
    for line in file_handle:
        # 각 줄에서 레이블 부분만 떼어내고 나머지를 documents에 할당
        if line.startswith(spam_header):
            labels.append(1)
            documents.append(line[len(spam_header):])
        elif line.startswith(no_spam_header):
            labels.append(0)
            documents.append(line[len(no_spam_header):])

vectorizer = CountVectorizer()  # 단어 횟수 피처를 만드는 클래스
term_counts = vectorizer.fit_transform(documents)  # 문서에서 단어 횟수 counting
vocabulary = vectorizer.get_feature_names()

# 단어 횟수 피처에서 단어 빈도 피처를 만드는 클래스
# tf-idf에서 idf를 생성하지 않으면 단어 빈도(term frequency)가 생성됨
tf_transformer = TfidfTransformer(use_idf=False).fit(term_counts)
features = tf_transformer.transform(term_counts)

# 처리된 파일을 저장
with open('processed.pickle', 'wb') as file_handle:
    pickle.dump((vocabulary, features, labels), file_handle)

In [46]:
type(file_handle)

_io.BufferedWriter

## feature 이용해 분류하기

In [50]:
from sklearn.linear_model import LogisticRegression

with open('processed.pickle', 'rb') as file_handle:
    vocabulary, features, labels = pickle.load(file_handle)

# 학습-평가 데이터 나누기
# 처음 50%를 학습으로 사용하고 나머지를 평가로 사용
total_number = len(labels)
middle_index = total_number//2
train_features = features[:middle_index,:]
train_labels = labels[:middle_index]
test_features = features[middle_index:,:]
test_labels = labels[middle_index:]

classifier = LogisticRegression()
classifier.fit(train_features, train_labels)
print('train accuracy: %4.4f' % classifier.score(train_features, train_labels))
print('test accuracy: %4.4f' % classifier.score(test_features, test_labels))

train accuracy: 0.9731
test accuracy: 0.9612


In [51]:
# 어떤 항목이 판별에 영향을 많이 미쳤는가?
weights = classifier.coef_[0, :]
pairs = []
for index, value in enumerate(weights):
    pairs.append( (abs(value), vocabulary[index]) )
pairs.sort(key=lambda x: x[0], reverse=True)
for pair in pairs[:20]:
    print('score %4.4f word: %s' % pair)

score 4.3649 word: txt
score 4.0988 word: call
score 3.3730 word: free
score 2.6237 word: text
score 2.5961 word: to
score 2.4842 word: uk
score 2.4744 word: www
score 2.4241 word: stop
score 2.4017 word: claim
score 2.1648 word: 150p
score 2.1367 word: or
score 2.1299 word: service
score 2.1253 word: from
score 2.1086 word: my
score 2.0982 word: mobile
score 2.0346 word: me
score 2.0141 word: now
score 1.9831 word: reply
score 1.8793 word: ur
score 1.8430 word: prize


## 토픽 모델 시스템 생성

In [52]:
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

spam_header = 'spam\t'
no_spam_header = 'ham\t'
documents = []

# LDA서는 레이블 생성필요 X. 문서만 추출.
with open('SMSSpamCollection') as file_handle:
    for line in file_handle:
        if line.startswith(spam_header):
            documents.append(line[len(spam_header):])
        elif line.startswith(no_spam_header):
            documents.append(line[len(no_spam_header):])

#LDA는 단어 빈도 피쳐가 아닌 단어가 나온 갯수가 잘 동작하므로 CountVectorizer를 사용
#토픽 모델에 도움이 되지 않는 단어들(stop_words)을 자동으로 제거
vectorizer = CountVectorizer(stop_words='english', max_features=2000)
term_counts = vectorizer.fit_transform(documents)
vocabulary = vectorizer.get_feature_names()

# 토픽 모델 학습
topic_model = LatentDirichletAllocation(n_topics=10)
topic_model.fit(term_counts)

# 학습된 토픽들을 하나씩 출력
topics = topic_model.components_
for topic_id, weights in enumerate(topics):
    print('topic %d' % topic_id, end=': ')
    pairs = []
    for term_id, value in enumerate(weights):
        pairs.append( (abs(value), vocabulary[term_id]) )
    pairs.sort(key=lambda x: x[0], reverse=True)
    for pair in pairs[:10]:
        print(pair[1], end=',')
    print()



topic 0: home,work,im,amp,cos,buy,wan,try,going,meet,
topic 1: gt,lt,great,min,sure,cash,make,holiday,live,service,
topic 2: just,got,right,lor,lol,wat,really,friends,like,told,
topic 3: good,thanks,help,ya,heart,morning,ur,house,meeting,yes,
topic 4: ok,love,know,want,need,come,da,tell,night,hey,
topic 5: ur,number,hi,way,oh,sent,msg,send,cool,bt,
topic 6: ll,later,just,sorry,did,pls,doing,yeah,like,got,
topic 7: day,time,going,happy,ok,say,said,lor,today,went,
topic 8: free,text,txt,stop,mobile,reply,dear,ur,www,life,
topic 9: message,send,care,pick,gud,nice,new,year,smile,ur,
