In [6]:
import pickle
from sklearn.linear_model import LogisticRegression

# rb: 바이러리 데이터를 읽어들이는 옵션
with open('processed.pickle', 'rb') as file_handle:
    vocabulary, features, labels = pickle.load(file_handle)

In [7]:
# 학습-테스트 데이터 나누기
# 처음 50%를 학습으로 사용하고 나머지를 평가로 사용합니다.
total_number = len(labels)
middle_index = total_number//2
train_features = features[:middle_index,:]
train_labels = labels[:middle_index]
test_features = features[middle_index:,:]
test_labels = labels[middle_index:]

In [8]:
# TF-IDF 정보가 화소행렬(sparse matrix)로 압축되어 저장
train_features[:5]

<5x8713 sparse matrix of type '<class 'numpy.float64'>'
	with 64 stored elements in Compressed Sparse Row format>

![image.png](attachment:image.png)

In [9]:
classifier = LogisticRegression() # 성능 향상을 위해 새로운 모델을 사용할 수 있다.
classifier.fit(train_features, train_labels)
print('train accuracy: %4.4f' % classifier.score(train_features, train_labels))
print('test accuracy: %4.4f' % classifier.score(test_features, test_labels))

# 어떤 항목이 판별에 영향을 많이 줬는지 찾아보기
weights = classifier.coef_[0, :]
pairs = []
for index, value in enumerate(weights):
    pairs.append( (abs(value), vocabulary[index]) )
pairs.sort(key=lambda x: x[0], reverse=True)
for pair in pairs[:20]:
    print('score %4.4f word: %s' % pair)

train accuracy: 0.9724
test accuracy: 0.9605
score 4.3905 word: txt
score 4.1570 word: call
score 3.3960 word: free
score 2.6671 word: to
score 2.6412 word: text
score 2.4989 word: uk
score 2.4924 word: www
score 2.4437 word: stop
score 2.4089 word: claim
score 2.1820 word: or
score 2.1680 word: 150p
score 2.1672 word: from
score 2.1375 word: service
score 2.1002 word: mobile
score 2.0814 word: my
score 2.0678 word: now
score 2.0086 word: me
score 1.9982 word: reply
score 1.9318 word: ur
score 1.8458 word: prize


## 성능 향상을 위해 선택적으로 적용할 수 있는 실험
* idf 점수를 빼고 모델 학습
* 성능이 향상이 되었다면 어떤 이유로 향상이 되었을지 생각해 보자