In [1]:
# 전처리된 영화 리뷰 데이터 35000개를 이용해 머신러닝을 수행하고
# 머신러닝한 결과는 나머지 15000개의 리뷰 데이터로 검증한 후
# 머신러닝 결과는 pickle 모듈의 dump()를 이용해 파일로 저장하는 코드

from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score
import pickle
import os
from time import time
import pandas as pd
from mylib.tokenizer import tokenizer, tokenizer_porter

df = pd.read_csv('./data/170925_movie_review_refiend.csv', encoding='CP949')

X_train = df.loc[:35000, 'review'].values
y_train = df.loc[:35000, 'sentiment'].values
X_test = df.loc[15000:, 'review'].values
y_test = df.loc[15000:, 'sentiment'].values

tfidf = TfidfVectorizer(lowercase=False, tokenizer=tokenizer)

# Pipeline()의 인자인 리스트는 그 요소로 ('함수별명', 함수)와 같은 튜플로 되어 있어야 함.
lr_tfidf = Pipeline([('vect', tfidf), ('clf', LogisticRegression(C=10.0, penalty='l2', random_state=0))])

stime = time()
print('머신러닝 시작')
lr_tfidf.fit(X_train, y_train)
print('머신러닝 종료')

y_pred = lr_tfidf.predict(X_test)
print('테스트 종료: 소요시간 [%d]초' %(time()-stime))
print('정확도 : %.3f' %accuracy_score(y_test, y_pred))

# 머신러닝 결과를 파일로 저장
curDir = os.getcwd()
dest = os.path.join(curDir, 'data', 'pklObject')
if not os.path.exists(dest):
    os.makedirs(dest)
    
pickle.dump(lr_tfidf, open(os.path.join(dest, 'classifier.pkl'), 'wb'), protocol=4)
print('머신러닝 데이터 저장 완료')

머신러닝 시작
머신러닝 종료
테스트 종료: 소요시간 [12]초
정확도 : 0.950
머신러닝 데이터 저장 완료
