In [1]:
import re
import pandas as pd

In [2]:
# train 데이터세트를 로딩하고, Null 및 숫자를 공백으로 변환
train_df = pd.read_csv('./ratings_train.txt', sep='\t')
# document 칼럼에 일부 Null이 존재하므로 이 값은 공백으로 변환
train_df = train_df.fillna(' ')
# 문자가 아닌 숫자의 경우 단어적인 의미가 부족하므로 파이썬의 정규 표현식 모듈인 re를 이용
# 숫자를 공백으로 변환
train_df['document'] = train_df['document'].apply(lambda x : re.sub(r"\d+"," ", x))


In [3]:
# test 데이터세트를 로딩하고, 동일하게 Null 및 숫자를 공백으로 변환
test_df = pd.read_csv('./ratings_test.txt', sep='\t')
# document 칼럼에 일부 Null이 존재하므로 이 값은 공백으로 변환
test_df = train_df.fillna(' ')
# 문자가 아닌 숫자의 경우 단어적인 의미가 부족하므로 파이썬의 정규 표현식 모듈인 re를 이용
# 숫자를 공백으로 변환
test_df['document'] = test_df['document'].apply(lambda x : re.sub(r"\d+"," ", x))

In [4]:
from konlpy.tag import Okt 

In [5]:
okt = Okt()

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [6]:
def tw_tokenizer(text):
    #입력 인자로 들어온 텍스트를 형태소 단어로 토큰화해 리스트 형태로 변환
    tokens_ko = okt.morphs(text)
    return tokens_ko

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV



In [8]:
# Okt 객체의 morphs()객체를 이용한 tokenizer를 사용하고, ngram_range는 (1,2)
tfidf_vect = TfidfVectorizer(tokenizer=tw_tokenizer, ngram_range=(1,2), 
                             min_df=3, max_df=0.9)
tfidf_vect.fit(train_df['document'])
tfidf_matrix_train = tfidf_vect.transform(train_df['document'])

In [9]:
# 로지스틱 회귀를 이용해 감성 분석 분류 수행
lg_clf = LogisticRegression(random_state=0)

In [10]:
# 파라미터 C 최적화를 위해 GridSearchCV를 이용
params = {'C' : [1, 3.5, 4.5, 5.5, 10]}
grid_cv = GridSearchCV(lg_clf, param_grid=params, cv=3, scoring='accuracy',
                       verbose=1)
grid_cv.fit(tfidf_matrix_train, train_df['label'])
print(grid_cv.best_params_, round(grid_cv.best_score_, 4))


Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  15 out of  15 | elapsed:   51.7s finished


{'C': 3.5} 0.8593


In [11]:
from sklearn.metrics import accuracy_score


In [12]:
# 학습데이터를 적용한 TfidfVectorizer를 이용해 테스트 데이터를 TF-IDF 갑으로 피처 변환함
tfidf_matrix_test = tfidf_vect.transform(test_df['document'])

# classifier는 GridSearchCV에서 최적 파라미터로 학습된 classifier를 그대로 이용
best_estimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)

print('Logistic Regression 정확도 : ', accuracy_score(test_df['label'], preds))

Logistic Regression 정확도 :  0.9419466666666667
