# 네이버 영화 리뷰 감성 분류
- TF-IDF Vectorizer -> Logistic Regression

In [1]:
import datetime
datetime.datetime.now()

datetime.datetime(2020, 7, 27, 13, 36, 52, 583258)

In [2]:
import numpy as np
import pandas as pd

In [3]:
import re
from konlpy.tag import Okt

## 1. 전처리

In [4]:
train_df= pd.read_table('data/ratings_train.txt')
test_df= pd.read_table('data/ratings_test.txt') 

In [5]:
train_df = train_df.fillna(' ')
# 정규 표현식을 이용하여 숫자를 공백으로 변경(정규 표현식으로 \d 는 숫자를 의미함.) 
train_df['document'] = train_df['document'].apply( lambda x : re.sub(r"\d+", " ", x) )

# 테스트 데이터 셋에 대해서도 동일하게 Null 및 숫자를 공백으로 변환
test_df = test_df.fillna(' ')
test_df['document'] = test_df['document'].apply( lambda x : re.sub(r"\d+", " ", x) )

In [6]:
okt = Okt()
def tw_tokenizer(text):
    # 입력 인자로 들어온 text 를 형태소 단어로 토큰화 하여 list 객체 반환
    tokens_ko = okt.morphs(text)
    return tokens_ko

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Okt 객체의 morphs( ) 메서드를 이용한 tokenizer를 사용. ngram_range는 (1,2) 
tfidf_vect = TfidfVectorizer(tokenizer=tw_tokenizer, ngram_range=(1,2), 
                             min_df=3, max_df=0.9)
tfidf_vect.fit(train_df['document'])
tfidf_matrix_train = tfidf_vect.transform(train_df['document']) 



## 2. Logistic Regression 을 이용한 감성 분석
- 파라메터 C가 3.5일 경우가 베스트 모델

In [8]:
from sklearn.linear_model import LogisticRegression

lg_clf = LogisticRegression(C=3.5, random_state=0)
lg_clf.fit(tfidf_matrix_train, train_df['label'])

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


LogisticRegression(C=3.5, random_state=0)

### Parameter C 최적화를 위해 GridSearchCV 를 이용. 
- params = {'C': [1, 3.5, 4.5, 5.5, 10]}
- grid_cv = GridSearchCV(lg_clf, param_grid=params, cv=3, scoring='accuracy', verbose=1)
- grid_cv.fit(tfidf_matrix_train, train_df['label'])
- print(grid_cv.best_params_, round(grid_cv.best_score_,4)) 

In [9]:
from sklearn.metrics import accuracy_score

# 학습 데이터를 적용한 TfidfVectorizer를 이용하여 테스트 데이터를 TF-IDF 값으로 Feature 변환함. 
tfidf_matrix_test = tfidf_vect.transform(test_df['document'])
preds = lg_clf.predict(tfidf_matrix_test)
print('Logistic Regression 정확도:', accuracy_score(test_df['label'], preds)) 

Logistic Regression 정확도: 0.86184


In [10]:
datetime.datetime.now()

datetime.datetime(2020, 7, 27, 13, 44, 17, 315438)

In [11]:
import joblib
joblib.dump(lg_clf, 'model/movie_lr.pkl')
joblib.dump(tfidf_vect, 'model/movie_lr_dtm.pkl')

['model/movie_lr_dtm.pkl']

In [15]:
review = '존잼임... 난 처음 도입부에 아~라~비안 나~잇 이 부분에서부터 감동받아서 울 뻔했음...'
review_dtm = tfidf_vect.transform([review])
lg_clf.predict(review_dtm)[0]

1