# 데이터로딩

In [1]:
import pandas as pd

train_df = pd.read_csv('./naver_moview_review/ratings_train.txt', sep='\t')
train_df.head(3)

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0


In [2]:
# 학습데이터의 0 , 1의 label 비율 확인
train_df['label'].value_counts( )


0    75173
1    74827
Name: label, dtype: int64

In [4]:
train_df.isna().value_counts()

id     document  label
False  False     False    149995
       True      False         5
dtype: int64

In [5]:
import re

# null  공백 처리
train_df = train_df.fillna(' ')
# 정규 표현식을 이용하여 숫자를 공백으로 변경(정규 표현식으로 \d 는 숫자를 의미함.) 
train_df['document'] = train_df['document'].apply( lambda x : re.sub(r"\d+", " ", x) )

In [6]:
train_df.isna().value_counts()

id     document  label
False  False     False    150000
dtype: int64

In [8]:
# 테스트 데이터 셋을 로딩하고 동일하게 Null 및 숫자를 공백으로 변환
test_df = pd.read_csv('./naver_moview_review/ratings_test.txt', sep='\t')
test_df = test_df.fillna(' ')
test_df['document'] = test_df['document'].apply( lambda x : re.sub(r"\d+", " ", x) )

In [9]:
# id 칼럼 삭제 수행
train_df.drop('id', axis=1, inplace=True) 
test_df.drop('id', axis=1, inplace=True)

In [10]:
train_df.head()

Unnamed: 0,document,label
0,아 더빙.. 진짜 짜증나네요 목소리,0
1,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,너무재밓었다그래서보는것을추천한다,0
3,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


* TF-IDF 방식으로 단어를 벡터화 함
* 각 문장을 한글 형태소 분석을 통해 형태소 단어로 토큰화
* 한글 형태소 엔진은 Twitter(SNS 분석에 적합) 클래스를 이용
* Twitter 객체의 morphs() 메소드를 이용하면 입력 인자로 들어온 문장을 형태소 단어 형태로 토큰화해 list 객체로 반환
* 문장을 형태소 단어 형태로 반환하는 tikenizer함수 tw_toknizer() 생성

In [12]:
from konlpy.tag import Okt

twitter = Okt()
def tw_tokenizer(text):
    # 입력 인자로 들어온 text 를 형태소 단어로 토큰화 하여 list 객체 반환
    tokens_ko = twitter.morphs(text)
    return tokens_ko
# end of def tw_tokenizer

사이킷런의 TfidfVectorizer 를 이용, TF-IDF 피처 모델을 생성

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# Twitter 객체의 morphs( ) 객체를 이용한 tokenizer를 사용. ngram_range는 (1,2) 
tfidf_vect = TfidfVectorizer(tokenizer=tw_tokenizer, ngram_range=(1,2), min_df=3, max_df=0.9)
tfidf_vect.fit(train_df['document'])
tfidf_matrix_train = tfidf_vect.transform(train_df['document'])



In [15]:
# import pandas as pd
# pd.DataFrame(tfidf_matrix_train)

Unnamed: 0,0
0,"(0, 113575)\t0.4792184213160934\n (0, 11301..."
1,"(0, 128833)\t0.2422735565889902\n (0, 12882..."
2,"(0, 123789)\t0.26000530315153586\n (0, 1236..."
3,"(0, 120509)\t0.30726348818174803\n (0, 1203..."
4,"(0, 126309)\t0.1854914167589294\n (0, 11729..."
...,...
149995,"(0, 111114)\t0.2425313961666922\n (0, 11110..."
149996,"(0, 120475)\t0.3482650416394098\n (0, 12032..."
149997,"(0, 127431)\t0.3189399745875439\n (0, 12433..."
149998,"(0, 116047)\t0.2756036636649173\n (0, 11604..."


* 감성분석 수행 - 분류기반. 로지스틱 회귀 이용
* GridSearchCV 로 하이퍼 파라미터 C 조정

In [16]:
# Logistic Regression 을 이용하여 감성 분석 Classification 수행. 
lg_clf = LogisticRegression(random_state=0, solver='liblinear')

# Parameter C 최적화를 위해 GridSearchCV 를 이용. 
params = { 'C': [1 ,3.5, 4.5, 5.5, 10 ] }
grid_cv = GridSearchCV(lg_clf , param_grid=params , cv=3 ,scoring='accuracy', verbose=1 )
grid_cv.fit(tfidf_matrix_train , train_df['label'] )
print(grid_cv.best_params_ , round(grid_cv.best_score_,4))

Fitting 3 folds for each of 5 candidates, totalling 15 fits
{'C': 3.5} 0.8593


In [17]:
from sklearn.metrics import accuracy_score

# 학습 데이터를 적용한 TfidfVectorizer를 이용하여 테스트 데이터를 TF-IDF 값으로 Feature 변환함. 
tfidf_matrix_test = tfidf_vect.transform(test_df['document'])

# classifier 는 GridSearchCV에서 최적 파라미터로 학습된 classifier를 그대로 이용
best_estimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)

print('Logistic Regression 정확도: ',accuracy_score(test_df['label'],preds))

Logistic Regression 정확도:  0.86172
