# chapter 8. Text Analysis

## Processing Korean Texts - Sentiment Analysis of Naver Movie Ratings

### 한글 NLP 처리의 어려움

일반적으로 한글 언어 처리는 **띄어쓰기**와 **다양한 조사**로 처리가 매우 어렵다. <br>

### KoNLPy 소개

KoNLPy는 파이썬의 대표적인 한글 형태소 패키지이다. 

In [2]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m34.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp38-cp38-macosx_10_9_x86_64.whl (381 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m381.7/381.7 kB[0m [31m11.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting lxml>=4.1.0 (from konlpy)
  Downloading lxml-4.9.3.tar.gz (3.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m34.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: lxml
  Building wheel for lxml (setup.py) ... [?25ldone
[?25h  Created wheel for lxml: filename=lxml-4.9.3-cp38-cp38-macosx_10_9_x86_64.whl size=1843115 sha256=40c0ae54c29a4c70a4ae0f315fa0766432c4c36fc9378a6079a21213a05f435b
  Stored 

In [3]:
from konlpy.tag import Twitter
from konlpy.tag import Okt
from konlpy.tag import Kkma

In [4]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# 컬럼 분리 문자 \t 
# 한글 encoding시 encoding='cp949' 적용
train_df = pd.read_csv('data/ratings_train.txt', sep='\t') 
train_df.head(10)

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
5,5403919,막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움.,0
6,7797314,원작의 긴장감을 제대로 살려내지못했다.,0
7,9443947,별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지..정말 발로해도 그것보단...,0
8,7156791,액션이 없는데도 재미 있는 몇안되는 영화,1
9,5912145,왜케 평점이 낮은건데? 꽤 볼만한데.. 헐리우드식 화려함에만 너무 길들여져 있나?,1


In [5]:
train_df['label'].value_counts()

label
0    75173
1    74827
Name: count, dtype: int64

In [6]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        150000 non-null  int64 
 1   document  149995 non-null  object
 2   label     150000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.4+ MB


In [8]:
import re

train_df = train_df.fillna(' ')
# 정규 표현식을 이용하여 숫자를 공백으로 변경(정규 표현식으로 \d 는 숫자를 의미한다.) 
train_df['document'] = train_df['document'].apply( lambda x : re.sub(r"\d+", " ", x))

# 테스트 데이터 셋을 로딩하고 동일하게 Null 및 숫자를 공백으로 변환 
test_df = pd.read_csv('data/ratings_test.txt', sep = '\t') # 한글 encoding시 encoding='cp949' 적용
test_df = test_df.fillna(' ')
test_df['document'] = test_df['document'].apply( lambda x : re.sub(r"\d+", " ", x))

# id 컬럼 삭제 수행
train_df.drop('id', axis = 1, inplace = True) 
test_df.drop('id', axis = 1, inplace = True)

In [9]:
from konlpy.tag import Okt

okt = Okt()
def tw_tokenizer(text):
    # 입력 인자로 들어온 text 를 형태소 단어로 토큰화 하여 list 객체 반환
    tokens_ko = okt.morphs(text)
    return tokens_ko

#tw_tokenizer('아버지가방에 들어가신다')
okt.morphs('아버지가방에 들어가신다')

JVMNotFoundException: No JVM shared library file (libjli.dylib) found. Try setting up the JAVA_HOME environment variable properly.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# Okt 객체의 morphs( ) 객체를 이용한 tokenizer를 사용. ngram_range는 (1, 2) 
tfidf_vect = TfidfVectorizer(tokenizer = tw_tokenizer, ngram_range=(1, 2), min_df = 3, max_df = 0.9)
tfidf_vect.fit(train_df['document'])
tfidf_matrix_train = tfidf_vect.transform(train_df['document'])

In [None]:
print(tfidf_matrix_train.shape)

In [None]:
# Logistic Regression 을 이용하여 감성 분석 Classification 수행 
lg_clf = LogisticRegression(random_state = 0, solver = 'liblinear')

# Parameter C 최적화를 위해 GridSearchCV 를 이용 
params = {'C': [1 ,3.5, 4.5, 5.5, 10 ]}
grid_cv = GridSearchCV(lg_clf, param_grid = params, cv = 3 ,scoring = 'accuracy', verbose = 1)
grid_cv.fit(tfidf_matrix_train , train_df['label'])
print(grid_cv.best_params_, round(grid_cv.best_score_,4))

In [None]:
test_df.head()

In [None]:
from sklearn.metrics import accuracy_score

# 학습 데이터를 적용한 TfidfVectorizer를 이용하여 테스트 데이터를 TF-IDF 값으로 Feature 변환한다. 
tfidf_matrix_test = tfidf_vect.transform(test_df['document'])

# classifier 는 GridSearchCV에서 최적 파라미터로 학습된 classifier를 그대로 이용
best_estimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)

print('Logistic Regression 정확도: ',accuracy_score(test_df['label'],preds))