# 09. 한글 텍스트 처리 - 네이버 영화 평점 감성 분석

p530(549)

In [None]:
import warnings
warnings.filterwarnings('ignore')

<br>

## 9.1 한글 NLP 처리의 어려움

- 일반적으로 한글 언어 처리는 영어 등의 라틴어 처리보다 어려움
- 그 주된 원인은 **띄어쓰기**와 **다양한 조사** 때문이다.

### 9.1.1 띄어쓰기

- 띄어쓰기를 잘못했을 때의 의미 왜곡
  - '아버지가 방에 들어가신다.' vs '아버지 가방에 들어가신다'
- 영어는 띄어쓰기를 잘못하면 의미가 왜곡되는 게 아니라 잘못된 또는 없는 단어로 인식된다.

<br>

### 9.1.2 조사

- 조사는 주어나 목적어를 위해 추가됨
- 워낙 경우의 수가 많기 때문에 어근 추출(Stemming/Lemmatization) 등의 전처리 시 제거하기가 까다롭다.
- "집" 이라는 어근 단어를 기준으로  집은, 집이, 집으로, 집에서, 집에 등 다양한 형태의 조사가 존재  
- 또한 "너희 집은 어디 있니?"에서 "집은"의 "은"이 뜻하는 것이 조사인 지 아니면 은(銀)인 지 구분하기 어려움
- "집은"을 "집 은"으로 띄어쓰기를 잘못하면 더 그렇다.

<br>

## 9.2 KoNLPy 소개

- KoNLPy는 파이썬의 대표적인 한글 형태소 패키지이다.
- **형태소**의 사전적 의미 : "단어로서 의미를 가지는 최소 단위"
- **형태소 분석(Morphological analysis)**
  - 말뭉치를 이러한 형태소 어근 단위로 쪼개고 각 형태소에 품사 태깅(POS tagging)을 부착하는 작업을 일반적으로 지칭

- KoNLPy는 기존의 C/C++, Java로 잘 만들어진 한글 형태소 엔진을 파이썬 래퍼(Wrapper) 기반으로 재작성한 패키지이다.
- 기존의 엔진은 그대로 유지한 채 파이썬 기반에서 인터페이스를 제공하기 때문에 검증된 패키지 안정성을 유지할 수 있다.
- 아래의 5개 형태소 분석 모듈을 KoNLPy에서 모두 사용할 수 있다.
  - 꼬꼬마(Kkma)
  - 한나눔(Hannanum)
  - Komoran
  - 은전한닢 프로젝트(Mecab)
  - Twitter
- 뛰어난 형태소 분석으로 인정받고 있는 Mecab의 경우 윈도우 환경에서는 구동되지 않음
- Mecab을 사용하고자 한다면 현재까지는 리눅스 환경의 KoNLPy에서만 가능하다.

<br>

### 9.2.1 KoNLPy 설치

- [공식 설치 문서](https://konlpy-ko.readthedocs.io/ko/v0.4.3/install)를 참조
- 특히 윈도우 운영체제에서 `JPypel` 모듈이 제대로 설치가 되지 않는 경우가 많이 발생

**공식 문서대로 설치가 안될 때 아래와 같은 방법을 통해 설치**

- KoNLPy는 파이썬으로 기존 형태소 분석 엔진을 래퍼한 것이기 때문에 **Java**가 먼저 설치돼 있어야 한다.
- 또한 파이썬에서 Java 클래스를 호출학 ㅣ위한 별도의 모듈인 **`JPype1`**도 함께 필요

**1. conda 명령어를 통해 `jpype1` 설치**

```
conda install -c conda-forge jpype1
```

**2. Java 1.7 버전 이상을 설치 후 JAVA_HOME 설정**
  - 일반적인 JAVA_HOME은 JDK 폴더를 JAVA_HOME으로 설정  
  (C:\Program Files\Java\jdk1.8.0_231)
  - 하지만 KoNLPy의 경우 압축이 풀리는 기준 JDK 폴더가 아니라 `jvm.dll`이 들어 있는 폴더를 JAVA_HOME으로 설정해줘야 한다.  
  (C:\Program Files\Java\jdk1.8.0_231\jre\bin\server)
  - 윈도우의 환경변수에 JAVA_HOME을 C:\Program Files\Java\jdk1.8.0_231\jre\bin\server 으로 설정

**3. `JPype1`과 Java 환경 세팅이 완료됐으면 `pip`를 이용해 KoNLPy를 설치**

```
pip install konlpy
```

<br>

## 9.3 데이터 로딩

- 네이버 영화 평점 데이터는 [깃허브 링크](https://github.com/e9t/nsmc)에서 내려받을 수 있다.
- 전체 데이터 세트(ratings.txt), 학습 데이터 세트(ratings_train.txt), 테스트 데이터 세트(ratings_test.txt)를 모두 내려 받는다.

<br>

### 9.3.1 데이터프레임 생성

- ratings_train.txt 파일을 `DataFrame`으로 로딩하고 데이터를 확인
- ratings_train.txt 파일은 탭(\t)으로 컬럼이 분리돼 있으므로 `read_csv()`의 `sep` 파라미터를 `'\t'`로 설정해 `DataFrame`으로 생성

In [1]:
import pandas as pd

train_df = pd.read_csv('./data/NaverSentimentMovieCorpus/ratings_train.txt', sep='\t')
train_df.head(3)

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0


- 학습 데이터 세트의 0과 1의 Label 값 비율 확인
  - 1 : 긍정 감성
  - 0 : 부정 감성

In [2]:
train_df['label'].value_counts()

0    75173
1    74827
Name: label, dtype: int64

- 0과 1의 비율이 어느 한쪽으로 치우치지 않고 균등한 분포를 나타내고 있음

<br>

## 9.4 데이터 전처리

### 9.4.1 결측값 처리

- `train_df`의 경우 리뷰 텍스트를 가지는 `document` 컬럼에 `Null`이 일부 존재하므로 이 값은 공백으로 변환
- 문자가 아닌 숫자의 경우 단어적인 의미로 부족하므로 파이썬 정규 표현식 모듈인 `re`를 이용해 이 역시 공백으로 변환
- 테스트 데이터 세트의 경우도 파일을 로딩하고 동일한 데이터 가공을 수행

In [3]:
import re

train_df = train_df.fillna(' ')

# 정규 표현식을 이용해 숫자를 공백으로 변경 (정규 표현식으로 '\d' 는 숫자를 의미함)
train_df['document'] = train_df['document'].apply(lambda x: re.sub(r"\d+", " ", x))

# 테스트 데이터 세트를 로딩하고 동일하게 Null 및 숫자를 공백으로 변환
test_df = pd.read_csv('./data/NaverSentimentMovieCorpus/ratings_test.txt', sep='\t')
test_df = test_df.fillna(' ')
test_df['document'] = test_df['document'].apply(lambda x: re.sub(r"\d+", " ", x))

<br>

### 9.4.2 TF-IDF 벡터화

- TF-IDF 방식으로 단어를 벡터화
- 먼저 각 문장을 한글 형태소 분석을 통해 형태소 단어로 토큰화
- 한글 형태소 엔진은 SNS 분석에 적합한 `Twitter` 클래스를 이용
- `Twitter` 객체의 `morphs()` 메서드를 이용하면 입력 인자로 들어온 문장을 형태소 단어 형태로 토큰화해 list 객체로 반환
- 문장을 형태소 단어 형태로 반환하는 별도의 `tokenizer` 함수를 `tw_tokenizer()` 라는 이름으로 생성
- 이 `tw_tokenizer()` 함수는 뒤에서 사이킷런의 `TfidfVectorizer` 클래스의 `tokenizer`로 사용

In [5]:
from konlpy.tag import Twitter

twitter = Twitter()

def tw_tokenizer(text):
    
    # 입력 인자로 들어오느 텍스트를 형태소 단어로 토큰화해 리스트 형태로 반환
    tokens_ko = twitter.morphs(text)
    return tokens_ko

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


<br>

- 사이킷런의 `TfidfVectorizer`를 이용해 TF-IDF 피처 모델 생성
- `tokenizer`는 위에서 만든 `tw_tokenizer()` 함수 이용
- `ngram=(1,2)`
- `min_df=3`
- `max_df=0.9` : 상위 90%로 제한

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# Twitter 객체의 morphs() 객체를 이용한 tokenizer를 사용. ngram_range는 (1,2)
tfidf_vect = TfidfVectorizer(tokenizer=tw_tokenizer,
                             ngram_range=(1,2),
                             min_df=3,
                             max_df=0.9)
tfidf_vect.fit(train_df['document'])
tfidf_matrix_train = tfidf_vect.transform(train_df['document'])



<br>

### 9.4.3 분류 기반의 감성 분석 수행

- 로지스틱 회귀를 이용해 분류 기반의 감성 분석을 수행
- 로지스틱 회귀의 하이퍼 파라미터 C의 최적화를 위해 `GridSearchCV`를 이용

In [9]:
# 로지스틱 회귀를 이용해 감성 분석 분류 수행
lg_clf = LogisticRegression(random_state=0)

# 파라미터 C 최적화를 위해 GridSearchCV를 이용
params = {'C': [1, 3.5, 4.5, 5.5, 10]}
grid_cv = GridSearchCV(lg_clf, param_grid=params, cv=3, scoring='accuracy', verbose=1)
grid_cv.fit(tfidf_matrix_train, train_df['label'])
print(grid_cv.best_params_, round(grid_cv.best_score_, 4))

Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative sol

{'C': 3.5} 0.8592


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


- `C`가 3.5일 때 최고 0.8592의 정확도를 보임

<br>

### 9.4.4 감성 분석 예측 수행

- 테스트 세트를 이용해 최종 감성 분석 예측을 수행
- 테스트 세트를 이용해 예측할 때는 학습할 때 적용한 `TfidfVectorizer`를 그대로 사용해야 한다.
- 그래야만 학습 시 설정된 `TfidfVectorizer`의 피처 개수와 테스트 데이터를 `TfidfVectorizer`로 변환할 피처 개수가 같아진다.
- 학습 데이터에 사용된 `TfidfVectorizer` 객체 변수인 `tfidf_vect`를 이용해 `transform()`을 테스트 데이터의 `document` 컬럼에 수행

In [13]:
from sklearn.metrics import accuracy_score

# 학습 데이터를 적용한 TfidfVectorizer를 이용해 테스트 데이터를 TF-IDF 값으로 피처 변환함
tfidf_matrix_test = tfidf_vect.transform(test_df['document'])

# classifier는 GridSearchCV에 최적 파라미터로 학습된 classifier를 그대로 이용
best_estimator = grid_cv.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)

print('Logistic Regression 정확도 : ', accuracy_score(test_df['label'], preds))

Logistic Regression 정확도 :  0.86188
