In [32]:
import tensorflow as tf
import numpy as np
import pandas as pd
import re
from konlpy.tag import Twitter
from konlpy.tag import Komoran
from konlpy.tag import Hannanum
from konlpy.tag import Kkma

In [6]:
from tensorflow.python.keras.preprocessing.sequence import pad_sequences
from tensorflow.python.keras.preprocessing import sequence

In [2]:
FILE_PATH='./data/nsmc/'

In [3]:
train = pd.read_csv(FILE_PATH+'ratings_train.txt', quoting=3, delimiter='\t', header=0)
test = pd.read_csv(FILE_PATH+'ratings_test.txt', quoting=3, delimiter='\t', header=0)

In [4]:
train.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [23]:
twitter = Twitter()
komoran = Komoran()
hannanum = Hannanum()
kkma = Kkma()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


Konlpy에는 4개의 Class가 있습니다. 

* `Twitter`
* `Komoran`
* `Hannanum`
* `Kkma`

각 객체 모두 형태소로 parsing하는 기능을 제공하고 있습니다.   
모두 사용해 본 후 가장 적합한 class의 parser를 사용하기 위해 우선은 4개 모두 사용해봅니다.   
정규표현식을 사용해 parsing하기 전 데이터에서 한글을 제외한 나머지는 모두 제거한다.(특수문자, 숫자, 영어 등) 

그리고 비교는 띄어쓰기가 없는 것과 띄어쓰기가 있는것 둘다 만들어 비교합니다.

In [34]:
train_temp = [] # 띄어쓰기 있는 글
train_temp_nospcae = [] #띄어쓰기 없는 글

## 리뷰 중 5개의 데이터만 사용해 비교
for review in train['document'][:5]:
    train_temp.append(re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]", "", review))

for review in train['document'][:5]:
    train_temp_nospcae.append(re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]", "", review))

In [None]:
train_temp

In [38]:
for i in range(5):
    print("\nHannanum with space")
    print(hannanum.morphs(train_temp[i]))
    print("\nHannanum with no_space")
    print(hannanum.morphs(train_temp_nospcae[i]))
    print("\nKkma with space")
    print(kkma.morphs(train_temp[i]))
    print("\nKkma with no_space")
    print(kkma.morphs(train_temp_nospcae[i]))
    print("\nTwitter with space")
    print(twitter.morphs(train_temp[i]))
    print("\nTwitter with no_space")
    print(twitter.morphs(train_temp_nospcae[i]))
    print("\nKomoran with space")
    print(komoran.morphs(train_temp[i]))
    print("\nKomoran with no_space")
    print(komoran.morphs(train_temp_nospcae[i]))
    


Hannanum with space
['아', '더빙', '진짜', '짜증나', '네', '요', '목소리']

Hannanum with no_space
['아', '더빙', '진짜', '짜증나', '네', '요', '목소리']

Kkma with space
['아', '아', '더빙', '진짜', '짜증나', '네요', '목소리']

Kkma with no_space
['아', '아', '더빙', '진짜', '짜증나', '네요', '목소리']

Twitter with space
['아', '더빙', '진짜', '짜증나네요', '목소리']

Twitter with no_space
['아', '더빙', '진짜', '짜증나네요', '목소리']

Komoran with space
['아', '더빙', '진짜', '짜증', '나', '네요', '목소리']

Komoran with no_space
['아', '더빙', '진짜', '짜증', '나', '네요', '목소리']

Hannanum with space
['흠포스터보', '이', '고', '초딩영화줄오버연기조차', '가볍', '지', '않', '구나']

Hannanum with no_space
['흠포스터보', '이', '고', '초딩영화줄오버연기조차', '가볍', '지', '않', '구나']

Kkma with space
['흠', '포스터', '보고', '초', '딩', '영화', '줄', '오버', '연기', '조차', '가볍', '지', '않', '구나']

Kkma with no_space
['흠', '포스터', '보고', '초', '딩', '영화', '줄', '오버', '연기', '조차', '가볍', '지', '않', '구나']

Twitter with space
['흠', '포스터', '보고', '초딩', '영화', '줄', '오버', '연기', '조차', '가볍지', '않구나']

Twitter with no_space
['흠', '포스터', '보고', '초딩', '영화', '줄', '오버', '

결과를 보면 우선 Hannanum 과 Komoran은 Parsing이 잘 되지 않는 것이 많았다.

```
Komoran with space
['너무재밓었다그래서보는것을추천한다']
```
```
Hannanum with space
['너무재밓었다그래서보는것을추천한다']
```

따라서 두 가지를 제외하고 Kkma와 Twitter를 비교해보면,  
우선 두 가지 모두 띄어쓰기가 있든 없든 동일한 결과를 보여줬고 Twitter를 사용해 Parsing한 경우 오타까지 수정해 주는 경우가 있었다. 

```
Kkma with space
['너무', '재', '밓', '어', '었', '다', '그래서', '보', '는', '것', '을', '추천', '하', 'ㄴ다']
Twitter with space
['너', '무재', '밓었', '다그', '래서', '보는것을', '추천', '한', '다']

```

따라서 여기서는 Twitter를 사용해서 Parsing하도록 한다.  

그리고 단어 중에서 불용어를 제거하려 하는데 한글 불용어 제거를 위한 라이브러리가 없으므로 직접 list를 만든다.  
조사와 같은 것들을 불용어로 설정해서 전처리 할 것이다.

마지막으로 전처리 과정을 하나의 함수로 만든다. 

In [21]:
stop_word = ['은', '는', '이', '도', '만', '는', '의', '가'] ## 불용어 list

In [33]:
def preprocessing (review):
    
    ## 한글이 아닌 숫자, 특수문자, 영어 제거
    review_text = re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]", "", review)
    
    ## 형태소로 tokenize
    review_token = twitter.morphs(review_text)
    
    ## 직접 정의한 stopword 제거
    review_token = [ token for token in review_token if not token in stop_word ]
    
    
    return review_token

In [40]:
train_review = []

## 각 리뷰 데이터를 정희한 함수로 전처리
for review in train['document']:
    
    ## 리뷰가 문자열이 아닌 경우 제외
    if type(review) == str:
        train_review.append(preprocessing(review))

In [41]:
##전처리가 완료된 list를 10개까지 확인

train_review[:10]

[['아', '더빙', '진짜', '짜증나네요', '목소리'],
 ['흠', '포스터', '보고', '초딩', '영화', '줄', '오버', '연기', '조차', '가볍지', '않구나'],
 ['너', '무재', '밓었', '다그', '래서', '보는것을', '추천', '한', '다'],
 ['교도소', '이야기', '구먼', '솔직히', '재미', '없다', '평점', '조정'],
 ['사이',
  '몬페',
  '그',
  '익살스런',
  '연기',
  '돋보였던',
  '영화',
  '스파이더맨',
  '에서',
  '늙어',
  '보이기만',
  '했던',
  '커스틴',
  '던스트',
  '너무나도',
  '이뻐',
  '보였다'],
 ['막',
  '걸음',
  '마',
  '뗀',
  '세',
  '부터',
  '초등학교',
  '학년',
  '생인',
  '살용',
  '영화',
  'ㅋㅋㅋ',
  '별',
  '반개',
  '아까',
  '움'],
 ['원작', '긴장감', '을', '제대로', '살려내지못', '했다'],
 ['별',
  '반개',
  '아깝다',
  '욕',
  '나온다',
  '이응경',
  '길용우',
  '연',
  '기',
  '생활',
  '몇',
  '년',
  '인지',
  '정말',
  '발',
  '로',
  '해도',
  '그것',
  '보단',
  '낫겟다',
  '납치',
  '감금',
  '반복',
  '반복',
  '드라마',
  '가족',
  '없다',
  '연기',
  '못',
  '하는',
  '사람',
  '모',
  '엿',
  '네'],
 ['액션', '없는데도', '재미', '있는', '몇', '안되는', '영화'],
 ['왜케',
  '평점',
  '낮은건데',
  '꽤',
  '볼',
  '한',
  '데',
  '헐리우드',
  '식',
  '화려함에만',
  '너무',
  '길들여져',
  '있나']]