# MLP, CNN, RNN을 이용한 네이버 영화 리뷰 감성 분류하기

### 라이브러리 import 

In [None]:
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import re
import urllib.request
import konlpy
from konlpy.tag import Okt
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

## 1. The Data
### 1.1) 데이터 정보

- 네이버 영화 리뷰 데이터 (Naver sentiment movie corpus v1.0)
- 총 200,000개 리뷰로 구성
- 영화 리뷰에 대한 텍스트 + 해당 리뷰가 긍정인 경우 1, 부정인 경우 0으로 표시한 레이블로 구성
- 데이터 다운로드 링크: https://github.com/e9t/nsmc/

### 1.2) 데이터 불러오기

In [None]:
train_data = pd.read_table("ratings_train.txt")
test_data = pd.read_table("ratings_test.txt")

In [None]:
print('훈련용 리뷰 개수 :',len(train_data))
train_data[:5]

훈련용 리뷰 개수 : 150000


Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [None]:
print('테스트용 리뷰 개수 :',len(test_data)) 
test_data[:5]

테스트용 리뷰 개수 : 50000


Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


### 1.3) 데이터 전처리 

#### 1.3.1 중복 샘플 제거하기

In [None]:
train_data['document'].nunique(), train_data['label'].nunique()

(146182, 2)

총 150,000개의 샘플 중, 중복을 제거한 샘플(document) 수 146,182개 → 약 4,000개의 중복 샘플이 존재함.

In [None]:
train_data.drop_duplicates(subset=['document'], inplace=True) # document 열에서 중복인 내용이 있다면 중복 제거

In [None]:
print('총 샘플의 수 :',len(train_data))

총 샘플의 수 : 146183


#### 1.3.2 Null값 제거하기

In [None]:
train_data.loc[train_data.document.isnull()] #null값이 어느 행에 존재하는지 확인

Unnamed: 0,id,document,label
25857,2172111,,1


In [None]:
train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
print(train_data.isnull().values.any()) # Null 값이 존재하는지 확인

False


#### 1.3.3 구두점, 특수문자 제거하기

In [None]:
train_data['document'] = train_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","") # 한글과 공백을 제외하고 모두 제거
train_data[:5]

Unnamed: 0,id,document,label
0,9976970,아 더빙 진짜 짜증나네요 목소리,0
1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1


#### 1.3.4 Null값 다시 제거하기

In [None]:
train_data['document'].replace('', np.nan, inplace=True) #구두점, 특수문자로만 구성되어 있던 document가 모두 null값이 됨.
print(train_data.isnull().sum())

id            0
document    391
label         0
dtype: int64


In [None]:
train_data = train_data.dropna(how = 'any')
print(len(train_data))
print(train_data.isnull().values.any())

145791
False


#### 1.3.5 Test Data에도 적용

In [None]:
test_data.drop_duplicates(subset = ['document'], inplace=True) # document 열에서 중복인 내용이 있다면 중복 제거
test_data['document'] = test_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","") # 정규 표현식 수행
test_data['document'].replace('', np.nan, inplace=True) # 공백은 Null 값으로 변경
test_data = test_data.dropna(how='any') # Null 값 제거
print('전처리 후 테스트용 샘플의 개수 :',len(test_data))

전처리 후 테스트용 샘플의 개수 : 48995


### 1.4 토큰화

In [None]:
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다'] #불용어 정의

In [None]:
from konlpy.tag import Kkma  
from konlpy.tag import Komoran

In [None]:
# okt = Okt()
# okt.morphs('와 이런 것도 영화라고 차라리 뮤직비디오를 만드는 게 나을 뻔', stem = True)

AttributeError: Java package 'kr.lucypark.okt' is not valid

In [None]:
X_train = []
for sentence in train_data['document']:
    temp_X = []
    temp_X = okt.morphs(sentence, stem=True) # 토큰화
    temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거
    X_train.append(temp_X)

In [None]:
X_test = []
for sentence in test_data['document']:
    temp_X = []
    temp_X = okt.morphs(sentence, stem=True) # 토큰화
    temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거
    X_test.append(temp_X)

### 1.5 정수 인코딩

In [None]:
tokenizer = Tokenizer() #훈련 데이터에 대해 단어 집합(vocaburary) 만들기
tokenizer.fit_on_texts(X_train) 

NameError: name 'X_train' is not defined

In [None]:
print(tokenizer.word_index) #단어 집합이 생성되는 동시에 각 단어에 고유한 정수 부여

In [None]:
threshold = 3
total_cnt = len(tokenizer.word_index) # 단어의 수
rare_cnt = 0 # 등장 빈도수가 threshold보다 작은 단어의 개수를 카운트
total_freq = 0 # 훈련 데이터의 전체 단어 빈도수 총 합
rare_freq = 0 # 등장 빈도수가 threshold보다 작은 단어의 등장 빈도수의 총 합

# 단어와 빈도수의 쌍(pair)을 key와 value로 받는다.
for key, value in tokenizer.word_counts.items():
    total_freq = total_freq + value

    # 단어의 등장 빈도수가 threshold보다 작으면
    if(value < threshold):
        rare_cnt = rare_cnt + 1
        rare_freq = rare_freq + value

print('단어 집합(vocabulary)의 크기 :',total_cnt)
print('등장 빈도가 %s번 이하인 희귀 단어의 수: %s'%(threshold - 1, rare_cnt))
print("단어 집합에서 희귀 단어의 비율:", (rare_cnt / total_cnt)*100)
print("전체 등장 빈도에서 희귀 단어 등장 빈도 비율:", (rare_freq / total_freq)*100)

In [None]:
# 전체 단어 개수 중 빈도수 2이하인 단어 개수는 제거
# 0번 패딩 토큰과 1번 OOV 토큰을 고려하여 +2
vocab_size = total_cnt - rare_cnt + 2
print('단어 집합의 크기 :',vocab_size)

In [None]:
tokenizer = Tokenizer(vocab_size, oov_token = 'OOV') 
tokenizer.fit_on_texts(X_train)
X_train = tokenizer.texts_to_sequences(X_train)
X_test = tokenizer.texts_to_sequences(X_test)

In [None]:
y_train = np.array(train_data['label'])
y_test = np.array(test_data['label'])