# 네이버 영화 리뷰 데이터에 대한 이해와 전처리

1. 네이버 영화 리뷰 데이터셋 로딩 (머신러닝을 위하여 train_set과 test_set으로 분리되어 있음)
1. 데이터 정제 : 결측치 제거, 중복값 제거, 한글과 공백을 제외한 문자 제거
1. 토큰화 및 불용어 제거
1. 전처리된 데이터 저장
1. 데이터 시각화 : 빈도수, WordCloud

## 1. 리뷰 데이터 로딩, 데이터 확인
* pandas.read_table

In [1]:
# 훈련용 리뷰 데이터, 테스트용 리뷰 데이터 로딩
import pandas as pd
train_data = pd.read_table("DataSet_NaverMovieReview/ratings_train.txt")
test_data = pd.read_table("DataSet_NaverMovieReview/ratings_test.txt")

In [None]:
# 훈련용 리뷰 개수 출력
len(train_data)

In [None]:
# 훈련용 데이터 50부터 20개 출력
train_data[50:70]

In [None]:
# 테스트용 리뷰 개수 출력
len(test_data)

In [None]:
# 테스트용 리뷰 데이터 앞부분 확인
test_data.head()

## 2. 데이터 정제(Cleaning)

### 결측치 제거 (test_data, train_data)
* dataframe.isnull().any(), dataframe.isnull().values.any(): 하나라도 True가 있는지 확인
* dataframe.isnull().sum() : 결측치 수
* dataframe.info()
* dataframe.loc[dataframe.document.isnull()]
* dataframe.dropna(subset,keep)

#### test_data 처리

In [None]:
# null값이 하나라도 있는지 확인
test_data.isnull().any()

In [None]:
# 결측치 수 구하기
test_data.isnull().sum()

In [None]:
# 결측치 정보 확인
test_data.info()

In [None]:
# Null 값을 가진 샘플이 어느 인덱스의 위치에 존재하는지 출력
test_data.loc[test_data.document.isnull()]

In [2]:
# 결측치 제거
test_data = test_data.dropna()

In [None]:
#결과 확인
test_data.info()

#### train_data 처리

In [None]:
# null값이 하나라도 있는지 확인

In [None]:
# 결측치 수 구하기

In [None]:
# 결측치 정보 확인
train_data.info()

In [None]:
# null 값을 가진 샘플이 어느 인덱스의 위치에 존재하는지 한 번 출력


In [3]:
# 결측치 제거 및 결과 확인
train_data.dropna(inplace=True)

In [4]:
# train_data와 test_data 수 확인
len(test_data), len(train_data)

(49997, 149995)

### 중복값 제거 (test_data, train_data)
* dataframe.duplicated().any()
* dataframe.duplicated().sum()
* dataframe.nunique()
* dataframe.drop_duplicates(subset, keep)

#### test_data 처리

In [None]:
# document에 중복값 존재 여부 확인
test_data['document'].duplicated().any()

In [None]:
# document에 중복값이 몇개 있는지 확인
test_data['document'].duplicated().sum()

In [None]:
# 중복값이 있는 데이터 확인
test_data.loc[test_data['document'].duplicated()]

In [None]:
# document 열과 label 열의 중복을 제외한 값의 개수
test_data['document'].nunique()

In [5]:
# document 열의 중복 제거
test_data.drop_duplicates(subset=['document'], inplace=True)

In [None]:
# 결과 확인
test_data['document'].duplicated().sum()

In [None]:
len(test_data)

#### train_data 처리

In [None]:
# document에 중복값이 있는지 여부 확인


In [None]:
# document에 중복값이 몇개 있는지 확인

In [None]:
# 중복값이 있는 데이터 확인


In [None]:
# document 열과 label 열의 중복을 제외한 값의 개수


In [6]:
# document 열의 중복 제거
train_data.drop_duplicates(subset=['document'], inplace=True)

In [None]:
# 결과 확인


In [7]:
# 전체 데이터 수 확인
len(train_data), len(test_data)

(146182, 49157)

### 한글과 공백을 제외하고 모두 제거
* document에서 한글과 공백을 제외하고 제거 : [^ ㄱ-ㅣ가-힣]+
* document에 공백만 남은 경우 None를 변경하고 결측치 제거 : '^ +'

#### test_data 처리

In [None]:
# document의 첫 5개 데이터 보기
test_data.head()

In [8]:
# 한글과 공백을 제외하고 제거
import re
test_data['document'] = test_data['document'].apply(lambda x: re.sub(r'[^ ㄱ-ㅣ가-힣]+', "", x))
# document의 첫 5개 데이터 보기
test_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,,0
2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0
4,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0


In [None]:
test_data.info()

In [9]:
# document에 공백만 남은 경우 None를 변경하고 결측치 제거
# white space 데이터를 empty value로 변경
test_data['document'] = test_data['document'].apply(lambda x:re.sub('^ +', "", x))
# empty value를 None으로 변경
test_data['document'].replace("", None, inplace=True)

In [None]:
# 결측치 수 확인
test_data.info()
test_data['document'].isnull().sum()

In [10]:
# 결측치 제거
test_data.dropna(inplace=True)

In [None]:
# document의 첫 5개 결과 보기
test_data.info()

#### train_data 처리

In [11]:
# 한글과 공백을 제외하고 제거
import re
train_data['document'] = train_data['document'].apply(lambda x: re.sub(r'[^ ㄱ-ㅣ가-힣]+', "", x))
# document의 첫 5개 데이터 보기
train_data.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙 진짜 짜증나네요 목소리,0
1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1


In [12]:
# document에 공백만 남은 경우 None를 변경하고 결측치 제거
## white space 데이터를 empty value로 변경
train_data['document'] = train_data['document'].apply(lambda x:re.sub('^ +', "", x))
# empty value를 None으로 변경
train_data['document'].replace("", None, inplace=True)

In [None]:
# 결측치 수 확인

In [13]:
# 결측치 제거, 결측치 수 확인
train_data.dropna(inplace=True)
train_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 145393 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        145393 non-null  int64 
 1   document  145393 non-null  object
 2   label     145393 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 4.4+ MB


In [14]:
# 전체 데이터수 확인
len(train_data), len(test_data)

(145393, 48852)

In [29]:
temp_train_data = train_data.copy()
temp_train_data.drop(columns=['tokenized'], inplace=True)

In [30]:
temp_train_data.head()

Unnamed: 0,index,id,document,label
0,0,9976970,아 더빙 진짜 짜증나네요 목소리,0
1,1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1
2,2,10265843,너무재밓었다그래서보는것을추천한다,0
3,3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0
4,4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1


In [31]:
temp_test_data = test_data.copy()
temp_test_data.drop(columns=['tokenized'], inplace=True)
temp_test_data.head()

Unnamed: 0,index,id,document,label
0,0,6270596,굳 ㅋ,1
1,2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0
2,3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0
3,4,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0
4,5,7898805,음악이 주가 된 최고의 음악영화,1


In [32]:
temp_train_data.to_csv('DataSet_NaverMovieReview/train_data_prep_sent.csv', index=False)
temp_test_data.to_csv('DataSet_NaverMovieReview/test_data_prep_sent.csv', index=False)

In [18]:
train_data.to_csv('DataSet_NaverMovieReview/train_data_prep_sent.csv', index=False)
test_data.to_csv('DataSet_NaverMovieReview/test_data_prep_sent.csv', index=False)

Unnamed: 0,id,document,label,tokenized
0,9976970,아 더빙 진짜 짜증나네요 목소리,0,"[아, 더빙, 진짜, 짜증나다, 목소리]"
1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1,"[흠, 포스터, 보고, 초딩, 영화, 줄, 오버, 연기, 조차, 가볍다, 않다]"
2,10265843,너무재밓었다그래서보는것을추천한다,0,"[너, 무재, 밓었, 다그, 래서, 보다, 추천, 다]"
3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0,"[교도소, 이야기, 구먼, 솔직하다, 재미, 없다, 평점, 조정]"
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1,"[사이, 몬페, 그, 익살스럽다, 연기, 돋보이다, 영화, 스파이더맨, 에서, 늙다..."


## 3. 토큰화, 불용어 제거
* konlpy의 Okt로 토큰화
* 불용어 제거

#### test_data 처리

In [15]:
# 불용어 정의
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

In [None]:
testest = test_data[:5].copy()

In [None]:
# 토큰화한 후 불용어를 제거하여 데이터 리스트 생성
from konlpy.tag import Okt
okt = Okt()
new_test_data = []
for sentence in testest['document']:
    tok_sent = okt.morphs(sentence, stem=True) # 토큰화
    sw_rm_sent = [word for word in tok_sent if word not in stopwords]
    new_test_data.append(sw_rm_sent)
new_test_data

In [16]:
# dataframe에 'tokenized' 컬럼 추가하여 불용어를 제거한 토큰화 결과 저장
from konlpy.tag import Okt
okt = Okt()
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

def okt_sw_rm_tokenize(sentence):
    tok_sent = okt.morphs(sentence, stem=True) # 토큰화
    sw_rm_sent = [word for word in tok_sent if word not in stopwords]
    return sw_rm_sent

test_data['tokenized'] = test_data['document'].apply(okt_sw_rm_tokenize)

In [None]:
# data 확인
test_data.head()

#### train_data 처리

In [17]:
# dataframe에 'tokenized' 컬럼 추가하여 불용어를 제거한 토큰화 결과 저장
train_data['tokenized'] = train_data['document'].apply(okt_sw_rm_tokenize)

In [19]:
train_data.head()

Unnamed: 0,id,document,label,tokenized
0,9976970,아 더빙 진짜 짜증나네요 목소리,0,"[아, 더빙, 진짜, 짜증나다, 목소리]"
1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1,"[흠, 포스터, 보고, 초딩, 영화, 줄, 오버, 연기, 조차, 가볍다, 않다]"
2,10265843,너무재밓었다그래서보는것을추천한다,0,"[너, 무재, 밓었, 다그, 래서, 보다, 추천, 다]"
3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0,"[교도소, 이야기, 구먼, 솔직하다, 재미, 없다, 평점, 조정]"
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1,"[사이, 몬페, 그, 익살스럽다, 연기, 돋보이다, 영화, 스파이더맨, 에서, 늙다..."


## 4. 전처리된 데이터 저장과 로딩
* dataframe.to_csv(filename, index=False)
* dataframe = pandas.read_csv(filename)

In [25]:
# 저장
test_data.reset_index(inplace=True)
train_data.reset_index(inplace=True)
test_data.to_json('DataSet_NaverMovieReview/test_data_prep.json')
train_data.to_json('DataSet_NaverMovieReview/train_data_prep.json')

In [26]:
# 로딩
test_data_loaded = pd.read_json('DataSet_NaverMovieReview/test_data_prep.json')
train_data_loaded = pd.read_json('DataSet_NaverMovieReview/train_data_prep.json')

In [None]:
test_data.reset_index(inplace=True)

In [23]:
# 원본과 저장한 후 로딩한 자료 비교해보기
test_data['document'].equals(test_data_loaded['document'])

True

In [27]:
test_data.head()

Unnamed: 0,index,id,document,label,tokenized
0,0,6270596,굳 ㅋ,1,"[굳다, ㅋ]"
1,2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0,"[뭐, 야, 평점, 나쁘다, 않다, 점, 짜다, 리, 더, 더욱, 아니다]"
2,3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0,"[지루하다, 않다, 완전, 막장, 임, 돈, 주다, 보기, 에는]"
3,4,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0,"[만, 아니다, 별, 다섯, 개, 주다, 왜, 로, 나오다, 제, 심기, 불편하다]"
4,5,7898805,음악이 주가 된 최고의 음악영화,1,"[음악, 주가, 되다, 최고, 음악, 영화]"


In [None]:
test_data_loaded.info()

## 5. 빈도수 및 WordCloud 확인 -> 불용어 등 추가
* 빈도수 구하기 : Counter
    - from collections import Counter
    - counter.most_common(number)

In [None]:
ttt = test_data[:5].copy()

In [None]:
target_word = sum(list(test_data['tokenized']), [])
target_word

In [None]:
target_word = sum(list(ttt['tokenized']), [])
target_word