# 네이버 영화 리뷰 데이터에 대한 이해와 전처리

1. 네이버 영화 리뷰 데이터셋 로딩 (머신러닝을 위하여 train_set과 test_set으로 분리되어 있음)
1. 데이터 정제 : 결측치 제거, 중복값 제거, 한글과 공백을 제외한 문자 제거
1. 토큰화 및 불용어 제거
1. 전처리된 데이터 저장
1. 데이터 시각화 : 빈도수, WordCloud

## 1. 리뷰 데이터 로딩, 데이터 확인
* pandas.read_table

In [1]:
# 훈련용 리뷰 데이터, 테스트용 리뷰 데이터 로딩
import pandas as pd
train_data = pd.read_table("DataSet_NaverMovieReview/ratings_train.txt")
test_data = pd.read_table("DataSet_NaverMovieReview/ratings_test.txt")

In [2]:
# 훈련용 리뷰 개수 출력
len(train_data)

150000

In [3]:
# 훈련용 데이터 50부터 20개 출력
train_data[50:70]

Unnamed: 0,id,document,label
50,9063648,영화가 사람의 영혼을 어루만져 줄 수도 있군요 거친 세상사를 잠시 잊고 동화같은 영...,1
51,8272095,야 세르게이! 작은고추의 매운맛을 보여주마! 포퐁저그 콩진호가 간다,0
52,2345905,이렇게 가슴시리게 본 드라마가 또 있을까? 감동 그 자체!,1
53,7865630,"난또 저 꼬마애가 무슨 원한이 깊길래.,. 했더니 OO 그냥 혼자 나대다 OO걸 어...",0
54,7207064,재미있어요,1
55,5719655,전 좋아요,1
56,1651126,최고,0
57,7246040,너무 충격적이엇다. 기분을 완전히 푹 꺼지게 하는 느낌... 활력이라고는 하나도 없...,1
58,717775,심심한영화.,0
59,8317483,백봉기 언제나오나요?,1


In [4]:
# 테스트용 리뷰 개수 출력
len(test_data)

50000

In [5]:
# 테스트용 리뷰 데이터 앞부분 확인
test_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


## 2. 데이터 정제(Cleaning)

### 결측치 제거 (test_data, train_data)
* dataframe.isnull().any(), dataframe.isnull().values.any(): 하나라도 True가 있는지 확인
* dataframe.isnull().sum() : 결측치 수
* dataframe.info()
* dataframe.loc[dataframe.document.isnull()]
* dataframe.dropna(subset,keep)

#### test_data 처리

In [7]:
# null값이 하나라도 있는지 확인
test_data.isnull().any()

id          False
document     True
label       False
dtype: bool

In [8]:
# 결측치 수 구하기
test_data.isnull().sum()

id          0
document    3
label       0
dtype: int64

In [12]:
# 결측치 정보 확인
test_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        50000 non-null  int64 
 1   document  49997 non-null  object
 2   label     50000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ MB


In [11]:
# Null 값을 가진 샘플이 어느 인덱스의 위치에 존재하는지 출력
test_data.loc[test_data.document.isnull()]

Unnamed: 0,id,document,label
5746,402110,,1
7899,5026896,,0
27097,511097,,1


In [13]:
# 결측치 제거
test_data = test_data.dropna()

In [14]:
#결과 확인
test_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 49997 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        49997 non-null  int64 
 1   document  49997 non-null  object
 2   label     49997 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.5+ MB


#### train_data 처리

In [None]:
# null값이 하나라도 있는지 확인

In [None]:
# 결측치 수 구하기

In [None]:
# 결측치 정보 확인


In [None]:
# null 값을 가진 샘플이 어느 인덱스의 위치에 존재하는지 한 번 출력


In [None]:
# 결측치 제거 및 결과 확인


In [15]:
# train_data와 test_data 수 확인
len(test_data)

49997

### 중복값 제거 (test_data, train_data)
* dataframe.duplicated().any()
* dataframe.duplicated().sum()
* dataframe.nunique()
* dataframe.drop_duplicates(subset, keep)

#### test_data 처리

In [24]:
# document에 중복값 존재 여부 확인
test_data['document'].duplicated().any()

True

In [25]:
# document에 중복값이 몇개 있는지 확인
test_data['document'].duplicated().sum()

840

In [26]:
# 중복값이 있는 데이터 확인
test_data.loc[test_data['document'].duplicated()]

Unnamed: 0,id,document,label
857,2084375,bad,0
956,195683,재미있어요,1
1089,2235528,볼만함,1
1149,4409686,굿,1
1600,3805716,최고,1
...,...,...,...
49731,7437033,별로,0
49760,5890883,최악이다,0
49767,4032953,최고,1
49841,8097768,2년이 지나도 잊혀지지 않는 소중한 드라마.,1


In [23]:
# document 열과 label 열의 중복을 제외한 값의 개수
test_data['document'].nunique()

49157

In [27]:
# document 열의 중복 제거
test_data.drop_duplicates(subset=['document'], inplace=True)

In [28]:
# 결과 확인
test_data['document'].duplicated().sum()

0

In [29]:
len(test_data)

49157

#### train_data 처리

In [None]:
# document에 중복값이 있는지 여부 확인


In [None]:
# document에 중복값이 몇개 있는지 확인

In [None]:
# 중복값이 있는 데이터 확인


In [None]:
# document 열과 label 열의 중복을 제외한 값의 개수


In [None]:
# document 열의 중복 제거


In [None]:
# 결과 확인


In [None]:
# 전체 데이터 수 확인


### 한글과 공백을 제외하고 모두 제거
* document에서 한글과 공백을 제외하고 제거 : [^ ㄱ-ㅣ가-힣]+
* document에 공백만 남은 경우 None를 변경하고 결측치 제거 : '^ +'

#### test_data 처리

In [30]:
# document의 첫 5개 데이터 보기
test_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


In [32]:
# 한글과 공백을 제외하고 제거
import re
test_data['document'] = test_data['document'].apply(lambda x: re.sub(r'[^ ㄱ-ㅣ가-힣]+', "", x))
# document의 첫 5개 데이터 보기
test_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,,0
2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0
4,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0


In [33]:
test_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 49157 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        49157 non-null  int64 
 1   document  49157 non-null  object
 2   label     49157 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.5+ MB


In [35]:
# document에 공백만 남은 경우 None를 변경하고 결측치 제거
# white space 데이터를 empty value로 변경
test_data['document'] = test_data['document'].apply(lambda x:re.sub('^ +', "", x))
# empty value를 None으로 변경
test_data['document'].replace("", None, inplace=True)

In [38]:
# 결측치 수 확인
test_data.info()
test_data['document'].isnull().sum()

<class 'pandas.core.frame.DataFrame'>
Index: 49157 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        49157 non-null  int64 
 1   document  48852 non-null  object
 2   label     49157 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.5+ MB


305

In [39]:
# 결측치 제거
test_data.dropna(inplace=True)

In [40]:
# document의 첫 5개 결과 보기
test_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 48852 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        48852 non-null  int64 
 1   document  48852 non-null  object
 2   label     48852 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.5+ MB


#### train_data 처리

In [None]:
# 한글과 공백을 제외하고 제거


In [None]:
# document에 공백만 남은 경우 None를 변경하고 결측치 제거
# white space 데이터를 empty value로 변경

# empty value를 None으로 변경


In [None]:
# 결측치 수 확인

In [None]:
# 결측치 제거, 결측치 수 확인


In [None]:
# 전체 데이터수 확인

## 3. 토큰화, 불용어 제거
* konlpy의 Okt로 토큰화
* 불용어 제거

#### test_data 처리

In [41]:
# 불용어 정의
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

In [42]:
testest = test_data[:5].copy()

In [43]:
# 토큰화한 후 불용어를 제거하여 데이터 리스트 생성
from konlpy.tag import Okt
okt = Okt()
new_test_data = []
for sentence in testest['document']:
    tok_sent = okt.morphs(sentence, stem=True) # 토큰화
    sw_rm_sent = [word for word in tok_sent if word not in stopwords]
    new_test_data.append(sw_rm_sent)
new_test_data

[['굳다', 'ㅋ'],
 ['뭐', '야', '평점', '나쁘다', '않다', '점', '짜다', '리', '더', '더욱', '아니다'],
 ['지루하다', '않다', '완전', '막장', '임', '돈', '주다', '보기', '에는'],
 ['만', '아니다', '별', '다섯', '개', '주다', '왜', '로', '나오다', '제', '심기', '불편하다'],
 ['음악', '주가', '되다', '최고', '음악', '영화']]

In [44]:
# dataframe에 'tokenized' 컬럼 추가하여 불용어를 제거한 토큰화 결과 저장
from konlpy.tag import Okt
okt = Okt()
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

def okt_sw_rm_tokenize(sentence):
    tok_sent = okt.morphs(sentence, stem=True) # 토큰화
    sw_rm_sent = [word for word in tok_sent if word not in stopwords]
    return sw_rm_sent

testest['tokenized'] = testest['document'].apply(okt_sw_rm_tokenize)

In [45]:
# data 확인
testest

Unnamed: 0,id,document,label,tokenized
0,6270596,굳 ㅋ,1,"[굳다, ㅋ]"
2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0,"[뭐, 야, 평점, 나쁘다, 않다, 점, 짜다, 리, 더, 더욱, 아니다]"
3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0,"[지루하다, 않다, 완전, 막장, 임, 돈, 주다, 보기, 에는]"
4,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0,"[만, 아니다, 별, 다섯, 개, 주다, 왜, 로, 나오다, 제, 심기, 불편하다]"
5,7898805,음악이 주가 된 최고의 음악영화,1,"[음악, 주가, 되다, 최고, 음악, 영화]"


#### train_data 처리

In [None]:
# dataframe에 'tokenized' 컬럼 추가하여 불용어를 제거한 토큰화 결과 저장


## 4. 전처리된 데이터 저장과 로딩
* dataframe.to_csv(filename, index=False)
* dataframe = pandas.read_csv(filename)

In [47]:
# 저장
testest.to_csv('testest.csv', index=False)

In [48]:
# 로딩
testest2 = pd.read_csv('testest.csv')

In [50]:
# 원본과 저장한 후 로딩한 자료 비교해보기
testest2

Unnamed: 0,id,document,label,tokenized
0,6270596,굳 ㅋ,1,"['굳다', 'ㅋ']"
1,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0,"['뭐', '야', '평점', '나쁘다', '않다', '점', '짜다', '리', ..."
2,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0,"['지루하다', '않다', '완전', '막장', '임', '돈', '주다', '보기..."
3,6723715,만 아니었어도 별 다섯 개 줬을텐데 왜 로 나와서 제 심기를 불편하게 하죠,0,"['만', '아니다', '별', '다섯', '개', '주다', '왜', '로', '..."
4,7898805,음악이 주가 된 최고의 음악영화,1,"['음악', '주가', '되다', '최고', '음악', '영화']"


## 5. 빈도수 및 WordCloud 확인 -> 불용어 등 추가