In [1]:
import numpy as np
import pandas as pd
from konlpy.tag import Okt

In [2]:
DATA_IN_PATH = './'
train_data = pd.read_csv(DATA_IN_PATH + 'ratings_train.txt', header = 0, delimiter = '\t', quoting = 3)
train_data.head()
train_data = train_data.dropna()

In [3]:
print('전체 학습데이터의 개수: {}'.format(len(train_data)))

전체 학습데이터의 개수: 149995


In [17]:
train_data.iloc[28]

id          6091784
document       재밋는뎅
label             1
Name: 28, dtype: object

In [4]:
import re
review_text = re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]", "", train_data['document'][0])
print(review_text)

아 더빙 진짜 짜증나네요 목소리


In [5]:
okt=Okt()
review_text = okt.morphs(review_text, stem=True)
print(review_text)

['아', '더빙', '진짜', '짜증나다', '목소리']


In [6]:
stop_words = set(['은', '는', '이', '가', '하', '아', '것', '들', '의', '있', '되', '수', '보', '주', '등', '한'])
clean_review = [token for token in review_text if not token in stop_words]
print(clean_review)

['더빙', '진짜', '짜증나다', '목소리']


In [7]:
def preprocessing(review, okt, remove_stopwords = False):
    review_text = re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ\\s]", "", review)
    word_review = okt.morphs(review_text, stem = True)
    word_review = ' '.join(word_review)
    return word_review

In [16]:
print(preprocessing("재밌겠당", okt))

재밌다


In [8]:
okt = Okt()
clean_train_review = []

for review in train_data['document']:
    if type(review) == str:
        clean_train_review.append(preprocessing(review, okt, remove_stopwords = False))
    else:
        clean_train_review.append([])

In [18]:
clean_train_review[28]

'재밋는뎅'

In [10]:
test_data = pd.read_csv(DATA_IN_PATH + 'ratings_test.txt', header=0, delimiter='\t', quoting=3)
test_data = test_data.dropna()

In [12]:
clean_test_review = []

for review in test_data['document']:
    if type(review) == str:
        clean_test_review.append(preprocessing(review, okt, remove_stopwords = False))
    else:
        clean_test_review.append([])

In [13]:
clean_test_review

['굳다 ㅋ',
 '',
 '뭐 야 이 평점 들 은 나쁘다 않다 점 짜다 리 는 더 더욱 아니다',
 '지루하다 않다 완전 막장 임 돈 주다 보기 에는',
 '만 아니다 별 다섯 개 주다 왜 로 나오다 제 심기 를 불편하다 하다',
 '음악 이 주가 되다 최고 의 음악 영화',
 '진정하다 쓰레기',
 '마치 미국 애니 에서 튀어나오다 한 창의력 없다 로봇 디자인 부터가 고개 를 젖다 하다',
 '갈수록 개판 되다 중국영화 유치하다 내용 없다 폼 잡다 끝나다 말 도 안되다 무기 에 유치하다 남무 아 그리다 동사서독 같다 영화 가 이건 류 아 류작 이다',
 '이별 의 아픔 뒤 에 찾아오다 새롭다 인연 의 기쁨 모든 사람 이 그렇다 않다',
 '괜찮다 오랜 만 포켓몬스터 잼밌 어 요',
 '한국 독립영화 의 한계 그렇게 아버지 가 되다 비교 되다',
 '청춘 은 아름답다 그 아름답다 움 은 이성 을 흔들다 놓다 찰나 의 아름답다 움 을 자다 포착 한 섬세하다 아름답다 수채화 같다 퀴어 영화 이다',
 '눈 에 보이다 반전 이다 영화 의 흡인 력 은 사라지다 않다',
 '스토리 연출 연기 비주 얼 등 영화 의 기본 조차 안되다 영화 에 무슨 평 을 해 이렇다 영화 찍다 김문옥 감독 은 내 가 영화 경력 이 몇 인데 조무래기 들 이 내 영화 를 평론 하다 같다 마인드 에 빠지다',
 '소위 ㅈ 문 가라 는 평점 은 뭐 냐',
 '최고',
 '발연기 도저히 못 보다 진짜 이렇게 연기 를 못 하다 상상 도 못 하다',
 '나이스',
 '별 재미 도 없다 우려 먹다 챔프 에서 방송 몇번 하다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ',
 '일 의 금요일 나이트메어 시리즈 와 함께 가장 많다 시리즈 를 양산 해내다 헬레 이 저 시리즈 의 첫 편 작가 의 상상력 이 돋보이다 작품 이며 갈고리 로 사지 찢다 고어씬 은 지금 보더 라도 상당하다 잔인하다 충격 적 이다',
 '나름 교훈 돋다 하지만 어쩔 수없이 저 평점 받다 없다 저 질 섹스 코미디',
 '꽤 재밌다 보다 영화 이다',
 '민주화 

In [14]:
preprocessed_data = pd.DataFrame({'context' : clean_train_review + clean_test_review})

print(preprocessed_data.shape)

(199992, 1)


In [15]:
preprocessed_data.head(30)

Unnamed: 0,context
0,아 더빙 진짜 짜증나다 목소리
1,흠 포스터 보고 초딩 영화 줄 오버 연기 조차 가볍다 않다
2,너 무재 밓었 다그 래서 보다 추천 한 다
3,교도소 이야기 구먼 솔직하다 재미 는 없다 평점 조정
4,사이 몬페 그 의 익살스럽다 연기 가 돋보이다 영화 스파이더맨 에서 늙다 보이다 하...
5,막 걸음 마 떼다 세 부터 초등학교 학년 생인 살다 영화 ㅋㅋㅋ 별 반개 도 아깝다 움
6,원작 의 긴장감 을 제대로 살리다 하다
7,별 반개 도 아깝다 욕 나오다 이응경 길용우 연 기 생활 이 몇 년 인지 정말 발 ...
8,액션 이 없다 재미 있다 몇 안되다 영화
9,왜케 평점 이 낮다 꽤 볼 만 한 데 헐리우드 식 화려하다 너무 길들이다 있다


In [None]:
sentences = []
for context in preprocessed_data["context"] :
    sentence = ' '.join(context)
    sentences.append([sentence])

preprocessed_data_df = pd.DataFrame(sentences, columns=['context'])
preprocessed_data_df.head(50)

In [15]:
preprocessed_data_df.to_csv('./preprocess/naverReview_preprocess_Okt.csv', index = False)

In [16]:
train_labels = list(train_data['label'])
test_labels = list(test_data['label'])

In [75]:
label_data = train_labels + test_labels

In [76]:
label_data_df = pd.DataFrame({'label' : train_labels + test_labels})

In [77]:
label_data_df

Unnamed: 0,label
0,0
1,1
2,0
3,0
4,1
...,...
199987,1
199988,0
199989,0
199990,0


In [78]:
label_data_df.to_csv('./naverReview_label.csv', index=False)

In [42]:
test_data

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0
...,...,...,...
49995,4608761,오랜만에 평점 로긴했네ㅋㅋ 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함,1
49996,5308387,의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따 OOOO,0
49997,9072549,그림도 좋고 완성도도 높았지만... 보는 내내 불안하게 만든다,0
49998,5802125,절대 봐서는 안 될 영화.. 재미도 없고 기분만 잡치고.. 한 세트장에서 다 해먹네,0


In [52]:
test_data.dropna()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0
...,...,...,...
49995,4608761,오랜만에 평점 로긴했네ㅋㅋ 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함,1
49996,5308387,의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따 OOOO,0
49997,9072549,그림도 좋고 완성도도 높았지만... 보는 내내 불안하게 만든다,0
49998,5802125,절대 봐서는 안 될 영화.. 재미도 없고 기분만 잡치고.. 한 세트장에서 다 해먹네,0


In [53]:
train_data.dropna()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1
