In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# 네이버 영화 리뷰 데이터로 검색
train = pd.read_csv("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", sep='\t')
test = pd.read_csv("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", sep='\t')
train.head(2)

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1


In [3]:
train.shape, test.shape

((150000, 3), (50000, 3))

# 1. 데이터 전처리

## - train data set

In [4]:
# 중복 여부 확인
train.document.nunique()

146182

In [5]:
# 중복 데이터 제거
train.drop_duplicates(subset=['document'],inplace=True)
train.shape

(146183, 3)

In [13]:
# null 데이터가 있는지 확인
train.isnull().sum()

id          0
document    1
label       0
dtype: int64

In [7]:
# null 데이터 제거
train_df = train.dropna(how='any')
train_df.shape

(146182, 3)

In [9]:
# 긍정, 부정 레이블의 분포
train_df.label.value_counts()

0    73342
1    72840
Name: label, dtype: int64

## -test data set

In [10]:
# 중복 여부 확인
test.document.nunique()

49157

In [11]:
# 중복 데이터 제거
test.drop_duplicates(subset=['document'],inplace=True)
test.shape

(49158, 3)

In [12]:
# null 데이터가 있는지 확인
test.isnull().sum()

id          0
document    1
label       0
dtype: int64

In [15]:
# null 데이터 제거
test_df = test.dropna(how='any')
test_df.shape

(49157, 3)

In [16]:
# 긍정, 부정 레이블의 분포
test_df.label.value_counts()

1    24711
0    24446
Name: label, dtype: int64

# 2. 텍스트 전처리

In [23]:
import warnings
warnings.filterwarnings(action='ignore')

## -Train data set

In [33]:
train_df['document'] = train_df.document.str.replace('^[ㄱ-ㅎㅏ-ㅣ가-힣 ]','')
train_df.head(2)

Unnamed: 0,id,document,label
0,9976970,더빙.. 진짜 짜증나네요 목소리,0
1,3819312,...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1


In [34]:
# '' 데이터는 Nan으로 변환한 후 제거
train_df['document'].replace('',np.nan, inplace=True)
train_df.document.isnull().sum()

75

In [35]:
train_df = train_df.dropna(how='any')
train_df.head(2)

Unnamed: 0,id,document,label
0,9976970,더빙.. 진짜 짜증나네요 목소리,0
1,3819312,...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1


## -Test data set

In [32]:
test_df['document'] = test_df.document.str.replace('^[ㄱ-ㅎㅏ-ㅣ가-힣 ]','')
test_df['document'].replace('',np.nan, inplace=True)
test_df = test_df.dropna(how='any')
test_df.shape

(49113, 3)

In [30]:
train_df.to_csv('naver_movie_train.tsv',sep='\t')
test_df.to_csv('naver_movie_test.tsv',sep='\t')

# 3. 한글처리

In [31]:
from konlpy.tag import Okt
okt = Okt()

In [36]:
stopwords = ['의','가','이','은','들','는','좀','잘','을','를','으로','걍','과','더','도','저','하다','ㅋㅋ','ㅠㅠ','ㅎㅎ']

In [37]:
text = '교도소 이야기구먼 솔직히 재미는 없다평점 조정'
okt.morphs(text)

['교도소', '이야기', '구먼', '솔직히', '재미', '는', '없다', '평점', '조정']

In [38]:
okt.morphs(text, stem=True)

['교도소', '이야기', '구먼', '솔직하다', '재미', '는', '없다', '평점', '조정']

In [39]:
# 형태소 분석 -> [] -> stopwords 제거 -> 문장으로 만들어주기
# X_train = [] 만든 후, join
from tqdm import tqdm_notebook
X_train = []
for sentence in tqdm_notebook(train_df.document):
    morphs = okt.morphs(sentence, stem=True)
    temp_X = ' '.join([word for word in morphs if not word in stopwords])
    X_train.append(temp_X)

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=146107.0), HTML(value='')))


