## 한글 텍스트를 분류하는 CNN 모델: 데이터 전처리
## 목차
1. [평점 데이터 불러오기](#데이터불러오기)
2. [영어, 숫자를 제외한 문자 제거](#데이터전처리)
3. [전처리한 데이터 저장하기](#데이터저장)

In [1]:
import pandas as pd
import re

<a id='데이터불러오기'></a>
## 평점 데이터 불러오기

In [27]:
ratings = pd.read_csv('data/ratings.csv')

In [28]:
ratings.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [29]:
print('데이터 개수: ', len(ratings))
print('긍정(1) 데이터 개수: ', len(ratings[ratings['label']==1]))
print('부정(0) 데이터 개수: ', len(ratings[ratings['label']==0]))

데이터 개수:  65534
긍정(1) 데이터 개수:  32687
부정(0) 데이터 개수:  32847


<a id='데이터전처리'></a>
## 영어, 숫자를 제외한 문자 제거

In [30]:
preprocessed = []
for doc in ratings['document']:
    doc = re.sub('[^ㄱ-ㅎ가-힣A-za-z\s]', '', str(doc))
    doc = re.sub('[_\[\]\^]', ' ', str(doc))
    doc = doc.strip()
    preprocessed.append(doc)

In [31]:
ratings['document'] = preprocessed
ratings = ratings.drop(['id'], axis=1)
ratings.head()

Unnamed: 0,document,label
0,아 더빙 진짜 짜증나네요 목소리,0
1,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1
2,너무재밓었다그래서보는것을추천한다,0
3,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0
4,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1


In [32]:
ratings = ratings.drop(ratings[ratings['document']==""].index)
ratings = ratings.drop(ratings[ratings['document']=="nan"].index)
print('최종 데이터 개수: ', len(ratings))

최종 데이터 개수:  65329


<a id='데이터저장'></a>
## 전처리한 데이터 저장하기

In [33]:
ratings.to_csv("data/ratings_preprocessed.csv", index=False, sep="\t")