In [None]:
# 읽어올 파일 이름
file_name_train = "train_datas.csv"
file_name_test  = "test_datas.csv"

In [None]:
import pandas as pd
# 학습 데이터, 훈련 데이터 파일 불러오기
train_data = pd.read_csv(file_name_train, encoding='utf-8-sig')
test_data = pd.read_csv(file_name_test, encoding='utf-8-sig')

In [None]:
print(train_data.head())
print(test_data.head())

In [None]:
# 훈련용 리뷰 데이터 개수 출력
print(f"훈련용 리뷰 개수 : {len(train_data)}")
# 테스트용 리뷰 데이터 개수 출력
print(f"테스트용 리뷰 개수 : {len(test_data)}")

In [None]:
train_data['predicted_label'].value_counts()

In [None]:
test_data['predicted_label'].value_counts()

In [None]:
# 중복 제거
train_data.drop_duplicates(subset=['text'], inplace=True)
test_data.drop_duplicates(subset=['text'], inplace=True)
# y_review.drop_duplicates(subset=['review_content'], inplace=True)

In [None]:
import numpy as np
# 결측치 제거
train_data['text'] = train_data['text'].str.replace('[^a-zA-Z가-힣0-9 ]','',regex=True)
train_data['text'] = train_data['text'].str.replace('^ +','',regex=True)
train_data.dropna(how='any', inplace=True)

In [None]:
test_data['text'] = test_data['text'].str.replace('[^a-zA-Z가-힣0-9 ]','',regex=True)
test_data['text'] = test_data['text'].str.replace('^ +','',regex=True)
test_data.dropna(how='any', inplace=True)

In [None]:
# 중복, 결측치 제거 후 데이터 개수
print(f"전처리 후 훈련 데이터 개수 : {train_data.shape}")
print(f"전처리 후 테스트 데이터 개수 : {test_data.shape}")
# print(f"전처리 후 테스트 데이터 개수 : {y_review.shape}")

In [None]:
# 불용어 목록 선언
stopwords = list(set([
    '이', '가', '은', '는', '을', '를', '의', '에', '에서', '에게', '께', '로', '으로', 
    '와', '과', '보다', '처럼', '만큼', '같이', '까지', '마저', '조차', '부터', 
    '이나', '나', '이며', '며', '등', '하다', '한다', '하고', '하니', '하면', 
    '되어', '되다', '되고', '되니', '입니다', '습니다', 'ㅂ니다', '어요', '아요', '다',
    '고', '면', '게', '지', '죠',
    '그리고', '그러나', '하지만', '그런데', '그래서', '그러면', '그러므로', '따라서', 
    '또한', '또는', '및', '즉', '한편', '반면에', '근데',
    '나', '저', '우리', '저희', '너', '너희', '당신', '그', '그녀', '그들', '누구',
    '무엇', '어디', '언제', '어느', '이것', '그것', '저것', '여기', '거기', '저기', 
    '이쪽', '그쪽', '저쪽',
    '하나', '둘', '셋', '넷', '다섯', '여섯', '일곱', '여덟', '아홉', '열',
    '일', '이', '삼', '사', '오', '육', '칠', '팔', '구', '십', '백', '천', '만',
    '첫째', '둘째', '셋째',
    '바로', '때', '것', '수', '문제', '경우', '부분', '이다',
    '내용', '결과', '자체', '가지', '있다',
    '않았어요', '있었어요', '했어요', '했는데요', '있는데요', '합니다', '없다', '나다','생각하다',
    '했다', '같다', '네요','아니다', '용하다', '물이',
    '뿐', '대로', '만', '따름', '김에', '터',
    '아', '아이고', '아이구', '아하', '어', '그래', '응', '네', '예', '아니', '않다', '안되다','안',
    '가다', '오다', '주다', '말다', '나다', '받다', '알다', '모르다', '싶다', '생각하다', '들다'
]))

In [None]:
# 형태소 분석기 객체 생성
from konlpy.tag import Okt
okt  = Okt()

In [None]:
# 작업의 진행 상황을 시각적으로 표시해주는 라이브러리
from tqdm import tqdm

In [None]:
X_train = []
y_train = []

for sentence, label in tqdm(zip(train_data['text'], train_data['predicted_label'])):
    tokens = okt.morphs(sentence)
    filtered = [w for w in tokens if w not in stopwords]
    if len(filtered) > 0:
        X_train.append(filtered)
        y_train.append(label)

In [None]:
print(X_train[:20])
print(y_train[:20])

In [None]:
X_test = []
y_test = []

for sentence, label in tqdm(zip(test_data['text'], test_data['predicted_label'])):
    tokens = okt.morphs(sentence)
    filtered = [w for w in tokens if w not in stopwords]
    if len(filtered) > 0:
        X_test.append(filtered)
        y_test.append(label)

In [None]:
y_train = np.array(train_data['predicted_label'], dtype=int)
y_test = np.array(test_data['predicted_label'], dtype=int)

In [None]:
import pickle
with open('new_X_train.pickle', 'wb') as f:
    pickle.dump(X_train, f)
with open('new_X_test.pickle', 'wb') as f:
    pickle.dump(X_test, f)
with open('new_y_train.pickle', 'wb') as f:
    pickle.dump(y_train, f)
with open('new_y_test.pickle', 'wb') as f:
    pickle.dump(y_test, f)

In [None]:
print(X_train[:10])
print(X_test[:10])
print(y_train[:10])
print(y_test[:10])