In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import urllib.request
from konlpy.tag import Okt
from tqdm import tqdm
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

1) 데이터 로드하기

In [2]:
train_data = []
test_data = []

2) 데이터 정제하기

In [None]:
'''
document 열의 중복 제거 (document와 label로만 구성)
'''
train_data.drop_duplicates(subset=['document'], inplace=True)

In [None]:
'''
label값 분포 확인
'''
train_data['label'].value_counts().plot(kind = 'bar')

In [None]:
'''
Null이 있나 확인 후 있으면 제거
'''
print(train_data.isnull().values.any())
print(train_data.isnull().sum())
train_data.loc[train_data.document.isnull()]
train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
print(train_data.isnull().values.any()) # Null 값이 존재하는지 확인

In [None]:
'''
한글과 공백을 제외하고 모두 제거
'''
train_data['document'] = train_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
train_data[:5]

In [None]:
'''
한글이 아닌 리뷰는 empty가 됐을 것으므로, 이를 Null로 변경
'''
train_data['document'] = train_data['document'].str.replace('^ +', "") # white space 데이터를 empty value로 변경
train_data['document'].replace('', np.nan, inplace=True)
print(train_data.isnull().sum())

In [None]:
train_data.loc[train_data.document.isnull()] # Null 있는 행 출력 

In [None]:
train_data = train_data.dropna(how = 'any')
print(len(train_data))

In [None]:
'''
테스트 데이터도 동일하게 전처리 진행
'''

test_data.drop_duplicates(subset = ['document'], inplace=True) # document 열에서 중복인 내용이 있다면 중복 제거
test_data['document'] = test_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","") # 정규 표현식 수행
test_data['document'] = test_data['document'].str.replace('^ +', "") # 공백은 empty 값으로 변경
test_data['document'].replace('', np.nan, inplace=True) # 공백은 Null 값으로 변경
test_data = test_data.dropna(how='any') # Null 값 제거
print('전처리 후 테스트용 샘플의 개수 :',len(test_data))

3) 토큰화

In [None]:
'''
Okt는 위와 같이 KoNLPy에서 제공하는 형태소 분석기임
한국어을 토큰화할 때는 영어처럼 띄어쓰기 기준으로 토큰화를 하는 것이 아니라, 주로 형태소 분석기를 사용함
stem = True를 사용하면 일정 수준의 정규화를 수행해주는데, 예를 들어 '이런'이 '이렇다'로 변환되고, '만드는'이 '만들다'로 변환됨
'''
okt = Okt()

stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

X_train = []
for sentence in tqdm(train_data['document']):
    tokenized_sentence = okt.morphs(sentence, stem=True) # 토큰화
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    X_train.append(stopwords_removed_sentence)

In [None]:
print(X_train[:3])

In [None]:
'''
테스트 데이터도 동일하게 토큰화 진행
'''
X_test = []
for sentence in tqdm(test_data['document']):
    tokenized_sentence = okt.morphs(sentence, stem=True) # 토큰화
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    X_test.append(stopwords_removed_sentence)

4) 정수 인코딩

In [None]:
'''
훈련데이터에 대해서 단어집합(vocaburary) 만들기
'''
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)

In [None]:
print(tokenizer.word_index) # 각 단어에 고유한 정수 부여

In [None]:
'''
등장 빈도수가 3회 미만인 단어 비중 확인
'''
threshold = 3
total_cnt = len(tokenizer.word_index) # 단어의 수
rare_cnt = 0 # 등장 빈도수가 threshold보다 작은 단어의 개수를 카운트
total_freq = 0 # 훈련 데이터의 전체 단어 빈도수 총 합
rare_freq = 0 # 등장 빈도수가 threshold보다 작은 단어의 등장 빈도수의 총 합

# 단어와 빈도수의 쌍(pair)을 key와 value로 받는다.
for key, value in tokenizer.word_counts.items():
    total_freq = total_freq + value

    # 단어의 등장 빈도수가 threshold보다 작으면
    if(value < threshold):
        rare_cnt = rare_cnt + 1
        rare_freq = rare_freq + value

print('단어 집합(vocabulary)의 크기 :',total_cnt)
print('등장 빈도가 %s번 이하인 희귀 단어의 수: %s'%(threshold - 1, rare_cnt))
print("단어 집합에서 희귀 단어의 비율:", (rare_cnt / total_cnt)*100)
print("전체 등장 빈도에서 희귀 단어 등장 빈도 비율:", (rare_freq / total_freq)*100)

In [None]:
'''
전체 단어 개수 중 빈도수 2이하인 단어는 제거
'''
vocab_size = total_cnt - rare_cnt + 1 # 0번 패딩 토큰을 고려하여 + 1
print('단어 집합의 크기 :',vocab_size)

In [None]:
'''
단어 집합 크기를 반영해서 다시 정수 배정
'''
tokenizer = Tokenizer(vocab_size) 
tokenizer.fit_on_texts(X_train)
X_train = tokenizer.texts_to_sequences(X_train)
X_test = tokenizer.texts_to_sequences(X_test)

In [None]:
y_train = np.array(train_data['label'])
y_test = np.array(test_data['label'])

5) 빈 샘플 제거

In [None]:
'''
전체 데이터에서 빈도수가 낮은 단어가 삭제되어, 빈도수가 낮은 단어만으로 구성된 샘플이 있으면
empty sample이 되므로 이를 제거해 주는 과정
'''

drop_train = [index for index, sentence in enumerate(X_train) if len(sentence) < 1]

# 빈 샘플들을 제거
X_train = np.delete(X_train, drop_train, axis=0)
y_train = np.delete(y_train, drop_train, axis=0)
print(len(X_train))
print(len(y_train))

6) 패딩

In [None]:
'''
서로 다른 샘플들의 길이를 동일하게 맞춰주는 작업
'''
print('리뷰의 최대 길이 :',max(len(review) for review in X_train))
print('리뷰의 평균 길이 :',sum(map(len, X_train))/len(X_train))
plt.hist([len(review) for review in X_train], bins=50)
plt.xlabel('length of samples')
plt.ylabel('number of samples')
plt.show()

In [None]:
'''
전체 샘플 중 길이가 max_len 이하인 샘플의 비율을 확인
'''
def below_threshold_len(max_len, nested_list):
  count = 0
  for sentence in nested_list:
    if(len(sentence) <= max_len):
        count = count + 1
  print('전체 샘플 중 길이가 %s 이하인 샘플의 비율: %s'%(max_len, (count / len(nested_list))*100))

In [None]:
MAX_LEN = 30
below_threshold_len(MAX_LEN, X_train)

In [None]:
'''
샘플의 길이를 MAX_LEN에 맞춤
'''
X_train = pad_sequences(X_train, maxlen=MAX_LEN)
X_test = pad_sequences(X_test, maxlen=MAX_LEN)