<a href="https://colab.research.google.com/github/moey920/NLP/blob/master/Word2Vec_Embedding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트 파일 전처리

## 훈련 데이터셋 불러와 전처리하기

In [0]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [0]:
from google.colab import drive
drive.mount('/content/drive')

In [0]:
train_file_link = '/content/drive/My Drive/datt/CNN_텍스트분류_정답_수정.txt'

In [0]:
# 불러온 데이터를 보면 id, document, label로 구분이 되어있습니다.
train_data = pd.read_csv(train_file_link, header = 0, delimiter = '\t', quoting = 3)
train_data.head(10)

In [0]:
!pip install konlpy

In [0]:
import re
import json
from konlpy.tag import Okt

from tqdm import tqdm

In [0]:
def preprocessing(review, okt, remove_stopwords = False, stop_words = []):
    # 함수의 인자는 다음과 같다.
    # review : 전처리할 텍스트
    # okt : okt 객체를 반복적으로 생성하지 않고 미리 생성후 인자로 받는다.
    # remove_stopword : 불용어를 제거할지 선택 기본값은 False
    # stop_word : 불용어 사전은 사용자가 직접 입력해야함 기본값은 비어있는 리스트
    
    # 1. 한글 및 공백을 제외한 문자 모두 제거. + 영어 소문자, 대문자, 숫자도 제외
    # 일단 OCR 결과의 원형을 학습시키기 위해 정규표현식을 사용하지 않고 학습시켜보겠습니다.
    review_text = re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9\\s]", " ",  review)
    #review_text = re.sub(" ", "",  review)
    
    # 2. okt 객체를 활용해서 형태소 단위로 나눈다.
    word_review = okt.morphs(review_text, stem=True)
    
    if remove_stopwords:
        
        # 불용어 제거(선택적)
        word_review = [token for token in word_review if not token in stop_words]
        
   
    return word_review

In [0]:
stop_words = ['은', '는', '이', '가', '하', '아', '것', '들','의', '있', '되', '수', '보', 
              '주', '등', '한', '(', ')', '/', '*', '=', 'E', '|', '-', '.', ',', 'II', 'لالالالا', 
              '|||||||||', 'iii', '|||', '. ', '.', '"', ' )', '[', ']', '"']
okt = Okt()
clean_train_review = []

for review in tqdm(train_data['document']):
    # 비어있는 데이터에서 멈추지 않도록 string인 경우만 진행
    if type(review) == str:
        clean_train_review.append(preprocessing(review, okt, remove_stopwords = True, stop_words=stop_words))
    else:
        clean_train_review.append([])  #string이 아니면 비어있는 값 추가

In [0]:
sentences = clean_train_review
y_train = train_data['label']

문장과 레이블 데이터를 만들었습니다. 레이블은 20개로 세분화되어있습니다.

## 테스트 파일 불러와 전처리하기

해당 코드는 결과를 확인하기 위한 테스트 파일을 불러오는 코드입니다. 
훈련을 먼저 진행하고자하면 
- 2) 임베딩 층 사용하기의 훈련파일 불러오기에서 전처리를 진행해주세요.

In [0]:
test_file_link = '/content/drive/My Drive/datt/testdataset2.txt' # 라벨값 없음

In [0]:
test_data = pd.read_csv(test_file_link, header = 0, delimiter = '\t', quoting = 3)
test_data.head(10)

In [0]:
import re
import json
from konlpy.tag import Okt

from tqdm import tqdm

In [0]:
def preprocessing(review, okt, remove_stopwords = False, stop_words = []):
    # 함수의 인자는 다음과 같다.
    # review : 전처리할 텍스트
    # okt : okt 객체를 반복적으로 생성하지 않고 미리 생성후 인자로 받는다.
    # remove_stopword : 불용어를 제거할지 선택 기본값은 False
    # stop_word : 불용어 사전은 사용자가 직접 입력해야함 기본값은 비어있는 리스트
    
    # 1. 한글 및 공백을 제외한 문자 모두 제거. + 영어 소문자, 대문자, 숫자도 제외
    # 일단 OCR 결과의 원형을 학습시키기 위해 정규표현식을 사용하지 않고 학습시켜보겠습니다.
    review_text = re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9\\s]", " ",  review)
    #review_text = re.sub(" ", "",  review)
    
    # 2. okt 객체를 활용해서 형태소 단위로 나눈다.
    word_review = okt.morphs(review_text, stem=True)
    
    if remove_stopwords:
        
        # 불용어 제거(선택적)
        word_review = [token for token in word_review if not token in stop_words]
        
   
    return word_review

In [0]:
stop_words = ['은', '는', '이', '가', '하', '아', '것', '들','의', '있', '되', '수', '보', 
              '주', '등', '한', '(', ')', '/', '*', '=', 'E', '|', '-', '.', ',', 'II', 'لالالالا', 
              '|||||||||', 'iii', '|||', '. ', '.', '"', ' )', '[', ']', '"']
okt = Okt()
clean_test_review = []

for review in tqdm(test_data['document']):
    # 비어있는 데이터에서 멈추지 않도록 string인 경우만 진행
    if type(review) == str:
        clean_test_review.append(preprocessing(review, okt, remove_stopwords = True, stop_words=stop_words))
    else:
        clean_test_review.append([])  #string이 아니면 비어있는 값 추가

In [0]:
import numpy as np
import gensim

In [0]:
sentences = clean_test_review
y_train = test_data['label']

## 토크나이징

In [0]:
t = Tokenizer()
t.fit_on_texts(sentences)
vocab_size = len(t.word_index) + 1

print(vocab_size)

In [0]:
X_encoded = t.texts_to_sequences(sentences)
print(X_encoded)

In [0]:
max_len=max(len(l) for l in X_encoded)
print(max_len)

In [0]:
X_train=pad_sequences(X_encoded, maxlen=max_len, padding='post')
y_train=np.array(y_train)
print(X_train)
print(y_train)

In [0]:
# 테스트 파일일 경우에만 실행(Nan 라벨을 모두 0으로 바꿈)
y_train[:] = 0
print(y_train)
len(y_train)

In [0]:
len(X_train)

In [0]:
input_data = X_train
label_data = y_train
word_index = t.word_index

In [0]:
from keras.utils import np_utils
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM
from keras.layers import Flatten, Dropout
from keras.layers import Conv1D, GlobalMaxPooling1D

In [0]:
# 데이터셋 전처리 : 문장 길이 맞추기
input_train = sequence.pad_sequences(input_train, maxlen=max_len)
input_val = sequence.pad_sequences(input_val, maxlen=max_len)
input_test = sequence.pad_sequences(input_test, maxlen=max_len)


# one-hot 인코딩
label_train = np_utils.to_categorical(label_train)
label_val = np_utils.to_categorical(label_val)
label_test = np_utils.to_categorical(label_test)

In [0]:
# 테스트 파일일 경우에만 실행 !
# 데이터셋 전처리 : 문장 길이 맞추기
input_data = sequence.pad_sequences(input_data, maxlen=max_len)

# one-hot 인코딩
label_data = np_utils.to_categorical(label_data)

# 사전 훈련된 워드 임베딩(Pre-trained Word Embedding)
이번엔 케라스의 임베딩 층(embedding layer)과 사전 훈련된 워드 임베딩(pre-trained word embedding)을 가져와서 사용하는 것을 비교해봅니다. 자연어 처리를 하려고 할 때 갖고 있는 훈련 데이터의 단어들을 임베딩 층(embedding layer)을 구현하여 임베딩 벡터로 학습하는 경우가 있습니다. 케라스에서는 이를 Embedding()이라는 도구를 사용하여 구현합니다.

그런데 위키피디아 등과 같은 방대한 코퍼스를 가지고 Word2vec, FastText, GloVe 등을 통해서 이미 미리 훈련된 임베딩 벡터를 불러오는 방법을 사용하는 경우도 있습니다. 이는 현재 갖고 있는 훈련 데이터를 임베딩 층으로 처음부터 학습을 하는 방법과는 대조됩니다.

## import Word2Vec

In [0]:
# 현재 위치에 구글의 사전 훈련된 Word2Vec을 다운로드
!wget "https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz"

In [0]:
# 구글의 사전 훈련된 Word2vec 모델을 로드합니다.
word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)  

구글의 사전 훈련된 Word2Vec 모델을 로드하여 word2vec_model에 저장합니다.

In [0]:
print(word2vec_model.vectors.shape) # 모델의 크기 확인

300의 차원을 가진 Word2Vec 벡터가 3,000,000개 있습니다.

In [0]:
embedding_matrix = np.zeros((vocab_size, 300)) #vocab_size는 맨 앞에서 데이터를 불러와 토크나이징 후 vocab_size를 추출한 값입니다. 안했다면 확인 후 실행시켜와야합니다.
# 단어 집합 크기의 행과 300개의 열을 가지는 행렬 생성. 값은 전부 0으로 채워진다.
np.shape(embedding_matrix)

모든 값이 0으로 채워진 임베딩 행렬을 만들어줍니다. 이번 문제의 단어는 총 16개이므로, 16 × 300의 크기를 가진 행렬을 만듭니다.

In [0]:
def get_vector(word):
    if word in word2vec_model:
        return word2vec_model[word]
    else:
        return None

word2vec_model에서 특정 단어를 입력하면 해당 단어의 임베딩 벡터를 리턴받을텐데, 만약 word2vec_model에 특정 단어의 임베딩 벡터가 없다면 None을 리턴하도록 합니다.

In [0]:
for word, i in t.word_index.items(): # 훈련 데이터의 단어 집합에서 단어와 정수 인덱스를 1개씩 꺼내온다.
    temp = get_vector(word) # 단어(key) 해당되는 임베딩 벡터의 300개의 값(value)를 임시 변수에 저장
    if temp is not None: # 만약 None이 아니라면 임베딩 벡터의 값을 리턴받은 것이므로
        embedding_matrix[i] = temp # 해당 단어 위치의 행에 벡터의 값을 저장한다.

단어 집합으로부터 단어를 1개씩 호출하여 word2vec_model에 해당 단어의 임베딩 벡터값이 존재하는지 확인합니다. 만약 None이 아니라면 존재한다는 의미이므로 임베딩 행렬에 해당 단어의 인덱스 위치의 행에 임베딩 벡터의 값을 저장합니다. 이렇게 되면 현재 풀고자하는 문제의 16개의 단어와 맵핑되는 임베딩 행렬이 완성됩니다.

제대로 맵핑이 됐는지 확인해볼까요? 기존에 word2vec_model에 저장되어 있던 단어 'nice'의 임베딩 벡터값을 확인해봅시다

In [0]:
print(word2vec_model['olive'])

이 단어 'nice'는 현재 단어 집합에서 몇 번 인덱스를 가지는지 확인해보겠습니다.

In [0]:
print('단어 olive의 정수 인덱스 :', t.word_index['olive'])

1의 값을 가지므로 embedding_matirx의 1번 인덱스에는 단어 'nice'의 임베딩 벡터값이 있어야 합니다. 한 번 출력해봅시다.

In [0]:
print(embedding_matrix[177])

값이 word2vec_model에서 확인했던 것과 동일한 것을 확인할 수 있습니다. 단어 집합에 있는 다른 단어들에 대해서도 확인해보세요. 이제 Embedding에 사전 훈련된 embedding_matrix를 입력으로 넣어주고 모델을 학습시켜보겠습니다.

### 모델 생성
훈련할 때는 모든 코드를 실행하고, 테스트할 때는 아래 코드를 실행하면 안됩니다. 
위에서 불러온 테스트 데이터셋에는 라벨이 모두 없을 뿐더러(위에서 모두 0으로 변경해서 벡터화시켰습니다), 이미 훈련된 모델을 망가뜨리기 때문입니다. 라벨 값이 없기 때문에 model.fit도 불가능할겁니다.

In [0]:
from keras.models import Sequential
from keras.layers import Dense, Activation

from keras import backend as K

In [0]:
# 특정 클래스에 대한 정밀도
def single_class_precision(interesting_class_id):
    def prec(y_true, y_pred):
        class_id_true = K.argmax(y_true, axis=-1) # y_true: 실제 값, 티아노 및 텐스플로우의 텐서(tensor)
        class_id_pred = K.argmax(y_pred, axis=-1) # y_pred: 예측 값, 티아노 및 텐스플로우의 텐서(tensor)
        precision_mask = K.cast(K.equal(class_id_pred, interesting_class_id), 'int32')
        class_prec_tensor = K.cast(K.equal(class_id_true, class_id_pred), 'int32') * precision_mask
        class_prec = K.cast(K.sum(class_prec_tensor), 'float32') / K.cast(K.maximum(K.sum(precision_mask), 1), 'float32')
        return class_prec
    return prec

In [0]:
# 특정 클래스에 대한 재현율
def single_class_recall(interesting_class_id):
    def recall(y_true, y_pred):
        class_id_true = K.argmax(y_true, axis=-1)
        class_id_pred = K.argmax(y_pred, axis=-1)
        recall_mask = K.cast(K.equal(class_id_true, interesting_class_id), 'int32')
        class_recall_tensor = K.cast(K.equal(class_id_true, class_id_pred), 'int32') * recall_mask
        class_recall = K.cast(K.sum(class_recall_tensor), 'float32') / K.cast(K.maximum(K.sum(recall_mask), 1), 'float32')
        return class_recall
    return recall

In [0]:
from keras.utils import np_utils
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM
from keras.layers import Flatten, Dropout
from keras.layers import Conv1D, GlobalMaxPooling1D

In [0]:
model = Sequential()
model.add(Embedding(vocab_size, 300, weights=[embedding_matrix], input_length=max_len, trainable=True)) # 배치사이즈가 기존(128)보다 2배 커지면 어떻게 될까? => 
model.add(Dropout(0.2))
model.add(Conv1D(256,
                 3,
                 padding='valid',
                 activation='relu',
                 strides=1))
model.add(GlobalMaxPooling1D())
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(20, activation='softmax'))

In [0]:
model.summary()

In [0]:
model.compile(loss='categorical_crossentropy', optimizer='adam', 
              metrics=['accuracy',
                       single_class_precision(0), single_class_recall(0),
                       single_class_precision(1), single_class_recall(1),
                       single_class_precision(2), single_class_recall(2),
                       single_class_precision(3), single_class_recall(3),
                       single_class_precision(4), single_class_recall(4),
                       single_class_precision(5), single_class_recall(5),
                       single_class_precision(6), single_class_recall(6),
                       single_class_precision(7), single_class_recall(7),
                       single_class_precision(8), single_class_recall(8),
                       single_class_precision(9), single_class_recall(9),
                       single_class_precision(10), single_class_recall(10),
                       single_class_precision(11), single_class_recall(11),
                       single_class_precision(12), single_class_recall(12),
                       single_class_precision(13), single_class_recall(13),
                       single_class_precision(14), single_class_recall(14),
                       single_class_precision(15), single_class_recall(15),
                       single_class_precision(16), single_class_recall(16),
                       single_class_precision(17), single_class_recall(17),
                       single_class_precision(18), single_class_recall(18),
                       single_class_precision(19), single_class_recall(19)])

In [0]:
model.fit(input_train, label_train, batch_size=256 ,epochs=15, verbose=1, validation_data=(input_val, label_val)) # validation_data는 각 훈련마다 결과값을 도출할 측정 데이터를 의미한다. 따라서 가중치 업데이트는 되지 않는다.

In [0]:
# 6. 모델 평가하기
loss_and_metrics = model.evaluate(input_test, label_test, batch_size=256)
print('## evaluation loss and_metrics ##')
print(loss_and_metrics)

### 훈련데이터셋에서 예측하기

In [0]:
train_data['label'] = model.predict_classes(input_data)

In [0]:
!pip install xlsxwriter

In [0]:
dataframe = pd.DataFrame(train_data)
dataframe.to_excel("/content/drive/My Drive/text/Word2Vec_result(512).xlsx", engine='xlsxwriter', index=False)

### 새로 불러온 테스트데이터셋에서 예측하기(라벨값 없음)

In [0]:
model.predict_classes(input_data)
len(model.predict_classes(input_data))

In [0]:
test_data['label'] = model.predict_classes(input_data)
len(test_data['label'])

In [0]:
dataframe = pd.DataFrame(test_data)
dataframe.to_excel("/content/drive/My Drive/text/Word2Vec_result(test2).xlsx", engine='xlsxwriter', index=False)

### 결과 보고

loss_and_metrics = model.evaluate(input_test, label_test, batch_size=256)
- 모델 평가에서의 배치사이즈를 256, 512로 설정하여 정답레이블-예측레이블 오차를 측장하여 비교해봤으나, 둘 다 39371개 중 810를 잘못 예측하였습니다. 
- 배치 사이즈가 1일 경우, 128일 경우 정밀도와 재현율이 현저하게 떨어졌습니다.
- 256, 512의 경우 완벽하게 정확하게 예측이 일치하는 것으로 보아, 과대적합이 발생하여 훈련데이터에 적응해버린 것이 아닌가 추측됩니다. 
-- 잘못 생각한 것이었습니다. 평가층에서 배치 사이즈를 변경한다고하여, 이미 훈련된 모델로 predict할 땐 전혀 영향을 끼치지 않습니다. 단치 배치 사이즈에 따른 모델을 평가하는 인자인 것 같습니다. 
-- 따라서 평가에서의 배치 사이즈가 아닌 glove 임베딩 층의 차원을 변경하여 어떤 결과가 나오는지 확인해보곘습니다.
- 일반적인 자체 데이터셋으로 임베딩층을 설정했을 때와, Pre-Trained GloVe 임베딩 층을 사용했을 때 결과가 별반 다르지 않았습니다.