<a href="https://colab.research.google.com/github/rlawogjs96/deeplearningnlp_starters/blob/main/Pre_trained_Word_Embedding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### 1. Keras Embedding Layer 

임베딩 층과 사전 훈련된 워드 임베딩을 가져와 사용하는 것에 대한 비교 분석을 진행. 훈련 데이터의 단어들을 임베딩 층을 구현하여 임베딩 벡터로 학습. 케라스에서는 이를 Embedding이라는 도구를 사용하여 구현. 

케라스는 훈련 데이터의 단어들에 대해 워드 임베딩을 수행하는 **Embedding()** 을 제공. Embedding()은 임베딩 층을 구현. 

단어 → 단어에 부여된 고유한 정수값 → 임베딩 층 통과 → 밀집 벡터

특정 단어와 맵핑되는 정수를 인덱스로 가지는 테이블로부터 임베딩 벡터 값을 가져오는 테이블을 정수를 임베딩 벡터로 맵핑한다는 것을 의미한다. 

임베딩 층은 다음과 같은 세 개의 인자를 받는다. 

**vocab_size** : 텍스트 데이터의 전체 단어 집합의 크기. 
**output_dim** : 워드 임베딩 후의 임베딩 벡터의 차원. 
**input_length** : 입력 시퀀스의 길이. 

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences


sentences = ['nice great best amazing', 'stop lies', 'pitiful nerd', 'excellent work', 'supreme quality', 'bad', 'highly respectable']
y_train = [1, 0, 0, 1, 1, 0, 1]

Keras의 Tokenizer를 사용하여 단어 집합을 만들고 크기를 확인.

In [2]:
tokenizer = Tokenizer() 
tokenizer.fit_on_texts(sentences)
vocab_size = len(tokenizer.word_index) + 1
print(vocab_size)

16


각 문장에 대한 정수 인코딩 수행.

In [3]:
X_encoded = tokenizer.texts_to_sequences(sentences)
print(X_encoded)

[[1, 2, 3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13], [14, 15]]


가장 길이가 긴 문장의 길이를 구함.

In [4]:
max_len = max(len(l) for l in X_encoded)
print(max_len)

4


최대 길이로 모든 샘플에 대해서 패딩 작업 진행.

In [6]:
X_train = pad_sequences(X_encoded, maxlen=max_len, padding='post')
y_train = np.array(y_train)
print('패딩 결과 :')
print(X_train)

패딩 결과 :
[[ 1  2  3  4]
 [ 5  6  0  0]
 [ 7  8  0  0]
 [ 9 10  0  0]
 [11 12  0  0]
 [13  0  0  0]
 [14 15  0  0]]


훈련 데이터에 대한 전처리가 끝남. 전형적인 이진 분류 모델 설계. 출력층에 1개의 뉴런을 배치, 활성화 함수로는 Sigmoid 함수 활용, loss 함수로 binary_crossentropy 활용. 100 Epoch 학습 진행.

In [7]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, Flatten

embedding_dim = 4

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim, input_length=max_len))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
model.fit(X_train, y_train, epochs=100, verbose=2)

Epoch 1/100
1/1 - 4s - loss: 0.6889 - acc: 0.7143 - 4s/epoch - 4s/step
Epoch 2/100
1/1 - 0s - loss: 0.6872 - acc: 0.7143 - 7ms/epoch - 7ms/step
Epoch 3/100
1/1 - 0s - loss: 0.6854 - acc: 0.7143 - 6ms/epoch - 6ms/step
Epoch 4/100
1/1 - 0s - loss: 0.6837 - acc: 0.7143 - 7ms/epoch - 7ms/step
Epoch 5/100
1/1 - 0s - loss: 0.6821 - acc: 0.7143 - 8ms/epoch - 8ms/step
Epoch 6/100
1/1 - 0s - loss: 0.6804 - acc: 0.7143 - 6ms/epoch - 6ms/step
Epoch 7/100
1/1 - 0s - loss: 0.6787 - acc: 0.7143 - 6ms/epoch - 6ms/step
Epoch 8/100
1/1 - 0s - loss: 0.6770 - acc: 0.7143 - 7ms/epoch - 7ms/step
Epoch 9/100
1/1 - 0s - loss: 0.6753 - acc: 0.7143 - 7ms/epoch - 7ms/step
Epoch 10/100
1/1 - 0s - loss: 0.6736 - acc: 0.7143 - 7ms/epoch - 7ms/step
Epoch 11/100
1/1 - 0s - loss: 0.6719 - acc: 0.7143 - 7ms/epoch - 7ms/step
Epoch 12/100
1/1 - 0s - loss: 0.6702 - acc: 0.7143 - 6ms/epoch - 6ms/step
Epoch 13/100
1/1 - 0s - loss: 0.6686 - acc: 0.7143 - 7ms/epoch - 7ms/step
Epoch 14/100
1/1 - 0s - loss: 0.6669 - acc: 0.857

<keras.callbacks.History at 0x7f6a908bc610>

#### 2. Pre-Trained Word Embedding 사용

훈련 데이터가 적은 상황이라면 케라스의 Embedding()으로 해당 문제를 풀기에 최적화 된 임베딩 벡터값을 얻기 어려움. 따라서 많은 훈련 데이터로 이미 Word2Vec 이나 GloVe 로 학습되어져 있는 임베딩 벡터들을 사용하는 것이 성능 개선에 좋다. 

In [8]:
from urllib.request import urlretrieve, urlopen
import gzip
import zipfile

In [9]:
urlretrieve("http://nlp.stanford.edu/data/glove.6B.zip", filename="glove.6B.zip")
zf = zipfile.ZipFile('glove.6B.zip')
zf.extractall() 
zf.close()

Dictionary를 사용하여 load한 임베딩 벡터의 개수 확인.

In [10]:
embedding_dict = dict()

f = open('glove.6B.100d.txt', encoding="utf8")

for line in f:
    word_vector = line.split()
    word = word_vector[0]
    
    # 100개의 값을 가지는 array로 변환
    word_vector_arr = np.asarray(word_vector[1:], dtype='float32')
    embedding_dict[word] = word_vector_arr
f.close()

print('%s개의 Embedding vector가 있습니다.' % len(embedding_dict))

400000개의 Embedding vector가 있습니다.


In [11]:
print(embedding_dict['respectable'])
print(len(embedding_dict['respectable']))

[-0.049773   0.19903    0.10585    0.1391    -0.32395    0.44053
  0.3947    -0.22805   -0.25793    0.49768    0.15384   -0.08831
  0.0782    -0.8299    -0.037788   0.16772   -0.45197   -0.17085
  0.74756    0.98256    0.81872    0.28507    0.16178   -0.48626
 -0.006265  -0.92469   -0.30625   -0.067318  -0.046762  -0.76291
 -0.0025264 -0.018795   0.12882   -0.52457    0.3586     0.43119
 -0.89477   -0.057421  -0.53724    0.25587    0.55195    0.44698
 -0.24252    0.29946    0.25776   -0.8717     0.68426   -0.05688
 -0.1848    -0.59352   -0.11227   -0.57692   -0.013593   0.18488
 -0.32507   -0.90171    0.17672    0.075601   0.54896   -0.21488
 -0.54018   -0.45882   -0.79536    0.26331    0.18879   -0.16363
  0.3975     0.1099     0.1164    -0.083499   0.50159    0.35802
  0.25677    0.088546   0.42108    0.28674   -0.71285   -0.82915
  0.15297   -0.82712    0.022112   1.067     -0.31776    0.1211
 -0.069755  -0.61327    0.27308   -0.42638   -0.085084  -0.17694
 -0.0090944  0.1109     0.

In [12]:
# 단어 집합 크기의 행과 100개의 열을 가지는 행렬 생성. 값은 전부 0으로 채워진다.
embedding_matrix = np.zeros((vocab_size, 100))
np.shape(embedding_matrix)

(16, 100)

In [13]:
print(tokenizer.word_index.items())

dict_items([('nice', 1), ('great', 2), ('best', 3), ('amazing', 4), ('stop', 5), ('lies', 6), ('pitiful', 7), ('nerd', 8), ('excellent', 9), ('work', 10), ('supreme', 11), ('quality', 12), ('bad', 13), ('highly', 14), ('respectable', 15)])


In [14]:
tokenizer.word_index['great']

2

단어 'great'의 맵핑된 정수 확인, 사전 훈련된 GloVe에서 'great'의 벡터값을 확인.

In [15]:
print(embedding_dict['great'])

[-0.013786   0.38216    0.53236    0.15261   -0.29694   -0.20558
 -0.41846   -0.58437   -0.77355   -0.87866   -0.37858   -0.18516
 -0.128     -0.20584   -0.22925   -0.42599    0.3725     0.26077
 -1.0702     0.62916   -0.091469   0.70348   -0.4973    -0.77691
  0.66045    0.09465   -0.44893    0.018917   0.33146   -0.35022
 -0.35789    0.030313   0.22253   -0.23236   -0.19719   -0.0053125
 -0.25848    0.58081   -0.10705   -0.17845   -0.16206    0.087086
  0.63029   -0.76649    0.51619    0.14073    1.019     -0.43136
  0.46138   -0.43585   -0.47568    0.19226    0.36065    0.78987
  0.088945  -2.7814    -0.15366    0.01015    1.1798     0.15168
 -0.050112   1.2626    -0.77527    0.36031    0.95761   -0.11385
  0.28035   -0.02591    0.31246   -0.15424    0.3778    -0.13599
  0.2946    -0.31579    0.42943    0.086969   0.019169  -0.27242
 -0.31696    0.37327    0.61997    0.13889    0.17188    0.30363
 -1.2776     0.044423  -0.52736   -0.88536   -0.19428   -0.61947
 -0.10146   -0.26301  

In [16]:
for word, index in tokenizer.word_index.items():
    # 단어와 맵핑되는 사전 훈련된 임베딩 벡터값
    vector_value = embedding_dict.get(word)
    if vector_value is not None:
        embedding_matrix[index] = vector_value

In [18]:
embedding_matrix[2]

array([-0.013786  ,  0.38216001,  0.53236002,  0.15261   , -0.29694   ,
       -0.20558   , -0.41846001, -0.58437002, -0.77354997, -0.87866002,
       -0.37858   , -0.18516   , -0.12800001, -0.20584001, -0.22925   ,
       -0.42598999,  0.3725    ,  0.26076999, -1.07019997,  0.62915999,
       -0.091469  ,  0.70348001, -0.4973    , -0.77691001,  0.66044998,
        0.09465   , -0.44893   ,  0.018917  ,  0.33146   , -0.35021999,
       -0.35789001,  0.030313  ,  0.22253001, -0.23236001, -0.19719   ,
       -0.0053125 , -0.25848001,  0.58081001, -0.10705   , -0.17845   ,
       -0.16205999,  0.087086  ,  0.63028997, -0.76648998,  0.51618999,
        0.14072999,  1.01900005, -0.43136001,  0.46138   , -0.43584999,
       -0.47567999,  0.19226   ,  0.36065   ,  0.78987002,  0.088945  ,
       -2.78139997, -0.15366   ,  0.01015   ,  1.17980003,  0.15167999,
       -0.050112  ,  1.26259995, -0.77526999,  0.36030999,  0.95761001,
       -0.11385   ,  0.28035   , -0.02591   ,  0.31246001, -0.15

In [19]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, Flatten

model = Sequential()
e = Embedding(vocab_size, 100, weights=[embedding_matrix], input_length=max_len, trainable=False)

model.add(e)
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
model.fit(X_train, y_train, epochs=100, verbose=2)

Epoch 1/100
1/1 - 0s - loss: 0.6157 - acc: 0.8571 - 468ms/epoch - 468ms/step
Epoch 2/100
1/1 - 0s - loss: 0.5979 - acc: 0.8571 - 7ms/epoch - 7ms/step
Epoch 3/100
1/1 - 0s - loss: 0.5808 - acc: 0.8571 - 6ms/epoch - 6ms/step
Epoch 4/100
1/1 - 0s - loss: 0.5643 - acc: 0.8571 - 6ms/epoch - 6ms/step
Epoch 5/100
1/1 - 0s - loss: 0.5484 - acc: 0.8571 - 6ms/epoch - 6ms/step
Epoch 6/100
1/1 - 0s - loss: 0.5332 - acc: 0.8571 - 5ms/epoch - 5ms/step
Epoch 7/100
1/1 - 0s - loss: 0.5185 - acc: 0.8571 - 7ms/epoch - 7ms/step
Epoch 8/100
1/1 - 0s - loss: 0.5044 - acc: 0.8571 - 9ms/epoch - 9ms/step
Epoch 9/100
1/1 - 0s - loss: 0.4908 - acc: 1.0000 - 7ms/epoch - 7ms/step
Epoch 10/100
1/1 - 0s - loss: 0.4777 - acc: 1.0000 - 6ms/epoch - 6ms/step
Epoch 11/100
1/1 - 0s - loss: 0.4651 - acc: 1.0000 - 8ms/epoch - 8ms/step
Epoch 12/100
1/1 - 0s - loss: 0.4529 - acc: 1.0000 - 5ms/epoch - 5ms/step
Epoch 13/100
1/1 - 0s - loss: 0.4412 - acc: 1.0000 - 6ms/epoch - 6ms/step
Epoch 14/100
1/1 - 0s - loss: 0.4299 - acc:

<keras.callbacks.History at 0x7f6a9d5a3850>