# 사전 훈련된 워드 임베딩

#### 1. 케라스 임베딩 층
- 1) 임베딩 층은 룩업 테이블
    - 임베딩 층의 입력으로 쓰이기 위해서는 각 단어를 정수 인코딩 해야함
    - 단어 A -> 단어에 부여된 고유한 정수값 부여 -> 임베딩 층 통과 -> 밀집벡터
    - 임베딩 층은 입력 정수에 대해 밀집 벡터로 맵핑, 
        - 이때 , 각 단어는 고유한 임베딩 벡터를 가진다
        ![](https://wikidocs.net/images/page/33793/lookup_table.PNG)
        - 위 그림은 단어 great이 정수 인코딩 된 후, 테이블로부터 해당 인덱스에 위치한 임베딩 벡터를 꺼내오는 모습을 보여준다.
            - 임베딩 벡터는 모델의 입력이 되고, 역전파 과정에서 단어 great의 임베딩 벡터값이 학습된다.
        

#### 2. 임베딩 층 사용하기

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

sentences = ['nice great best amazing', 'stop lies', 'pitiful nerd', 'excellent work', 'supreme quality', 'bad', 'highly respectable']
y_train = [1, 0, 0, 1, 1, 0, 1]

In [2]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
vocab_size = len(tokenizer.word_index)+1 # 패딩 포함
print('단어 집합 : ', vocab_size)

단어 집합 :  16


In [4]:
# 각 문장에 대하여 정수 인코딩 수행
X_encoded = tokenizer.texts_to_sequences(sentences)
print("정수 인코딩 결과 :", X_encoded)

max_len = max(len(l) for l in X_encoded)
print("최대 길이 : ", max_len)

정수 인코딩 결과 : [[1, 2, 3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13], [14, 15]]
최대 길이 :  4


In [5]:
# 모든 샘플을 최대 길이에 대하여 패딩 진행
X_train = pad_sequences(X_encoded, maxlen=max_len, padding='post')
y_train = np.array(y_train)
print("패딩 결과 :")
print(X_train)

패딩 결과 :
[[ 1  2  3  4]
 [ 5  6  0  0]
 [ 7  8  0  0]
 [ 9 10  0  0]
 [11 12  0  0]
 [13  0  0  0]
 [14 15  0  0]]


In [6]:
# 이진 분류 모델 설계
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding,Dense, Flatten
embedding_dim = 4
model = Sequential()
model.add(Embedding(vocab_size, embedding_dim, input_length=max_len))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
model.fit(X_train, y_train, epochs=100, verbose=2)


2022-04-25 16:14:29.749310: I tensorflow/core/common_runtime/pluggable_device/pluggable_device_factory.cc:305] Could not identify NUMA node of platform GPU ID 0, defaulting to 0. Your kernel may not have been built with NUMA support.
2022-04-25 16:14:29.749459: I tensorflow/core/common_runtime/pluggable_device/pluggable_device_factory.cc:271] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 0 MB memory) -> physical PluggableDevice (device: 0, name: METAL, pci bus id: <undefined>)
2022-04-25 16:14:29.828417: W tensorflow/core/platform/profile_utils/cpu_utils.cc:128] Failed to get CPU frequency: 0 Hz


Metal device set to: Apple M1 Max

systemMemory: 32.00 GB
maxCacheSize: 10.67 GB

Epoch 1/100


2022-04-25 16:14:30.025646: I tensorflow/core/grappler/optimizers/custom_graph_optimizer_registry.cc:112] Plugin optimizer for device_type GPU is enabled.


1/1 - 0s - loss: 0.6883 - acc: 0.7143 - 451ms/epoch - 451ms/step
Epoch 2/100
1/1 - 0s - loss: 0.6871 - acc: 0.7143 - 10ms/epoch - 10ms/step
Epoch 3/100
1/1 - 0s - loss: 0.6859 - acc: 0.7143 - 9ms/epoch - 9ms/step
Epoch 4/100
1/1 - 0s - loss: 0.6846 - acc: 0.8571 - 9ms/epoch - 9ms/step
Epoch 5/100
1/1 - 0s - loss: 0.6834 - acc: 0.8571 - 9ms/epoch - 9ms/step
Epoch 6/100
1/1 - 0s - loss: 0.6822 - acc: 0.8571 - 10ms/epoch - 10ms/step
Epoch 7/100
1/1 - 0s - loss: 0.6809 - acc: 0.8571 - 29ms/epoch - 29ms/step
Epoch 8/100
1/1 - 0s - loss: 0.6797 - acc: 0.8571 - 9ms/epoch - 9ms/step
Epoch 9/100
1/1 - 0s - loss: 0.6785 - acc: 0.8571 - 9ms/epoch - 9ms/step
Epoch 10/100
1/1 - 0s - loss: 0.6772 - acc: 0.8571 - 9ms/epoch - 9ms/step
Epoch 11/100
1/1 - 0s - loss: 0.6760 - acc: 0.8571 - 9ms/epoch - 9ms/step
Epoch 12/100
1/1 - 0s - loss: 0.6747 - acc: 1.0000 - 10ms/epoch - 10ms/step
Epoch 13/100
1/1 - 0s - loss: 0.6735 - acc: 1.0000 - 8ms/epoch - 8ms/step
Epoch 14/100
1/1 - 0s - loss: 0.6722 - acc: 1.0

<keras.callbacks.History at 0x16a8e5910>

#### 2. 사전 훈련된 워드 임베딩 사용하기
