# 1. 임베딩 층은 룩업 테이블이다.

어떤 단어 -> 단어에 부여된 고유한 정수값 -> 임베딩 층 통과 -> Dense Vector <br>
Word -> Integer -> Lookup Table -> Embedding Vector <br>

* 룩업 테이블 : 특정 단어와 맵피오디는 정수를 인덱스로 가지는 테이블
위의 테이블은 단어 집합의 크기만큼의 행을 가지므로 모든 단어는 고유한 임베딩 벡터로 가진다<br>

모델의 입력 : 원-핫 벡터

In [1]:
train_data = 'you need to know how to code'

# 중복을 제거한 단어들의 집합인 단어 집합 생성
word_set = set(train_data.split())

# 단어 집합의 각 단어에 고유한 정수 맵핑
vocab = {word: i+2 for i, word in enumerate(word_set)}
vocab['<unk>'] = 0
vocab['<pad>'] = 1
print(vocab)

{'you': 2, 'know': 3, 'need': 4, 'how': 5, 'code': 6, 'to': 7, '<unk>': 0, '<pad>': 1}


In [3]:
import torch

# 단어 집합의 크기를 행으로 가지는 Embedding table을 구현함. 
embedding_table = torch.FloatTensor(
    [
                               [ 0.0,  0.0,  0.0],
                               [ 0.0,  0.0,  0.0],
                               [ 0.2,  0.9,  0.3],
                               [ 0.1,  0.5,  0.7],
                               [ 0.2,  0.1,  0.8],
                               [ 0.4,  0.1,  0.1],
                               [ 0.1,  0.8,  0.9],
                               [ 0.6,  0.1,  0.1]]
)

In [4]:
sample = 'you need to run'.split()
idxes = []

# 각 단어를 정수로 변환
for word in sample:
    try:
        idxes.append(vocab[word])
    except KeyError:
        idxes.append(vocab['<unk>'])
idxes = torch.LongTensor(idxes)

# 각 정수를 인덱스로 임베딩 테이블에서 값을 가져온다
lookup_result = embedding_table[idxes, :]
print(lookup_result)

tensor([[0.2000, 0.9000, 0.3000],
        [0.2000, 0.1000, 0.8000],
        [0.6000, 0.1000, 0.1000],
        [0.0000, 0.0000, 0.0000]])


In [5]:
idxes

tensor([2, 4, 7, 0])

In [6]:
import torch.nn as nn

embedding_layer = nn.Embedding(num_embeddings=len(vocab), embedding_dim=3, padding_idx=1)

In [8]:
print(embedding_layer.weight)

Parameter containing:
tensor([[ 1.4728, -0.0842,  1.9529],
        [ 0.0000,  0.0000,  0.0000],
        [-0.0649, -0.9212, -0.8724],
        [-1.6447,  0.8576, -1.0110],
        [-0.9793, -0.2535, -0.2209],
        [-0.6904,  0.6391, -0.5611],
        [-0.0524,  0.0779, -0.9253],
        [ 1.6466, -0.7668, -0.0475]], requires_grad=True)
