## 1. 임베딩 층은 룩업 테이블이다.

In [1]:
import torch
import torch.nn as nn

In [2]:
train_data = 'you need to know how to code'

# 중복을 제거한 단어들의 집합인 단어 집합 생성.
word_set = set(train_data.split())

# 단어 집합의 각 단어에 고유한 정수 맵핑.
vocab = {word: i+2 for i, word in enumerate(word_set)}
vocab['<unk>'] = 0
vocab['<pad>'] = 1
print(vocab)

{'code': 2, 'to': 3, 'know': 4, 'how': 5, 'need': 6, 'you': 7, '<unk>': 0, '<pad>': 1}


In [4]:
# 단어 집합의 크기만큼의 행을 가지는 테이블 생성.
embedding_table = torch.FloatTensor(
    [
        [0.0, 0.0, 0.0],
        [0.0, 0.0, 0.0],
        [0.2, 0.9, 0.3],
        [0.1, 0.5, 0.7],
        [0.2, 0.1, 0.8],
        [0.4, 0.1, 0.1],
        [0.1, 0.8, 0.9],
        [0.6, 0.1, 0.1],
    ]
)

In [5]:
sample = 'you need to run'.split()
idxes = []

# 각 단어를 정수로 변환
for word in sample:
  try: # vocab 딕셔너리는 단어에 인덱스를 매핑한 딕셔너리다.
    idxes.append(vocab[word])
  # 단어 집합에 없는 단어일 경우 <unk>로 대체된다.
  except KeyError:
    idxes.append(vocab['<unk>'])
idxes = torch.LongTensor(idxes)

# 각 정수를 인덱스로 임베딩 테이블에서 값을 가져온다.
lookup_result = embedding_table[idxes, :]
print(lookup_result)

tensor([[0.6000, 0.1000, 0.1000],
        [0.1000, 0.8000, 0.9000],
        [0.1000, 0.5000, 0.7000],
        [0.0000, 0.0000, 0.0000]])


## 2. 임베딩 층 사용하기

In [6]:
train_data = 'you need to know how to code'

# 중복을 제거한 단어들의 집합인 단어 집합 생성.
word_set = set(train_data.split())

# 단어 집합의 각 단어에 고유한 정수 맵핑.
vocab = {tkn: i+2 for i, tkn in enumerate(word_set)}
vocab['<unk>'] = 0
vocab['<pad>'] = 1

In [9]:
embedding_layer = nn.Embedding(num_embeddings=len(vocab),
                               embedding_dim=3,
                               padding_idx=1)

In [10]:
print(embedding_layer.weight)

Parameter containing:
tensor([[ 0.7832, -0.9979, -0.1355],
        [ 0.0000,  0.0000,  0.0000],
        [-0.2762,  1.2631,  0.2748],
        [-1.6141,  0.1397, -0.8243],
        [ 0.2771, -1.1652, -0.1700],
        [ 0.5433, -0.5194, -1.0798],
        [ 0.8225, -1.0602, -0.4281],
        [ 1.2721,  0.0168, -0.7378]], requires_grad=True)
