## Embedding 

Embedding은 raw data를 모델이 해석할 수 있는 입력값으로 바꿔주는 함수라고 할 수 있다. `nn.Embedding()`으로 이미 함수가 존재하여 raw data를 입력으로 넣으면 알아서 ebedding이 되고 모델의 성능이 잘 나오도록 학습된다. 

### Lookup table

`nn.Embedding()` 함수를 사용하지 않고 다음과 같이 작성하면 이해가 쉽다.

In [8]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [1]:
data = 'you need to know how to code'

In [3]:
word_set = set(data.split())
word_set

{'code', 'how', 'know', 'need', 'to', 'you'}

In [5]:
vocab = {word: i + 2 for i, word in enumerate(word_set)}
vocab['<unk>'] = 0
vocab['<pad>'] = 1
vocab

{'you': 2,
 'to': 3,
 'how': 4,
 'need': 5,
 'code': 6,
 'know': 7,
 '<unk>': 0,
 '<pad>': 1}

In [12]:
lookup_table = torch.FloatTensor([
                               [ 0.0,  0.0,  0.0],
                               [ 0.0,  0.0,  0.0],
                               [ 0.2,  0.9,  0.3],
                               [ 0.1,  0.5,  0.7],
                               [ 0.2,  0.1,  0.8],
                               [ 0.4,  0.1,  0.1],
                               [ 0.1,  0.8,  0.9],
                               [ 0.6,  0.1,  0.1]])
lookup_table.shape

torch.Size([8, 3])

In [13]:
test = 'you need to run'.split()

ids = []
for word in test:
    try:
        ids.append(vocab[word])
    except:
        ids.append(vocab['<unk>'])
ids = torch.LongTensor(ids)

res = lookup_table[ids, :]
res

tensor([[0.2000, 0.9000, 0.3000],
        [0.4000, 0.1000, 0.1000],
        [0.1000, 0.5000, 0.7000],
        [0.0000, 0.0000, 0.0000]])

### nn.Embedding()

In [16]:
nn_embed = nn.Embedding(num_embeddings=len(vocab),
                         embedding_dim=3,
                         padding_idx=1)

nn_embed.weight

Parameter containing:
tensor([[-2.1732,  1.4045,  0.3221],
        [ 0.0000,  0.0000,  0.0000],
        [-0.4680,  0.5373,  0.2338],
        [ 0.3232,  1.9299,  0.5548],
        [-1.2547,  0.4103,  0.9569],
        [-1.4597,  2.3673,  0.8429],
        [-0.2507, -1.1075,  0.8831],
        [-0.6311, -0.6794, -0.6736]], requires_grad=True)