# 1. nn.Embedding()을 사용하지 않고 룩업 테이블 과정 구현

In [6]:
import torch

In [7]:
train_data = "you need to know how to code"
word_set = set(train_data.split())
vocab = {word : i+2 for i, word in enumerate(word_set)}
vocab['<unk>'] = 0
vocab['<pad>'] = 1
print(vocab)

{'code': 2, 'you': 3, 'know': 4, 'how': 5, 'to': 6, 'need': 7, '<unk>': 0, '<pad>': 1}


In [8]:
embedding_table = torch.FloatTensor([
                               [ 0.0,  0.0,  0.0],
                               [ 0.0,  0.0,  0.0],
                               [ 0.2,  0.9,  0.3],
                               [ 0.1,  0.5,  0.7],
                               [ 0.2,  0.1,  0.8],
                               [ 0.4,  0.1,  0.1],
                               [ 0.1,  0.8,  0.9],
                               [ 0.6,  0.1,  0.1]])

In [10]:
sample = "you need to run".split()
idx = []
for word in sample:
    try:
        idx.append(vocab[word])
    except KeyError:
        idx.append(vocab["<unk>"])
idx = torch.LongTensor(idx)

# 룩업 테이블
lookup_result = embedding_table[idx, :]
print(lookup_result)

tensor([[0.1000, 0.5000, 0.7000],
        [0.6000, 0.1000, 0.1000],
        [0.1000, 0.8000, 0.9000],
        [0.0000, 0.0000, 0.0000]])


# 2. nn.Embedding()을 사용하여 룩업 테이블 생성하기

In [11]:
import torch
import torch.nn as nn

In [14]:
train_data = "you need to know how to code"
word_set = set(train_data.split())
vocab = {word : i + 2 for i, word in enumerate(word_set)}
vocab["<unk>"] = 0
vocab["<pad>"] = 1
print(vocab)

{'code': 2, 'you': 3, 'know': 4, 'how': 5, 'to': 6, 'need': 7, '<unk>': 0, '<pad>': 1}


In [16]:
embedding_layer = nn.Embedding(num_embeddings=len(vocab),
                               embedding_dim=3,
                               padding_idx=1)
# num_embeddings : 임베딩을 할 단어들의 개수. 다시 말해 단어 집합의 크기입니다.
# embedding_dim : 임베딩 할 벡터의 차원입니다. 사용자가 정해주는 하이퍼파라미터입니다.
# padding_idx : 선택적으로 사용하는 인자입니다. 패딩을 위한 토큰의 인덱스를 알려줍니다.

In [18]:
print(embedding_layer.weight)

Parameter containing:
tensor([[-0.0330,  0.4651,  2.0430],
        [ 0.0000,  0.0000,  0.0000],
        [-0.7721, -0.3314, -0.4802],
        [-0.1890,  0.4437, -0.0338],
        [ 1.2807,  1.1244,  1.3250],
        [-0.1702, -0.9906,  0.9177],
        [-1.3751, -0.5966,  0.7922],
        [ 1.7869,  0.0086,  1.8256]], requires_grad=True)
