In [1]:
# https://wikidocs.net/64779 참고

In [2]:
import torch

## Table을 만들어서 사용

In [3]:
train_data = 'you need to know how to code'

# 중복을 제거한 단어들의 집합인 단어 집합 생성.
word_set = set(train_data.split())

# 단어 집합의 각 단어에 고유한 정수 맵핑.
vocab = {word: i+2 for i, word in enumerate(word_set)}
vocab['<unk>'] = 0
vocab['<pad>'] = 1
print(vocab)

{'need': 2, 'to': 3, 'code': 4, 'know': 5, 'you': 6, 'how': 7, '<unk>': 0, '<pad>': 1}


In [4]:
# 단어 집합의 크기만큼의 행을 가지는 테이블 생성.
# 3차원으로 결정
# 초기 값은 랜덤으로 설정
embedding_table = torch.FloatTensor([
                               [ 0.0,  0.0,  0.0],
                               [ 0.0,  0.0,  0.0],
                               [ 0.2,  0.9,  0.3],
                               [ 0.1,  0.5,  0.7],
                               [ 0.2,  0.1,  0.8],
                               [ 0.4,  0.1,  0.1],
                               [ 0.1,  0.8,  0.9],
                               [ 0.6,  0.1,  0.1]])

In [5]:
sample = 'you need to run'.split()
idxes = []

# 각 단어를 정수로 변환
for word in sample:
    try:
        idxes.append(vocab[word])
        
    # 단어 집합에 없는 단어일 경우 <unk>로 대체된다.
    except KeyError:
        idxes.append(vocab['<unk>'])
idxes = torch.LongTensor(idxes)

# 각 정수를 인덱스로 임베딩 테이블에서 값을 가져온다.
lookup_result = embedding_table[idxes, :]
print(lookup_result)

tensor([[0.1000, 0.8000, 0.9000],
        [0.2000, 0.9000, 0.3000],
        [0.1000, 0.5000, 0.7000],
        [0.0000, 0.0000, 0.0000]])


## nn.Embedding 사용

In [6]:
train_data = 'you need to know how to code'

# 중복을 제거한 단어들의 집합인 단어 집합 생성.
word_set = set(train_data.split())

# 단어 집합의 각 단어에 고유한 정수 맵핑.
vocab = {tkn: i+2 for i, tkn in enumerate(word_set)}
vocab['<unk>'] = 0
vocab['<pad>'] = 1

In [7]:
import torch.nn as nn
embedding_layer = nn.Embedding(num_embeddings=len(vocab), 
                               embedding_dim=3,
                               padding_idx=1)

### nn.Embedding은 크게 두가지 인자를 받음
- num_embeddings : 임베딩 할 단어의 개수, 단어 집합 크기
- embedding_dim : 임베딩 할 벡터의 차원, 사용자가 정해주는 하이퍼파라미터

+
- padding_idx : 선택적으로 사용하는 인자, 패딩을 위한 토큰의 인덱스를 지정

Table을 직접 만들지 않아도 nn.Embedding()을 통해 만들어줌

In [8]:
print(embedding_layer.weight)

Parameter containing:
tensor([[ 0.8579,  0.5504,  0.2972],
        [ 0.0000,  0.0000,  0.0000],
        [ 0.6651,  0.7770, -0.7003],
        [ 0.0606, -0.3395, -0.6762],
        [ 0.2030,  0.2243,  0.3166],
        [-0.7498, -1.8797,  0.4795],
        [ 0.8300, -0.1493, -0.0649],
        [ 0.7026,  1.0433,  0.5110]], requires_grad=True)
