## embedding in pytorch (remainder)

- sparse representation : vocab 사이즈가 커지면 벡터의 차원도 같이 커진다. 고차원에 각 차원이 분리된 표현 방법
- dense representation : 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춤. 0/1이 아니라 실수값을 가진다. 저차원의 단어의 의미를 여러 차원에다가 분산하여 표현.
    - word embedding : 단어를 dense vector로 표현. 
        - LSA, Word2Vec, FastText, GloVe
        - Word2Vec (distributed representation): 단어의 의미를 다차원 공간에 벡터화. projection layer=1개의 shallow NN(활성화 함수 없음)
            - CBOW : 주변에 있는 단어로 중간 단어를 예측.
            - skip-gram : 중간에 있는 단어로 주변 단어를 예측.

pytroch의 nn.embedding()은 단어를 랜덤한 값을 가지는 밀집 벡터로 변환한 후에, 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습한다  
1. input은 모두 encoding(integer)해야함
- 단어 -> 단어의 고유한 정수 -> 임베딩 -> dense vector  
임베딩은 정수에 대해 dense vector로 맵핑하고, dense vector는 train된다

2. 단어 -> 정수 -> lookup table(train) -> 임베딩 벡터

In [4]:
import torch
import torch.nn as nn
torch.manual_seed(0)

<torch._C.Generator object at 0x11159bd30>

In [1]:
sample = 'I want to test pytorch embedding and understand how to code'
word_set = set(sample.split(' '))
vocab = {word: i+2 for i, word in enumerate(word_set)}
vocab['<unk>']= 0
vocab['<pad>']=1
vocab

{'embedding': 2, 'how': 3, 'pytorch': 4, 'test': 5, 'and': 6, 'code': 7, 'I': 8, 'understand': 9, 'to': 10, 'want': 11, '<unk>': 0, '<pad>': 1}

In [8]:
# embedding table
embedding_t = torch.rand((len(vocab), 3))

In [9]:
idxes = []
for w in sample.split(' '):
    try:
        idxes.append(vocab[w])
    except KeyError:
        idxes.append(vocab['<unk>'])
idxes = torch.LongTensor(idxes)
idxes

tensor([ 8, 11, 10,  5,  4,  2,  6,  9,  3, 10,  7])

In [11]:
# 각 정수(단어)를 인덱스로 임베딩 테이블 값을 지정한다.
lookup_r = embedding_t[idxes, :]
lookup_r

tensor([[0.4369, 0.5191, 0.6159],
        [0.9351, 0.9412, 0.5995],
        [0.3168, 0.6965, 0.9143],
        [0.5932, 0.1123, 0.1535],
        [0.5675, 0.8352, 0.2056],
        [0.7932, 0.2783, 0.4820],
        [0.2417, 0.7262, 0.7011],
        [0.8102, 0.9801, 0.1147],
        [0.8198, 0.9971, 0.6984],
        [0.3168, 0.6965, 0.9143],
        [0.2038, 0.6511, 0.7745]])

## nn.Embedding

In [14]:
embedding_layer = nn.Embedding(num_embeddings=len(vocab),
                              embedding_dim=3,
                              padding_idx=1)

In [15]:
embedding_layer.weight

Parameter containing:
tensor([[-3.1700e-01, -1.0925e+00, -8.5194e-02],
        [ 0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 8.9182e-04,  8.4189e-01,  1.8541e-01],
        [ 6.2114e-01,  6.3818e-01, -2.4600e-01],
        [ 2.3025e+00, -1.8817e+00, -4.9727e-02],
        [-1.0450e+00,  7.9150e-01, -2.0252e-02],
        [-4.3717e-01,  1.6459e+00, -2.4351e+00],
        [-7.2915e-02, -3.3986e-02,  9.6252e-01],
        [ 3.4917e-01, -9.2146e-01, -5.6195e-02],
        [-7.0152e-01, -4.6372e-01,  1.9218e+00],
        [-4.0255e-01,  1.2390e-01,  1.1648e+00],
        [ 9.2337e-01,  1.3873e+00,  1.3750e+00]], requires_grad=True)