## 👉 09-07. 파이토치(PyTorch)의 nn.Embedding()

* 파이토치에서 임베딩을 사용하는 2가지 방법
    * 첫 번째 방법 : Embedding Layer을 만들어서 직접 훈련시킨다.
    * 두 번째 방법 : Pre-trained Word Embedding를 가져온다.

## 1. 임베딩 층은 룩업 테이블이다.

* 특정 단어  단어에 부여된 → 고유한 정수값 → 임베딩 층(룩업 테이블) 통과 → 밀집 벡터

In [1]:
import torch

In [2]:
train_data = "you need to know how to code"

word_set = set(train_data.split())

vocab = {word : i+2 for i, word in enumerate(word_set)}
vocab["<unk>"] = 0
vocab["<pad>"] = 1
print(vocab)

{'know': 2, 'need': 3, 'you': 4, 'code': 5, 'to': 6, 'how': 7, '<unk>': 0, '<pad>': 1}


In [3]:
embedding_table = torch.FloatTensor([
                               [ 0.0,  0.0,  0.0],
                               [ 0.0,  0.0,  0.0],
                               [ 0.2,  0.9,  0.3],
                               [ 0.1,  0.5,  0.7],
                               [ 0.2,  0.1,  0.8],
                               [ 0.4,  0.1,  0.1],
                               [ 0.1,  0.8,  0.9],
                               [ 0.6,  0.1,  0.1]])

In [4]:
sample = "you need to run".split()
idxes = []

for word in sample:
    try:
        idxes.append(vocab[word])
    except KeyError:
        idxes.append(vocab["<unk>"])
idxes = torch.LongTensor(idxes)

lookup_result = embedding_table[idxes, :]
print(lookup_result)

tensor([[0.2000, 0.1000, 0.8000],
        [0.1000, 0.5000, 0.7000],
        [0.1000, 0.8000, 0.9000],
        [0.0000, 0.0000, 0.0000]])


## 2. 임베딩 층 사용하기

In [5]:
import torch.nn as nn

In [6]:
train_data = "you need to know how to code"

word_set = set(train_data.split())

vacab = {tkn : i+2 for i, tkn in enumerate(word_set)}
vocab["<unk>"] = 0
vocab["<pad>"] = 1

In [7]:
embedding_layer = nn.Embedding(num_embeddings=len(vocab),
                              embedding_dim=3,
                              padding_idx=1)

In [8]:
print(embedding_layer.weight)

Parameter containing:
tensor([[-0.6286,  0.2191,  0.4951],
        [ 0.0000,  0.0000,  0.0000],
        [ 0.5386, -0.4040, -1.3977],
        [ 0.1284, -0.0811,  1.3559],
        [ 0.2772,  1.0017, -1.4722],
        [-0.3680, -0.1215, -0.2049],
        [-1.6412,  3.8173,  0.8596],
        [-0.4979,  0.6664, -0.2072]], requires_grad=True)
