## 임베딩 층
- 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩
- 어떤 단어 -> 단어에 부여된 고유한 정수값 -> 임베딩 층 통과 -> 밀집벡터
- 임베딩 층 
    - 입력 정수에 대해 밀집 벡터 (dense vector)로 맵핑
    - 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련
    - 훈련 과정에서 단어는 업데이트 ==> 밀집벡터를 임베딩 벡터
- 룩업 테이블 
    - 파이토치는 단어를 정수 인덱스로 바꾸고 원-핫 벡터로 한번 더 바꾸고나서 
    - 임베딩 층의 입력으로 사용하는 것이 아니라, 
    - 단어를 정수 인덱스로만 바꾼채로 임베딩 층의 입력으로 사용해도 
    - 룩업 테이블 된 결과인 임베딩 벡터를 리턴

In [11]:
## 단어 사전 생성
train_data='you need to know how to code'

# 중복을 제거한 단어들의 집합인 단어 집합 생성
word_set=set(train_data.split())

# 단어 집합의 각 단어에 고유한 정수 맵핑.
vocab={word:i+2 for i , word in enumerate(word_set)}
vocab['<pad>']=0
vocab['<unk>']=1

print(vocab)

{'to': 2, 'you': 3, 'know': 4, 'need': 5, 'code': 6, 'how': 7, '<pad>': 0, '<unk>': 1}


In [12]:
import torch
import torch.nn as nn

In [13]:
embedding_table=torch.FloatTensor([
    [0.0,0.0,0.0],
    [0.0,0.0,0.0],
    [0.2,0.9,0.7],
    [0.1,0.5,0.7],
    [0.2,0.1,0.8],
    [0.4,0.1,0.1],
    [0.1,0.8,0.9],
    [0.6,0.1,0.1],
])

In [14]:
# 토큰 정수 ==> 임베팅 벡터 변환
sample='you need to run'.split()
idxes=[]

# 각 단어를 정수로 변환
for word in sample:
    try:
        idxes.append(vocab[word])
    # 단어 집합에 없는 단어일 경우 <unk> 대체
    except KeyError:
        idxes.append(vocab['<unk>'])

# 텐서화진행
idxes=torch.LongTensor(idxes)
print(f'idxes : {idxes}')

# 각 정수를 인덱스로 임베딩 테이블에서 값 가져오기
lookup_result=embedding_table[idxes,:]
print(lookup_result)

idxes : tensor([3, 5, 2, 1])
tensor([[0.1000, 0.5000, 0.7000],
        [0.4000, 0.1000, 0.1000],
        [0.2000, 0.9000, 0.7000],
        [0.0000, 0.0000, 0.0000]])


In [15]:
### Pytorch Embedding Layer
embedding_layer=nn.Embedding(num_embeddings=len(vocab),
                             embedding_dim=3,
                             padding_idx=0)

In [16]:
print(embedding_layer.weight)

Parameter containing:
tensor([[ 0.0000e+00,  0.0000e+00,  0.0000e+00],
        [ 7.3262e-01, -2.1042e+00, -6.2136e-01],
        [ 1.7430e-01,  1.9166e+00,  4.8954e-01],
        [-1.9341e-01, -7.1637e-01,  1.5404e-01],
        [ 1.1111e+00, -1.6998e-01,  4.7688e-01],
        [-8.1482e-01, -2.1617e-01, -1.6039e-01],
        [ 4.3908e-01, -1.3064e-03,  2.4630e+00],
        [ 2.7211e-01, -3.2354e-01, -1.6252e-01]], requires_grad=True)
