##### 임베딩 층
- 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩
- 어떤 단어 => 단어에 부여된 고유한 정수값 => 임베딩 층 통과 => 밀집 벡터
- 임베딩 층
    * 입력 정수에 대해 밀집 벡터(dense vector)로 맵핑
    * 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련
    * 훈련 과정에서 단어는 업데이트 => 밀집 벡터

[텍스트전처리]
- 토큰화 => 최적 토큰화 패키지
- 정제(불용어, 구두점, 개발자 지정 제거 문자) => 불용어, 구두점
- 단어사전(정수)
- 문장 => 수치화
- 문장 길이 통일, 패딩
- 정수 수치화 => One-Hot Encoding 변환 : 파이토치는 필요 없음

[모델]
- 임베딩 층 : 차원축소 (예 : 샘플 5개, 3000개 피쳐 => 샘플 5개, 30개 피쳐)
- RNN/LSTM/GRU 층

In [1]:
# 단어 사전 생성
train_data='you need to know how to code'

# 중복을 제거한 단어들의 집합인 단어 집합 생성
word_set=set(train_data.split())

# 단어 집합의 각 단어에 고유한 정수 맵핑
vocab={word: i+2 for i, word in enumerate(word_set)}
vocab['<pad>']=0
vocab['<unk>']=1

print(vocab)

{'how': 2, 'you': 3, 'to': 4, 'need': 5, 'know': 6, 'code': 7, '<pad>': 0, '<unk>': 1}


In [2]:
import torch
import torch.nn as nn

In [3]:
embedding_table=torch.FloatTensor([
    [ 0.0, 0.0, 0.0],
    [ 0.0, 0.0, 0.0],
    [ 0.2, 0.9, 0.3],
    [ 0.1, 0.5, 0.7],
    [ 0.2, 0.1, 0.8],
    [ 0.4, 0.1, 0.1],
    [ 0.1, 0.8, 0.9],
    [ 0.6, 0.1, 0.1],
])

In [4]:

# 토큰 정수 => 임베딩 벡터 변환
sample='you need to run'.split()
idxes=[]

In [6]:
# 각 단어를 정수로 변환
for word in sample:
    try:
        idxes.append(vocab[word])
    # 단어 집합에 없는 단어일 경우 <unk> 대체
    except KeyError:
        idxes.append(vocab['<unk>'])

# 텐서화 진행
idxes=torch.LongTensor(idxes)
print(f'idxes : {idxes}')

# 각 정수를 인덱스로 임베딩 테이블에서 값 가져오기
lookup_result=embedding_table[idxes, :]
print(lookup_result)

idxes : tensor([3, 5, 4, 1])
tensor([[0.1000, 0.5000, 0.7000],
        [0.4000, 0.1000, 0.1000],
        [0.2000, 0.1000, 0.8000],
        [0.0000, 0.0000, 0.0000]])


In [7]:
embedding_layer=nn.Embedding(num_embeddings=len(vocab),
                             embedding_dim=3,
                             padding_idx=0)

In [8]:
print(embedding_layer.weight)

Parameter containing:
tensor([[ 0.0000,  0.0000,  0.0000],
        [-0.5940, -0.0068, -0.2275],
        [ 1.7897, -0.7153, -1.0196],
        [ 2.0889, -0.1193,  0.5470],
        [-0.6928, -0.3933,  1.6936],
        [ 1.1345, -1.4308,  0.3444],
        [ 1.4681,  1.8901, -0.2095],
        [ 0.9205,  1.2596, -0.8793]], requires_grad=True)
