임베딩 층

임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩
어떤 단어 -> 단어에 부여한 고유된 정수값 -> 임베딩 층 통과 -> 밀집 벡터

임베딩 층
 - 입력 정수에 대해 밀집 벡터로 맵핑
 - 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련
 - 훈련 과정에서 단어는 업데이트 ==> 밀집 벡터를 임베딩 벡터

정수 => 밀집 벡터 또는 임베딩 벡터로 맵핑하는 의미
 - 특정 단어와 맵핑되는 정수를 인덱스로 가지는 테이블로부터
 - 임베딩 벡터값을 가져오는 룩업 테이블
 - 이 테이블은 단어 집합의 크기만큼의 행 가지며 모든 단어는 고유한 임베딩 벡터 가짐

룩업 테이블


텍스트전처리
 - 토큰화                                       ==> 최적 토큰화 패키지
 - 전제(불용어,구두점,개발자가 지정한 제거 문자)   ==> 불용어, 구두점
 - 단어사전(정수)
 - 문장 == 수치화
 - 문장 길이 통일, 패딩
 - 정수 수치화 ==> One-Hot Encoding 변환 : 파이토치는 필요없음

[모델]
 - 임베딩 층 : 차원 축소 [예 : 샘플 5개, 3000개 피쳐 ===> 샘플 5개 , 30개 피쳐]
 - RNN/LSTM/GRU 층
 - 

In [7]:
import torch
import torch.nn as nn

In [1]:
## 단어 사전 생성
train_data = 'you need to know how to code'

word_set = set(train_data.split())

vocab = {word: i+2 for i, word in enumerate(word_set)}
vocab['<pad>'] = 0
vocab['<unk>'] = 1

print(vocab)

{'know': 2, 'you': 3, 'how': 4, 'need': 5, 'to': 6, 'code': 7, '<pad>': 0, '<unk>': 1}


In [3]:
## 임의의 임베딩의 룩업 테이블
embedding_table=torch.FloatTensor([
    [0.0,0.0,0.0],
    [0.0,0.0,0.0],
    [0.2,0.9,0.7],
    [0.1,0.5,0.7],
    [0.2,0.1,0.8],
    [0.4,0.1,0.1],
    [0.1,0.8,0.9],
    [0.6,0.1,0.1],
])

In [6]:
# ## 토큰 정수 ==> 임베딩 벡터 변환
# sample = 'you need to run'.split()
# idxes = []

# # 각 단어를 정수로 변환
# for word in sample:
#     try:
#         idxes.append(vocab[word])
#     except KeyError:
#         idxes.append(vocab['<unk'])

#     # 텐서화 진행
#     idxes = torch.LongTensor(idxes)
#     print(f'idxes : {idxes}')

#     # 각정수를 인덱스로 임베딩 테이블에서 값 가져오기
#     lookup_result = embedding_table[idxes, :]
#     print(lookup_result)

In [5]:
# 토큰 정수 ==> 임베팅 벡터 변환
sample='you need to run'.split()
idxes=[]

# 각 단어를 정수로 변환
for word in sample:
    try:
        idxes.append(vocab[word])
    # 단어 집합에 없는 단어일 경우 <unk> 대체
    except KeyError:
        idxes.append(vocab['<unk>'])

# 텐서화진행
idxes=torch.LongTensor(idxes)
print(f'idxes : {idxes}')

# 각 정수를 인덱스로 임베딩 테이블에서 값 가져오기
lookup_result=embedding_table[idxes,:]
print(lookup_result)

idxes : tensor([3, 5, 6, 1])
tensor([[0.1000, 0.5000, 0.7000],
        [0.4000, 0.1000, 0.1000],
        [0.1000, 0.8000, 0.9000],
        [0.0000, 0.0000, 0.0000]])


In [8]:
## Pytorch Embedding Layer
embedding_layer = nn.Embedding(num_embeddings = len(vocab),
                               embedding_dim = 3,
                               padding_idx = 0)

In [9]:
print(embedding_layer.weight)

Parameter containing:
tensor([[ 0.0000,  0.0000,  0.0000],
        [-1.9144,  0.3982, -2.1167],
        [-0.1914, -0.1125, -0.3595],
        [ 0.0340,  1.3777,  0.5103],
        [-0.1155, -0.0520, -1.5670],
        [ 0.1624, -0.0702,  1.6088],
        [-0.2172,  0.3367,  0.5349],
        [-0.7229, -1.2695, -0.8125]], requires_grad=True)
