In [1]:
import torch
import torch.nn

In [2]:
#사전에 등록된 단어에 대한 embedding (사전에 단어가 이 정도라고 가정)

vocab = {
    '청년': 0,
    'AI': 1,
    'BIGDATA': 2,
    'NLP': 3,
    '인공지능': 4,
    'embedding': 5,
    '실습': 6
}

In [4]:
#weight matrix 설정

dim=10
emb_mtx = torch.nn.Embedding(len(vocab), dim) #행은 단어의 개수(사전의 크기), 열은 하이퍼파라미터로 설정

print(emb_mtx)
print(emb_mtx.weight) #

Embedding(7, 10)
Parameter containing:
tensor([[ 0.0872, -1.4790, -0.9969, -0.2104,  0.0785, -0.4328, -0.5781, -1.7808,
          0.3627, -0.6589],
        [-0.9827,  1.2339,  0.5383,  0.5564,  0.3178, -0.0818,  1.3327, -1.6270,
          0.0414,  1.6149],
        [ 0.2427,  0.1135,  0.5664,  0.0369,  0.0078, -1.2350,  0.5184, -1.8191,
          0.3577, -0.6100],
        [ 0.2125,  0.9560,  0.2885,  0.2823, -0.3762,  2.1083, -0.6447,  0.6969,
         -0.8811,  0.5818],
        [ 0.0640, -0.2242, -0.1968, -0.2314, -0.3154,  0.9090,  0.0802, -1.9778,
         -0.5906,  0.3587],
        [-1.7746,  1.0777, -0.9783,  0.6325, -0.9003, -2.4077, -0.7904, -0.7877,
          1.4719, -1.3309],
        [ 1.2571, -1.3857,  0.8845,  0.2980, -0.0672,  0.0432, -0.8921,  0.6939,
          0.0297,  0.9928]], requires_grad=True)


In [5]:
## Practice 1 ##

# print word embedding of '청년'
idx = torch.tensor([vocab['청년']], dtype=torch.long) 
#dtype은 long 타입을 int 타입을 넣거나 하면 되는데, 유효 자리 수가 더 길어지냐 마냐의 정도 차이 (그냥 보통 long을 넣는 게 안전하다)
#torch.tensor에 넣을 때는 리스트로 넣어줘야 하기 때문에, 무조건 list로 묶어서 넣는다.
# practice: make index tensor for '청년'
print(idx)
emb_mtx(idx) # feed index tensor to emb_mtx
#torch.tensor로 그냥 idx 자체를 weight matrix에 넣으면, one-hot 할 필요 없이 자동으로 구해줌

tensor([0])


tensor([[ 0.0872, -1.4790, -0.9969, -0.2104,  0.0785, -0.4328, -0.5781, -1.7808,
          0.3627, -0.6589]], grad_fn=<EmbeddingBackward>)

In [8]:
## Practice 2 ##
#문장의 형태에서 embedding

# print word embeddings for a given sentence: "청년 AI BIGDATA"
sent = ['청년', 'AI', 'BIGDATA'] #문장을 띄어쓰기 기준으로 분리
idxs = [] #빈 리스트 > torch.tensor할 리스트를 만들어 둠

#넣어준 데이터 sent에서 vocab[word](사전에서의 개수)를 인덱스 리스트에 추가
for word in sent:
    idx = vocab[word] # practice: convert word into index
    idxs.append(idx) # append idx to idxs

#리스트라서 그냥 적어도 되고, long으로 타입 받아본다.
idxs = torch.tensor(idxs, dtype=torch.long) # practice: convert index list to tensor
print(idxs, idxs.size())
print('')

emb = emb_mtx(idxs) #weight matrix 거친 값
# practice: convert idxs into word embedding
print(emb, emb.size())

tensor([0, 1, 2]) torch.Size([3])

tensor([[ 0.0872, -1.4790, -0.9969, -0.2104,  0.0785, -0.4328, -0.5781, -1.7808,
          0.3627, -0.6589],
        [-0.9827,  1.2339,  0.5383,  0.5564,  0.3178, -0.0818,  1.3327, -1.6270,
          0.0414,  1.6149],
        [ 0.2427,  0.1135,  0.5664,  0.0369,  0.0078, -1.2350,  0.5184, -1.8191,
          0.3577, -0.6100]], grad_fn=<EmbeddingBackward>) torch.Size([3, 10])


In [9]:
## Practice 03 ##
#batch(2개 이상의 문장)의 embedding
# construct batch level word embeddings: ["청년 AI BIGDATA", "NLP embedding 실습"]
sents = [['청년', 'AI', 'BIGDATA'],
         ['NLP', 'embedding', '실습']]
#sents의 사이즈는 행: 문장 개수, 열: 문장의 길이
batch_idxs = [] #빈리스트 생성 > torch.tensor

for sent in sents:
    idxs = []
    for word in sent:
        idx = vocab[word] # practice: convert word into index
        idxs.append(idx)  # append idx to idxs
    batch_idxs.append(idxs) # append idxs to batch idx

batch_idxs = torch.tensor(batch_idxs, dtype = torch.long) # practice: convert batch idx to tensor
print(batch_idxs, batch_idxs.size()) 
print('')

emb = emb_mtx(batch_idxs) # practice: convert idxs into word embedding
print(emb, emb.size())

tensor([[0, 1, 2],
        [3, 5, 6]]) torch.Size([2, 3])

tensor([[[ 0.0872, -1.4790, -0.9969, -0.2104,  0.0785, -0.4328, -0.5781,
          -1.7808,  0.3627, -0.6589],
         [-0.9827,  1.2339,  0.5383,  0.5564,  0.3178, -0.0818,  1.3327,
          -1.6270,  0.0414,  1.6149],
         [ 0.2427,  0.1135,  0.5664,  0.0369,  0.0078, -1.2350,  0.5184,
          -1.8191,  0.3577, -0.6100]],

        [[ 0.2125,  0.9560,  0.2885,  0.2823, -0.3762,  2.1083, -0.6447,
           0.6969, -0.8811,  0.5818],
         [-1.7746,  1.0777, -0.9783,  0.6325, -0.9003, -2.4077, -0.7904,
          -0.7877,  1.4719, -1.3309],
         [ 1.2571, -1.3857,  0.8845,  0.2980, -0.0672,  0.0432, -0.8921,
           0.6939,  0.0297,  0.9928]]], grad_fn=<EmbeddingBackward>) torch.Size([2, 3, 10])
