In [2]:
import torch
import torch.nn as nn
from torchtext.vocab import Vectors
from torchtext import data, datasets

In [3]:
TEXT = data.Field(sequential=True, batch_first=True, lower=True)
LABEL = data.Field(sequential=False, batch_first=True)

In [4]:
trainset, testset = datasets.IMDB.splits(TEXT, LABEL)

In [5]:
from torchtext.vocab import GloVe

In [6]:
# fasttext.en.300d                      
# fasttext.simple.300d                  
# glove.42B.300d                        
# glove.840B.300d                       
# glove.twitter.27B.25d                 
# glove.twitter.27B.50d                 
# glove.twitter.27B.100d                
# glove.twitter.27B.200d                
# glove.6B.50d                          
# glove.6B.100d                         
# glove.6B.200d                         
# glove.6B.300d

TEXT.build_vocab(trainset, vectors=GloVe(name='6B', dim=300), max_size=10000, min_freq=10)
LABEL.build_vocab(trainset)

In [7]:
print('임베딩 벡터의 개수와 차원 : {} '.format(TEXT.vocab.vectors.shape))

임베딩 벡터의 개수와 차원 : torch.Size([10002, 300]) 


In [8]:
print(TEXT.vocab.vectors[0]) # <unk>의 임베딩 벡터값

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

In [9]:
print(TEXT.vocab.vectors[1]) # <pad>의 임베딩 벡터값

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

In [10]:
print(TEXT.vocab.vectors[10]) # this의 임베딩 벡터값

tensor([-2.0437e-01,  1.6431e-01,  4.1794e-02, -1.3708e-01, -2.9779e-01,
         3.3440e-01, -6.9955e-02, -6.8036e-02,  1.0604e-01, -2.0337e+00,
         1.7977e-01, -7.7403e-02, -1.9518e-01,  1.8324e-01,  3.0017e-02,
        -5.4762e-02, -4.5725e-01, -2.4509e-02,  5.7387e-02, -3.4878e-01,
         3.9696e-02,  4.4826e-01, -5.8462e-02,  4.1181e-01, -3.5411e-02,
        -1.4722e-01,  1.0740e-01, -2.5896e-01, -1.1658e-01,  1.9822e-01,
         3.2850e-01,  2.4177e-01, -5.7177e-01, -5.6442e-02, -9.6437e-01,
         3.4482e-01,  5.4639e-02,  2.3828e-01, -1.9139e-01,  3.0899e-01,
         2.8044e-01, -3.3814e-02, -2.5436e-01,  1.5373e-02,  1.6341e-01,
         2.6352e-01,  1.5812e-01,  3.2044e-01, -2.3082e-01,  2.6050e-01,
         2.0606e-01, -8.9769e-02, -1.0055e-01,  7.0378e-02, -2.7452e-02,
         2.7959e-01, -9.5862e-02,  2.0574e-01,  2.9522e-01, -1.2285e-02,
         1.1164e-01, -5.1373e-02,  4.6106e-01,  2.3014e-02, -3.7141e-01,
        -2.4166e-01,  3.3773e-02,  3.6827e-02,  1.6

In [11]:
print(TEXT.vocab.vectors[9998]) # seeing의 임베딩 벡터값

tensor([ 2.1607e-02,  2.8610e-03, -1.1791e-03, -6.9019e-01, -7.3577e-02,
         4.4848e-02,  3.8005e-01,  2.9936e-01,  2.2049e-01, -1.6706e+00,
        -5.6216e-02, -2.3440e-01,  4.2755e-01,  2.8036e-02, -7.4572e-01,
        -2.1418e-01, -4.4868e-01,  1.1325e-01, -3.2836e-01, -4.4574e-01,
         3.9914e-03, -4.0180e-01,  4.3386e-02, -6.6737e-01,  1.0483e-01,
        -5.9314e-02,  2.8262e-01,  5.6593e-01, -3.7511e-01,  5.1281e-01,
        -4.0316e-01, -3.0848e-01,  9.0102e-02, -1.3019e-02, -6.3242e-01,
         4.5993e-01,  2.8265e-01,  4.0290e-02,  2.0393e-01, -5.2428e-01,
        -3.6952e-01, -3.1518e-01,  2.9210e-03, -6.2855e-02,  1.6968e-02,
         3.0575e-01,  3.0588e-02,  6.3280e-03,  3.4317e-01,  2.7184e-03,
         1.4211e-01, -1.1396e-02,  2.2705e-01, -3.2760e-01,  4.2807e-01,
        -4.0974e-01, -5.1922e-02, -6.9206e-02, -5.4985e-01,  2.8600e-01,
        -4.0915e-01, -1.6749e-01, -2.2927e-01,  1.6421e-01,  4.3401e-01,
         2.8915e-01,  3.7142e-01, -7.4444e-02,  5.4

In [12]:
embedding_layer = nn.Embedding.from_pretrained(TEXT.vocab.vectors, freeze=False)

In [13]:
print(embedding_layer.embedding_dim)

300
