## Using IMDB review data as training data

In [30]:
import torch
import torch.nn as nn
from torchtext.vocab import Vectors
from torchtext.legacy import data, datasets
from gensim.models import KeyedVectors
from torchtext.vocab import GloVe

In [4]:
TEXT = data.Field(sequential=True, batch_first=True, lower=True)
LABEL = data.Field(sequential=False, batch_first=True)

In [5]:
trainset, testset = datasets.IMDB.splits(TEXT, LABEL)

downloading aclImdb_v1.tar.gz


aclImdb_v1.tar.gz: 100%|██████████| 84.1M/84.1M [00:21<00:00, 3.93MB/s]


In [6]:
print('Size of training data : {}' .format(len(trainset)))

Size of training data : 25000


In [7]:
print(vars(trainset[0]))

{'text': ['for', 'a', 'movie', 'that', 'gets', 'no', 'respect', 'there', 'sure', 'are', 'a', 'lot', 'of', 'memorable', 'quotes', 'listed', 'for', 'this', 'gem.', 'imagine', 'a', 'movie', 'where', 'joe', 'piscopo', 'is', 'actually', 'funny!', 'maureen', 'stapleton', 'is', 'a', 'scene', 'stealer.', 'the', 'moroni', 'character', 'is', 'an', 'absolute', 'scream.', 'watch', 'for', 'alan', '"the', 'skipper"', 'hale', 'jr.', 'as', 'a', 'police', 'sgt.'], 'label': 'pos'}


## Checking pretrained Word2Vec model

In [11]:
word2vec_model = KeyedVectors.load_word2vec_format('../dataset/punkt/eng_w2v')

In [12]:
print(word2vec_model['this'])

[ 0.41237423 -0.40173793 -0.19030268 -0.47487482  0.17101552  1.9634222
 -0.9386157  -0.2541767  -0.17827566  1.5681139  -0.21593682  1.6120319
 -1.2547855  -0.38687736 -0.27799815  1.2774913   0.8133057  -0.5084944
  0.25357205 -1.6029936   0.528238    0.7256684   0.94486576 -0.70858157
  0.4912014  -2.3105843  -1.7756648   0.46488804  0.03967098 -0.1323693
  1.3075948   0.2960277   0.9070871  -1.9766766   0.1978702  -1.1319329
 -1.3083407  -0.26808804  1.6706523  -2.1393409  -0.3959836  -0.72865075
 -1.8998241  -0.43317813 -0.504071   -1.5388873  -0.94332737  1.3004092
 -0.07406762 -1.4345086   0.30321598  0.30422762 -1.8357753   0.28988233
 -0.33083802 -1.9591426  -1.035728    0.02213317 -0.7617007   0.54199463
 -0.8089983  -0.6452749   1.6342394   0.41099605 -0.38492674 -0.73069537
 -0.7576174   1.0925194  -0.75652033  0.20524448 -0.30603978  1.268685
 -2.9661946   1.363108    1.5051506   0.0954047   0.21077555 -0.66317445
  0.41726002 -1.563157   -0.62894857 -0.529535    1.5583583

In [13]:
print(word2vec_model['self-indulgent'])

KeyError: "Key 'self-indulgent' not present"

In [17]:
vectors = Vectors(name="../dataset/punkt/eng_w2v")

100%|██████████| 21613/21613 [00:02<00:00, 9609.78it/s] 


In [18]:
TEXT.build_vocab(trainset, vectors=vectors, max_size=10000, min_freq=10) # Word2Vec 모델을 임베딩 벡터값으로 초기화

In [21]:
# print(TEXT.vocab.stoi)

In [22]:
print('# of embedding vector, dimension : {} '.format(TEXT.vocab.vectors.shape))

# of embedding vector, dimension : torch.Size([10002, 100]) 


In [24]:
print(TEXT.vocab.vectors[0]) # Embedding vector of <unk>

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.])


In [25]:
print(TEXT.vocab.vectors[1]) # Embedding vector of <pad>

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.])


In [26]:
print(TEXT.vocab.vectors[10]) # Embedding vector of <this>

tensor([ 0.4124, -0.4017, -0.1903, -0.4749,  0.1710,  1.9634, -0.9386, -0.2542,
        -0.1783,  1.5681, -0.2159,  1.6120, -1.2548, -0.3869, -0.2780,  1.2775,
         0.8133, -0.5085,  0.2536, -1.6030,  0.5282,  0.7257,  0.9449, -0.7086,
         0.4912, -2.3106, -1.7757,  0.4649,  0.0397, -0.1324,  1.3076,  0.2960,
         0.9071, -1.9767,  0.1979, -1.1319, -1.3083, -0.2681,  1.6707, -2.1393,
        -0.3960, -0.7287, -1.8998, -0.4332, -0.5041, -1.5389, -0.9433,  1.3004,
        -0.0741, -1.4345,  0.3032,  0.3042, -1.8358,  0.2899, -0.3308, -1.9591,
        -1.0357,  0.0221, -0.7617,  0.5420, -0.8090, -0.6453,  1.6342,  0.4110,
        -0.3849, -0.7307, -0.7576,  1.0925, -0.7565,  0.2052, -0.3060,  1.2687,
        -2.9662,  1.3631,  1.5052,  0.0954,  0.2108, -0.6632,  0.4173, -1.5632,
        -0.6289, -0.5295,  1.5584,  0.6484, -0.0663, -2.4497, -1.5420, -0.5492,
        -2.4491,  0.1926, -0.8675,  1.6831,  0.1469,  0.2517,  1.4265, -1.2276,
         0.0342,  0.3148, -0.0481,  0.74

In [27]:
print(TEXT.vocab.vectors[10000]) # Embedding vector of <self-indulgent>

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.])


In [28]:
embedding_layer = nn.Embedding.from_pretrained(TEXT.vocab.vectors, freeze=False)

In [29]:
print(embedding_layer(torch.LongTensor([10]))) # Embedding vector of <this>

tensor([[ 0.4124, -0.4017, -0.1903, -0.4749,  0.1710,  1.9634, -0.9386, -0.2542,
         -0.1783,  1.5681, -0.2159,  1.6120, -1.2548, -0.3869, -0.2780,  1.2775,
          0.8133, -0.5085,  0.2536, -1.6030,  0.5282,  0.7257,  0.9449, -0.7086,
          0.4912, -2.3106, -1.7757,  0.4649,  0.0397, -0.1324,  1.3076,  0.2960,
          0.9071, -1.9767,  0.1979, -1.1319, -1.3083, -0.2681,  1.6707, -2.1393,
         -0.3960, -0.7287, -1.8998, -0.4332, -0.5041, -1.5389, -0.9433,  1.3004,
         -0.0741, -1.4345,  0.3032,  0.3042, -1.8358,  0.2899, -0.3308, -1.9591,
         -1.0357,  0.0221, -0.7617,  0.5420, -0.8090, -0.6453,  1.6342,  0.4110,
         -0.3849, -0.7307, -0.7576,  1.0925, -0.7565,  0.2052, -0.3060,  1.2687,
         -2.9662,  1.3631,  1.5052,  0.0954,  0.2108, -0.6632,  0.4173, -1.5632,
         -0.6289, -0.5295,  1.5584,  0.6484, -0.0663, -2.4497, -1.5420, -0.5492,
         -2.4491,  0.1926, -0.8675,  1.6831,  0.1469,  0.2517,  1.4265, -1.2276,
          0.0342,  0.3148, -

## Pretrained from torchtext

In [31]:
TEXT.build_vocab(trainset, vectors=GloVe(name='6B', dim=300), max_size=10000, min_freq=10)
LABEL.build_vocab(trainset)

.vector_cache/glove.6B.zip: 862MB [03:35, 3.99MB/s]                               
100%|█████████▉| 399999/400000 [01:22<00:00, 4819.93it/s]


In [33]:
# print(TEXT.vocab.stoi)

In [34]:
print('# of embedding vector, dimension : {} '.format(TEXT.vocab.vectors.shape))

# of embedding vector, dimension : torch.Size([10002, 300]) 


In [35]:
print(TEXT.vocab.vectors[0]) # Embedding vector of <unk>

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

In [36]:
print(TEXT.vocab.vectors[1]) # Embedding vector of <pad>

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

In [37]:
print(TEXT.vocab.vectors[10]) # Embedding vector of <this>

tensor([-2.0437e-01,  1.6431e-01,  4.1794e-02, -1.3708e-01, -2.9779e-01,
         3.3440e-01, -6.9955e-02, -6.8036e-02,  1.0604e-01, -2.0337e+00,
         1.7977e-01, -7.7403e-02, -1.9518e-01,  1.8324e-01,  3.0017e-02,
        -5.4762e-02, -4.5725e-01, -2.4509e-02,  5.7387e-02, -3.4878e-01,
         3.9696e-02,  4.4826e-01, -5.8462e-02,  4.1181e-01, -3.5411e-02,
        -1.4722e-01,  1.0740e-01, -2.5896e-01, -1.1658e-01,  1.9822e-01,
         3.2850e-01,  2.4177e-01, -5.7177e-01, -5.6442e-02, -9.6437e-01,
         3.4482e-01,  5.4639e-02,  2.3828e-01, -1.9139e-01,  3.0899e-01,
         2.8044e-01, -3.3814e-02, -2.5436e-01,  1.5373e-02,  1.6341e-01,
         2.6352e-01,  1.5812e-01,  3.2044e-01, -2.3082e-01,  2.6050e-01,
         2.0606e-01, -8.9769e-02, -1.0055e-01,  7.0378e-02, -2.7452e-02,
         2.7959e-01, -9.5862e-02,  2.0574e-01,  2.9522e-01, -1.2285e-02,
         1.1164e-01, -5.1373e-02,  4.6106e-01,  2.3014e-02, -3.7141e-01,
        -2.4166e-01,  3.3773e-02,  3.6827e-02,  1.6

In [38]:
print(TEXT.vocab.vectors[9999]) # Embedding vector of <seeing>

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

In [40]:
# Use TEXT.vocab.vectors as nn.Embedding() initial value
embedding_layer = nn.Embedding.from_pretrained(TEXT.vocab.vectors, freeze=False)

In [42]:
embedding_layer(torch.LongTensor([10])) # Embedding vector of <this>

tensor([[-2.0437e-01,  1.6431e-01,  4.1794e-02, -1.3708e-01, -2.9779e-01,
          3.3440e-01, -6.9955e-02, -6.8036e-02,  1.0604e-01, -2.0337e+00,
          1.7977e-01, -7.7403e-02, -1.9518e-01,  1.8324e-01,  3.0017e-02,
         -5.4762e-02, -4.5725e-01, -2.4509e-02,  5.7387e-02, -3.4878e-01,
          3.9696e-02,  4.4826e-01, -5.8462e-02,  4.1181e-01, -3.5411e-02,
         -1.4722e-01,  1.0740e-01, -2.5896e-01, -1.1658e-01,  1.9822e-01,
          3.2850e-01,  2.4177e-01, -5.7177e-01, -5.6442e-02, -9.6437e-01,
          3.4482e-01,  5.4639e-02,  2.3828e-01, -1.9139e-01,  3.0899e-01,
          2.8044e-01, -3.3814e-02, -2.5436e-01,  1.5373e-02,  1.6341e-01,
          2.6352e-01,  1.5812e-01,  3.2044e-01, -2.3082e-01,  2.6050e-01,
          2.0606e-01, -8.9769e-02, -1.0055e-01,  7.0378e-02, -2.7452e-02,
          2.7959e-01, -9.5862e-02,  2.0574e-01,  2.9522e-01, -1.2285e-02,
          1.1164e-01, -5.1373e-02,  4.6106e-01,  2.3014e-02, -3.7141e-01,
         -2.4166e-01,  3.3773e-02,  3.