In [1]:
from data_loader import DataLoader

  from .autonotebook import tqdm as notebook_tqdm


## Load TSV data

In [2]:
loaders = DataLoader(
    train_fn='./review.sorted.uniq.refined.tok.shuf.train.tsv',
    batch_size=256,
    valid_ratio=.2,
    device=-1,
    max_vocab=999999,
    min_freq=5,
)

### Check loader

In [3]:
print("|train|=%d" % len(loaders.train_loader.dataset))
print("|valid|=%d" % len(loaders.valid_loader.dataset))

|train|=50354
|valid|=12589


In [4]:
print("|vocab|=%d" % len(loaders.text.vocab))
print("|label|=%d" % len(loaders.label.vocab))

|vocab|=8690
|label|=2


### Get mini-batch tensors

In [5]:
data = next(iter(loaders.train_loader))

print(data.text.shape) # 256의 90단어
print(data.label.shape)

torch.Size([256, 90])
torch.Size([256])


### Use vocab

In [6]:
dir(loaders.text.vocab)

['UNK',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_default_unk_index',
 'extend',
 'freqs',
 'itos',
 'load_vectors',
 'set_vectors',
 'stoi',
 'unk_index',
 'vectors']

In [8]:
loaders.text.vocab.stoi['지연']

1653

In [10]:
loaders.text.vocab.itos[216]

'죠'

#### Check most frequent words

In [11]:
for i in range(50):
    word = loaders.text.vocab.itos[i]
    print('%5d: %s\t%d' % (i, word, loaders.text.vocab.freqs[word]))

    0: <unk>	0
    1: <pad>	0
    2: .	62287
    3: 고	35303
    4: 이	33654
    5: 하	29035
    6: 도	24005
    7: 네요	23320
    8: 좋	22310
    9: 에	21672
   10: 는	20436
   11: 가	16359
   12: 은	15421
   13: 는데	13323
   14: 잘	12644
   15: 게	12514
   16: 아요	12282
   17: 어요	11865
   18: 배송	11089
   19: 있	10627
   20: 습니다	10316
   21: 했	9903
   22: 을	9101
   23: 안	9096
   24: 한	8264
   25: ~	7947
   26: 구매	7256
   27: 같	6964
   28: 지	6917
   29: 합니다	6781
   30: 너무	6757
   31: 거	6710
   32: ..	6318
   33: 어	6245
   34: ,	6106
   35: 다	6004
   36: 되	5831
   37: !	5796
   38: 가격	5623
   39: ?	5563
   40: 것	5503
   41: 들	5487
   42: 았	5473
   43: 으로	5310
   44: 받	5298
   45: 제품	5173
   46: 쓰	5108
   47: 아	5069
   48: 로	5017
   49: 만	4999


#### Restore text from tensor

In [12]:
print(data.text[-1])

tensor([ 256,  341,  254,   43,    8,    7,   37, 2704,    6, 4889,   43,   84,
          55,   77,    3,   92,   29,   37,  133,   11,  549,  733, 8562,   12,
         159,   52,  286,   50,   42,   13, 4633, 4215, 8562,   12,   38,  186,
         351, 1980,    5,    7,   37,  559, 1269,    6, 2101,   43,  577,   61,
          55,   80, 5253,  559,    5,   64,  482,   21,   17,   37,  251,  575,
          12,  266,   58,   61,  790,  151,   57,   67,  329,  234,   99,   61,
          52,   64,  321,   29,   37,  335,    5,   83,   37,    1,    1,    1,
           1,    1,    1,    1,    1,    1])


In [13]:
x = data.text[-1]
line = []
for x_i in x:
    line += [loaders.text.vocab.itos[x_i]]
    
print(' '.join(line))

와 기대 이상 으로 좋 네요 ! 볼트 도 여분 으로 더 주 시 고 감사 합니다 ! 제 가 타 브랜드 철봉 은 써 보 진 않 았 는데 멜 킨 철봉 은 가격 대비 매우 훌륭 하 네요 ! 조립 방법 도 동영상 으로 설명 해 주 어서 따라서 조립 하 니 금방 했 어요 ! 내 구성 은 계속 사용 해 봐야 알 겠 지만 일단 몇 번 해 보 니 튼튼 합니다 ! 번창 하 세요 ! <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>
