## 토치텍스트에서 배치퍼스트(batch_first)를 True로 한 경우와 False를 한 경우를 비교

In [4]:
from torchtext.legacy import data # torchtext.data 임포트

# 필드 정의
TEXT = data.Field(sequential=True,
                  use_vocab=True,
                  tokenize=str.split,
                  lower=True,
                  batch_first=True, # <== 이 부분을 True로 합니다.
                  fix_length=20)

LABEL = data.Field(sequential=False,
                   use_vocab=False,
                   batch_first=False,
                   is_target=True)


In [6]:
from torchtext.legacy.data import TabularDataset
from torchtext.legacy.data import Iterator

# TabularDataset은 데이터를 불러오면서 필드에서 정의했던 토큰화 방법으로 토큰화를 수행합니다.
train_data, test_data = TabularDataset.splits(
        path='.', train='train_data.csv', test='test_data.csv', format='csv',
        fields=[('text', TEXT), ('label', LABEL)], skip_header=True)

# 정의한 필드에 .build_vocab() 도구를 사용하면 단어 집합을 생성합니다.
TEXT.build_vocab(train_data, min_freq=10, max_size=10000) # 10,000개의 단어를 가진 단어 집합 생성

# 배치 크기를 정하고 첫번째 배치를 출력해보겠습니다.
batch_size = 5
train_loader = Iterator(dataset=train_data, batch_size = batch_size)
batch = next(iter(train_loader)) # 첫번째 미니배치

print(batch.text)

print("미니 배치의 크기 출력 : ",batch.text.shape)

tensor([[  11,  175,   51,   68, 2962,  731,   12,  129, 1974, 8956,   15,    0,
            5,    0,    4,  214, 4794,   26,    0,  392],
        [  16, 2293,   32, 8567,    4, 7733,   20,    7,  140,   24,   26,    6,
           28,    8,    2, 1436, 1978,  147,   49,  777],
        [ 147,    3,  559,  987,    0,    4,   29,  715,    0,  186,   39, 2149,
           10,  841,   16,    2,   82,  289,    9,  317],
        [  10,   20, 2124,    3,  774,  128,   19, 1056, 1213, 4523,   53,  204,
           11,   41,  164,  986,    6,   86,   17,  957],
        [   0,    6,    0,   41,   71,   51,   40,  340, 1874,    8, 2589, 9942,
            8,    2,  593,  974, 1356,   18,   11,    7]])
미니 배치의 크기 출력 :  torch.Size([5, 20])


# batch_firt를 False로 한다면?

In [7]:
# 필드 정의

# 기본값이 False라서 지정 안해줌
TEXT = data.Field(sequential=True,
                  use_vocab=True,
                  tokenize=str.split,
                  lower=True,
                  fix_length=20) 

LABEL = data.Field(sequential=False,
                   use_vocab=False,
                   batch_first=False,
                   is_target=True)

In [9]:
# TabularDataset은 데이터를 불러오면서 필드에서 정의했던 토큰화 방법으로 토큰화를 수행합니다.
train_data, test_data = TabularDataset.splits(
        path='.', train='train_data.csv', test='test_data.csv', format='csv',
        fields=[('text', TEXT), ('label', LABEL)], skip_header=True)

# 정의한 필드에 .build_vocab() 도구를 사용하면 단어 집합을 생성합니다.
TEXT.build_vocab(train_data, min_freq=10, max_size=10000) # 10,000개의 단어를 가진 단어 집합 생성

# 배치 크기를 정하고 첫번째 배치를 출력해보겠습니다.
batch_size = 5
train_loader = Iterator(dataset=train_data, batch_size = batch_size)
batch = next(iter(train_loader)) # 첫번째 미니배치

print(batch.text)

# 하나의 미니 배치의 크기는 (fix_length × 배치 크기)
print("미니 배치의 크기 출력 : ",batch.text.shape)


tensor([[  11,   16,  147,   10,    0],
        [ 175, 2293,    3,   20,    6],
        [  51,   32,  559, 2124,    0],
        [  68, 8567,  987,    3,   41],
        [2962,    4,    0,  774,   71],
        [ 731, 7733,    4,  128,   51],
        [  12,   20,   29,   19,   40],
        [ 129,    7,  715, 1056,  340],
        [1974,  140,    0, 1213, 1874],
        [8956,   24,  186, 4523,    8],
        [  15,   26,   39,   53, 2589],
        [   0,    6, 2149,  204, 9942],
        [   5,   28,   10,   11,    8],
        [   0,    8,  841,   41,    2],
        [   4,    2,   16,  164,  593],
        [ 214, 1436,    2,  986,  974],
        [4794, 1978,   82,    6, 1356],
        [  26,  147,  289,   86,   18],
        [   0,   49,    9,   17,   11],
        [ 392,  777,  317,  957,    7]])
미니 배치의 크기 출력 :  torch.Size([20, 5])


TypeError: 'Iterator' object is not subscriptable