레이블의 갯수가 두개 이상인 데이터의 분류를 해보자. 그런데 한글 데이터셋을 못구해서... 일단 영어 데이터로 진행하겠다. 이 경우는 6개의 클래스가 있는 `TREC` 데이터를 분석할 것이며, 따라서 `LABEL` 필드에서 `dtype`을 선언할 필요가 없다. 

In [1]:
import torch
from torchtext import data
from torchtext import datasets
import random

SEED = 1234

torch.manual_seed(SEED)
torch.backends.cudnn.determinisitic = True

In [2]:
TEXT = data.Field(tokenize='spacy')
LABEL = data.LabelField()

In [3]:
train_data, test_data = datasets.TREC.splits(TEXT, LABEL, fine_grained=False)

In [4]:
train_data, valid_data = train_data.split(random_state=random.seed(SEED))

In [5]:
len(train_data), len(valid_data), len(test_data)

(3816, 1636, 500)

데이터를 살펴보자.

In [6]:
vars(train_data[-3])

{'text': ['Who',
  'is',
  'section',
  'manager',
  'for',
  'guidance',
  'and',
  'control',
  'systems',
  'at',
  'JPL',
  '?'],
 'label': 'HUM'}

In [7]:
vars(train_data[-2])

{'text': ['What',
  'year',
  'did',
  'Jack',
  'Nicklaus',
  'join',
  'the',
  'Professional',
  'Golfers',
  'Association',
  'tour',
  '?'],
 'label': 'NUM'}

단어장을 만들자. 훈련 데이터 갯수가 많지 않아서 최대 갯수 설정은 할 필요가 없긴 하나 그냥 하겠다.

In [12]:
MAX_VOCAB_SIZE = 25000

TEXT.build_vocab(train_data, 
                max_size = MAX_VOCAB_SIZE,
                vectors = 'glove.6B.100d',
                unk_init = torch.Tensor.normal_
                )
LABEL.build_vocab(train_data)

BadZipFile: File is not a zip file

데이터의 라벨은 다음과 같은 6개이다.

* `HUM` for questions about humans
* `ENTY` for questions about entities
* `DESC` for questions asking you for a description
* `NUM` for questions where the answer is numerical
* `LOC` for questions where the answer is a location
* `ABBR` for questions asking about abbreviations