In [None]:
%matplotlib inline

# 125. Torchtext library를 이용한 Text Classification 

이 튜토리얼에서는 Torchtext 라이브러리를 사용하여 텍스트 분류 분석을 위한 데이터 세트를 구축하는 방법을 보여줍니다. 사용자는 유연하게

    - iterator로 원시 데이터에 액세스
    - 원시 텍스트 문자열을 모델 학습에 사용할 수 있는``torch.Tensor``로 변환하는 데이터 처리 파이프 라인 구축  
    - `torch.utils.data.DataLoader`를 사용하여 데이터를 shuffle and iterate
    
- [EmbeddingBag Layer 를 이용한 simple classification](https://jamesmccaffrey.wordpress.com/2021/04/14/explaining-the-pytorch-enbeddingbag-layer/)

<img src="regular_embedding_vs_embedding_bag_diagram.jpg">

## iterator로 원시 데이터에 액세스

torchtext library는 원시 텍스트 문자열을 생성하는 몇 가지 원시 데이터세트 iteratior를 제공합니다. 예를 들어,``AG_NEWS`` 데이터세트 iterator는 라벨과 텍스트의 튜플로 원시 데이터를 생성합니다.

In [21]:
import torch
# from torchtext.datasets import AG_NEWS
# train_iter = AG_NEWS(split='train')

In [22]:
from torchtext.datasets import IMDB
train_iter = IMDB(split='train')

aclImdb_v1.tar.gz: 100%|██████████| 84.1M/84.1M [00:03<00:00, 24.3MB/s]


In [23]:
next(train_iter)

('neg',
 'I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes are few and far be

In [24]:
next(train_iter)

('neg',
 '"I Am Curious: Yellow" is a risible and pretentious steaming pile. It doesn\'t matter what one\'s political views are because this film can hardly be taken seriously on any level. As for the claim that frontal male nudity is an automatic NC-17, that isn\'t true. I\'ve seen R-rated films with male nudity. Granted, they only offer some fleeting views, but where are the R-rated films with gaping vulvas and flapping labia? Nowhere, because they don\'t exist. The same goes for those crappy cable shows: schlongs swinging in the breeze but not a clitoris in sight. And those pretentious indie movies like The Brown Bunny, in which we\'re treated to the site of Vincent Gallo\'s throbbing johnson, but not a trace of pink visible on Chloe Sevigny. Before crying (or implying) "double-standard" in matters of nudity, the mentally obtuse should take into account one unavoidably obvious anatomical difference between men and women: there are no genitals on display when actresses appears nude, 

## 데이터 처리 파이프 라인 준비

우리는 어휘, 단어 벡터, 토크나이저를 포함하여 토치 텍스트 라이브러리의 매우 기본적인 구성요소를 다시 방문했습니다. 이것들은 원시 텍스트 문자열에 대한 기본 데이터 처리 빌딩 블록입니다.

다음은 토크나이저 및 어휘를 사용한 일반적인 NLP 데이터 처리의 예입니다. 첫 번째 단계는 원시 훈련 데이터 세트로 어휘를 구축하는 것입니다. 여기서는 
토큰의 목록 또는 반복자를 생성하는 반복자를 허용하는 내장 팩토리 함수 `build_vocab_from_iterator`를 사용합니다. 사용자는 어휘에 추가할 특수 기호를 전달할 수도 있습니다.

In [25]:
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

tokenizer = get_tokenizer('basic_english')

# train_iter = AG_NEWS(split='train')

train_iter = IMDB(split='train')

def yield_tokens(data_iter):
    for _, text in data_iter:
        yield tokenizer(text)

vocab = build_vocab_from_iterator(yield_tokens(train_iter), specials=["<unk>"])
vocab.set_default_index(vocab["<unk>"])

In [26]:
vocab(['here', 'is', 'an', 'example'])

[131, 9, 40, 464]

토크나이저와 vocabulary로 텍스트 처리 파이프라인을 준비합니다. 텍스트 및 레이블 파이프라인은 데이터 세트 반복자의 원시 데이터 문자열을 처리하는 데 사용됩니다.


In [3]:
vocab(['here', 'is', 'an', 'example'])

[475, 21, 30, 5297]

In [27]:
text_pipeline = lambda x: vocab(tokenizer(x))

# label_pipeline = lambda x: int(x) - 1                     #AG_NEWS 1~4

label_pipeline = lambda x: 0 if x == 'neg' else 1      #IMDB 'neg', 'pos'

텍스트 파이프라인은 어휘에 정의된 조회 테이블을 기반으로 텍스트 문자열을 정수 목록으로 변환합니다. 레이블 파이프라인은 레이블을 정수로 변환합니다. 예를 들어,



In [28]:
text_pipeline('here is the an example')

[131, 9, 1, 40, 464]

In [29]:
label_pipeline('10')

1

## data batch 와 iterator 생성

Pytorch 사용자들은 `torch.utils.data.DataLoader <https://pytorch.org/docs/stable/data.html?highlight=dataloader#torch.utils.data.DataLoader>`를 사용할 것을 권고합니다.
(tutorial <https://pytorch.org/tutorials/beginner/data_loading_tutorial.html>).


``getitem()`` 및 ``len()`` 프로토콜을 구현하는 map 스타일 데이터세트와 함께 작동하며 인덱스/키에서 데이터 샘플까지의 map을 나타냅니다. 또한 shuffle 인수가 ``False``인 iterable dataset에서도 작동합니다.


모델로 보내기 전에 ``collate_fn`` 함수는 ``DataLoader``에서 생성된 샘플 배치에서 작동합니다. ``collate_fn``에 대한 입력은 ``DataLoader``의 배치 크기를 가진 데이터 배치이며, ``collate_fn``은 이전에 선언된 데이터 처리 파이프라인에 따라 처리합니다. 여기에서 ``collate_fn``이 최상위 def로 선언되었는지 확인하십시오. 이렇게 하면 각 worker에서 해당 기능을 사용할 수 있습니다.

이 예에서 원본 데이터 일괄 입력의 텍스트 항목은 list로 압축되고 ``nn.EmbeddingBag`` 입력에 대한 단일 텐서로 연결됩니다. 오프셋은 텍스트 텐서에서 개별 시퀀스의 시작 인덱스를 나타내는 delimiter 텐서입니다. 레이블은 개별 텍스트 항목의 레이블을 저장하는 텐서입니다.


In [31]:
from torch.utils.data import DataLoader
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

def collate_batch(batch):
    label_list, text_list, offsets = [], [], [0]
    for (_label, _text) in batch:
         label_list.append(label_pipeline(_label))
         processed_text = torch.tensor(text_pipeline(_text), dtype=torch.int64)
         text_list.append(processed_text)
         offsets.append(processed_text.size(0))
    label_list = torch.tensor(label_list, dtype=torch.int64)
    offsets = torch.tensor(offsets[:-1]).cumsum(dim=0)
    text_list = torch.cat(text_list)
    return label_list.to(device), text_list.to(device), offsets.to(device)    

# train_iter = AG_NEWS(split='train')

train_iter = IMDB(split='train')

dataloader = DataLoader(train_iter, batch_size=8, shuffle=False, collate_fn=collate_batch)

## model 정의

모델은`nn.EmbeddingBag` 레이어와 classification을 위한 linear layer로 구성됩니다. default 모드가 "mean"인``nn.EmbeddingBag``는 임베딩 "bag"의 평균 값을 계산합니다. 텍스트 entry는 각각 길이가 다르다 해도 nn.EmbeddingBag 모듈은 텍스트 길이가 오프셋으로 저장되므로 padding이 필요하지 않습니다.

또한``nn.EmbeddingBag``는 즉시 임베딩에 걸쳐 평균을 누적하므로``nn.EmbeddingBag``는 일련의 텐서를 처리하기 위해 성능과 메모리 효율성을 향상시킬 수 있습니다.

<img src="embedding_bag.jpg" width=400>

In [32]:
from torch import nn

class TextClassificationModel(nn.Module):

    def __init__(self, vocab_size, embed_dim, num_class):
        super(TextClassificationModel, self).__init__()
        self.embedding = nn.EmbeddingBag(vocab_size, embed_dim, sparse=True)
        self.fc = nn.Linear(embed_dim, num_class)
        self.init_weights()

    def init_weights(self):
        initrange = 0.5
        self.embedding.weight.data.uniform_(-initrange, initrange)
        self.fc.weight.data.uniform_(-initrange, initrange)
        self.fc.bias.data.zero_()

    def forward(self, text, offsets):
        embedded = self.embedding(text, offsets)
        return self.fc(embedded)

Initiate an instance
--------------------

AG_NEWS 데이터 세트에는 4 개의 레이블이 있으므로 클래스 수는 4 개입니다.
```
   1 : World  
   2 : Sports  
   3 : Business  
   4 : Sci/Tec  
   
```
IMDB 데이터 세트에는 2 개의 레이블('nge', 'pos')이 있으므로 클래스 수는 2 개입니다.
   
vocab size는 vocab 길이와 같습니다 (single word, ngram 단어 포함).  클래스 수는 레이블 수와 같습니다.  
AG_NEWS의 경우 4입니다.

임베딩 차원이 64 인 모델을 빌드합니다. 


In [33]:
# train_iter = AG_NEWS(split='train')

train_iter =IMDB(split='train')

num_class = len(set([label for (label, text) in train_iter]))
vocab_size = len(vocab)
emsize = 64
model = TextClassificationModel(vocab_size, emsize, num_class).to(device)

In [34]:
num_class 

2

모델을 훈련시키고 결과를 평가하는 함수를 정의합니다.
---------------------------------------------------------




In [35]:
import time

def train(dataloader):
    model.train()
    total_acc, total_count = 0, 0
    log_interval = 500
    start_time = time.time()

    for idx, (label, text, offsets) in enumerate(dataloader):
        optimizer.zero_grad()
        predicted_label = model(text, offsets)
        loss = criterion(predicted_label, label)
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1)
        optimizer.step()
        total_acc += (predicted_label.argmax(1) == label).sum().item()
        total_count += label.size(0)
        if idx % log_interval == 0 and idx > 0:
            elapsed = time.time() - start_time
            print('| epoch {:3d} | {:5d}/{:5d} batches '
                  '| accuracy {:8.3f}'.format(epoch, idx, len(dataloader),
                                              total_acc/total_count))
            total_acc, total_count = 0, 0
            start_time = time.time()

def evaluate(dataloader):
    model.eval()
    total_acc, total_count = 0, 0

    with torch.no_grad():
        for idx, (label, text, offsets) in enumerate(dataloader):
            predicted_label = model(text, offsets)
            loss = criterion(predicted_label, label)
            total_acc += (predicted_label.argmax(1) == label).sum().item()
            total_count += label.size(0)
    return total_acc/total_count

데이터 세트 분할 및 모델 실행
-----------------------------------

원래``AG_NEWS``에는 유효한 데이터세트가 없으므로 훈련 데이터세트를 0.95 (train) 및 0.05 (valid)의 분할 비율로 train/valid 세트로 분할합니다. Pytorch core library 함수(`torch.utils.data.dataset.random_split`)를 사용합니다.


`CrossEntropyLoss` criterion 은 `nn.LogSoftmax() + nn.NLLLoss()` 입니다.


In [36]:
from torch.utils.data.dataset import random_split
from torchtext.data.functional import to_map_style_dataset
# Hyperparameters
EPOCHS = 10 # epoch
LR = 5  # learning rate
BATCH_SIZE = 64 # batch size for training
  
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=LR)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1.0, gamma=0.1)
total_accu = None

# train_iter, test_iter = AG_NEWS()

train_iter, test_iter  =IMDB()

train_dataset = to_map_style_dataset(train_iter)
test_dataset = to_map_style_dataset(test_iter)
num_train = int(len(train_dataset) * 0.95)
split_train_, split_valid_ = \
    random_split(train_dataset, [num_train, len(train_dataset) - num_train])

train_dataloader = DataLoader(split_train_, batch_size=BATCH_SIZE,
                              shuffle=True, collate_fn=collate_batch)
valid_dataloader = DataLoader(split_valid_, batch_size=BATCH_SIZE,
                              shuffle=True, collate_fn=collate_batch)
test_dataloader = DataLoader(test_dataset, batch_size=BATCH_SIZE,
                             shuffle=True, collate_fn=collate_batch)

for epoch in range(1, EPOCHS + 1):
    epoch_start_time = time.time()
    train(train_dataloader)
    accu_val = evaluate(valid_dataloader)
    if total_accu is not None and total_accu > accu_val:
      scheduler.step()
    else:
       total_accu = accu_val
    print('-' * 59)
    print('| end of epoch {:3d} | time: {:5.2f}s | '
          'valid accuracy {:8.3f} '.format(epoch,
                                           time.time() - epoch_start_time,
                                           accu_val))
    print('-' * 59)

-----------------------------------------------------------
| end of epoch   1 | time: 10.58s | valid accuracy    0.728 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   2 | time: 10.70s | valid accuracy    0.802 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   3 | time: 10.84s | valid accuracy    0.838 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   4 | time: 10.93s | valid accuracy    0.842 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   5 | time: 11.03s | valid accuracy    0.857 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   6 | time: 10.95s |

Evaluate the model with test dataset
------------------------------------




Checking the results of the test dataset…



In [37]:
print('Checking the results of test dataset.')
accu_test = evaluate(test_dataloader)
print('test accuracy {:8.3f}'.format(accu_test))

Checking the results of test dataset.
test accuracy    0.867


무작위 뉴스에서 테스트
---------------------

지금까지 best 모델을 사용하고 골프 뉴스를 테스트.

In [20]:
# ag_news_label = {1: "World",
#                  2: "Sports",
#                  3: "Business",
#                  4: "Sci/Tec"}

# def predict(text, text_pipeline):
#     with torch.no_grad():
#         text = torch.tensor(text_pipeline(text))
#         output = model(text, torch.tensor([0]))
#         return output.argmax(1).item() + 1

# ex_text_str = "MEMPHIS, Tenn. – Four days ago, Jon Rahm was \
#     enduring the season’s worst weather conditions on Sunday at The \
#     Open on his way to a closing 75 at Royal Portrush, which \
#     considering the wind and the rain was a respectable showing. \
#     Thursday’s first round at the WGC-FedEx St. Jude Invitational \
#     was another story. With temperatures in the mid-80s and hardly any \
#     wind, the Spaniard was 13 strokes better in a flawless round. \
#     Thanks to his best putting performance on the PGA Tour, Rahm \
#     finished with an 8-under 62 for a three-stroke lead, which \
#     was even more impressive considering he’d never played the \
#     front nine at TPC Southwind."

# model = model.to("cpu")

# print("This is a %s news" %ag_news_label[predict(ex_text_str, text_pipeline)])

This is a Sports news


In [38]:
def predict(text, text_pipeline):
    with torch.no_grad():
        text = torch.tensor(text_pipeline(text))
        output = model(text, torch.tensor([0]))
        return output.argmax(1).item()

# negative test review
# example = 'The worst movie I have seen; acting was terrible and I want my money back. This movie had bad acting and the dialogue was slow.'
# positive test review
example= 'This movie had the best acting and the dialogue was so good. I loved it.'

model = model.to("cpu")

predicted = predict(example, text_pipeline)
predicted

1