In [18]:
# Following:  https://pytorch.org/tutorials/intermediate/char_rnn_classification_tutorial.html
import torch.nn as nn
import torch
from tqdm import tqdm
import itertools

In [2]:
from datasets import load_dataset

dataset = load_dataset("lmqg/qa_wiki_t5_large")

Found cached dataset qa_wiki_t5_large (C:/Users/willc/.cache/huggingface/datasets/lmqg___qa_wiki_t5_large/default/0.0.0/f3a1d4d9e366c8e5d66c9329ca2a32b4cb673782cda308c7ef928789d431cfcb)


  0%|          | 0/2 [00:00<?, ?it/s]

In [26]:
from transformers import PreTrainedTokenizerFast

fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="qa_wiki_t5_large_tokenizer.json")
fast_tokenizer.add_special_tokens({'pad_token': '[PAD]'})

0

In [27]:
fast_tokenizer("abcedefghijklmnopqrstuvwxyz", return_tensors='pt')


{'input_ids': tensor([[70, 71, 72, 74, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86,
         87, 88, 89, 90, 91, 92, 93, 94, 95]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1]])}

In [28]:
def convert_to_single_string(sample):
    return sample['title'] + "[SEP]" + sample['context'] + "[ANS]" +sample['answers']['text'][0]

In [38]:
import torch.nn as nn

class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, batch_size):
        super(RNN, self).__init__()

        self.hidden_size = hidden_size
        self.batch_size = batch_size
        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
        self.i2o = nn.Linear(input_size + hidden_size, output_size)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, input, hidden):
        combined = torch.cat((input, hidden), 1)
        hidden = self.i2h(combined)
        output = self.i2o(combined)
        return output, hidden

    def initHidden(self):
        return torch.zeros(self.batch_size, self.hidden_size)
vocab_size = 2048
n_hidden = 512
batch_size = 64
model = RNN(vocab_size, n_hidden, vocab_size, batch_size)

In [39]:
crit = nn.CrossEntropyLoss()

In [40]:
def grouper(n, iterable):
    it = iter(iterable)
    while True:
        chunk = tuple(itertools.islice(it, n))
        if not chunk:
            return
        yield chunk
        

In [41]:
torch.autograd.set_detect_anomaly(True)
def train(dataset, model):
    model.train()
    optimizer = torch.optim.Adam(model.parameters(), lr=0.0001)

    for epoch in range(10):
        for batch, sample in enumerate(grouper(batch_size, dataset['train'])):
            state_h = model.initHidden()
            x = [convert_to_single_string(x) for x in sample]
            x = fast_tokenizer(x, return_tensors='pt', padding=True)['input_ids']
            x = torch.nn.functional.one_hot(x, vocab_size)
            
            optimizer.zero_grad()
            loss = torch.tensor([0.0])
            
            for word in tqdm(range(x.size()[1]-1)):
                
                y_pred, state_h = model(x[:, word], state_h)
                loss += crit(y_pred, x[:, word+1].float())/x.size()[1]

            loss.backward()
            optimizer.step()

            print({ 'epoch': epoch, 'batch': batch, 'loss': loss.item() })
        break
train(dataset, model)

100%|████████████████████████████████████████████████████| 888/888 [00:10<00:00, 82.82it/s]


{'epoch': 0, 'batch': 0, 'loss': 7.607909202575684}


100%|████████████████████████████████████████████████████| 895/895 [00:10<00:00, 84.79it/s]


{'epoch': 0, 'batch': 1, 'loss': 7.607226848602295}


100%|████████████████████████████████████████████████████| 852/852 [00:11<00:00, 74.99it/s]


{'epoch': 0, 'batch': 2, 'loss': 7.6004204750061035}


100%|████████████████████████████████████████████████████| 717/717 [00:08<00:00, 84.70it/s]


{'epoch': 0, 'batch': 3, 'loss': 7.596141815185547}


100%|████████████████████████████████████████████████████| 789/789 [00:10<00:00, 72.70it/s]


{'epoch': 0, 'batch': 4, 'loss': 7.592400074005127}


100%|████████████████████████████████████████████████████| 842/842 [00:10<00:00, 77.24it/s]


{'epoch': 0, 'batch': 5, 'loss': 7.587957859039307}


100%|████████████████████████████████████████████████████| 826/826 [00:11<00:00, 70.64it/s]


{'epoch': 0, 'batch': 6, 'loss': 7.585604190826416}


100%|████████████████████████████████████████████████████| 886/886 [00:13<00:00, 67.65it/s]


{'epoch': 0, 'batch': 7, 'loss': 7.582117080688477}


100%|████████████████████████████████████████████████████| 859/859 [00:10<00:00, 78.23it/s]


{'epoch': 0, 'batch': 8, 'loss': 7.57777738571167}


100%|████████████████████████████████████████████████████| 791/791 [00:11<00:00, 66.92it/s]


{'epoch': 0, 'batch': 9, 'loss': 7.575197219848633}


100%|████████████████████████████████████████████████████| 889/889 [00:11<00:00, 79.00it/s]


{'epoch': 0, 'batch': 10, 'loss': 7.578420639038086}


100%|████████████████████████████████████████████████████| 820/820 [00:10<00:00, 78.18it/s]


{'epoch': 0, 'batch': 11, 'loss': 7.5710368156433105}


100%|████████████████████████████████████████████████████| 867/867 [00:11<00:00, 77.37it/s]


{'epoch': 0, 'batch': 12, 'loss': 7.560993671417236}


100%|████████████████████████████████████████████████████| 778/778 [00:11<00:00, 69.47it/s]


{'epoch': 0, 'batch': 13, 'loss': 7.556562900543213}


100%|████████████████████████████████████████████████████| 784/784 [00:10<00:00, 77.59it/s]


{'epoch': 0, 'batch': 14, 'loss': 7.551182746887207}


100%|████████████████████████████████████████████████████| 753/753 [00:09<00:00, 77.02it/s]


{'epoch': 0, 'batch': 15, 'loss': 7.544538497924805}


100%|████████████████████████████████████████████████████| 845/845 [00:10<00:00, 77.47it/s]


{'epoch': 0, 'batch': 16, 'loss': 7.533801555633545}


100%|████████████████████████████████████████████████████| 854/854 [00:14<00:00, 59.98it/s]


{'epoch': 0, 'batch': 17, 'loss': 7.51343297958374}


100%|████████████████████████████████████████████████████| 847/847 [00:12<00:00, 69.61it/s]


{'epoch': 0, 'batch': 18, 'loss': 7.49741792678833}


100%|████████████████████████████████████████████████████| 828/828 [00:11<00:00, 75.00it/s]


{'epoch': 0, 'batch': 19, 'loss': 7.497077465057373}


100%|████████████████████████████████████████████████████| 830/830 [00:11<00:00, 75.06it/s]


{'epoch': 0, 'batch': 20, 'loss': 7.488232135772705}


100%|████████████████████████████████████████████████████| 746/746 [00:09<00:00, 78.56it/s]


{'epoch': 0, 'batch': 21, 'loss': 7.459949016571045}


100%|████████████████████████████████████████████████████| 880/880 [00:12<00:00, 69.02it/s]


{'epoch': 0, 'batch': 22, 'loss': 7.435482025146484}


100%|████████████████████████████████████████████████████| 661/661 [00:08<00:00, 76.16it/s]


{'epoch': 0, 'batch': 23, 'loss': 7.397154331207275}


100%|████████████████████████████████████████████████████| 619/619 [00:09<00:00, 64.84it/s]


{'epoch': 0, 'batch': 24, 'loss': 7.368490695953369}


100%|████████████████████████████████████████████████████| 817/817 [00:11<00:00, 70.47it/s]


{'epoch': 0, 'batch': 25, 'loss': 7.1726393699646}


100%|████████████████████████████████████████████████████| 748/748 [00:10<00:00, 70.31it/s]


{'epoch': 0, 'batch': 26, 'loss': 6.872328281402588}


100%|████████████████████████████████████████████████████| 796/796 [00:11<00:00, 71.50it/s]


{'epoch': 0, 'batch': 27, 'loss': 6.01267147064209}


100%|████████████████████████████████████████████████████| 615/615 [00:09<00:00, 67.91it/s]


{'epoch': 0, 'batch': 28, 'loss': 4.2987060546875}


100%|████████████████████████████████████████████████████| 860/860 [00:13<00:00, 64.66it/s]


{'epoch': 0, 'batch': 29, 'loss': 5.059831142425537}


100%|████████████████████████████████████████████████████| 827/827 [00:15<00:00, 52.86it/s]


{'epoch': 0, 'batch': 30, 'loss': 6.068840503692627}


100%|████████████████████████████████████████████████████| 936/936 [00:12<00:00, 76.27it/s]


{'epoch': 0, 'batch': 31, 'loss': 6.235426902770996}


100%|████████████████████████████████████████████████████| 762/762 [00:08<00:00, 85.42it/s]


{'epoch': 0, 'batch': 32, 'loss': 6.406503200531006}


100%|████████████████████████████████████████████████████| 797/797 [00:09<00:00, 85.22it/s]


{'epoch': 0, 'batch': 33, 'loss': 6.525464057922363}


100%|████████████████████████████████████████████████████| 736/736 [00:08<00:00, 86.37it/s]


{'epoch': 0, 'batch': 34, 'loss': 6.679155349731445}


100%|████████████████████████████████████████████████████| 767/767 [00:10<00:00, 71.53it/s]


{'epoch': 0, 'batch': 35, 'loss': 6.445191383361816}


100%|████████████████████████████████████████████████████| 810/810 [00:09<00:00, 86.30it/s]


{'epoch': 0, 'batch': 36, 'loss': 6.326402187347412}


100%|████████████████████████████████████████████████████| 859/859 [00:10<00:00, 85.55it/s]


{'epoch': 0, 'batch': 37, 'loss': 6.257584095001221}


100%|████████████████████████████████████████████████████| 707/707 [00:08<00:00, 85.93it/s]


{'epoch': 0, 'batch': 38, 'loss': 6.24692440032959}


100%|████████████████████████████████████████████████████| 607/607 [00:07<00:00, 76.75it/s]


{'epoch': 0, 'batch': 39, 'loss': 6.019577980041504}


100%|████████████████████████████████████████████████████| 730/730 [00:10<00:00, 67.89it/s]


{'epoch': 0, 'batch': 40, 'loss': 5.427890300750732}


100%|████████████████████████████████████████████████████| 719/719 [00:09<00:00, 78.59it/s]


{'epoch': 0, 'batch': 41, 'loss': 4.793033599853516}


100%|████████████████████████████████████████████████████| 765/765 [00:09<00:00, 84.28it/s]


{'epoch': 0, 'batch': 42, 'loss': 10.749429702758789}


100%|████████████████████████████████████████████████████| 798/798 [00:09<00:00, 82.04it/s]


{'epoch': 0, 'batch': 43, 'loss': 5.085808753967285}


100%|████████████████████████████████████████████████████| 832/832 [00:10<00:00, 82.22it/s]


{'epoch': 0, 'batch': 44, 'loss': 6.054130554199219}


100%|████████████████████████████████████████████████████| 819/819 [00:10<00:00, 77.02it/s]


{'epoch': 0, 'batch': 45, 'loss': 6.464259147644043}


RuntimeError: Class values must be smaller than num_classes.