# Import libraries

In [1]:
import random
import os
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from tqdm import trange
from torch.autograd import Variable
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from nltk.tokenize import word_tokenize
import gensim.downloader

from seqeval.scheme import IOB1

In [2]:
word2vec_goog1e_news: gensim.models.keyedvectors.KeyedVectors = gensim.downloader.load('word2vec-google-news-300')
word2vec_goog1e_news.add_vector("<pad>", np.zeros(300))
pad_index = word2vec_goog1e_news.key_to_index["<pad>"]
embedding_weights = torch.FloatTensor(word2vec_goog1e_news.vectors)
vocab = word2vec_goog1e_news.key_to_index



In [3]:
device = torch.device(torch.cuda.current_device() if torch.cuda.is_available() else "cpu")
print(f"Using: {device}")

Using: cpu


# Import Dataset

In [15]:
def tokenize_pd_series_to_lsit(list_of_text):
    tokenized = []
    for sentence in list_of_text:
        tokenized.append(word_tokenize(sentence.lower()))
    return tokenized

def format_label(label):
    return torch.unsqueeze(torch.tensor(label.to_list()), axis=1).tolist()

def indexify(data):
    setences = []
    for sentence in data:
        s = [vocab[token] if token in vocab
            else vocab['UNK']
            for token in sentence]
        setences.append(s)
    return setences


In [16]:
training_data = pd.read_csv(filepath_or_buffer="TREC_dataset/modified_training_data.csv", sep=",") 
test_data = pd.read_csv(filepath_or_buffer="TREC_dataset/modified_test_data.csv", sep=",")

X = training_data["text"]
y = training_data["label-coarse"]
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=500)

X_test = test_data["text"]
y_test = test_data["label-coarse"]

X_train_lst = X_train.to_list()
X_val_lst = X_val.to_list()
X_test_lst = X_test.to_list()

X_train_tokenized = tokenize_pd_series_to_lsit(X_train_lst)
X_val_tokenized = tokenize_pd_series_to_lsit(X_val_lst)
X_test_tokenized = tokenize_pd_series_to_lsit(X_test_lst)

no_of_labels = 5

In [17]:
X_train_tokenized_indexified = indexify(X_train_tokenized)
X_val_tokenized_indexified = indexify(X_val_tokenized)
X_test_tokenized_indexified = indexify(X_test_tokenized)

y_train_formatted = format_label(y_train)
y_val_formatted = format_label(y_val)
y_test_formatted = format_label(y_test)

In [18]:
def data_iterator(sentences, labels, total_size: int, batch_size: int, shuffle: bool=False):
    # make a list that decides the order in which we go over the data- this avoids explicit shuffling of data
    order = list(range(total_size))
    if shuffle:
        random.seed(230)
        random.shuffle(order)

    # one pass over data
    for i in range((total_size+1)//batch_size):
        # fetch sentences and tags
        batch_sentences = [sentences[idx] for idx in order[i*batch_size:(i+1)*batch_size]]
        batch_tags = [labels[idx] for idx in order[i*batch_size:(i+1)*batch_size]]

        # compute length of longest sentence in batch
        batch_max_len = max([len(s) for s in batch_sentences])

        # prepare a numpy array with the data, initialising the data with pad_ind and all labels with -1
        # initialising labels to -1 differentiates tokens with tags from PADding tokens
        batch_data = vocab['<pad>']*np.ones((len(batch_sentences), batch_max_len))
        batch_labels = np.array(batch_tags).squeeze()

        # copy the data to the numpy array
        for j in range(len(batch_sentences)):
            cur_len = len(batch_sentences[j])
            batch_data[j][:cur_len] = batch_sentences[j]

        # since all data are indices, we convert them to torch LongTensors
        batch_data, batch_labels = torch.LongTensor(batch_data), torch.LongTensor(batch_labels)
        # convert them to Variables to record operations in the computational graph
        batch_data, batch_labels = Variable(batch_data), Variable(batch_labels)

        yield batch_data, batch_labels, batch_sentences

In [19]:
from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence
class Net(nn.Module):
    """
    This is the standard way to define your own network in PyTorch. You typically choose the components
    (e.g. LSTMs, linear layers etc.) of your network in the __init__ function. You then apply these layers
    on the input step-by-step in the forward function. You can use torch.nn.functional to apply functions
    such as F.relu, F.sigmoid, F.softmax. Be careful to ensure your dimensions are correct after each step.

    You are encouraged to have a look at the network in pytorch/vision/model/net.py to get a better sense of how
    you can go about defining your own network.

    The documentation for all the various components available to you is here: http://pytorch.org/docs/master/nn.html
    """

    def __init__(self, embedding_weights, embedding_dim, lstm_hidden_dim, number_of_tags):
        """
        We define an recurrent network that predicts the NER tags for each token in the sentence. The components
        required are:

        - an embedding layer: this layer maps each index in range(params.vocab_size) to a params.embedding_dim vector
        - lstm: applying the LSTM on the sequential input returns an output for each token in the sentence
        - fc: a fully connected layer that converts the LSTM output for each token to a distribution over NER tags

        Args:
            params: (Params) contains vocab_size, embedding_dim, lstm_hidden_dim
        """
        super(Net, self).__init__()

        # the embedding takes as input the vocab_size and the embedding_dim
        # self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.embedding = nn.Embedding.from_pretrained(embedding_weights, padding_idx=pad_index)

        # the LSTM takes as input the size of its input (embedding_dim), its hidden size
        # for more details on how to use it, check out the documentation
        self.lstm = nn.LSTM(embedding_dim,
                            lstm_hidden_dim, batch_first=True)

        # the fully connected layer transforms the output to give the final output layer
        self.fc = nn.Linear(lstm_hidden_dim, number_of_tags)

    def forward(self, s, lengths):
        """
        Args:
            s: (Variable) contains a batch of sentences, of dimension batch_size x seq_len.
            lengths: (list) contains the original lengths of the sequences in the batch.

        Returns:
            out: (Variable) dimension batch_size*seq_len x num_tags with the log probabilities of tokens for each token
                 of each sentence.
        """
        # apply the embedding layer that maps each token to its embedding
        s = self.embedding(s)

        # pack the sequences before feeding them to the LSTM
        packed_input = pack_padded_sequence(s, lengths, batch_first=True, enforce_sorted=False)
        packed_output, _ = self.lstm(packed_input)

        # unpack the sequences after passing through the LSTM
        padded_output, _ = pad_packed_sequence(packed_output, batch_first=True)

        s = torch.mean(padded_output, dim=1)  # mean pooling

        # apply the fully connected layer and obtain the output (before softmax) for each token
        s = self.fc(s)

        # apply log softmax on each token's output
        return F.log_softmax(s, dim=1)

In [20]:
def accuracy(outputs, labels):
    outputs = np.argmax(outputs.cpu().detach().numpy(), axis=1)
    # compare outputs with labels
    labels = labels.squeeze()
    return np.sum([1 if first == second else 0 for first, second in zip(labels, outputs)]) / float(len(labels))

def loss_fn(outputs, labels):
    loss = F.cross_entropy(outputs, labels.squeeze())
    return loss

In [21]:
class RunningAverage:
    """A simple class that maintains the running average of a quantity

    Example:
    ```
    loss_avg = RunningAverage()
    loss_avg.update(2)
    loss_avg.update(4)
    loss_avg() = 3
    ```
    """

    def __init__(self):
        self.steps = 0
        self.total = 0

    def update(self, val):
        self.total += val
        self.steps += 1

    def __call__(self):
        return self.total / float(self.steps)

In [22]:
def train(model, optimizer, loss_fn, data_iterator, num_steps):
    """Train the model on `num_steps` batches

    Args:
        model: (torch.nn.Module) the neural network
        optimizer: (torch.optim) optimizer for parameters of model
        loss_fn: a function that takes batch_output and batch_labels and computes the loss for the batch
        data_iterator: (generator) a generator that generates batches of data and labels
        metrics: (dict) a dictionary of functions that compute a metric using the output and labels of each batch
        params: (Params) hyperparameters
        num_steps: (int) number of batches to train on, each of size params.batch_size
    """

    # set model to training mode
    model.train()

    # summary for current training loop and a running average object for loss
    summ = []
    loss_avg = RunningAverage()

    # Use tqdm for progress bar
    t = trange(num_steps)
    for i in t:
        # fetch the next training batch
        train_batch, labels_batch, _ = next(data_iterator)
        train_batch = train_batch.to(device)
        labels_batch = labels_batch.to(device)
        
        # compute model output and loss
        seq_lengths = torch.LongTensor(list(map(len, train_batch)))
        output_batch = model(train_batch, seq_lengths)
        loss = loss_fn(output_batch, labels_batch)

        # clear previous gradients, compute gradients of all variables wrt loss
        optimizer.zero_grad()
        loss.backward()

        # performs updates using calculated gradients
        optimizer.step()

        # Evaluate summaries only once in a while
        if i % 10 == 0:
            # extract data from torch Variable, move to cpu, convert to numpy arrays
            output_batch = output_batch.data.cpu().numpy()
            labels_batch = labels_batch.data.cpu().numpy()

        # update the average loss
        loss_avg.update(loss.item())
        t.set_postfix(loss='{:05.3f}'.format(loss_avg()))

def evaluate(model, loss_fn, data_iterator, num_steps):
    """Evaluate the model on `num_steps` batches.

    Args:
        model: (torch.nn.Module) the neural network
        loss_fn: a function that takes batch_output and batch_labels and computes the loss for the batch
        data_iterator: (generator) a generator that generates batches of data and labels
        metrics: (dict) a dictionary of functions that compute a metric using the output and labels of each batch
        params: (Params) hyperparameters
        num_steps: (int) number of batches to train on, each of size params.batch_size
    """

    # set model to evaluation mode
    model.eval()

    loss_avg = RunningAverage()
    accuracy_avg = RunningAverage()

    # compute metrics over the dataset
    for _ in range(num_steps):
        # fetch the next evaluation batch
        data_batch, labels_batch, _ = next(data_iterator)
        data_batch = data_batch.to(device)
        labels_batch = labels_batch.to(device)

        # compute model output
        seq_lengths = torch.LongTensor(list(map(len, data_batch)))
        output_batch = model(data_batch, seq_lengths)
        loss = loss_fn(output_batch, labels_batch)
        loss_avg.update(loss.item())
        accuracy_val = accuracy(output_batch, labels_batch)
        accuracy_avg.update(accuracy_val)
        
        # extract data from torch Variable, move to cpu, convert to numpy arrays
        output_batch = output_batch.data.cpu().numpy()
        labels_batch = labels_batch.data.cpu().numpy()

    print(f"{loss_avg()=}")
    print(f"{accuracy_avg()=}")
    
def train_and_evaluate(
        model,
        train_sentences,
        train_labels,
        val_sentences,
        val_labels,
        num_epochs: int,
        batch_size: int,
        optimizer,
        loss_fn
):
    for epoch in range(num_epochs):
        # Run one epoch
        print("Epoch {}/{}".format(epoch + 1, num_epochs))

        # compute number of batches in one epoch (one full pass over the training set)
        num_steps = (len(train_sentences) + 1) // batch_size
        train_data_iterator = data_iterator(
            train_sentences, train_labels, len(train_sentences), batch_size, shuffle=True)
        train(model, optimizer, loss_fn, train_data_iterator,
               num_steps)

        # Evaluate for one epoch on validation set
        num_steps = (len(val_sentences) + 1) // batch_size
        val_data_iterator = data_iterator(
            val_sentences, val_labels, len(val_sentences), batch_size, shuffle=False)
        evaluate(model, loss_fn, val_data_iterator, num_steps)

In [23]:
inv_vocab = {v: k for k, v in vocab.items()}

def id_to_words(sentence):
    new_sentence = [inv_vocab[i] for i in sentence]
    return new_sentence

In [24]:
import warnings
warnings.filterwarnings('ignore')

In [25]:
# manually change vocab size (unique no. of words) and change label size (unique no. of labels) for now
model = Net(embedding_weights, 300, 5, no_of_labels).to(device)
optimizer = optim.Adam(model.parameters(), lr=0.001)

# if (os.path.isfile("model_weights2.pth")):
#     model.load_state_dict(torch.load('model_weights2.pth'))
# else:
#     train_and_evaluate(model, X_train_tokenized_indexified , y_train_formatted , X_val_tokenized_indexified  , y_val_formatted, 10, 32, optimizer, loss_fn)
#     torch.save(model.state_dict(), 'model_weights2.pth')

train_and_evaluate(model, X_train_tokenized_indexified , y_train_formatted , X_val_tokenized_indexified  , y_val_formatted, 100, 32, optimizer, loss_fn)
torch.save(model.state_dict(), 'model_weights2.pth')

Epoch 1/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 71.90it/s, loss=1.828]


loss_avg()=1.6773117303848266
accuracy_avg()=0.25625
Epoch 2/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 72.95it/s, loss=1.596]


loss_avg()=1.512058432896932
accuracy_avg()=0.3458333333333333
Epoch 3/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 69.46it/s, loss=1.466]


loss_avg()=1.4207961241404214
accuracy_avg()=0.4
Epoch 4/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:03<00:00, 46.85it/s, loss=1.354]


loss_avg()=1.2813013712565104
accuracy_avg()=0.5625
Epoch 5/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 69.92it/s, loss=1.237]


loss_avg()=1.2247209787368774
accuracy_avg()=0.54375
Epoch 6/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 76.93it/s, loss=1.157]


loss_avg()=1.1257223884264629
accuracy_avg()=0.5875
Epoch 7/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 86.74it/s, loss=1.101]


loss_avg()=1.0963182965914409
accuracy_avg()=0.5854166666666667
Epoch 8/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 86.16it/s, loss=1.039]


loss_avg()=1.0084218780199687
accuracy_avg()=0.625
Epoch 9/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 82.19it/s, loss=0.968]


loss_avg()=0.9507720828056335
accuracy_avg()=0.6520833333333333
Epoch 10/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 85.58it/s, loss=0.903]


loss_avg()=0.8888358235359192
accuracy_avg()=0.69375
Epoch 11/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:03<00:00, 50.16it/s, loss=0.860]


loss_avg()=0.8493758360544841
accuracy_avg()=0.7375
Epoch 12/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 62.05it/s, loss=0.857]


loss_avg()=0.8285084168116251
accuracy_avg()=0.7333333333333333
Epoch 13/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 69.91it/s, loss=0.796]


loss_avg()=0.7880841612815856
accuracy_avg()=0.7416666666666667
Epoch 14/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 82.43it/s, loss=0.771]


loss_avg()=0.7463565627733867
accuracy_avg()=0.7541666666666667
Epoch 15/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 84.80it/s, loss=0.736]


loss_avg()=0.7298853794733683
accuracy_avg()=0.7583333333333333
Epoch 16/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.14it/s, loss=0.710]


loss_avg()=0.7086881120999654
accuracy_avg()=0.7604166666666666
Epoch 17/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 75.03it/s, loss=0.684]


loss_avg()=0.6704568247000376
accuracy_avg()=0.7708333333333334
Epoch 18/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 66.57it/s, loss=0.664]


loss_avg()=0.6700266798337301
accuracy_avg()=0.7770833333333333
Epoch 19/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 53.09it/s, loss=0.632]


loss_avg()=0.6440312922000885
accuracy_avg()=0.7833333333333333
Epoch 20/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 72.53it/s, loss=0.610]


loss_avg()=0.634331899881363
accuracy_avg()=0.78125
Epoch 21/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 70.35it/s, loss=0.589]


loss_avg()=0.619268145163854
accuracy_avg()=0.7916666666666666
Epoch 22/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 71.05it/s, loss=0.563]


loss_avg()=0.5914922714233398
accuracy_avg()=0.7875
Epoch 23/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 68.34it/s, loss=0.548]


loss_avg()=0.5955495178699494
accuracy_avg()=0.79375
Epoch 24/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.41it/s, loss=0.563]


loss_avg()=0.5689600944519043
accuracy_avg()=0.8
Epoch 25/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 63.45it/s, loss=0.528]


loss_avg()=0.5795887053012848
accuracy_avg()=0.79375
Epoch 26/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.15it/s, loss=0.513]


loss_avg()=0.5594499667485555
accuracy_avg()=0.8
Epoch 27/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 92.04it/s, loss=0.496]


loss_avg()=0.556218832731247
accuracy_avg()=0.8
Epoch 28/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 73.32it/s, loss=0.489]


loss_avg()=0.5612030069033305
accuracy_avg()=0.8
Epoch 29/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 81.00it/s, loss=0.474]


loss_avg()=0.5562690059343974
accuracy_avg()=0.8104166666666667
Epoch 30/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 75.47it/s, loss=0.466]


loss_avg()=0.533526090780894
accuracy_avg()=0.80625
Epoch 31/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 79.34it/s, loss=0.453]


loss_avg()=0.526351680358251
accuracy_avg()=0.8125
Epoch 32/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.93it/s, loss=0.443]


loss_avg()=0.5271104673544565
accuracy_avg()=0.8208333333333333
Epoch 33/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.22it/s, loss=0.428]


loss_avg()=0.5207222600777944
accuracy_avg()=0.8208333333333333
Epoch 34/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 71.82it/s, loss=0.424]


loss_avg()=0.5175897816816966
accuracy_avg()=0.83125
Epoch 35/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.07it/s, loss=0.417]


loss_avg()=0.5112819810708363
accuracy_avg()=0.8291666666666667
Epoch 36/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 73.68it/s, loss=0.401]


loss_avg()=0.5107688705126444
accuracy_avg()=0.8270833333333333
Epoch 37/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 76.39it/s, loss=0.393]


loss_avg()=0.4959496855735779
accuracy_avg()=0.8354166666666667
Epoch 38/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.32it/s, loss=0.382]


loss_avg()=0.4970269759496053
accuracy_avg()=0.8395833333333333
Epoch 39/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 74.50it/s, loss=0.373]


loss_avg()=0.4864490250746409
accuracy_avg()=0.8395833333333333
Epoch 40/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 82.13it/s, loss=0.364]


loss_avg()=0.49384015798568726
accuracy_avg()=0.8416666666666667
Epoch 41/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.58it/s, loss=0.366]


loss_avg()=0.4786971569061279
accuracy_avg()=0.8520833333333333
Epoch 42/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.72it/s, loss=0.355]


loss_avg()=0.4809916059176127
accuracy_avg()=0.8520833333333333
Epoch 43/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 74.86it/s, loss=0.344]


loss_avg()=0.48004052639007566
accuracy_avg()=0.8541666666666666
Epoch 44/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 76.44it/s, loss=0.345]


loss_avg()=0.4660688320795695
accuracy_avg()=0.8604166666666667
Epoch 45/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.81it/s, loss=0.331]


loss_avg()=0.474565718571345
accuracy_avg()=0.85625
Epoch 46/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.57it/s, loss=0.340]


loss_avg()=0.4567659725745519
accuracy_avg()=0.8541666666666666
Epoch 47/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 72.94it/s, loss=0.326]


loss_avg()=0.4657639443874359
accuracy_avg()=0.8583333333333333
Epoch 48/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.99it/s, loss=0.318]


loss_avg()=0.4684649646282196
accuracy_avg()=0.8583333333333333
Epoch 49/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.23it/s, loss=0.311]


loss_avg()=0.4598233143488566
accuracy_avg()=0.8583333333333333
Epoch 50/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.33it/s, loss=0.305]


loss_avg()=0.45989070534706117
accuracy_avg()=0.8541666666666666
Epoch 51/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 72.31it/s, loss=0.296]


loss_avg()=0.4543802907069524
accuracy_avg()=0.8604166666666667
Epoch 52/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 76.04it/s, loss=0.299]


loss_avg()=0.45960081020991006
accuracy_avg()=0.85625
Epoch 53/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 79.70it/s, loss=0.292]


loss_avg()=0.45673065781593325
accuracy_avg()=0.85625
Epoch 54/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 66.38it/s, loss=0.287]


loss_avg()=0.44706753889719647
accuracy_avg()=0.8625
Epoch 55/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 73.14it/s, loss=0.284]


loss_avg()=0.45411342680454253
accuracy_avg()=0.8583333333333333
Epoch 56/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 65.41it/s, loss=0.283]


loss_avg()=0.4437043219804764
accuracy_avg()=0.8645833333333334
Epoch 57/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.92it/s, loss=0.276]


loss_avg()=0.44240605930487314
accuracy_avg()=0.8604166666666667
Epoch 58/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.97it/s, loss=0.270]


loss_avg()=0.43480621178944906
accuracy_avg()=0.8666666666666667
Epoch 59/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 82.57it/s, loss=0.277]


loss_avg()=0.433455228805542
accuracy_avg()=0.8604166666666667
Epoch 60/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 83.04it/s, loss=0.271]


loss_avg()=0.42952401638031007
accuracy_avg()=0.86875
Epoch 61/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.21it/s, loss=0.262]


loss_avg()=0.42630733450253805
accuracy_avg()=0.8666666666666667
Epoch 62/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.95it/s, loss=0.267]


loss_avg()=0.42733636597792307
accuracy_avg()=0.86875
Epoch 63/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.19it/s, loss=0.255]


loss_avg()=0.43839876453081766
accuracy_avg()=0.86875
Epoch 64/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.21it/s, loss=0.270]


loss_avg()=0.42278560002644855
accuracy_avg()=0.8729166666666667
Epoch 65/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 73.68it/s, loss=0.246]


loss_avg()=0.42147101163864137
accuracy_avg()=0.8708333333333333
Epoch 66/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.45it/s, loss=0.241]


loss_avg()=0.4238053739070892
accuracy_avg()=0.8729166666666667
Epoch 67/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 65.77it/s, loss=0.239]


loss_avg()=0.4255931715170542
accuracy_avg()=0.8729166666666667
Epoch 68/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 69.10it/s, loss=0.235]


loss_avg()=0.43278128703435265
accuracy_avg()=0.8708333333333333
Epoch 69/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.78it/s, loss=0.234]


loss_avg()=0.4265048603216807
accuracy_avg()=0.8708333333333333
Epoch 70/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 84.57it/s, loss=0.228]


loss_avg()=0.4258443872133891
accuracy_avg()=0.8666666666666667
Epoch 71/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 68.94it/s, loss=0.266]


loss_avg()=0.44824747145175936
accuracy_avg()=0.8625
Epoch 72/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.25it/s, loss=0.243]


loss_avg()=0.43321053981781005
accuracy_avg()=0.8833333333333333
Epoch 73/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.48it/s, loss=0.228]


loss_avg()=0.4270599991083145
accuracy_avg()=0.875
Epoch 74/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 84.88it/s, loss=0.227]


loss_avg()=0.42597429354985555
accuracy_avg()=0.8791666666666667
Epoch 75/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 83.59it/s, loss=0.229]


loss_avg()=0.42980307737986245
accuracy_avg()=0.86875
Epoch 76/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 85.36it/s, loss=0.220]


loss_avg()=0.4268919030825297
accuracy_avg()=0.8770833333333333
Epoch 77/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.31it/s, loss=0.214]


loss_avg()=0.430912313858668
accuracy_avg()=0.875
Epoch 78/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 84.60it/s, loss=0.217]


loss_avg()=0.43671284317970277
accuracy_avg()=0.8770833333333333
Epoch 79/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 84.81it/s, loss=0.255]


loss_avg()=0.4673089563846588
accuracy_avg()=0.8770833333333333
Epoch 80/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.52it/s, loss=0.232]


loss_avg()=0.4204148679971695
accuracy_avg()=0.8729166666666667
Epoch 81/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 83.71it/s, loss=0.217]


loss_avg()=0.43524532119433085
accuracy_avg()=0.8666666666666667
Epoch 82/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 82.95it/s, loss=0.215]


loss_avg()=0.4497021605571111
accuracy_avg()=0.8666666666666667
Epoch 83/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 84.95it/s, loss=0.210]


loss_avg()=0.4275755693515142
accuracy_avg()=0.875
Epoch 84/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 86.23it/s, loss=0.200]


loss_avg()=0.4281059930721919
accuracy_avg()=0.875
Epoch 85/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 84.49it/s, loss=0.196]


loss_avg()=0.4239951620499293
accuracy_avg()=0.8770833333333333
Epoch 86/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.85it/s, loss=0.193]


loss_avg()=0.43126039803028104
accuracy_avg()=0.8770833333333333
Epoch 87/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 81.96it/s, loss=0.209]


loss_avg()=0.4275899847348531
accuracy_avg()=0.8791666666666667
Epoch 88/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 93.50it/s, loss=0.192]


loss_avg()=0.43261948426564534
accuracy_avg()=0.8791666666666667
Epoch 89/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 87.60it/s, loss=0.189]


loss_avg()=0.43830359578132627
accuracy_avg()=0.8708333333333333
Epoch 90/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 80.85it/s, loss=0.187]


loss_avg()=0.4380086233218511
accuracy_avg()=0.875
Epoch 91/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 81.24it/s, loss=0.185]


loss_avg()=0.4414055993159612
accuracy_avg()=0.875
Epoch 92/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 78.82it/s, loss=0.190]


loss_avg()=0.44698089361190796
accuracy_avg()=0.86875
Epoch 93/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 72.42it/s, loss=0.186]


loss_avg()=0.4431986749172211
accuracy_avg()=0.86875
Epoch 94/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 79.50it/s, loss=0.180]


loss_avg()=0.4584104895591736
accuracy_avg()=0.8625
Epoch 95/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 69.97it/s, loss=0.183]


loss_avg()=0.4533439119656881
accuracy_avg()=0.8583333333333333
Epoch 96/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 73.58it/s, loss=0.181]


loss_avg()=0.44328827361265816
accuracy_avg()=0.86875
Epoch 97/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 74.82it/s, loss=0.178]


loss_avg()=0.44374207059542337
accuracy_avg()=0.8770833333333333
Epoch 98/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.50it/s, loss=0.178]


loss_avg()=0.43913891216119133
accuracy_avg()=0.875
Epoch 99/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:02<00:00, 75.84it/s, loss=0.178]


loss_avg()=0.45088957448800404
accuracy_avg()=0.8729166666666667
Epoch 100/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████| 154/154 [00:01<00:00, 77.60it/s, loss=0.177]


loss_avg()=0.44956570367018384
accuracy_avg()=0.8729166666666667


## Final Test Accuracy

In [43]:
# Simple check with test dataset
model.eval()
test_data_iterator = data_iterator(X_test_tokenized_indexified, y_test_formatted, len(X_test_tokenized_indexified), len(X_test_tokenized_indexified), shuffle=False)
test_batch, labels_batch, test_sentences = next(test_data_iterator)
print(test_batch)
print(test_batch.shape)

seq_lengths = torch.LongTensor(list(map(len, test_batch)))
output_batch = model(test_batch.to(device),seq_lengths)
print(f"{output_batch=}")
print(f"{output_batch.shape=}")
final_test_accuracy = accuracy(output_batch, labels_batch.to(device))
print(f"{final_test_accuracy=}")

tensor([[    139,     353,       4,  ..., 3000000, 3000000, 3000000],
        [     83,     906,       4,  ..., 3000000, 3000000, 3000000],
        [     31,      10,   98307,  ..., 3000000, 3000000, 3000000],
        ...,
        [    139,     131,    1145,  ..., 3000000, 3000000, 3000000],
        [     83,       4,      11,  ..., 3000000, 3000000, 3000000],
        [     83,       4,   98307,  ..., 3000000, 3000000, 3000000]])
torch.Size([500, 17])
output_batch=tensor([[-6.0343e+00, -1.1875e+01, -1.1729e+01,  ..., -2.7089e-03,
         -8.2129e+00, -1.0761e+01],
        [-3.1135e+00, -8.9805e+00, -8.8444e+00,  ..., -4.6083e+00,
         -6.6348e-02, -6.1022e+00],
        [-8.7518e+00, -1.3003e+01, -1.2955e+01,  ..., -1.0955e+01,
         -7.7497e+00, -6.6946e+00],
        ...,
        [-7.4566e+00, -1.3042e+01, -1.2827e+01,  ..., -7.1452e-04,
         -9.0017e+00, -1.1914e+01],
        [-1.2023e+00, -1.0650e+01, -1.0221e+01,  ..., -5.3868e-01,
         -4.4518e+00, -2.4523e+00],
   

In [44]:
def get_sentence_label(sentence: str) -> int:
    model.eval()
    sentence = word_tokenize(sentence.lower())
    sentence = [
        vocab[token] if token in vocab
        else vocab['UNK']
        for token in sentence
    ]
    seq_lengths = torch.LongTensor([len(sentence)])
    print(seq_lengths)
    input = torch.tensor(sentence).unsqueeze(0)
    print(input)
    output = model(input, seq_lengths)
    print(output)
    label = np.argmax(output.detach().numpy())
    return label

print(get_sentence_label("Hello Good morning"))

tensor([3])
tensor([[20397,   127,   565]])
tensor([[-1.9119, -9.7051, -9.3471, -2.0767, -0.5027, -3.2071, -2.5095]],
       grad_fn=<LogSoftmaxBackward0>)
4
