# 1. Downloading data, clean and preprocess



In [1]:
import os
import re
import nltk
import numpy as np
import pandas as pd
from zipfile import ZipFile
import zipfile
from nltk.stem import WordNetLemmatizer
nltk.download('punkt')
nltk.download('omw-1.4')
nltk.download('wordnet')
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import torch
import torchvision
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torchvision.transforms as transforms
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split


[nltk_data] Downloading package punkt to /home/bptran/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/bptran/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package wordnet to /home/bptran/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /home/bptran/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
  from .autonotebook import tqdm as notebook_tqdm


In [2]:
!pip install torchinfo
import torchinfo

[0m

## 1.1 Loading data 

In [72]:
# Fetch the data
path = "data_full4.zip"

df = pd.DataFrame()
with zipfile.ZipFile(path) as z:
  for name in z.namelist():
    if name.endswith(".csv"):
      print(f'Loading data from {name}...')
      x = pd.read_csv(z.open(name))
      print(f'Loading completed from {name}...')
      df = pd.concat([df, x[['genre','plot']]],axis=0,ignore_index=True)
  print("Dataframe (df) ready to be used!")

df

Loading data from content/gdrive/MyDrive/CS5242_Project_Data_2/action/action_films.csv...
Loading completed from content/gdrive/MyDrive/CS5242_Project_Data_2/action/action_films.csv...
Loading data from content/gdrive/MyDrive/CS5242_Project_Data_2/adventure/adventure_films.csv...
Loading completed from content/gdrive/MyDrive/CS5242_Project_Data_2/adventure/adventure_films.csv...
Loading data from content/gdrive/MyDrive/CS5242_Project_Data_2/comedy/comedy_films.csv...
Loading completed from content/gdrive/MyDrive/CS5242_Project_Data_2/comedy/comedy_films.csv...
Loading data from content/gdrive/MyDrive/CS5242_Project_Data_2/drama/drama_films.csv...
Loading completed from content/gdrive/MyDrive/CS5242_Project_Data_2/drama/drama_films.csv...
Loading data from content/gdrive/MyDrive/CS5242_Project_Data_2/horror/horror_films.csv...
Loading completed from content/gdrive/MyDrive/CS5242_Project_Data_2/horror/horror_films.csv...
Loading data from content/gdrive/MyDrive/CS5242_Project_Data_2/roma

Unnamed: 0,genre,plot
0,action,twentytwo year old tori coro gets involved in ...
1,action,a criminal gang discovers a genghis khan treas...
2,action,in 1890 london private detective sherlock holm...
3,action,jenny is a student studying abroad in london l...
4,action,neil is a former triad boss who has just been ...
...,...,...
3752,crime,journalist rex banner peter reynolds with the ...
3753,crime,smalltown girl jean lowell is about to wed far...
3754,crime,as recorded in a film magazine maggie the daug...
3755,crime,two women with bad taste in men are thrown tog...


In [73]:
df.groupby('genre').count()

Unnamed: 0_level_0,plot
genre,Unnamed: 1_level_1
action,484
adventure,467
comedy,462
crime,425
drama,434
fantasy,206
historical,246
horror,561
romance,156
scifi,316


In [88]:
#new_df = df[~df['genre'].isin(["action", "adventure", "drama", "fantasy", "historical", "romance"])]
new_df = df[~df['genre'].isin(["action", "adventure", "comedy", "drama", "historical", "horror"])]

In [89]:
new_df.groupby('genre').count()

Unnamed: 0_level_0,plot
genre,Unnamed: 1_level_1
crime,425
fantasy,206
romance,156
scifi,316


In [90]:
df[df['genre'] == 'comedy'].iloc[1]['plot']

'before undergoing an operation at a hospital in chile peter ingersoll explains the origin of his unusual condition peter a california insurance salesman learns that he only has a short time left to live with his wifes encouragement peter embarks on an epic fishing excursion accruing 100000 of charges on his credit card however dr carter contacts peter to inform him that he was misdiagnosed and is not dying peter is urged by dr carter to fake his death to avoid paying the large debt and to permit his wife to collect a 150000 lifeinsurance policy after seven years when the statute of limitations expires peter can reappear peter discovers that the entire plan was a scheme concocted by his wife and dr carter who are having an affair he is determined to sabotage their plans but instead finds himself on the operating table in chile with a marlin piercing his chest'

## 1.2. Clean data

In [91]:
#Commence data cleaning, split data into X and Y
plot_list, genre_list = new_df['plot'] , new_df['genre']

#Load, pre-process and clean data before splitting into train and test set
lemma = WordNetLemmatizer()


## 1.3. Tokenization, embeddings

In [92]:
def tokenize(texts):
    """Tokenize texts, build vocabulary and find maximum sentence length.
    
    Args:
        texts (List[str]): List of text data
    
    Returns:
        tokenized_texts (List[List[str]]): List of list of tokens
        word2idx (Dict): Vocabulary built from the corpus
        max_len (int): Maximum sentence length
    """

    max_len = 0
    tokenized_texts = []
    word2idx = {}

    # Add <pad> and <unk> tokens to the vocabulary
    word2idx['<pad>'] = 0
    word2idx['<unk>'] = 1

    # Building our vocab from the corpus starting from index 2
    idx = 2
    for sent in texts:
        tokenized_sent = word_tokenize(sent)

        # Add `tokenized_sent` to `tokenized_texts`
        tokenized_texts.append(tokenized_sent)

        # Add new token to `word2idx`
        for token in tokenized_sent:
            if token not in word2idx:
                word2idx[token] = idx
                idx += 1

        # Update `max_len`
        max_len = max(max_len, len(tokenized_sent))

    return tokenized_texts, word2idx, max_len

def encode(tokenized_texts, word2idx, max_len):
    """Pad each sentence to the maximum sentence length and encode tokens to
    their index in the vocabulary.

    Returns:
        input_ids (np.array): Array of token indexes in the vocabulary with
            shape (N, max_len). It will the input of our CNN model.
    """

    input_ids = []
    for tokenized_sent in tokenized_texts:
        # Pad sentences to max_len
        padd_tokenized_sent = tokenized_sent + ['<pad>'] * (max_len - len(tokenized_sent))

        # Encode tokens to input_ids
        input_id = [word2idx.get(token) for token in padd_tokenized_sent]
        input_ids.append(input_id)
    
    return np.array(input_ids)

def encode_no_pad(tokenized_texts, word2idx):
    """Pad each sentence to the maximum sentence length and encode tokens to
    their index in the vocabulary.

    Returns:
        input_ids (np.array): Array of token indexes in the vocabulary with
            shape (N, max_len). It will the input of our CNN model.
    """

    input_ids = []
    for tokenized_sent in tokenized_texts:
        # Pad sentences to max_len

        # Encode tokens to input_ids
        input_id = [word2idx.get(token) for token in tokenized_sent]
        input_ids.append(input_id)
    
    return input_ids

In [93]:
from tqdm import tqdm

def load_pretrained_vectors(word2idx, fname):
    """Load pretrained vectors and create embedding layers.
    
    Args:
        word2idx (Dict): Vocabulary built from the corpus
        fname (str): Path to pretrained vector file

    Returns:
        embeddings (np.array): Embedding matrix with shape (N, d) where N is
            the size of word2idx and d is embedding dimension
    """

    print("Loading pretrained vectors...")
    fin = open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
    if "glove" in fname:
        d = len(fin.readline().split()) - 1
    elif "crawl" in fname:
        n, d = map(int, fin.readline().split())

    # Initilize random embeddings
    embeddings = np.random.uniform(-0.25, 0.25, (len(word2idx), d))
    embeddings[word2idx['<pad>']] = np.zeros((d,))

    # Load pretrained vectors
    count = 0
    for line in tqdm(fin):
        tokens = line.rstrip().split(' ')
        word = tokens[0]
        if word in word2idx:
            count += 1
            embeddings[word2idx[word]] = np.array(tokens[1:], dtype=np.float32)

    print(f"There are {count} / {len(word2idx)} pretrained vectors found.")

    return embeddings

In [94]:
# Tokenize, build vocabulary, encode tokens
print("Tokenizing...\n")
tokenized_texts, word2idx, max_len = tokenize(plot_list)

# Load pretrained vectors, please put 'glove.6B.300d.txt' in current folder to be run.
# 'glove.6B.300d.txt' is downloaded at https://www.kaggle.com/datasets/thanakomsn/glove6b300dtxt
embeddings = load_pretrained_vectors(word2idx, "glove.6B.300d.txt")
embeddings = torch.tensor(embeddings)

Tokenizing...

Loading pretrained vectors...


399999it [00:09, 43693.57it/s]


There are 22530 / 25763 pretrained vectors found.


## 1.4. Preparing dataset and dataloader

In [95]:
from torch.utils.data import (TensorDataset, DataLoader, RandomSampler, Dataset,
                              SequentialSampler)

from typing import List

class FilmGenres(Dataset):
    def __init__(self, inputs: List, labels: np.ndarray):
        '''
        train: True if dataset for training, otherwise False is for testing
        zip_file_path is path containing the plot films
        '''
        self.list_of_plot = inputs
        self.array_of_labels = labels


    def __len__(self):
        return len(self.list_of_plot)

    def __getitem__(self, idx):
        if torch.is_tensor(idx):
            idx = idx.tolist()

        if idx >= len(self):
            raise IndexError

        sample = torch.tensor(self.list_of_plot[idx]), torch.tensor(self.array_of_labels[idx])

        return sample

def data_loader(train_inputs, val_inputs, train_labels, val_labels,batch_size=1):
    """Convert train and validation sets to torch.Tensors and load them to
    DataLoader.
    """


    # Create DataLoader for training data
    train_data = FilmGenres(train_inputs, train_labels)
    train_sampler = RandomSampler(train_data)
    train_dataloader = DataLoader(train_data, sampler=train_sampler, batch_size=batch_size)

    # Create DataLoader for validation data
    val_data = FilmGenres(val_inputs, val_labels)
    val_sampler = SequentialSampler(val_data)
    val_dataloader = DataLoader(val_data, sampler=val_sampler, batch_size=batch_size)

    return train_dataloader, val_dataloader

In [96]:
from sklearn.model_selection import train_test_split

# Train Test Split

# 1. Noting here, if use batch_size > 1, then must use encode
# 2. If use batch_size = 1, then can use encode or encode_no_pad

# train_inputs is list of list of integer number where number is encoded of token, and train_labels is numpy array
# encode tokens

input_ids = encode_no_pad(tokenized_texts, word2idx) # For batch_size = 1
#input_ids = encode(tokenized_texts, word2idx, max_len) # For batch_size > 1

#Transformation for Y#
#create dictionary to retain information on different classes
#action, adventure, comedy, crime, drama, fantasy, historical, horror, romance, scifi
#y_info = {'action': 0, 'adventure':1,'comedy':2,'crime':3, 'drama':4,'fantasy':5,'historical':6,'horror':7,'romance':8,'scifi':9}
y_info = {'crime':0, 'fantasy':1, 'scifi':2, 'romance':3}

Y = genre_list.apply(lambda y: y_info[y.lower()])

#Transformation for Y, one hot encode for multiclass
Y = Y.to_numpy() #In order to use reshape below

train_inputs, val_inputs, train_labels, val_labels = train_test_split(
    input_ids, Y, test_size=0.1, random_state=42)

In [97]:
# Load data to PyTorch DataLoader
train_dataloader, val_dataloader = data_loader(train_inputs, val_inputs, train_labels, val_labels, batch_size=1)

# 2. Common train / test procedure for training

In [98]:
if torch.cuda.is_available():       
    device = torch.device("cuda")
    print(f'There are {torch.cuda.device_count()} GPU(s) available.')
    print('Device name:', torch.cuda.get_device_name(0))

else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

There are 1 GPU(s) available.
Device name: NVIDIA GeForce RTX 3060 Ti


In [99]:
import random
import time
from tqdm import tqdm

# Specify loss function
loss_fn = nn.CrossEntropyLoss() 


def set_seed(seed_value=42):
    """Set seed for reproducibility."""

    random.seed(seed_value)
    np.random.seed(seed_value)
    torch.manual_seed(seed_value)
    torch.cuda.manual_seed_all(seed_value)

def train(model, optimizer, train_dataloader, val_dataloader=None, epochs=10):
    """Train the CNN model."""
    
    # Tracking best validation accuracy
    best_accuracy = 0

    # Start training loop
    print("Start training...\n")
    print(f"{'Epoch':^7} | {'Train Loss':^12} | {'Val Loss':^10} | {'Val Acc':^9} | {'Elapsed':^9}")
    print("-"*60)

    for epoch_i in range(epochs):
        # =======================================
        #               Training
        # =======================================

        # Tracking time and loss
        t0_epoch = time.time()
        running_loss = 0

        # Put the model into the training mode
        model.train()

        for step, batch in enumerate(tqdm(train_dataloader)):
            # Load batch to GPU
            b_input_ids, b_labels = tuple(t.to(device) for t in batch)
            # Perform a forward pass. This will return logits.
            model_outputs = model(b_input_ids) #added by myself

            # compute loss
            loss = loss_fn(model_outputs,b_labels) #added by myself

            # Zero out any previously calculated gradients
            optimizer.zero_grad() #added by myself

            # Perform a backward pass to calculate gradients
            loss.backward() #added by myself

            # Update parameters
            optimizer.step()

            # Compute loss and accumulate the loss values
            running_loss += loss.item()
            

        # Calculate the average loss over the entire training data
        avg_train_loss = running_loss / len(train_dataloader)

        # =======================================
        #               Evaluation
        # =======================================
        if val_dataloader is not None:
            # After the completion of each training epoch, measure the model's
            # performance on our validation set.
            val_loss, val_accuracy = evaluate(model, val_dataloader)

            # Track the best accuracy
            if val_accuracy > best_accuracy:
                best_accuracy = val_accuracy
                torch.save({
                    'model_state_dict': model.state_dict(),
                    'optimizer_state_dict': optimizer.state_dict(),
                }, f'{PATH}/cnn.pt')

            # Print performance over the entire training data
            time_elapsed = time.time() - t0_epoch
            print(f"{epoch_i + 1:^7} | {avg_train_loss:^12.6f} | {val_loss:^10.6f} | {val_accuracy:^9.2f} | {time_elapsed:^9.2f}")
            
            with open(f'{PATH}/log.txt', 'a') as f:
                f.write(f"{epoch_i + 1:^7} | {avg_train_loss:^12.6f} | {val_loss:^10.6f} | {val_accuracy:^9.2f} | {time_elapsed:^9.2f}\n")
            
    print("\n")
    print(f"Training complete! Best accuracy: {best_accuracy:.2f}%.")

def evaluate(model, val_dataloader):
    """After the completion of each training epoch, measure the model's
    performance on our validation set.
    """
    # Put the model into the evaluation mode. The dropout layers are disabled
    # during the test time.
    model.eval()

    # Tracking variables
    val_accuracy = []
    val_loss = []

    # For each batch in our validation set...
    for batch in val_dataloader:
        # Load batch to GPU
        b_input_ids, b_labels = tuple(t.to(device) for t in batch)

        # Compute logits
        with torch.no_grad():
            logits = model(b_input_ids)

        # Compute loss
        loss = loss_fn(logits, b_labels)
        val_loss.append(loss.item())

        # Get the predictions
        preds = torch.argmax(logits, dim=1).flatten()

        # Calculate the accuracy rate
        accuracy = (preds == b_labels).cpu().numpy().mean() * 100
        val_accuracy.append(accuracy)

    # Compute the average accuracy and loss over the validation set.
    val_loss = np.mean(val_loss)
    val_accuracy = np.mean(val_accuracy)

    return val_loss, val_accuracy

# 2. CNN

In [100]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class CNN_NLP(nn.Module):
    """An 1D Convulational Neural Network for Sentence Classification."""
    def __init__(self,
                 pretrained_embedding=None,
                 freeze_embedding=False,
                 vocab_size=None,
                 embed_dim=300,
                 filter_sizes=[3, 4, 5],
                 num_filters=[100, 100, 100],
                 num_classes=2,
                 dropout=0.5):
        """
        The constructor for CNN_NLP class.

        Args:
            pretrained_embedding (torch.Tensor): Pretrained embeddings with
                shape (vocab_size, embed_dim)
            freeze_embedding (bool): Set to False to fine-tune pretraiend
                vectors. Default: False
            vocab_size (int): Need to be specified when not pretrained word
                embeddings are not used.
            embed_dim (int): Dimension of word vectors. Need to be specified
                when pretrained word embeddings are not used. Default: 300
            filter_sizes (List[int]): List of filter sizes. Default: [3, 4, 5]
            num_filters (List[int]): List of number of filters, has the same
                length as `filter_sizes`. Default: [100, 100, 100]
            n_classes (int): Number of classes. Default: 2
            dropout (float): Dropout rate. Default: 0.5
        """

        super(CNN_NLP, self).__init__()
        # Embedding layer
        if pretrained_embedding is not None:
            self.vocab_size, self.embed_dim = pretrained_embedding.shape
            self.embedding = nn.Embedding.from_pretrained(pretrained_embedding,
                                                          freeze=freeze_embedding)
        else:
            self.embed_dim = embed_dim
            self.embedding = nn.Embedding(num_embeddings=vocab_size,
                                          embedding_dim=self.embed_dim,
                                          padding_idx=0,
                                          max_norm=5.0)
        # Conv Network
        self.conv1d_list = nn.ModuleList([
            nn.Conv1d(in_channels=self.embed_dim,
                      out_channels=num_filters[i],
                      kernel_size=filter_sizes[i])
            for i in range(len(filter_sizes))
        ])
        # Fully-connected layer and Dropout
        self.fc = nn.Linear(np.sum(num_filters), num_classes)
        self.dropout = nn.Dropout(p=dropout)

    def forward(self, input_ids):
        """Perform a forward pass through the network.

        Args:
            input_ids (torch.Tensor): A tensor of token ids with shape
                (batch_size, max_sent_length)

        Returns:
            logits (torch.Tensor): Output logits with shape (batch_size,
                n_classes)
        """

        # Get embeddings from `input_ids`. Output shape: (b, max_len, embed_dim)
        x_embed = self.embedding(input_ids).float()

        # Permute `x_embed` to match input shape requirement of `nn.Conv1d`.
        # Output shape: (b, embed_dim, max_len)
        x_reshaped = x_embed.permute(0, 2, 1)

        # Apply CNN and ReLU. Output shape: (b, num_filters[i], L_out)
        x_conv_list = [F.relu(conv1d(x_reshaped)) for conv1d in self.conv1d_list]

        # Max pooling. Output shape: (b, num_filters[i], 1)
        x_pool_list = [F.max_pool1d(x_conv, kernel_size=x_conv.shape[2])
            for x_conv in x_conv_list]
        
        # Concatenate x_pool_list to feed the fully connected layer.
        # Output shape: (b, sum(num_filters))
        x_fc = torch.cat([x_pool.squeeze(dim=2) for x_pool in x_pool_list],
                         dim=1)
        
        # Compute logits. Output shape: (b, n_classes)
        logits = self.fc(x_fc)

        return logits

In [101]:
import torch.optim as optim

def initilize_cnn_model(pretrained_embedding=None,
                    freeze_embedding=False,
                    vocab_size=None,
                    embed_dim=300,
                    filter_sizes=[3, 4, 5],
                    num_filters=[100, 100, 100],
                    num_classes=2,
                    dropout=0.5,
                    learning_rate=0.01):
    """Instantiate a CNN model and an optimizer."""

    assert (len(filter_sizes) == len(num_filters)), "filter_sizes and \
    num_filters need to be of the same length."

    # Instantiate CNN model
    cnn_model = CNN_NLP(pretrained_embedding=pretrained_embedding,
                        freeze_embedding=freeze_embedding,
                        vocab_size=vocab_size,
                        embed_dim=embed_dim,
                        filter_sizes=filter_sizes,
                        num_filters=num_filters,
                        num_classes=num_classes,
                        dropout=dropout)
    
    # Send model to `device` (GPU/CPU)
    cnn_model.to(device)

    # Instantiate Adadelta optimizer
    optimizer = optim.Adadelta(cnn_model.parameters(),
                               lr=learning_rate,
                               rho=0.95)

    # For cnn4
#     optimizer = optim.Adam(cnn_model.parameters(),
#                                lr=learning_rate)

    return cnn_model, optimizer

In [102]:
# 2. CNN model: golve.6b.100d pretrained word vectors are fine-tuned during training.
# Accurcy for this model is 57.99%
PATH = "cnn_newdata"
os.makedirs(PATH, exist_ok=True)
filter_sizes = [3, 4, 5]
num_filters = [128, 256, 512]

set_seed(42)
model, optimizer = initilize_cnn_model(pretrained_embedding=embeddings,
                                            freeze_embedding=True,
                                            filter_sizes=filter_sizes,
                                            num_filters=num_filters,
                                            num_classes=len(y_info),
                                            vocab_size = len(word2idx),
                                            dropout=0,
                                            learning_rate=0.01)
train(model, optimizer, train_dataloader, val_dataloader, epochs=100)

Start training...

 Epoch  |  Train Loss  |  Val Loss  |  Val Acc  |  Elapsed 
------------------------------------------------------------


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 600.78it/s]


   1    |   1.262801   |  1.191410  |   45.05   |   3.42   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 628.80it/s]


   2    |   1.039531   |  1.052465  |   57.66   |   2.24   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 623.19it/s]


   3    |   0.853912   |  0.908090  |   65.77   |   2.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 630.51it/s]


   4    |   0.703726   |  0.816247  |   65.77   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 634.35it/s]


   5    |   0.592095   |  0.740180  |   77.48   |   2.18   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 622.13it/s]


   6    |   0.503691   |  0.692943  |   74.77   |   1.67   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 634.73it/s]


   7    |   0.432333   |  0.654970  |   81.98   |   2.24   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 632.52it/s]


   8    |   0.373493   |  0.632138  |   80.18   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 631.10it/s]


   9    |   0.323549   |  0.608215  |   80.18   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 614.85it/s]


  10    |   0.280292   |  0.592912  |   82.88   |   2.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 635.04it/s]


  11    |   0.242706   |  0.575136  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 605.48it/s]


  12    |   0.208589   |  0.564989  |   81.98   |   1.72   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 614.31it/s]


  13    |   0.181474   |  0.550007  |   82.88   |   1.69   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 619.85it/s]


  14    |   0.155990   |  0.550486  |   80.18   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 634.74it/s]


  15    |   0.134980   |  0.529362  |   83.78   |   2.21   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 628.97it/s]


  16    |   0.115555   |  0.521271  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 636.09it/s]


  17    |   0.099310   |  0.518579  |   84.68   |   2.62   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 631.30it/s]


  18    |   0.085297   |  0.508208  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 628.96it/s]


  19    |   0.073366   |  0.506406  |   81.08   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 621.79it/s]


  20    |   0.063098   |  0.502979  |   81.08   |   1.67   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 638.62it/s]


  21    |   0.053621   |  0.504448  |   81.08   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 632.28it/s]


  22    |   0.046731   |  0.500683  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 626.54it/s]


  23    |   0.039801   |  0.505422  |   80.18   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 636.37it/s]


  24    |   0.034727   |  0.489512  |   79.28   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 617.00it/s]


  25    |   0.030127   |  0.492224  |   81.98   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 633.89it/s]


  26    |   0.026089   |  0.487549  |   81.98   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 637.82it/s]


  27    |   0.022256   |  0.497531  |   79.28   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 634.37it/s]


  28    |   0.019642   |  0.487881  |   81.08   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 624.23it/s]


  29    |   0.017462   |  0.493157  |   79.28   |   1.67   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 640.56it/s]


  30    |   0.015903   |  0.493956  |   81.08   |   1.62   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 623.72it/s]


  31    |   0.013653   |  0.489361  |   81.08   |   1.67   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 634.27it/s]


  32    |   0.012283   |  0.494152  |   79.28   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 630.46it/s]


  33    |   0.010967   |  0.496300  |   81.08   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 628.83it/s]


  34    |   0.010000   |  0.499624  |   79.28   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 626.48it/s]


  35    |   0.009029   |  0.488985  |   81.08   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 621.05it/s]


  36    |   0.008264   |  0.489149  |   79.28   |   1.67   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 631.83it/s]


  37    |   0.007623   |  0.501467  |   81.08   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 634.23it/s]


  38    |   0.007029   |  0.490225  |   81.98   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 633.99it/s]


  39    |   0.006606   |  0.489758  |   81.08   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 610.37it/s]


  40    |   0.006035   |  0.504841  |   80.18   |   1.70   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 636.58it/s]


  41    |   0.006057   |  0.495828  |   80.18   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 634.35it/s]


  42    |   0.005367   |  0.505756  |   80.18   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 606.55it/s]


  43    |   0.005693   |  0.489705  |   81.08   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 638.74it/s]


  44    |   0.005484   |  0.500117  |   81.08   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 625.66it/s]


  45    |   0.005063   |  0.496157  |   81.08   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 631.94it/s]


  46    |   0.004812   |  0.502624  |   81.08   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 632.26it/s]


  47    |   0.004629   |  0.495707  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 637.87it/s]


  48    |   0.003880   |  0.501883  |   81.08   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 637.95it/s]


  49    |   0.004526   |  0.506683  |   81.08   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 630.73it/s]


  50    |   0.003788   |  0.505656  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 635.41it/s]


  51    |   0.004258   |  0.508244  |   81.08   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 617.50it/s]


  52    |   0.003661   |  0.507675  |   81.08   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 640.04it/s]


  53    |   0.003919   |  0.503079  |   81.08   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 630.07it/s]


  54    |   0.003779   |  0.510263  |   80.18   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 620.18it/s]


  55    |   0.003755   |  0.510423  |   81.08   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 619.04it/s]


  56    |   0.003215   |  0.508511  |   81.08   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 627.50it/s]


  57    |   0.003352   |  0.513318  |   81.98   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 619.72it/s]


  58    |   0.003312   |  0.514431  |   81.08   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 622.66it/s]


  59    |   0.003622   |  0.509822  |   81.08   |   1.67   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 607.96it/s]


  60    |   0.003136   |  0.510342  |   81.08   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 625.64it/s]


  61    |   0.003293   |  0.513551  |   81.98   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 607.04it/s]


  62    |   0.003078   |  0.516057  |   81.08   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 619.34it/s]


  63    |   0.003299   |  0.514596  |   81.98   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 607.87it/s]


  64    |   0.002813   |  0.513876  |   81.98   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 607.93it/s]


  65    |   0.003024   |  0.516854  |   81.08   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 615.05it/s]


  66    |   0.002981   |  0.514356  |   81.98   |   1.69   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 608.25it/s]


  67    |   0.002956   |  0.514926  |   81.98   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 602.79it/s]


  68    |   0.003224   |  0.515392  |   81.08   |   1.72   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 609.33it/s]


  69    |   0.003196   |  0.519556  |   81.08   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 629.94it/s]


  70    |   0.002789   |  0.517353  |   81.08   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 606.65it/s]


  71    |   0.002958   |  0.515881  |   81.98   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 616.31it/s]


  72    |   0.002811   |  0.517415  |   81.08   |   1.69   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 618.84it/s]


  73    |   0.002787   |  0.519832  |   81.98   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 624.66it/s]


  74    |   0.003117   |  0.519881  |   81.98   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 632.03it/s]


  75    |   0.002944   |  0.517789  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 628.90it/s]


  76    |   0.002910   |  0.522391  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 631.44it/s]


  77    |   0.002633   |  0.520645  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 644.13it/s]


  78    |   0.002874   |  0.523173  |   81.08   |   1.62   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 616.41it/s]


  79    |   0.002597   |  0.523915  |   81.08   |   1.69   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 607.90it/s]


  80    |   0.002878   |  0.523926  |   81.98   |   1.71   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 638.27it/s]


  81    |   0.002674   |  0.522872  |   81.98   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 620.77it/s]


  82    |   0.002675   |  0.522994  |   81.98   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 626.91it/s]


  83    |   0.002922   |  0.522207  |   81.98   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 635.59it/s]


  84    |   0.002637   |  0.524492  |   81.98   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 634.51it/s]


  85    |   0.002631   |  0.525148  |   81.98   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 629.29it/s]


  86    |   0.002520   |  0.525906  |   81.08   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 632.95it/s]


  87    |   0.002624   |  0.527627  |   81.98   |   1.64   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 631.60it/s]


  88    |   0.002803   |  0.527006  |   81.98   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 627.51it/s]


  89    |   0.002592   |  0.531718  |   81.08   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 628.03it/s]


  90    |   0.002565   |  0.528890  |   81.08   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 621.85it/s]


  91    |   0.002804   |  0.527773  |   81.08   |   1.67   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 626.52it/s]


  92    |   0.002495   |  0.528205  |   81.98   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 638.80it/s]


  93    |   0.002497   |  0.528977  |   81.98   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 618.74it/s]


  94    |   0.002812   |  0.530546  |   81.08   |   1.68   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 623.43it/s]


  95    |   0.002646   |  0.532024  |   81.98   |   1.67   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 645.20it/s]


  96    |   0.002601   |  0.531506  |   81.08   |   1.61   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 626.07it/s]


  97    |   0.002449   |  0.530166  |   81.98   |   1.66   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 637.77it/s]


  98    |   0.002543   |  0.532004  |   81.08   |   1.63   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 629.30it/s]


  99    |   0.002506   |  0.531986  |   81.08   |   1.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:01<00:00, 628.82it/s]


  100   |   0.002463   |  0.533609  |   81.08   |   1.65   


Training complete! Best accuracy: 84.68%.


In [103]:
from torchinfo import summary
summary(model, (1, 100), batch_dim=None, dtypes = [torch.int])

Layer (type:depth-idx)                   Output Shape              Param #
CNN_NLP                                  [1, 4]                    --
├─Embedding: 1-1                         [1, 100, 300]             (7,728,900)
├─ModuleList: 1-2                        --                        --
│    └─Conv1d: 2-1                       [1, 128, 98]              115,328
│    └─Conv1d: 2-2                       [1, 256, 97]              307,456
│    └─Conv1d: 2-3                       [1, 512, 96]              768,512
├─Linear: 1-3                            [1, 4]                    3,588
Total params: 8,923,784
Trainable params: 1,194,884
Non-trainable params: 7,728,900
Total mult-adds (M): 122.64
Input size (MB): 0.00
Forward/backward pass size (MB): 1.17
Params size (MB): 66.61
Estimated Total Size (MB): 67.78

In [104]:
# just a bit analysis


# 2. RNN

In [105]:
class RNNClassification(nn.Module):

    def __init__(self, vocab_size = None,
                 embed_dim = 128,
                 pretrained_embedding = None,
                 freeze_embedding = True,
                 num_classes = 10):
        super(RNNClassification, self).__init__()

        # Embedding layer
        if pretrained_embedding is not None:
            self.vocab_size, self.embed_dim = pretrained_embedding.shape
            self.embedding = nn.Embedding.from_pretrained(pretrained_embedding,
                                                          freeze=freeze_embedding)
        else:
            self.embed_dim = embed_dim
            self.embedding = nn.Embedding(num_embeddings=vocab_size,
                                          embedding_dim=self.embed_dim,
                                          padding_idx=0,
                                          max_norm=5.0)
        
        self.layer1 = self.embedding
        self.layer2 = nn.RNN(       embed_dim , embed_dim*2  , batch_first=True)
        self.layer3 = nn.RNN(       embed_dim*2 , embed_dim*2  , batch_first=True)

        self.layer4 = nn.Linear(    embed_dim*2 , embed_dim  )
        self.layer5 = nn.Linear(    embed_dim , num_classes)

        
    def forward(self, word_seq ):
        g_seq               =   self.layer1( word_seq )
        h_seq, h_final     =   self.layer2( g_seq  )
        h_seq, h_final     =   self.layer3( h_seq  )

        linear1 = F.relu(self.layer4(h_final))
        score_seq           =   self.layer5( linear1 )
        score_seq = score_seq.squeeze(1) # Unsequeeze the seq dimension
        return score_seq 

In [106]:
def initilize_rnn_model(pretrained_embedding=None,
                    freeze_embedding=False,
                    vocab_size=None,
                    embed_dim=300,
                    num_classes=2,
                    learning_rate=0.01):
    """Instantiate a RNN model and an optimizer."""

    # Instantiate RNN model
    rnn_model = RNNClassification(pretrained_embedding=pretrained_embedding,
                        freeze_embedding=freeze_embedding,
                        vocab_size=vocab_size,
                        embed_dim=embed_dim,
                        num_classes=num_classes)
    
    # Send model to `device` (GPU/CPU)
    rnn_model.to(device)

    # Instantiate Adadelta optimizer
    optimizer = optim.Adadelta(rnn_model.parameters(),
                               lr=learning_rate,
                               rho=0.95)

    return rnn_model, optimizer

In [107]:
# Best 34.57%
set_seed(42)
PATH = "rnn1_newdata"
os.makedirs(PATH, exist_ok=True)
rnn_model, optimizer = initilize_rnn_model(pretrained_embedding=embeddings.float(),
                                            freeze_embedding=True,
                                            vocab_size=len(word2idx),
                                            embed_dim=300,
                                            num_classes=len(y_info),
                                            learning_rate=0.05)
train(rnn_model, optimizer, train_dataloader, val_dataloader, epochs=100)

Start training...

 Epoch  |  Train Loss  |  Val Loss  |  Val Acc  |  Elapsed 
------------------------------------------------------------


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:15<00:00, 65.75it/s]


   1    |   1.284017   |  1.549770  |   43.24   |   15.87  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.55it/s]


   2    |   1.013382   |  1.137122  |   54.95   |   13.32  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.31it/s]


   3    |   0.820365   |  1.326561  |   47.75   |   13.25  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:13<00:00, 75.62it/s]


   4    |   0.675682   |  1.292769  |   46.85   |   13.66  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.01it/s]


   5    |   0.677749   |  1.640357  |   54.05   |   13.40  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.18it/s]


   6    |   0.426137   |  1.813628  |   53.15   |   13.19  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.52it/s]


   7    |   0.249784   |  2.341458  |   47.75   |   12.86  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.52it/s]


   8    |   0.134345   |  2.628757  |   52.25   |   13.33  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.62it/s]


   9    |   0.074750   |  3.104184  |   46.85   |   12.80  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.05it/s]


  10    |   0.036247   |  3.298830  |   52.25   |   13.21  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.92it/s]


  11    |   0.014727   |  3.629357  |   49.55   |   13.26  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 76.99it/s]


  12    |   0.013959   |  4.038887  |   49.55   |   13.40  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:13<00:00, 75.59it/s]


  13    |   0.010043   |  4.023642  |   49.55   |   13.63  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.21it/s]


  14    |   0.007199   |  4.095398  |   48.65   |   13.03  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.92it/s]


  15    |   0.008584   |  3.948237  |   52.25   |   13.07  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.13it/s]


  16    |   0.005025   |  4.048433  |   50.45   |   13.37  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.77it/s]


  17    |   0.008857   |  3.996544  |   51.35   |   13.27  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.43it/s]


  18    |   0.002785   |  4.220684  |   48.65   |   13.15  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.73it/s]


  19    |   0.003184   |  4.178897  |   47.75   |   13.11  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.55it/s]


  20    |   0.004938   |  4.209993  |   49.55   |   13.13  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.42it/s]


  21    |   0.002206   |  4.279965  |   54.05   |   13.18  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.62it/s]


  22    |   0.003025   |  4.348141  |   50.45   |   13.31  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.66it/s]


  23    |   0.001842   |  4.384568  |   50.45   |   13.30  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:13<00:00, 76.18it/s]


  24    |   0.001855   |  4.431494  |   50.45   |   13.52  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.78it/s]


  25    |   0.001750   |  4.386107  |   51.35   |   13.28  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.85it/s]


  26    |   0.001737   |  4.358634  |   52.25   |   13.24  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.42it/s]


  27    |   0.001631   |  4.488641  |   50.45   |   13.32  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.82it/s]


  28    |   0.004322   |  4.404547  |   52.25   |   13.25  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.71it/s]


  29    |   0.001690   |  4.476373  |   51.35   |   13.12  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.90it/s]


  30    |   0.001658   |  4.443489  |   52.25   |   13.25  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.93it/s]


  31    |   0.001714   |  4.461486  |   52.25   |   13.07  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.25it/s]


  32    |   0.001590   |  4.537312  |   50.45   |   13.02  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.04it/s]


  33    |   0.001579   |  4.528483  |   51.35   |   13.22  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.95it/s]


  34    |   0.001565   |  4.546538  |   49.55   |   13.23  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.35it/s]


  35    |   0.001563   |  4.571565  |   49.55   |   13.16  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.78it/s]


  36    |   0.001555   |  4.560400  |   51.35   |   13.11  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.02it/s]


  37    |   0.001549   |  4.595222  |   50.45   |   13.05  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.31it/s]


  38    |   0.001543   |  4.617503  |   50.45   |   13.05  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:13<00:00, 76.21it/s]


  39    |   0.001536   |  4.636371  |   50.45   |   13.54  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.73it/s]


  40    |   0.001536   |  4.644565  |   50.45   |   13.28  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.09it/s]


  41    |   0.001529   |  4.642341  |   51.35   |   13.05  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.92it/s]


  42    |   0.001528   |  4.660327  |   50.45   |   12.92  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.72it/s]


  43    |   0.001523   |  4.670605  |   53.15   |   13.11  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.13it/s]


  44    |   0.001519   |  4.671689  |   51.35   |   13.40  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.46it/s]


  45    |   0.001516   |  4.700177  |   51.35   |   13.32  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.69it/s]


  46    |   0.001509   |  4.717229  |   50.45   |   13.12  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.05it/s]


  47    |   0.001507   |  4.720063  |   50.45   |   13.05  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.68it/s]


  48    |   0.001507   |  4.744741  |   50.45   |   12.97  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.21it/s]


  49    |   0.001503   |  4.753688  |   50.45   |   13.21  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.49it/s]


  50    |   0.001502   |  4.760916  |   50.45   |   13.15  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.48it/s]


  51    |   0.001502   |  4.771715  |   50.45   |   13.32  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.06it/s]


  52    |   0.001499   |  4.782623  |   50.45   |   13.05  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.10it/s]


  53    |   0.001497   |  4.786247  |   50.45   |   13.05  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.34it/s]


  54    |   0.001507   |  4.761213  |   53.15   |   13.01  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.71it/s]


  55    |   0.001500   |  4.764344  |   51.35   |   13.11  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.50it/s]


  56    |   0.001498   |  4.793256  |   50.45   |   12.98  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.27it/s]


  57    |   0.001496   |  4.813918  |   50.45   |   13.03  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.65it/s]


  58    |   0.001489   |  4.843930  |   51.35   |   13.12  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.50it/s]


  59    |   0.001488   |  4.842041  |   51.35   |   13.14  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.63it/s]


  60    |   0.001485   |  4.854163  |   51.35   |   13.12  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.18it/s]


  61    |   0.001535   |  4.815329  |   53.15   |   13.04  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.99it/s]


  62    |   0.001508   |  4.854706  |   50.45   |   13.23  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.53it/s]


  63    |   0.001498   |  4.868017  |   50.45   |   13.14  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.07it/s]


  64    |   0.001490   |  4.899238  |   50.45   |   13.06  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.91it/s]


  65    |   0.001484   |  4.910632  |   51.35   |   13.08  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:13<00:00, 75.09it/s]


  66    |   0.001483   |  4.911456  |   51.35   |   13.75  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.61it/s]


  67    |   0.001483   |  4.907480  |   51.35   |   13.30  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.68it/s]


  68    |   0.001484   |  4.900388  |   50.45   |   13.11  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.31it/s]


  69    |   0.001483   |  4.903443  |   50.45   |   13.17  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.29it/s]


  70    |   0.001482   |  4.900586  |   50.45   |   13.19  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.71it/s]


  71    |   0.001482   |  4.907972  |   49.55   |   13.26  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.19it/s]


  72    |   0.001481   |  4.919782  |   50.45   |   13.23  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.84it/s]


  73    |   0.001480   |  4.929859  |   50.45   |   13.25  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.22it/s]


  74    |   0.001481   |  4.921955  |   51.35   |   12.86  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.53it/s]


  75    |   0.001480   |  4.929847  |   50.45   |   12.82  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.03it/s]


  76    |   0.001480   |  4.935425  |   49.55   |   12.91  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.21it/s]


  77    |   0.001477   |  4.952438  |   51.35   |   12.88  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.69it/s]


  78    |   0.001476   |  4.964021  |   51.35   |   12.95  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.68it/s]


  79    |   0.001477   |  4.965339  |   51.35   |   12.94  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.96it/s]


  80    |   0.001479   |  4.965287  |   51.35   |   12.91  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.21it/s]


  81    |   0.001477   |  4.969333  |   51.35   |   13.02  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.63it/s]


  82    |   0.001478   |  4.968301  |   51.35   |   12.96  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.68it/s]


  83    |   0.001478   |  4.965887  |   50.45   |   13.10  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.91it/s]


  84    |   0.001476   |  4.977576  |   50.45   |   12.94  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.63it/s]


  85    |   0.001477   |  4.983572  |   50.45   |   12.96  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.06it/s]


  86    |   0.001475   |  4.994851  |   51.35   |   12.89  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.33it/s]


  87    |   0.001476   |  4.993501  |   50.45   |   13.01  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.82it/s]


  88    |   0.001475   |  5.000668  |   50.45   |   12.92  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 77.96it/s]


  89    |   0.001476   |  5.001441  |   50.45   |   13.25  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.85it/s]


  90    |   0.001476   |  5.004465  |   50.45   |   12.92  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.02it/s]


  91    |   0.001475   |  5.003654  |   50.45   |   12.89  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.13it/s]


  92    |   0.001475   |  5.004905  |   50.45   |   13.21  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.80it/s]


  93    |   0.001474   |  5.010820  |   50.45   |   12.93  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.49it/s]


  94    |   0.001474   |  5.013850  |   50.45   |   12.98  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.66it/s]


  95    |   0.001472   |  5.027716  |   50.45   |   12.99  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 78.14it/s]


  96    |   0.001472   |  5.034375  |   50.45   |   13.20  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.38it/s]


  97    |   0.001472   |  5.036330  |   50.45   |   12.84  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 80.24it/s]


  98    |   0.001474   |  5.032997  |   50.45   |   12.86  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 81.58it/s]


  99    |   0.001473   |  5.035322  |   50.45   |   12.65  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:12<00:00, 79.34it/s]


  100   |   0.001471   |  5.047675  |   50.45   |   13.02  


Training complete! Best accuracy: 54.95%.


In [108]:
from torchinfo import summary
summary(rnn_model, (1, 100), batch_dim=None, dtypes = [torch.int])

Layer (type:depth-idx)                   Output Shape              Param #
RNNClassification                        [1, 4]                    --
├─Embedding: 1-1                         [1, 100, 300]             (7,728,900)
├─RNN: 1-2                               [1, 100, 600]             541,200
├─RNN: 1-3                               [1, 100, 600]             721,200
├─Linear: 1-4                            [1, 1, 300]               180,300
├─Linear: 1-5                            [1, 1, 4]                 1,204
Total params: 9,172,804
Trainable params: 1,443,904
Non-trainable params: 7,728,900
Total mult-adds (M): 134.15
Input size (MB): 0.00
Forward/backward pass size (MB): 1.20
Params size (MB): 36.69
Estimated Total Size (MB): 37.89

# 3. LSTM

In [109]:
class LSTMClassification(nn.Module):

    def __init__(self, vocab_size = None,
                 embed_dim = 128,
                 pretrained_embedding = None,
                 freeze_embedding = True,
                 num_classes = 10):
        super(LSTMClassification, self).__init__()

        # Embedding layer
        if pretrained_embedding is not None:
            self.vocab_size, self.embed_dim = pretrained_embedding.shape
            self.embedding = nn.Embedding.from_pretrained(pretrained_embedding,
                                                          freeze=freeze_embedding)
        else:
            self.embed_dim = embed_dim
            self.embedding = nn.Embedding(num_embeddings=vocab_size,
                                          embedding_dim=self.embed_dim,
                                          padding_idx=0,
                                          max_norm=5.0)
        
        self.layer1 = self.embedding
        self.layer2 = nn.LSTM(       embed_dim , embed_dim *2 , batch_first=True)
        self.layer3 = nn.LSTM(       embed_dim *2, embed_dim *2 , batch_first=True)

        self.layer4 = nn.Linear(    embed_dim *2, embed_dim   )
        self.layer5 = nn.Linear(    embed_dim, num_classes)

        
    def forward(self, word_seq ):
        g_seq               =   self.layer1( word_seq )
        h_seq, (h_final,  c_final)     =   self.layer2( g_seq  )
        h_seq, (h_final,  c_final)     =   self.layer3( h_seq  )

        linear1 = F.relu(self.layer4(h_final))
        score_seq           =   self.layer5( linear1 )
        score_seq = score_seq.squeeze(1) # Unsequeeze the seq dimension
        return score_seq 
        

In [110]:
def initilize_lstm_model(pretrained_embedding=None,
                    freeze_embedding=False,
                    vocab_size=None,
                    embed_dim=300,
                    num_classes=2,
                    learning_rate=0.01):
    """Instantiate a RNN model and an optimizer."""

    # Instantiate RNN model
    model = LSTMClassification(pretrained_embedding=pretrained_embedding,
                        freeze_embedding=freeze_embedding,
                        vocab_size=vocab_size,
                        embed_dim=embed_dim,
                        num_classes=num_classes)
    
    # Send model to `device` (GPU/CPU)
    model.to(device)

    # Instantiate Adadelta optimizer
    optimizer = optim.Adadelta(model.parameters(),
                               lr=learning_rate,
                               rho=0.95)

    return model, optimizer

In [111]:
set_seed(42)
PATH = "lstm1_newdata"
os.makedirs(PATH, exist_ok=True)
model, optimizer = initilize_lstm_model(pretrained_embedding=embeddings.float(),
                                            freeze_embedding=True,
                                            vocab_size=len(word2idx),
                                            embed_dim=300,
                                            num_classes=len(y_info),
                                            learning_rate=0.01)
train(model, optimizer, train_dataloader, val_dataloader, epochs=100)

Start training...

 Epoch  |  Train Loss  |  Val Loss  |  Val Acc  |  Elapsed 
------------------------------------------------------------


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.42it/s]


   1    |   1.370660   |  1.349485  |   38.74   |   34.24  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.49it/s]


   2    |   1.326314   |  1.328082  |   38.74   |   34.10  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.46it/s]


   3    |   1.312884   |  1.328526  |   38.74   |   34.13  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:31<00:00, 31.02it/s]


   4    |   1.309776   |  1.325800  |   38.74   |   33.52  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:31<00:00, 31.00it/s]


   5    |   1.305730   |  1.319506  |   38.74   |   33.54  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:31<00:00, 31.01it/s]


   6    |   1.298873   |  1.309855  |   38.74   |   33.53  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.93it/s]


   7    |   1.285551   |  1.291399  |   38.74   |   33.64  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.42it/s]


   8    |   1.246300   |  1.216190  |   42.34   |   34.88  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.37it/s]


   9    |   1.145039   |  1.124347  |   48.65   |   34.91  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.34it/s]


  10    |   1.038273   |  1.009173  |   53.15   |   34.92  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.30it/s]


  11    |   0.982475   |  1.005379  |   52.25   |   34.31  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.38it/s]


  12    |   0.949109   |  1.038828  |   53.15   |   34.21  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.52it/s]


  13    |   0.928802   |  0.910805  |   59.46   |   34.81  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.71it/s]


  14    |   0.901082   |  0.906116  |   60.36   |   35.74  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:34<00:00, 28.96it/s]


  15    |   0.874368   |  0.854440  |   61.26   |   36.70  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.28it/s]


  16    |   0.851017   |  0.851199  |   62.16   |   35.12  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.67it/s]


  17    |   0.846795   |  0.841317  |   62.16   |   33.89  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.86it/s]


  18    |   0.823072   |  0.835064  |   62.16   |   33.67  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.30it/s]


  19    |   0.804222   |  0.825614  |   63.06   |   35.16  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.12it/s]


  20    |   0.799344   |  0.985178  |   59.46   |   34.52  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.19it/s]


  21    |   0.780652   |  0.831712  |   58.56   |   34.41  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 30.03it/s]


  22    |   0.765926   |  0.834600  |   59.46   |   34.76  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.54it/s]


  23    |   0.761293   |  0.821760  |   60.36   |   35.21  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.74it/s]


  24    |   0.732134   |  0.848761  |   58.56   |   34.95  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:34<00:00, 28.67it/s]


  25    |   0.714356   |  0.934897  |   59.46   |   36.27  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:34<00:00, 28.92it/s]


  26    |   0.691708   |  0.885839  |   62.16   |   36.02  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:34<00:00, 28.46it/s]


  27    |   0.677979   |  0.873403  |   61.26   |   36.55  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.27it/s]


  28    |   0.679531   |  0.849642  |   62.16   |   35.51  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.28it/s]


  29    |   0.644530   |  0.954516  |   57.66   |   34.32  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.90it/s]


  30    |   0.635984   |  0.887766  |   62.16   |   34.82  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.72it/s]


  31    |   0.616324   |  0.916183  |   60.36   |   33.82  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.70it/s]


  32    |   0.591411   |  0.981644  |   59.46   |   33.90  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.50it/s]


  33    |   0.579921   |  1.008726  |   62.16   |   34.06  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.48it/s]


  34    |   0.564625   |  1.023078  |   62.16   |   34.10  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.68it/s]


  35    |   0.546053   |  0.932467  |   63.96   |   35.69  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.26it/s]


  36    |   0.542745   |  0.940070  |   63.06   |   34.33  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 30.03it/s]


  37    |   0.525315   |  1.008580  |   62.16   |   34.58  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.92it/s]


  38    |   0.517048   |  1.115027  |   64.86   |   34.26  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.19it/s]


  39    |   0.511943   |  0.999115  |   63.96   |   34.40  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.82it/s]


  40    |   0.475047   |  1.091518  |   63.06   |   33.72  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.35it/s]


  41    |   0.471959   |  1.090640  |   63.06   |   34.30  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.17it/s]


  42    |   0.467941   |  1.241430  |   63.06   |   34.47  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.65it/s]


  43    |   0.468919   |  1.165925  |   64.86   |   33.92  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.51it/s]


  44    |   0.445465   |  1.081944  |   68.47   |   34.80  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.45it/s]


  45    |   0.422665   |  1.189646  |   63.96   |   35.27  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.85it/s]


  46    |   0.408878   |  1.166788  |   63.06   |   34.77  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.92it/s]


  47    |   0.415810   |  1.240872  |   67.57   |   34.72  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.97it/s]


  48    |   0.398260   |  1.150186  |   61.26   |   34.69  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.20it/s]


  49    |   0.404482   |  1.196623  |   64.86   |   34.44  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.50it/s]


  50    |   0.388151   |  1.251800  |   63.06   |   34.08  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.58it/s]


  51    |   0.385852   |  1.244819  |   62.16   |   35.27  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.07it/s]


  52    |   0.380452   |  1.403883  |   62.16   |   34.72  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.54it/s]


  53    |   0.358877   |  1.491153  |   63.06   |   34.06  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.37it/s]


  54    |   0.354851   |  1.357103  |   63.06   |   34.33  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:32<00:00, 30.09it/s]


  55    |   0.341219   |  1.333416  |   63.06   |   34.52  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.99it/s]


  56    |   0.338821   |  1.458551  |   63.96   |   34.63  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:33<00:00, 29.91it/s]


  57    |   0.320697   |  1.412607  |   64.86   |   34.87  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:34<00:00, 28.83it/s]


  58    |   0.322031   |  1.539698  |   63.96   |   35.94  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:34<00:00, 28.84it/s]


  59    |   0.331717   |  1.539625  |   61.26   |   36.06  


 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                 | 326/992 [00:11<00:22, 29.42it/s]


KeyboardInterrupt: 

# 4. RNN with attention-based model

In [112]:
class RNNAttentionClassification(nn.Module):

    def __init__(self, vocab_size = None,
                 embed_dim = 128,
                 pretrained_embedding = None,
                 freeze_embedding = True,
                 num_classes = 10):
        super(RNNAttentionClassification, self).__init__()

        # Embedding layer
        if pretrained_embedding is not None:
            self.vocab_size, self.embed_dim = pretrained_embedding.shape
            self.embedding = nn.Embedding.from_pretrained(pretrained_embedding,
                                                          freeze=freeze_embedding)
        else:
            self.embed_dim = embed_dim
            self.embedding = nn.Embedding(num_embeddings=vocab_size,
                                          embedding_dim=self.embed_dim,
                                          padding_idx=0,
                                          max_norm=5.0)
        
        self.encoder = nn.RNN(       embed_dim , embed_dim  , batch_first=True)

        self.linear1 = nn.Linear(embed_dim, embed_dim)
        
        self.adaptivePool1d = nn.AdaptiveAvgPool1d(1)

        self.linear2 = nn.Linear(    embed_dim *2, embed_dim)
        self.linear3 = nn.Linear(    embed_dim, num_classes)

        
    def forward(self, word_seq ):
        embed_out               =   self.embedding( word_seq )
        h_seq, h_final     =   self.encoder( embed_out  )

        vprime = self.linear1(h_final) # Squeeze the len axis to have V'
        alpha = torch.bmm(h_seq, torch.swapaxes(vprime, 1, 2))
        score = torch.nn.functional.softmax(alpha, dim=1) 
        c_w = torch.mul(h_seq, score)
        c_concat = torch.concat([c_w, h_seq], dim=-1) # batch_size, seq, dims
        
        #linear1 = F.relu(self.linear2(c_concat.mean(dim=1)))
        z = F.relu(self.adaptivePool1d(torch.swapaxes(c_concat, 1, 2)))

        score_seq           =   F.relu(self.linear2( z.squeeze(-1) ))
        score_seq = F.relu(self.linear3(score_seq))
        return score_seq 

In [113]:
model = RNNAttentionClassification(len(word2idx), 300, embeddings.float(), True, 10)
from torchinfo import summary
summary(model, [(1,3)], batch_dim=None, dtypes=[torch.int])

Layer (type:depth-idx)                   Output Shape              Param #
RNNAttentionClassification               [1, 10]                   --
├─Embedding: 1-1                         [1, 3, 300]               (7,728,900)
├─RNN: 1-2                               [1, 3, 300]               180,600
├─Linear: 1-3                            [1, 1, 300]               90,300
├─AdaptiveAvgPool1d: 1-4                 [1, 600, 1]               --
├─Linear: 1-5                            [1, 300]                  180,300
├─Linear: 1-6                            [1, 10]                   3,010
Total params: 8,183,110
Trainable params: 454,210
Non-trainable params: 7,728,900
Total mult-adds (M): 8.54
Input size (MB): 0.00
Forward/backward pass size (MB): 0.02
Params size (MB): 32.73
Estimated Total Size (MB): 32.75

In [114]:
def initilize_rnnattention_model(pretrained_embedding=None,
                    freeze_embedding=False,
                    vocab_size=None,
                    embed_dim=300,
                    num_classes=2,
                    learning_rate=0.01):
    """Instantiate a RNN model and an optimizer."""

    # Instantiate RNN model
    model = RNNAttentionClassification(pretrained_embedding=pretrained_embedding,
                        freeze_embedding=freeze_embedding,
                        vocab_size=vocab_size,
                        embed_dim=embed_dim,
                        num_classes=num_classes)
    
    # Send model to `device` (GPU/CPU)
    model.to(device)

    # Instantiate Adadelta optimizer
    optimizer = optim.Adadelta(model.parameters(),
                               lr=learning_rate,
                               rho=0.95)

    return model, optimizer

In [115]:
# Best accuracy 49.07%.
PATH = "rnn_att_newdata"
os.makedirs(PATH, exist_ok=True)

set_seed(42)
rnn_model, optimizer = initilize_rnnattention_model(pretrained_embedding=embeddings.float(),
                                            freeze_embedding=True,
                                            vocab_size=len(word2idx),
                                            embed_dim=300,
                                            num_classes=len(y_info),
                                            learning_rate=0.05)
train(rnn_model, optimizer, train_dataloader, val_dataloader, epochs=100)

Start training...

 Epoch  |  Train Loss  |  Val Loss  |  Val Acc  |  Elapsed 
------------------------------------------------------------


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 166.19it/s]


   1    |   1.303255   |  1.125047  |   38.74   |   6.36   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 166.56it/s]


   2    |   1.123248   |  1.051995  |   38.74   |   6.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.80it/s]


   3    |   1.071650   |  1.005669  |   50.45   |   6.34   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 164.25it/s]


   4    |   1.051706   |  0.990613  |   45.95   |   6.37   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 161.77it/s]


   5    |   1.046020   |  0.993779  |   40.54   |   6.46   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 164.63it/s]


   6    |   1.037644   |  0.997919  |   44.14   |   6.33   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 163.63it/s]


   7    |   1.022004   |  0.982345  |   47.75   |   6.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 165.07it/s]


   8    |   1.006994   |  0.941810  |   45.95   |   6.31   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 163.93it/s]


   9    |   0.977975   |  0.925155  |   46.85   |   6.37   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 161.73it/s]


  10    |   0.972106   |  0.953337  |   43.24   |   6.46   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 160.89it/s]


  11    |   0.964320   |  0.944062  |   44.14   |   6.49   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 162.20it/s]


  12    |   0.953210   |  1.023179  |   41.44   |   6.44   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 162.81it/s]


  13    |   0.941504   |  1.020838  |   37.84   |   6.39   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 169.33it/s]


  14    |   0.934548   |  0.929994  |   47.75   |   6.17   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 160.01it/s]


  15    |   0.927965   |  0.969365  |   39.64   |   6.54   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 165.07it/s]


  16    |   0.917974   |  0.904712  |   46.85   |   6.32   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 169.49it/s]


  17    |   0.910780   |  0.935958  |   42.34   |   6.15   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 169.16it/s]


  18    |   0.905819   |  0.972881  |   41.44   |   6.17   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 172.32it/s]


  19    |   0.907111   |  0.918958  |   45.05   |   6.07   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 161.77it/s]


  20    |   0.892712   |  0.997647  |   42.34   |   6.46   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 160.13it/s]


  21    |   0.889400   |  0.931972  |   45.05   |   6.51   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 162.31it/s]


  22    |   0.883011   |  0.954972  |   46.85   |   6.44   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 160.75it/s]


  23    |   0.876193   |  0.964073  |   42.34   |   6.50   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 166.81it/s]


  24    |   0.874178   |  0.994401  |   41.44   |   6.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 165.78it/s]


  25    |   0.867865   |  0.986074  |   63.06   |   6.55   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 160.60it/s]


  26    |   0.745991   |  0.855431  |   65.77   |   6.85   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 172.05it/s]


  27    |   0.703602   |  0.829115  |   68.47   |   6.41   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 170.60it/s]


  28    |   0.678304   |  0.954602  |   60.36   |   6.12   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 170.38it/s]


  29    |   0.659226   |  0.836957  |   67.57   |   6.14   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 167.41it/s]


  30    |   0.660644   |  0.811534  |   69.37   |   6.49   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:06<00:00, 164.97it/s]


  31    |   0.630347   |  0.922565  |   63.06   |   6.31   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 169.52it/s]


  32    |   0.616423   |  0.902509  |   67.57   |   6.17   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 174.38it/s]


  33    |   0.602365   |  0.878675  |   63.06   |   5.98   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 169.77it/s]


  34    |   0.590773   |  0.871538  |   65.77   |   6.17   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.03it/s]


  35    |   0.582599   |  0.920997  |   62.16   |   6.10   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 168.85it/s]


  36    |   0.571816   |  1.015008  |   66.67   |   6.18   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.44it/s]


  37    |   0.564300   |  0.873875  |   63.96   |   6.09   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.93it/s]


  38    |   0.556419   |  0.847700  |   66.67   |   6.09   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.04it/s]


  39    |   0.552262   |  0.939392  |   64.86   |   6.12   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 167.64it/s]


  40    |   0.536766   |  1.050137  |   64.86   |   6.22   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 167.66it/s]


  41    |   0.527937   |  0.973103  |   67.57   |   6.23   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 166.07it/s]


  42    |   0.527797   |  0.924544  |   62.16   |   6.28   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 170.74it/s]


  43    |   0.507641   |  1.033133  |   61.26   |   6.12   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.44it/s]


  44    |   0.507220   |  1.109711  |   61.26   |   6.10   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 168.80it/s]


  45    |   0.507453   |  1.072895  |   64.86   |   6.18   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 168.64it/s]


  46    |   0.493039   |  0.984670  |   63.96   |   6.18   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.67it/s]


  47    |   0.485678   |  1.061096  |   66.67   |   6.08   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 172.98it/s]


  48    |   0.488865   |  0.946396  |   63.06   |   6.04   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 170.96it/s]


  49    |   0.483274   |  0.996962  |   63.96   |   6.10   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.32it/s]


  50    |   0.479066   |  0.991484  |   63.06   |   6.09   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.47it/s]


  51    |   0.477394   |  0.946628  |   63.96   |   6.10   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 170.73it/s]


  52    |   0.459337   |  1.240424  |   67.57   |   6.12   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 168.94it/s]


  53    |   0.459071   |  1.007602  |   64.86   |   6.17   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 166.63it/s]


  54    |   0.448396   |  1.037772  |   63.06   |   6.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 170.99it/s]


  55    |   0.442584   |  0.977663  |   56.76   |   6.11   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 169.66it/s]


  56    |   0.456108   |  1.054994  |   66.67   |   6.16   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 170.06it/s]


  57    |   0.436542   |  1.170706  |   65.77   |   6.14   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 174.74it/s]


  58    |   0.440125   |  1.343098  |   63.06   |   5.98   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 169.05it/s]


  59    |   0.436624   |  1.045963  |   57.66   |   6.17   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 169.91it/s]


  60    |   0.435904   |  1.218230  |   61.26   |   6.15   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 167.94it/s]


  61    |   0.429251   |  1.166230  |   61.26   |   6.21   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 167.80it/s]


  62    |   0.417159   |  1.193986  |   63.96   |   6.22   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 168.35it/s]


  63    |   0.423568   |  1.154542  |   59.46   |   6.20   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.56it/s]


  64    |   0.407392   |  1.192683  |   62.16   |   6.09   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 170.89it/s]


  65    |   0.398160   |  1.271098  |   62.16   |   6.11   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.50it/s]


  66    |   0.398355   |  1.311740  |   59.46   |   6.10   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 172.27it/s]


  67    |   0.387759   |  1.227922  |   58.56   |   6.07   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 167.73it/s]


  68    |   0.391197   |  1.221525  |   53.15   |   6.24   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 171.85it/s]


  69    |   0.389255   |  1.381794  |   58.56   |   6.08   


 29%|███████████████████████████████████████████████████████▋                                                                                                                                        | 288/992 [00:01<00:04, 172.79it/s]


KeyboardInterrupt: 

# 5. LSTM with Attention



In [116]:
class LSTMAttentionClassification(nn.Module):

    def __init__(self, vocab_size = None,
                 embed_dim = 128,
                 pretrained_embedding = None,
                 freeze_embedding = True,
                 num_classes = 10):
        super(LSTMAttentionClassification, self).__init__()

        # Embedding layer
        if pretrained_embedding is not None:
            self.vocab_size, self.embed_dim = pretrained_embedding.shape
            self.embedding = nn.Embedding.from_pretrained(pretrained_embedding,
                                                          freeze=freeze_embedding)
        else:
            self.embed_dim = embed_dim
            self.embedding = nn.Embedding(num_embeddings=vocab_size,
                                          embedding_dim=self.embed_dim,
                                          padding_idx=0,
                                          max_norm=5.0)
        
        self.encoder = nn.LSTM(       embed_dim , embed_dim  , batch_first=True)

        self.linear1 = nn.Linear(embed_dim, embed_dim)
        
        self.adaptivePool1d = nn.AdaptiveAvgPool1d(1)

        self.linear2 = nn.Linear(    embed_dim *2, embed_dim)
        self.linear3 = nn.Linear(    embed_dim, num_classes)

        
    def forward(self, word_seq ):
        embed_out               =   self.embedding( word_seq )
        h_seq, (h_final, c_final)     =   self.encoder( embed_out  )

        vprime = self.linear1(h_final) # Squeeze the len axis to have V'
        alpha = torch.bmm(h_seq, torch.swapaxes(vprime, 1, 2))
        score = torch.nn.functional.softmax(alpha, dim=1) 
        c_w = torch.mul(h_seq, score)
        c_concat = torch.concat([c_w, h_seq], dim=-1) # batch_size, seq, dims
        
        #linear1 = F.relu(self.linear2(c_concat.mean(dim=1)))
        z = F.relu(self.adaptivePool1d(torch.swapaxes(c_concat, 1, 2)))

        score_seq           =   F.relu(self.linear2( z.squeeze(-1) ))
        score_seq = F.relu(self.linear3(score_seq))
        return score_seq 

In [117]:
def initilize_lstmattention_model(pretrained_embedding=None,
                    freeze_embedding=False,
                    vocab_size=None,
                    embed_dim=300,
                    num_classes=2,
                    learning_rate=0.01):
    """Instantiate a RNN model and an optimizer."""

    # Instantiate RNN model
    model = LSTMAttentionClassification(pretrained_embedding=pretrained_embedding,
                        freeze_embedding=freeze_embedding,
                        vocab_size=vocab_size,
                        embed_dim=embed_dim,
                        num_classes=num_classes)
    
    # Send model to `device` (GPU/CPU)
    model.to(device)

    # Instantiate Adadelta optimizer
    optimizer = optim.Adadelta(model.parameters(),
                               lr=learning_rate,
                               rho=0.95)

    return model, optimizer

In [124]:
# 49.07%.
PATH = 'lstmattention_newdata'
os.makedirs(PATH, exist_ok=True)
set_seed(42)
model, optimizer = initilize_lstmattention_model(pretrained_embedding=embeddings.float(),
                                            freeze_embedding=True,
                                            vocab_size=len(word2idx),
                                            embed_dim=300,
                                            num_classes=len(well b+ i),
                                            learning_rate=0.05)
train(model, optimizer, train_dataloader, val_dataloader, epochs=100)

Start training...

 Epoch  |  Train Loss  |  Val Loss  |  Val Acc  |  Elapsed 
------------------------------------------------------------


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 99.19it/s]


   1    |   1.382648   |  1.380603  |   26.13   |   10.71  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 95.81it/s]


   2    |   1.325018   |  1.217837  |   45.95   |   11.21  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 95.24it/s]


   3    |   1.065223   |  0.954420  |   63.96   |   11.44  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 98.03it/s]


   4    |   0.943938   |  0.855663  |   63.06   |   10.66  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 96.97it/s]


   5    |   0.839319   |  0.799422  |   72.97   |   11.06  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 96.20it/s]


   6    |   0.799339   |  0.798378  |   73.87   |   11.12  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 95.34it/s]


   7    |   0.778351   |  0.754257  |   74.77   |   11.24  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 94.98it/s]


   8    |   0.757356   |  0.741411  |   72.97   |   10.99  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 94.47it/s]


   9    |   0.742572   |  0.754812  |   72.07   |   11.04  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 95.30it/s]


  10    |   0.734017   |  0.747486  |   71.17   |   10.95  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 95.90it/s]


  11    |   0.708391   |  0.820327  |   67.57   |   10.87  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.41it/s]


  12    |   0.699846   |  0.785373  |   69.37   |   10.68  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 102.66it/s]


  13    |   0.701718   |  0.729491  |   73.87   |   10.16  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 102.61it/s]


  14    |   0.684326   |  0.769819  |   73.87   |   10.16  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 98.08it/s]


  15    |   0.670589   |  0.871692  |   67.57   |   10.65  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 96.39it/s]


  16    |   0.669340   |  0.790963  |   71.17   |   10.79  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.53it/s]


  17    |   0.647721   |  0.743209  |   72.97   |   10.67  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.96it/s]


  18    |   0.638357   |  0.748276  |   71.17   |   10.42  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.22it/s]


  19    |   0.621376   |  0.803106  |   72.07   |   10.41  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.57it/s]


  20    |   0.615637   |  0.792721  |   70.27   |   10.47  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.58it/s]


  21    |   0.607184   |  0.822387  |   71.17   |   10.36  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.80it/s]


  22    |   0.594862   |  0.832067  |   69.37   |   10.24  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.08it/s]


  23    |   0.592360   |  0.734482  |   69.37   |   10.35  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 102.23it/s]


  24    |   0.585515   |  0.811313  |   71.17   |   10.23  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.33it/s]


  25    |   0.573991   |  0.774849  |   63.06   |   10.71  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.91it/s]


  26    |   0.552863   |  0.866040  |   69.37   |   10.44  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.88it/s]


  27    |   0.553970   |  0.824713  |   72.07   |   10.35  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.99it/s]


  28    |   0.563735   |  0.978616  |   68.47   |   10.68  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 98.55it/s]


  29    |   0.546579   |  0.872198  |   66.67   |   10.58  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 96.91it/s]


  30    |   0.530849   |  0.797581  |   60.36   |   10.78  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 96.13it/s]


  31    |   0.513471   |  1.021197  |   67.57   |   10.82  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.12it/s]


  32    |   0.514508   |  0.912968  |   69.37   |   10.31  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.00it/s]


  33    |   0.501528   |  0.914285  |   55.86   |   10.44  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.01it/s]


  34    |   0.496622   |  0.811392  |   67.57   |   10.43  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.96it/s]


  35    |   0.486710   |  0.875956  |   64.86   |   10.36  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.05it/s]


  36    |   0.475592   |  0.952871  |   69.37   |   10.42  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.20it/s]


  37    |   0.481976   |  0.956037  |   69.37   |   10.41  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.40it/s]


  38    |   0.462237   |  1.125340  |   63.06   |   10.68  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.87it/s]


  39    |   0.468695   |  0.844353  |   66.67   |   10.24  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 102.25it/s]


  40    |   0.463154   |  0.885281  |   67.57   |   10.20  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.95it/s]


  41    |   0.449356   |  1.090293  |   69.37   |   10.33  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.79it/s]


  42    |   0.451758   |  0.928052  |   63.96   |   10.35  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.74it/s]


  43    |   0.435959   |  0.905619  |   64.86   |   10.35  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.13it/s]


  44    |   0.437232   |  1.234363  |   53.15   |   10.31  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.25it/s]


  45    |   0.437132   |  0.798605  |   66.67   |   10.31  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.20it/s]


  46    |   0.428292   |  0.878765  |   60.36   |   10.31  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.14it/s]


  47    |   0.423566   |  1.132371  |   64.86   |   10.41  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.78it/s]


  48    |   0.418362   |  1.281059  |   67.57   |   10.35  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.09it/s]


  49    |   0.426085   |  0.884183  |   63.06   |   10.32  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.15it/s]


  50    |   0.411715   |  1.382199  |   67.57   |   10.32  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.98it/s]


  51    |   0.433503   |  0.923485  |   65.77   |   10.33  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.78it/s]


  52    |   0.408501   |  1.057846  |   68.47   |   10.44  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.22it/s]


  53    |   0.412655   |  1.048717  |   62.16   |   10.40  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 96.11it/s]


  54    |   0.396093   |  1.156258  |   73.87   |   10.88  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.53it/s]


  55    |   0.315257   |  0.965778  |   74.77   |   10.73  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.48it/s]


  56    |   0.237017   |  1.228879  |   73.87   |   10.48  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.74it/s]


  57    |   0.245378   |  1.043210  |   73.87   |   10.45  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.92it/s]


  58    |   0.203346   |  1.012679  |   72.07   |   10.25  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 99.02it/s]


  59    |   0.219892   |  1.132576  |   69.37   |   10.52  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.00it/s]


  60    |   0.211115   |  1.130206  |   75.68   |   10.84  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.95it/s]


  61    |   0.207423   |  1.235818  |   73.87   |   10.34  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.11it/s]


  62    |   0.181409   |  1.032346  |   76.58   |   10.59  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.48it/s]


  63    |   0.184600   |  0.992420  |   76.58   |   10.38  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.12it/s]


  64    |   0.168841   |  1.225406  |   73.87   |   10.31  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.94it/s]


  65    |   0.174398   |  1.082901  |   72.07   |   10.33  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.14it/s]


  66    |   0.212737   |  1.212195  |   75.68   |   10.32  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.06it/s]


  67    |   0.184792   |  1.111345  |   73.87   |   10.32  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.35it/s]


  68    |   0.157408   |  1.140272  |   77.48   |   10.76  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.57it/s]


  69    |   0.143620   |  1.438354  |   76.58   |   10.47  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.25it/s]


  70    |   0.173244   |  1.331557  |   72.07   |   10.30  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.96it/s]


  71    |   0.167960   |  1.272681  |   74.77   |   10.24  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.61it/s]


  72    |   0.154865   |  1.366044  |   78.38   |   10.66  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.33it/s]


  73    |   0.180033   |  1.446073  |   77.48   |   10.71  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.14it/s]


  74    |   0.170267   |  1.244771  |   75.68   |   10.41  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.62it/s]


  75    |   0.157457   |  1.253410  |   72.97   |   10.49  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 98.97it/s]


  76    |   0.133153   |  1.227726  |   77.48   |   10.54  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.10it/s]


  77    |   0.153648   |  1.113837  |   76.58   |   10.42  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.93it/s]


  78    |   0.162431   |  1.576874  |   76.58   |   10.34  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.56it/s]


  79    |   0.139818   |  1.167153  |   78.38   |   10.28  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.17it/s]


  80    |   0.136328   |  1.224681  |   77.48   |   10.31  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.17it/s]


  81    |   0.167129   |  1.326467  |   72.97   |   10.31  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.66it/s]


  82    |   0.120455   |  1.300247  |   72.07   |   10.38  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 96.99it/s]


  83    |   0.145535   |  1.514519  |   72.07   |   10.77  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 93.15it/s]


  84    |   0.127552   |  1.326106  |   75.68   |   11.19  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.72it/s]


  85    |   0.144119   |  1.129565  |   76.58   |   10.65  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.33it/s]


  86    |   0.113919   |  1.171991  |   80.18   |   10.58  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 98.97it/s]


  87    |   0.092501   |  1.244498  |   77.48   |   10.54  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 98.95it/s]


  88    |   0.127024   |  1.067127  |   79.28   |   10.55  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 98.77it/s]


  89    |   0.095390   |  1.270844  |   72.07   |   10.55  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 102.31it/s]


  90    |   0.112739   |  1.315422  |   76.58   |   10.19  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:10<00:00, 97.95it/s]


  91    |   0.097404   |  1.308809  |   76.58   |   10.69  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.28it/s]


  92    |   0.110373   |  1.130413  |   79.28   |   10.41  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.73it/s]


  93    |   0.105450   |  1.266300  |   72.07   |   10.37  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.27it/s]


  94    |   0.116977   |  1.238084  |   79.28   |   10.39  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.29it/s]


  95    |   0.084358   |  1.169813  |   72.97   |   10.51  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 101.08it/s]


  96    |   0.092458   |  1.356632  |   76.58   |   10.32  


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 100.91it/s]


  97    |   0.097934   |  1.201836  |   79.28   |   10.33  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.36it/s]


  98    |   0.080740   |  1.432916  |   76.58   |   10.48  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.63it/s]


  99    |   0.093408   |  1.187702  |   77.48   |   10.46  


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:09<00:00, 99.53it/s]


  100   |   0.082567   |  1.303984  |   74.77   |   10.46  


Training complete! Best accuracy: 80.18%.


# 6. Transformer

In [118]:
class TransformerBlock(nn.Module):
    def __init__(self, embed_dim, num_heads, ff_dim, rate=0.1):
        super(TransformerBlock, self).__init__()
        self.att = nn.MultiheadAttention(num_heads=num_heads, embed_dim=embed_dim, batch_first=True)
        self.ffn = nn.Sequential(
            nn.Linear(embed_dim, ff_dim),
            nn.ReLU(),
            nn.Linear(ff_dim ,embed_dim)
        )
        self.layernorm1 = nn.LayerNorm(normalized_shape = [embed_dim], eps=1e-6)
        self.layernorm2 = nn.LayerNorm(normalized_shape = [embed_dim], eps=1e-6)
        self.dropout1 = nn.Dropout(rate)
        self.dropout2 = nn.Dropout(rate)

    def forward(self, inputs):
        attn_output, _ = self.att(inputs, inputs, inputs)
        attn_output = self.dropout1(attn_output)
        out1 = self.layernorm1(inputs + attn_output)
        ffn_output = self.ffn(out1)
        ffn_output = self.dropout2(ffn_output)
        return self.layernorm2(out1 + ffn_output)

In [119]:
class TokenAndPositionEmbedding(nn.Module):
    def __init__(self, maxlen, vocab_size, embed_dim, pretrained_embedding, freeze_embedding):
        super(TokenAndPositionEmbedding, self).__init__()

        if pretrained_embedding is not None:
            self.token_emb = nn.Embedding.from_pretrained(pretrained_embedding,
                                                          freeze=freeze_embedding)
        else:
            self.token_emb = nn.Embedding(num_embeddings=vocab_size,
                                          embedding_dim=embed_dim,
                                          padding_idx=0,
                                          max_norm=5.0)


        self.pos_emb = nn.Embedding(num_embeddings=maxlen, embedding_dim=embed_dim)

    def forward(self, x):
        maxlen = x.size()[-1]
        positions = torch.arange(start=0, end=maxlen, step=1).to(device)
        positions = self.pos_emb(positions)
        x = self.token_emb(x)
        return x + positions

In [120]:
class TransformerClassification(nn.Module):
  def __init__(self, maxlen, vocab_size, embed_dim, pretrained_embedding, freeze_embedding, num_heads, ff_dim, num_classes):
    super(TransformerClassification, self).__init__()

    self.embedding_layer = TokenAndPositionEmbedding(maxlen, vocab_size, embed_dim, pretrained_embedding, freeze_embedding)
    self.transformer_block = TransformerBlock(embed_dim, num_heads, ff_dim)
    self.averagePool = nn.AdaptiveAvgPool1d(output_size=1)
    self.sequential = nn.Sequential(
        nn.Dropout(0.1),
        nn.Linear(embed_dim, 20),
        nn.ReLU(),
        nn.Dropout(0.1),
        nn.Linear(20, num_classes)
    )
    

  def forward(self, x):
    x = self.embedding_layer(x)
    #print(x.size())
    x = self.transformer_block(x)
    #print(x.size())

    # Swap from (N, L, features) to (N, features, L)
    x = torch.swapaxes(x, 1, 2)
    x = self.averagePool(x)
    x = x.squeeze(-1)
    #print(x.size())

    x = self.sequential(x)
    return x



In [121]:
#!pip install torchinfo
model = TransformerClassification(pretrained_embedding=embeddings.float(),
                        freeze_embedding=True,
                        vocab_size=len(word2idx),
                        embed_dim=300,
                        maxlen = max_len,
                        num_classes=len(np.unique(Y)),
                        num_heads = 2,
                        ff_dim = 300)
from torchinfo import summary
summary(model.to(device), [(1,100)], batch_dim=None, dtypes=[torch.int])

Layer (type:depth-idx)                   Output Shape              Param #
TransformerClassification                [1, 4]                    --
├─TokenAndPositionEmbedding: 1-1         [1, 100, 300]             --
│    └─Embedding: 2-1                    [100, 300]                696,300
│    └─Embedding: 2-2                    [1, 100, 300]             (7,728,900)
├─TransformerBlock: 1-2                  [1, 100, 300]             --
│    └─MultiheadAttention: 2-3           [1, 100, 300]             361,200
│    └─Dropout: 2-4                      [1, 100, 300]             --
│    └─LayerNorm: 2-5                    [1, 100, 300]             600
│    └─Sequential: 2-6                   [1, 100, 300]             --
│    │    └─Linear: 3-1                  [1, 100, 300]             90,300
│    │    └─ReLU: 3-2                    [1, 100, 300]             --
│    │    └─Linear: 3-3                  [1, 100, 300]             90,300
│    └─Dropout: 2-7                      [1, 100, 300]   

In [122]:
def initilize_transformer_model(pretrained_embedding=None,
                    freeze_embedding=False,
                    vocab_size=None,
                    embed_dim = 300,
                    num_classes=2,
                    maxlen = 10000,
                    learning_rate=0.01,
                    num_heads = 2,
                    ff_dim = 300
                    ):
    """Instantiate a RNN model and an optimizer."""

    # Instantiate transformer model
    model = TransformerClassification(pretrained_embedding=pretrained_embedding,
                        freeze_embedding=freeze_embedding,
                        vocab_size=vocab_size,
                        embed_dim=embed_dim,
                        maxlen = maxlen,
                        num_classes=num_classes,
                        num_heads = num_heads,
                        ff_dim = ff_dim)
    
    # Send model to `device` (GPU/CPU)
    model.to(device)

    # Instantiate Adadelta optimizer
    optimizer = optim.Adadelta(model.parameters(),
                               lr=learning_rate,
                               rho=0.95)

    return model, optimizer

In [123]:
# 44.98% accuracy
set_seed(42)
PATH = "transformer_newdata"
os.makedirs(PATH, exist_ok=True)
model, optimizer = initilize_transformer_model(pretrained_embedding=embeddings.float(),
                                            freeze_embedding=False,
                                            vocab_size=len(word2idx),
                                            embed_dim=300,
                                            num_classes=len(y_info),
                                            maxlen = max_len,
                                            learning_rate=0.1,
                                            num_heads = 10,
                                            ff_dim = 300)
train(model, optimizer, train_dataloader, val_dataloader, epochs=100)

Start training...

 Epoch  |  Train Loss  |  Val Loss  |  Val Acc  |  Elapsed 
------------------------------------------------------------


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 180.29it/s]


   1    |   1.281723   |  1.111678  |   53.15   |   5.74   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 188.68it/s]


   2    |   0.975640   |  0.870508  |   61.26   |   6.10   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 185.01it/s]


   3    |   0.771778   |  0.626969  |   76.58   |   6.85   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 185.62it/s]


   4    |   0.653486   |  0.746685  |   73.87   |   5.41   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 188.09it/s]


   5    |   0.591177   |  0.651993  |   78.38   |   6.14   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 184.40it/s]


   6    |   0.497418   |  0.887833  |   76.58   |   5.45   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 180.67it/s]


   7    |   0.449471   |  0.757078  |   70.27   |   5.57   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 179.74it/s]


   8    |   0.369809   |  0.823621  |   72.97   |   5.59   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 185.56it/s]


   9    |   0.278839   |  1.123172  |   77.48   |   5.41   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 188.56it/s]


  10    |   0.230534   |  1.146746  |   72.97   |   5.32   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.19it/s]


  11    |   0.187065   |  1.295620  |   72.97   |   5.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.71it/s]


  12    |   0.123160   |  1.374879  |   72.97   |   5.22   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.10it/s]


  13    |   0.065336   |  1.609546  |   69.37   |   5.24   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.65it/s]


  14    |   0.041429   |  1.931036  |   71.17   |   5.45   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 195.48it/s]


  15    |   0.033709   |  2.111605  |   72.97   |   5.20   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.00it/s]


  16    |   0.043048   |  2.094996  |   72.07   |   5.40   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 194.36it/s]


  17    |   0.017045   |  2.480610  |   72.07   |   5.17   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.77it/s]


  18    |   0.015668   |  2.404819  |   72.97   |   5.29   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.69it/s]


  19    |   0.009075   |  2.599554  |   72.07   |   5.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.95it/s]


  20    |   0.007821   |  2.744696  |   71.17   |   5.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 187.71it/s]


  21    |   0.010432   |  2.795624  |   72.07   |   5.35   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.44it/s]


  22    |   0.005376   |  2.716577  |   72.97   |   5.22   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.72it/s]


  23    |   0.009104   |  2.950733  |   72.97   |   5.21   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 188.20it/s]


  24    |   0.008561   |  2.765746  |   76.58   |   5.34   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.90it/s]


  25    |   0.010520   |  2.922696  |   72.07   |   5.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.61it/s]


  26    |   0.007856   |  3.055156  |   71.17   |   5.27   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 183.43it/s]


  27    |   0.005461   |  2.842311  |   72.97   |   5.47   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.62it/s]


  28    |   0.009148   |  3.037612  |   72.07   |   5.39   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.81it/s]


  29    |   0.008156   |  3.112391  |   71.17   |   5.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 187.25it/s]


  30    |   0.010014   |  3.554484  |   71.17   |   5.36   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 184.21it/s]


  31    |   0.004706   |  3.227733  |   72.07   |   5.44   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.14it/s]


  32    |   0.005659   |  3.289911  |   71.17   |   5.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.72it/s]


  33    |   0.009062   |  3.255724  |   70.27   |   5.27   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.96it/s]


  34    |   0.006449   |  3.162602  |   71.17   |   5.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.73it/s]


  35    |   0.006341   |  3.266586  |   72.97   |   5.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 184.94it/s]


  36    |   0.005688   |  3.234780  |   72.97   |   5.43   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 185.50it/s]


  37    |   0.003091   |  3.382338  |   72.97   |   5.42   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 187.59it/s]


  38    |   0.003906   |  3.130853  |   72.97   |   5.35   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.53it/s]


  39    |   0.005927   |  3.243117  |   72.97   |   5.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.58it/s]


  40    |   0.004844   |  3.326961  |   73.87   |   5.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.04it/s]


  41    |   0.005090   |  3.356564  |   72.07   |   5.32   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.89it/s]


  42    |   0.006182   |  3.344356  |   69.37   |   5.37   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.41it/s]


  43    |   0.005537   |  3.364555  |   72.07   |   5.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.20it/s]


  44    |   0.004706   |  3.169373  |   74.77   |   5.31   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.60it/s]


  45    |   0.006531   |  3.318006  |   73.87   |   5.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 193.36it/s]


  46    |   0.003111   |  3.390325  |   72.07   |   5.19   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.07it/s]


  47    |   0.005445   |  3.358717  |   72.97   |   5.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.67it/s]


  48    |   0.004134   |  3.407845  |   71.17   |   5.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 187.03it/s]


  49    |   0.005446   |  3.536925  |   69.37   |   5.37   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.53it/s]


  50    |   0.003723   |  3.423871  |   73.87   |   5.27   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 183.26it/s]


  51    |   0.004556   |  3.682925  |   69.37   |   5.48   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 180.63it/s]


  52    |   0.012244   |  3.621734  |   71.17   |   5.56   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 194.60it/s]


  53    |   0.002686   |  3.585377  |   70.27   |   5.16   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.05it/s]


  54    |   0.004877   |  3.645206  |   71.17   |   5.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.53it/s]


  55    |   0.004918   |  3.554234  |   68.47   |   5.30   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 193.10it/s]


  56    |   0.002300   |  3.981345  |   70.27   |   5.20   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 184.20it/s]


  57    |   0.006926   |  3.512575  |   72.97   |   5.46   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.20it/s]


  58    |   0.002255   |  3.733467  |   70.27   |   5.23   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 183.63it/s]


  59    |   0.006775   |  3.478282  |   71.17   |   5.47   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 184.59it/s]


  60    |   0.003241   |  3.741408  |   69.37   |   5.44   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 184.27it/s]


  61    |   0.003173   |  3.315945  |   74.77   |   5.46   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 179.67it/s]


  62    |   0.002826   |  3.353077  |   73.87   |   5.59   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.86it/s]


  63    |   0.002193   |  3.499776  |   71.17   |   5.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.76it/s]


  64    |   0.001958   |  3.435620  |   70.27   |   5.29   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.22it/s]


  65    |   0.002741   |  3.682951  |   67.57   |   5.31   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.46it/s]


  66    |   0.002191   |  3.615523  |   72.07   |   5.22   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.88it/s]


  67    |   0.001643   |  3.361104  |   72.97   |   5.27   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 194.63it/s]


  68    |   0.001897   |  3.486738  |   69.37   |   5.16   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 197.54it/s]


  69    |   0.003388   |  3.562025  |   73.87   |   5.09   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 179.02it/s]


  70    |   0.002262   |  3.744549  |   70.27   |   5.61   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 177.67it/s]


  71    |   0.002388   |  3.946302  |   72.07   |   5.65   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 179.46it/s]


  72    |   0.002501   |  3.757365  |   70.27   |   5.60   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 180.15it/s]


  73    |   0.003330   |  3.502025  |   69.37   |   5.58   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 176.45it/s]


  74    |   0.002443   |  3.802432  |   69.37   |   5.69   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.97it/s]


  75    |   0.001968   |  3.758291  |   69.37   |   5.26   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 184.85it/s]


  76    |   0.002910   |  3.559029  |   70.27   |   5.43   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 187.88it/s]


  77    |   0.002019   |  3.794803  |   71.17   |   5.35   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.00it/s]


  78    |   0.003300   |  3.296230  |   75.68   |   5.23   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.29it/s]


  79    |   0.004029   |  3.411529  |   72.97   |   5.31   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.25it/s]


  80    |   0.002654   |  3.740809  |   69.37   |   5.23   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 183.58it/s]


  81    |   0.002239   |  3.776810  |   70.27   |   5.47   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.73it/s]


  82    |   0.001697   |  3.636736  |   72.07   |   5.30   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 188.68it/s]


  83    |   0.003024   |  3.531478  |   76.58   |   5.32   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.31it/s]


  84    |   0.004764   |  3.501615  |   76.58   |   5.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 186.71it/s]


  85    |   0.002584   |  3.869168  |   72.97   |   5.38   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.52it/s]


  86    |   0.005895   |  3.804110  |   72.97   |   5.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.55it/s]


  87    |   0.002104   |  3.867843  |   72.07   |   5.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 188.31it/s]


  88    |   0.001874   |  3.889311  |   72.07   |   5.33   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.91it/s]


  89    |   0.002460   |  3.860888  |   72.97   |   5.27   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 190.70it/s]


  90    |   0.001933   |  3.734440  |   72.97   |   5.27   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 188.82it/s]


  91    |   0.001953   |  3.875256  |   70.27   |   5.32   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.86it/s]


  92    |   0.002399   |  3.763014  |   72.97   |   5.21   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 189.74it/s]


  93    |   0.001837   |  3.830296  |   73.87   |   5.30   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.95it/s]


  94    |   0.010160   |  3.544629  |   73.87   |   5.24   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 183.87it/s]


  95    |   0.001666   |  3.647771  |   76.58   |   5.46   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 191.39it/s]


  96    |   0.002308   |  3.852026  |   70.27   |   5.25   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 188.43it/s]


  97    |   0.003005   |  3.620331  |   73.87   |   5.33   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 183.24it/s]


  98    |   0.001822   |  3.815817  |   73.87   |   5.48   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 192.22it/s]


  99    |   0.002460   |  3.728880  |   73.87   |   5.24   


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 992/992 [00:05<00:00, 180.17it/s]


  100   |   0.006529   |  3.445806  |   75.68   |   5.57   


Training complete! Best accuracy: 78.38%.
