In [1]:
import re
import numpy as np
import torch
import torch.nn as nn
from torchmetrics.functional import accuracy
import torchmetrics
from torch.utils.data import TensorDataset, DataLoader
from tqdm import tqdm
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

## Data preprocessing

In [2]:

def load_reviews(path, review_length, vocab):
    reviews = []
    f = open(path, "r", encoding='UTF-8')
    
    for line in f:
        review = []
        line = re.sub(r'[^\w\s]', '', line).lower().strip()
        for word in line.split():
            review.append(vocab[word])
        if len(review) < review_length: #pad in front
            for i in range(review_length - len(review)):
                review.insert(0, "0")
        else: # truncate
            review = review[:review_length]
        reviews.append(review)
    return np.array(reviews)


def find_vocab(path):
    f = open(path, "r", encoding='UTF-8')
    vocab = set()
    for line in f:
        line = re.sub(r'[^\w\s]', '', line).lower().strip() # reference to geeksforgeeks
        for word in line.split():
            vocab.add(word)  
    return {word: i for i, word in enumerate(vocab, 1)} # enumerate start at 1 to leave 0 for padding
        

def prepare_train(data_path, review_length=400):
    all_vocab = find_vocab(data_path + "all_merged.txt")
    train_positive_reviews = load_reviews(data_path + "train_pos_merged.txt", review_length, all_vocab).astype(np.int32)
    train_negative_reviews = load_reviews(data_path + "train_neg_merged.txt", review_length, all_vocab).astype(np.int32)
    test_positive_reviews = load_reviews(data_path + "test_pos_merged.txt", review_length, all_vocab).astype(np.int32)
    test_negative_reviews = load_reviews(data_path + "test_neg_merged.txt", review_length, all_vocab).astype(np.int32)
    
    train_x = np.concatenate((train_positive_reviews, train_negative_reviews), axis=0)
    train_y = np.concatenate(((np.full((len(train_positive_reviews), 1), 1)), (np.full((len(train_negative_reviews), 1), 0))), axis=0)
    test_x = np.concatenate((test_positive_reviews, test_negative_reviews), axis=0)
    test_y = np.concatenate(((np.full((len(test_positive_reviews), 1), 1)), (np.full((len(test_negative_reviews), 1), 0))), axis=0)                         
    print("Vocabulary size: ", len(all_vocab))
    # print(train_positive_reviews[:100])
    #print(train_x.shape)
    #print(train_y.shape)
    #print(test_x.shape)
    #print(test_y.shape)
    return train_x, train_y, test_x, test_y, len(all_vocab)

# train_x, train_y, test_x, test_y = prepare_train(data_path)

## Build RNN with GRU

In [3]:
class MyGRU(nn.Module):
    def __init__(self, vocab_size, hidden_dim, output_dim, num_layers, batch_size=512): # TODO: add dropout
        super().__init__()
        self.last_hidden = torch.zeros(num_layers, batch_size, hidden_dim).to(device)
        self.num_layers = num_layers
        self.embedding = nn.Embedding(vocab_size, hidden_dim)
        self.gru = nn.GRU(hidden_dim, hidden_dim, num_layers=num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)
        # self.dropout = nn.Dropout(dropout)
        
    def forward(self, x):
        x = self.embedding(x)
        output, hidden = self.gru(x, self.last_hidden)
        output = output[:, -1]
        self.last_hidden = hidden.data # TODO: .data?
        #print(self.last_hidden.shape)
        
        return self.fc(output)

In [4]:
def train_test_GRU(train_loader, test_loader, learning_rate, epochs, vocab_size, hidden_dim, batch_size):
    model = MyGRU(vocab_size=vocab_size, hidden_dim=hidden_dim, output_dim=1, num_layers=2, batch_size=batch_size)
    loss_fn = nn.BCEWithLogitsLoss()
    optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate)
    
    model.to(device)
    train_loss_all = []
    test_acc_all = []
    
    for epoch in range(1, epochs+1):
        #train
        train_loss = 0
        #train_acc = 0
        model.train()
        for batch in tqdm(train_loader):
            x, y = batch
            x = x.to(device)
            y = y.to(device)
            optimizer.zero_grad()
            output = model(x)
            loss = loss_fn(output, y.float())# TODO: squeeze?
            loss.backward()
            optimizer.step()
            train_loss += loss.item()
            #train_acc += accuracy(output, y, task='binary')
        print(f"Epoch: {epoch}, Train Loss: {train_loss / len(train_loader)}")#, Train Acc: {train_acc / len(train_loader)
    
        #test
        #test_loss = 0
        test_acc = 0
        for batch in tqdm(test_loader):
            x, y = batch
            x = x.to(device)
            y = y.to(device)
            output = torch.sigmoid(model(x)) # TODO: squeeze?
            loss = loss_fn(output, y.float())

            #test_loss += loss.item()
            test_acc += accuracy(output, y, task='binary')
        print(f"Epoch: {epoch}, Test Acc: {test_acc / len(test_loader)}") #Test Loss: {test_loss / len(test_loader)},

        train_loss_all.append(train_loss / len(train_loader))
        test_acc_all.append(test_acc / len(test_loader))
        
    return train_loss_all, test_acc_all
    

In [7]:
def main():
    data_path = "./data/"
    review_length = 400
    batch_size = 128
    train_x, train_y, test_x, test_y, vocab_size = prepare_train(data_path, review_length)
    
    train_data = TensorDataset(torch.from_numpy(train_x), torch.from_numpy(train_y))
    train_loader = DataLoader(train_data, shuffle=True, batch_size=batch_size, drop_last=True)
    test_data = TensorDataset(torch.from_numpy(test_x), torch.from_numpy(test_y))
    test_loader = DataLoader(test_data, shuffle=True, batch_size=batch_size, drop_last=True)
    
    lr = 0.0001
    epochs = 20
    hidden_dim = 256
    
    
    train_loss_all, test_acc_all = train_test_GRU(train_loader, test_loader, learning_rate=lr, epochs=epochs, vocab_size=vocab_size, hidden_dim=hidden_dim, batch_size=batch_size)

main()

Vocabulary size:  53992


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:01<00:00, 11.96it/s]


Epoch: 1, Train Loss: 0.6908808506053427


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.63it/s]


Epoch: 1, Test Acc: 0.5604619383811951


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:01<00:00, 11.78it/s]


Epoch: 2, Train Loss: 0.6771922785302867


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.55it/s]


Epoch: 2, Test Acc: 0.577785313129425


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.39it/s]


Epoch: 3, Train Loss: 0.6616773268450862


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.85it/s]


Epoch: 3, Test Acc: 0.5805027484893799


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.14it/s]


Epoch: 4, Train Loss: 0.6377304559168608


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 32.85it/s]


Epoch: 4, Test Acc: 0.5974864363670349


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:01<00:00, 11.83it/s]


Epoch: 5, Train Loss: 0.6029151704000391


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 33.62it/s]


Epoch: 5, Test Acc: 0.615828812122345


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.40it/s]


Epoch: 6, Train Loss: 0.5630861805832904


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 32.80it/s]


Epoch: 6, Test Acc: 0.649796187877655


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:01<00:00, 11.66it/s]


Epoch: 7, Train Loss: 0.5181176079356152


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.85it/s]


Epoch: 7, Test Acc: 0.66745924949646


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.48it/s]


Epoch: 8, Train Loss: 0.4697064031725344


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 32.20it/s]


Epoch: 8, Test Acc: 0.6973505616188049


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.42it/s]


Epoch: 9, Train Loss: 0.4212709807831308


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 29.60it/s]


Epoch: 9, Test Acc: 0.7058423757553101


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:01<00:00, 11.55it/s]


Epoch: 10, Train Loss: 0.38256866128548334


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 32.29it/s]


Epoch: 10, Test Acc: 0.712296187877655


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.34it/s]


Epoch: 11, Train Loss: 0.3474194802667784


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 32.25it/s]


Epoch: 11, Test Acc: 0.7272418737411499


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.32it/s]


Epoch: 12, Train Loss: 0.28885666313378705


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.21it/s]


Epoch: 12, Test Acc: 0.7275815606117249


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.43it/s]


Epoch: 13, Train Loss: 0.24883785260760266


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.92it/s]


Epoch: 13, Test Acc: 0.734035313129425


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.19it/s]


Epoch: 14, Train Loss: 0.20631845360216888


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.11it/s]


Epoch: 14, Test Acc: 0.740828812122345


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.37it/s]


Epoch: 15, Train Loss: 0.1750138389027637


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.46it/s]


Epoch: 15, Test Acc: 0.7398098111152649


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.30it/s]


Epoch: 16, Train Loss: 0.14225472607042478


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.55it/s]


Epoch: 16, Test Acc: 0.7323369979858398


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.49it/s]


Epoch: 17, Train Loss: 0.12505987383749173


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.72it/s]


Epoch: 17, Test Acc: 0.74388587474823


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:01<00:00, 11.59it/s]


Epoch: 18, Train Loss: 0.10039910414944524


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 31.77it/s]


Epoch: 18, Test Acc: 0.7350543737411499


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:02<00:00, 11.36it/s]


Epoch: 19, Train Loss: 0.09494911814513414


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 30.54it/s]


Epoch: 19, Test Acc: 0.7350543737411499


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:01<00:00, 11.53it/s]


Epoch: 20, Train Loss: 0.06337835412958394


100%|██████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 30.87it/s]

Epoch: 20, Test Acc: 0.7432065606117249





In [8]:
## Comparison with a MLP

In [9]:
class mlp(nn.Module):
    def __init__(self):
        super().__init__()
        self.first = nn.Linear(400, 64)
        self.second = nn.Linear(64, 1)
        self.sigmoid = nn.Sigmoid()
    
    def forward(self, x):
        x = x.to(torch.float32)
        x = self.first(x)
        x = self.sigmoid(x)
        x = self.second(x)
        x = self.sigmoid(x)
        return x
    
def train_test_mlp(train_loader, test_loader, epochs):
    model = mlp()
    loss_fn = nn.BCEWithLogitsLoss()
    optimizer = torch.optim.AdamW(model.parameters())
    
    model.to(device)
    train_loss_all = []
    test_acc_all = []
    
    print("Now training MLP model...")
    
    for epoch in range(1, epochs+1):
        #train
        train_loss = 0
        #train_acc = 0
        model.train(True)
        for batch in tqdm(train_loader):
            x, y = batch
            x = x.to(device)
            y = y.to(device)
            optimizer.zero_grad()
            output = model(x)
            loss = loss_fn(output, y.float())
            loss.backward()
            optimizer.step()
            train_loss += loss.item()
            #train_acc += accuracy(output, y, task='binary')
        print(f"Epoch: {epoch}, Train Loss: {loss}")#, Train Acc: {train_acc / len(train_loader)
    
        #test
        #test_loss = 0
        test_acc = 0
        model.train(False)
        for batch in tqdm(test_loader):
            x, y = batch
            x = x.to(device)
            y = y.to(device)
            output = model(x)
            # loss = loss_fn(output, y.float())

            #test_loss += loss.item()
            test_acc += accuracy(output, y, task='binary')
        print(f"Epoch: {epoch}, Test Acc: {test_acc / len(test_loader)}") #Test Loss: {test_loss / len(test_loader)},

        train_loss_all.append(train_loss / len(train_loader))
        test_acc_all.append(test_acc / len(test_loader))
        
    return train_loss_all, test_acc_all

def mlp_main():
    data_path = "./data/"
    review_length = 400
    batch_size = 128
    train_x, train_y, test_x, test_y, vocab_size = prepare_train(data_path, review_length)
    
    train_data = TensorDataset(torch.from_numpy(train_x), torch.from_numpy(train_y))
    train_loader = DataLoader(train_data, shuffle=True, batch_size=batch_size, drop_last=True)
    test_data = TensorDataset(torch.from_numpy(test_x), torch.from_numpy(test_y))
    test_loader = DataLoader(test_data, shuffle=True, batch_size=batch_size, drop_last=True)
    
    epochs = 20
    
    train_loss_all, test_acc_all = train_test_mlp(train_loader, test_loader, epochs=epochs)
    
mlp_main()

Vocabulary size:  53992
Now training MLP model...


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 354.93it/s]


Epoch: 1, Train Loss: 0.6913754940032959


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 378.05it/s]


Epoch: 1, Test Acc: 0.4989809989929199


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 311.65it/s]


Epoch: 2, Train Loss: 0.6978253722190857


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 427.06it/s]


Epoch: 2, Test Acc: 0.5


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 339.15it/s]


Epoch: 3, Train Loss: 0.7003913521766663


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 390.88it/s]


Epoch: 3, Test Acc: 0.5023777484893799


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 324.82it/s]


Epoch: 4, Train Loss: 0.6990883350372314


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 427.06it/s]


Epoch: 4, Test Acc: 0.50169837474823


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 338.99it/s]


Epoch: 5, Train Loss: 0.6929656267166138


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 349.42it/s]


Epoch: 5, Test Acc: 0.49966034293174744


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 349.41it/s]


Epoch: 6, Train Loss: 0.6945746541023254


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 452.18it/s]


Epoch: 6, Test Acc: 0.4989809989929199


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 354.63it/s]


Epoch: 7, Train Loss: 0.6953310966491699


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 397.62it/s]


Epoch: 7, Test Acc: 0.49864131212234497


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 378.06it/s]


Epoch: 8, Train Loss: 0.6974045634269714


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 451.94it/s]


Epoch: 8, Test Acc: 0.5


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 344.20it/s]


Epoch: 9, Train Loss: 0.6902559995651245


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 427.06it/s]


Epoch: 9, Test Acc: 0.49796196818351746


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 344.21it/s]


Epoch: 10, Train Loss: 0.6934942603111267


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 397.61it/s]


Epoch: 10, Test Acc: 0.5023777484893799


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 344.23it/s]


Epoch: 11, Train Loss: 0.6937300562858582


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 390.87it/s]


Epoch: 11, Test Acc: 0.49796196818351746


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 315.86it/s]


Epoch: 12, Train Loss: 0.6906433701515198


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 470.65it/s]


Epoch: 12, Test Acc: 0.5010190606117249


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 354.79it/s]


Epoch: 13, Train Loss: 0.6926036477088928


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 480.44it/s]


Epoch: 13, Test Acc: 0.5


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 354.79it/s]


Epoch: 14, Train Loss: 0.6911747455596924


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 470.66it/s]


Epoch: 14, Test Acc: 0.4989809989929199


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 339.14it/s]


Epoch: 15, Train Loss: 0.6950942873954773


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 461.24it/s]


Epoch: 15, Test Acc: 0.49966034293174744


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 339.14it/s]


Epoch: 16, Train Loss: 0.6932535171508789


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 470.65it/s]


Epoch: 16, Test Acc: 0.50169837474823


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 378.06it/s]


Epoch: 17, Train Loss: 0.6926518082618713


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 427.07it/s]


Epoch: 17, Test Acc: 0.5010190606117249


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 354.80it/s]


Epoch: 18, Train Loss: 0.6914476156234741


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 470.64it/s]


Epoch: 18, Test Acc: 0.5


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 329.45it/s]


Epoch: 19, Train Loss: 0.692511796951294


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 452.19it/s]


Epoch: 19, Test Acc: 0.49796196818351746


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 349.42it/s]


Epoch: 20, Train Loss: 0.6930109858512878


100%|█████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 435.13it/s]

Epoch: 20, Test Acc: 0.49966034293174744



