In [3]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset, random_split
from sklearn.metrics import accuracy_score, classification_report
from datasets import load_dataset
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
from tqdm import tqdm

# Download NLTK data
nltk.download('punkt')

# Load the AG News dataset
dataset = load_dataset("ag_news")

# NLTK Tokenizer Function
def nltk_tokenizer(text):
    return word_tokenize(text)

# Convert to PyTorch tensors
class AGNewsDataset(Dataset):
    def __init__(self, texts, labels, vocab, max_length):
        self.texts = texts
        self.labels = labels
        self.vocab = vocab
        self.max_length = max_length

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        label = self.labels[idx]
        tokenized_text = [self.vocab.get(token, self.vocab['<UNK>']) for token in text]
        if len(tokenized_text) < self.max_length:
            tokenized_text += [self.vocab['<PAD>']] * (self.max_length - len(tokenized_text))
        else:
            tokenized_text = tokenized_text[:self.max_length]
        return torch.tensor(tokenized_text, dtype=torch.long), torch.tensor(label, dtype=torch.long)

# Build vocabulary
def build_vocab(dataset, tokenizer):
    vocab = {'<PAD>': 0, '<UNK>': 1}
    for example in dataset:
        tokens = tokenizer(example['text'])
        for token in tokens:
            if token not in vocab:
                vocab[token] = len(vocab)
    return vocab

# Tokenize and build vocab
train_texts = [nltk_tokenizer(example['text']) for example in dataset['train']]
train_labels = [example['label'] for example in dataset['train']]
vocab = build_vocab(dataset['train'], nltk_tokenizer)

# Set max length for padding
max_length = 128

# Create dataset
full_dataset = AGNewsDataset(train_texts, train_labels, vocab, max_length)

# Split training set into training and validation sets
train_size = int(0.8 * len(full_dataset))
val_size = len(full_dataset) - train_size
train_dataset, val_dataset = random_split(full_dataset, [train_size, val_size])

# Prepare test dataset
test_texts = [nltk_tokenizer(example['text']) for example in dataset['test']]
test_labels = [example['label'] for example in dataset['test']]
test_dataset = AGNewsDataset(test_texts, test_labels, vocab, max_length)


class DeepLSTMModel(nn.Module):
    def __init__(self, vocab_size, output_dim, embed_dim=128, hidden_dim=256, num_layers=3):
        super(DeepLSTMModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
        self.lstm = nn.LSTM(embed_dim, hidden_dim, num_layers=num_layers, batch_first=True, dropout=0.5)
        self.fc = nn.Linear(hidden_dim, output_dim)
    
    def forward(self, x):
        x = self.embedding(x)
        output, (hidden, cell) = self.lstm(x)
        return self.fc(hidden[-1])

# Training Parameters
BATCH_SIZE = 128
EPOCHS = 15
OUTPUT_DIM = 4
LR = 0.001

# Device configuration
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# DataLoader
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)

# Model, loss function, and optimizer
model = DeepLSTMModel(len(vocab), OUTPUT_DIM).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=LR)


# Training loop
for epoch in range(EPOCHS):
    model.train()
    for texts, labels in tqdm(train_loader, desc=f'Epoch {epoch + 1}/{EPOCHS}', unit='batch'):
        texts, labels = texts.to(device), labels.to(device)
        
        outputs = model(texts)
        loss = criterion(outputs, labels)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    model.eval()
    val_labels = []
    val_preds = []
    with torch.no_grad():
        for texts, labels in tqdm(val_loader, desc=f'Epoch {epoch + 1}/{EPOCHS}', unit='batch'):
            texts, labels = texts.to(device), labels.to(device)
            outputs = model(texts)
            _, preds = torch.max(outputs, 1)
            val_labels.extend(labels.cpu().numpy())
            val_preds.extend(preds.cpu().numpy())
    
    val_accuracy = accuracy_score(val_labels, val_preds)
    print(f'Epoch {epoch + 1}/{EPOCHS}, Validation Accuracy: {val_accuracy:.4f}')

# Final evaluation on test set
model.eval()
test_labels = []
test_preds = []
with torch.no_grad():
    for texts, labels in test_loader:
        texts, labels = texts.to(device), labels.to(device)
        outputs = model(texts)
        _, preds = torch.max(outputs, 1)
        test_labels.extend(labels.cpu().numpy())
        test_preds.extend(preds.cpu().numpy())

overall_accuracy = accuracy_score(test_labels, test_preds)
class_report = classification_report(test_labels, test_preds, target_names=['World', 'Sports', 'Business', 'Sci/Tech'])

print(f'Test Accuracy: {overall_accuracy:.4f}')
print('Classification Report:')
print(class_report)


[nltk_data] Downloading package punkt to /home/IAIS/rrao/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
Epoch 1/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:51<00:00, 14.45batch/s]
Epoch 1/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 37.56batch/s]


Epoch 1/15, Validation Accuracy: 0.2480


Epoch 2/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:52<00:00, 14.21batch/s]
Epoch 2/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 36.66batch/s]


Epoch 2/15, Validation Accuracy: 0.2480


Epoch 3/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:55<00:00, 13.56batch/s]
Epoch 3/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 35.10batch/s]


Epoch 3/15, Validation Accuracy: 0.2500


Epoch 4/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.30batch/s]
Epoch 4/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 34.57batch/s]


Epoch 4/15, Validation Accuracy: 0.2504


Epoch 5/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.21batch/s]
Epoch 5/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 33.90batch/s]


Epoch 5/15, Validation Accuracy: 0.2504


Epoch 6/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.39batch/s]
Epoch 6/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 35.67batch/s]


Epoch 6/15, Validation Accuracy: 0.2504


Epoch 7/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:55<00:00, 13.39batch/s]
Epoch 7/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 35.48batch/s]


Epoch 7/15, Validation Accuracy: 0.2504


Epoch 8/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.29batch/s]
Epoch 8/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 34.23batch/s]


Epoch 8/15, Validation Accuracy: 0.2503


Epoch 9/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.27batch/s]
Epoch 9/15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 34.65batch/s]


Epoch 9/15, Validation Accuracy: 0.2481


Epoch 10/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.34batch/s]
Epoch 10/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 34.28batch/s]


Epoch 10/15, Validation Accuracy: 0.2500


Epoch 11/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.35batch/s]
Epoch 11/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 35.10batch/s]


Epoch 11/15, Validation Accuracy: 0.2503


Epoch 12/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.36batch/s]
Epoch 12/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 34.76batch/s]


Epoch 12/15, Validation Accuracy: 0.2500


Epoch 13/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.29batch/s]
Epoch 13/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 35.76batch/s]


Epoch 13/15, Validation Accuracy: 0.2500


Epoch 14/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:55<00:00, 13.48batch/s]
Epoch 14/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 35.34batch/s]


Epoch 14/15, Validation Accuracy: 0.2480


Epoch 15/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 750/750 [00:56<00:00, 13.39batch/s]
Epoch 15/15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 188/188 [00:05<00:00, 34.78batch/s]


Epoch 15/15, Validation Accuracy: 0.2503
Test Accuracy: 0.2500
Classification Report:
              precision    recall  f1-score   support

       World       0.00      0.00      0.00      1900
      Sports       0.00      0.00      0.00      1900
    Business       0.25      1.00      0.40      1900
    Sci/Tech       0.00      0.00      0.00      1900

    accuracy                           0.25      7600
   macro avg       0.06      0.25      0.10      7600
weighted avg       0.06      0.25      0.10      7600



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
