In [7]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils import data
from transformers import BertTokenizer
from datasets import load_dataset
from tqdm import tqdm

# Load AG News Dataset
print("Loading AG News Dataset...")
dataset = load_dataset('ag_news')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

def tokenize(text):
    return tokenizer(text, padding='max_length', truncation=True, return_tensors='pt', max_length=128)

class AGNewsDataset(data.Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels
    
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        tokens = tokenize(self.texts[idx])
        input_ids = tokens['input_ids'].squeeze()
        attention_mask = tokens['attention_mask'].squeeze()
        label = self.labels[idx]
        return input_ids, attention_mask, torch.tensor(label, dtype=torch.long)

print("Preparing datasets...")
train_texts = [item['text'] for item in dataset['train']]
train_labels = [item['label'] for item in dataset['train']]
test_texts = [item['text'] for item in dataset['test']]
test_labels = [item['label'] for item in dataset['test']]

train_dataset = AGNewsDataset(train_texts, train_labels)
test_dataset = AGNewsDataset(test_texts, test_labels)

train_loader = data.DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = data.DataLoader(test_dataset, batch_size=64, shuffle=False)

# Define a custom transformer model for classification
class TransformerClassifier(nn.Module):
    def __init__(self, num_classes, max_length=128, d_model=512, nhead=8, num_encoder_layers=6, dim_feedforward=2048):
        super(TransformerClassifier, self).__init__()
        self.embedding = nn.Embedding(tokenizer.vocab_size, d_model)
        self.position_encoding = nn.Parameter(torch.zeros(1, max_length, d_model))
        encoder_layer = nn.TransformerEncoderLayer(d_model=d_model, nhead=nhead, dim_feedforward=dim_feedforward)
        self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_encoder_layers)
        self.fc = nn.Linear(d_model, num_classes)
    
    def forward(self, input_ids, attention_mask):
        x = self.embedding(input_ids) + self.position_encoding[:, :input_ids.size(1), :]
        x = x.permute(1, 0, 2)  # Transformer expects (seq_len, batch, d_model)
        mask = ~attention_mask.bool()
        x = self.transformer_encoder(x, src_key_padding_mask=mask)
        x = x.mean(dim=0)  # Global average pooling
        logits = self.fc(x)
        return logits

num_classes = len(set(train_labels))
model = TransformerClassifier(num_classes)

# Training setup
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=5e-5)


Loading AG News Dataset...
Preparing datasets...


In [8]:
results = {'train_loss': [], 'val_accuracy': []}

# Training loop
print("Starting training...")
for epoch in range(3):  # Number of epochs can be adjusted
    model.train()
    running_loss = 0.0
    for i, (input_ids, attention_mask, labels) in enumerate(tqdm(train_loader, desc=f"Epoch {epoch + 1}")):
        input_ids, attention_mask, labels = input_ids.to(device), attention_mask.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(input_ids, attention_mask)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()

        # Print training loss every few iterations
        if (i + 1) % 20 == 0:  # Adjust this value as needed
            print(f"Epoch {epoch + 1}, Iteration {i + 1}, Loss: {running_loss / (i + 1)}")
    
    epoch_loss = running_loss / len(train_loader)
    results['train_loss'].append(epoch_loss)
    print(f"Epoch {epoch + 1}, Average Loss: {epoch_loss}")

    # Evaluation
    print("Starting evaluation...")
    model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for input_ids, attention_mask, labels in tqdm(test_loader, desc=f"Evaluating Epoch {epoch + 1}"):
            input_ids, attention_mask, labels = input_ids.to(device), attention_mask.to(device), labels.to(device)
            outputs = model(input_ids, attention_mask)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    accuracy = 100 * correct / total
    results['val_accuracy'].append(accuracy)
    print(f"Epoch {epoch + 1}, Accuracy: {accuracy}%")

# Save results to a pickle file
with open('training_results.pkl', 'wb') as f:
    pickle.dump(results, f)

print("Training and evaluation completed. Results saved to training_results.pkl")

Starting training...


Epoch 1:   1%|█▎                                                                                                                          | 20/1875 [00:07<12:04,  2.56it/s]

Epoch 1, Iteration 20, Loss: 1.4621175467967986


Epoch 1:   2%|██▋                                                                                                                         | 40/1875 [00:15<11:58,  2.55it/s]

Epoch 1, Iteration 40, Loss: 1.3803518831729888


Epoch 1:   3%|███▉                                                                                                                        | 60/1875 [00:23<11:37,  2.60it/s]

Epoch 1, Iteration 60, Loss: 1.3290119826793672


Epoch 1:   4%|█████▎                                                                                                                      | 80/1875 [00:30<11:28,  2.61it/s]

Epoch 1, Iteration 80, Loss: 1.2662663958966731


Epoch 1:   5%|██████▌                                                                                                                    | 100/1875 [00:38<11:16,  2.62it/s]

Epoch 1, Iteration 100, Loss: 1.1919669771194459


Epoch 1:   6%|███████▊                                                                                                                   | 120/1875 [00:46<11:15,  2.60it/s]

Epoch 1, Iteration 120, Loss: 1.1293218781550725


Epoch 1:   7%|█████████▏                                                                                                                 | 140/1875 [00:53<11:21,  2.55it/s]

Epoch 1, Iteration 140, Loss: 1.0758010723761149


Epoch 1:   9%|██████████▍                                                                                                                | 160/1875 [01:01<10:59,  2.60it/s]

Epoch 1, Iteration 160, Loss: 1.0280758788809181


Epoch 1:  10%|███████████▊                                                                                                               | 180/1875 [01:09<11:50,  2.39it/s]

Epoch 1, Iteration 180, Loss: 0.9889914898408784


Epoch 1:  11%|█████████████                                                                                                              | 200/1875 [01:18<11:28,  2.43it/s]

Epoch 1, Iteration 200, Loss: 0.9585467763245106


Epoch 1:  12%|██████████████▍                                                                                                            | 220/1875 [01:26<11:19,  2.43it/s]

Epoch 1, Iteration 220, Loss: 0.9239369363947348


Epoch 1:  13%|███████████████▋                                                                                                           | 240/1875 [01:34<11:11,  2.43it/s]

Epoch 1, Iteration 240, Loss: 0.8988566603511572


Epoch 1:  14%|█████████████████                                                                                                          | 260/1875 [01:42<11:02,  2.44it/s]

Epoch 1, Iteration 260, Loss: 0.8764921568907225


Epoch 1:  15%|██████████████████▎                                                                                                        | 280/1875 [01:50<10:47,  2.46it/s]

Epoch 1, Iteration 280, Loss: 0.8516082293220929


Epoch 1:  16%|███████████████████▋                                                                                                       | 300/1875 [01:59<10:39,  2.46it/s]

Epoch 1, Iteration 300, Loss: 0.8290478106339773


Epoch 1:  17%|████████████████████▉                                                                                                      | 320/1875 [02:07<10:35,  2.45it/s]

Epoch 1, Iteration 320, Loss: 0.80735614458099


Epoch 1:  18%|██████████████████████▎                                                                                                    | 340/1875 [02:15<10:36,  2.41it/s]

Epoch 1, Iteration 340, Loss: 0.7879967216183158


Epoch 1:  19%|███████████████████████▌                                                                                                   | 360/1875 [02:23<10:18,  2.45it/s]

Epoch 1, Iteration 360, Loss: 0.7680666250487168


Epoch 1:  20%|████████████████████████▉                                                                                                  | 380/1875 [02:32<10:04,  2.47it/s]

Epoch 1, Iteration 380, Loss: 0.755769724438065


Epoch 1:  21%|██████████████████████████▏                                                                                                | 400/1875 [02:40<10:02,  2.45it/s]

Epoch 1, Iteration 400, Loss: 0.7400414227694273


Epoch 1:  22%|███████████████████████████▌                                                                                               | 420/1875 [02:48<10:13,  2.37it/s]

Epoch 1, Iteration 420, Loss: 0.7278330147621177


Epoch 1:  23%|████████████████████████████▊                                                                                              | 440/1875 [02:56<09:38,  2.48it/s]

Epoch 1, Iteration 440, Loss: 0.7167083236642859


Epoch 1:  25%|██████████████████████████████▏                                                                                            | 460/1875 [03:04<09:43,  2.42it/s]

Epoch 1, Iteration 460, Loss: 0.7048188534443793


Epoch 1:  26%|███████████████████████████████▍                                                                                           | 480/1875 [03:13<09:24,  2.47it/s]

Epoch 1, Iteration 480, Loss: 0.6932183507519464


Epoch 1:  27%|████████████████████████████████▊                                                                                          | 500/1875 [03:21<09:32,  2.40it/s]

Epoch 1, Iteration 500, Loss: 0.6818914624750614


Epoch 1:  28%|██████████████████████████████████                                                                                         | 520/1875 [03:29<09:05,  2.48it/s]

Epoch 1, Iteration 520, Loss: 0.6718919581518723


Epoch 1:  29%|███████████████████████████████████▍                                                                                       | 540/1875 [03:37<09:05,  2.45it/s]

Epoch 1, Iteration 540, Loss: 0.6624990426003933


Epoch 1:  30%|████████████████████████████████████▋                                                                                      | 560/1875 [03:45<09:04,  2.42it/s]

Epoch 1, Iteration 560, Loss: 0.6545970422082714


Epoch 1:  31%|██████████████████████████████████████                                                                                     | 580/1875 [03:54<08:44,  2.47it/s]

Epoch 1, Iteration 580, Loss: 0.6465846326587529


Epoch 1:  32%|███████████████████████████████████████▎                                                                                   | 600/1875 [04:02<08:57,  2.37it/s]

Epoch 1, Iteration 600, Loss: 0.6380558980753025


Epoch 1:  33%|████████████████████████████████████████▋                                                                                  | 620/1875 [04:10<08:43,  2.40it/s]

Epoch 1, Iteration 620, Loss: 0.6303979430708193


Epoch 1:  34%|█████████████████████████████████████████▉                                                                                 | 640/1875 [04:18<08:13,  2.50it/s]

Epoch 1, Iteration 640, Loss: 0.6235378458630294


Epoch 1:  35%|███████████████████████████████████████████▎                                                                               | 660/1875 [04:27<08:26,  2.40it/s]

Epoch 1, Iteration 660, Loss: 0.6166790177198973


Epoch 1:  36%|████████████████████████████████████████████▌                                                                              | 680/1875 [04:35<08:13,  2.42it/s]

Epoch 1, Iteration 680, Loss: 0.6093468061045689


Epoch 1:  37%|█████████████████████████████████████████████▉                                                                             | 700/1875 [04:43<08:05,  2.42it/s]

Epoch 1, Iteration 700, Loss: 0.6046034563226359


Epoch 1:  38%|███████████████████████████████████████████████▏                                                                           | 720/1875 [04:51<07:56,  2.42it/s]

Epoch 1, Iteration 720, Loss: 0.5987651974583665


Epoch 1:  39%|████████████████████████████████████████████████▌                                                                          | 740/1875 [04:59<07:40,  2.46it/s]

Epoch 1, Iteration 740, Loss: 0.5924698897310205


Epoch 1:  41%|█████████████████████████████████████████████████▊                                                                         | 760/1875 [05:08<07:37,  2.44it/s]

Epoch 1, Iteration 760, Loss: 0.5864781291665215


Epoch 1:  42%|███████████████████████████████████████████████████▏                                                                       | 780/1875 [05:16<07:30,  2.43it/s]

Epoch 1, Iteration 780, Loss: 0.5807596842829997


Epoch 1:  43%|████████████████████████████████████████████████████▍                                                                      | 800/1875 [05:24<07:18,  2.45it/s]

Epoch 1, Iteration 800, Loss: 0.5756406917795539


Epoch 1:  44%|█████████████████████████████████████████████████████▊                                                                     | 820/1875 [05:32<07:08,  2.46it/s]

Epoch 1, Iteration 820, Loss: 0.5712888026564586


Epoch 1:  45%|███████████████████████████████████████████████████████                                                                    | 840/1875 [05:40<07:00,  2.46it/s]

Epoch 1, Iteration 840, Loss: 0.5663694571881067


Epoch 1:  46%|████████████████████████████████████████████████████████▍                                                                  | 860/1875 [05:49<06:54,  2.45it/s]

Epoch 1, Iteration 860, Loss: 0.5617673247012981


Epoch 1:  47%|█████████████████████████████████████████████████████████▋                                                                 | 880/1875 [05:57<06:48,  2.43it/s]

Epoch 1, Iteration 880, Loss: 0.5569249424406073


Epoch 1:  48%|███████████████████████████████████████████████████████████                                                                | 900/1875 [06:05<06:49,  2.38it/s]

Epoch 1, Iteration 900, Loss: 0.552282236152225


Epoch 1:  49%|████████████████████████████████████████████████████████████▎                                                              | 920/1875 [06:13<06:30,  2.44it/s]

Epoch 1, Iteration 920, Loss: 0.5484002477772858


Epoch 1:  50%|█████████████████████████████████████████████████████████████▋                                                             | 940/1875 [06:21<06:20,  2.46it/s]

Epoch 1, Iteration 940, Loss: 0.5447938256916848


Epoch 1:  51%|██████████████████████████████████████████████████████████████▉                                                            | 960/1875 [06:30<06:06,  2.50it/s]

Epoch 1, Iteration 960, Loss: 0.5406025339073192


Epoch 1:  52%|████████████████████████████████████████████████████████████████▎                                                          | 980/1875 [06:38<06:09,  2.42it/s]

Epoch 1, Iteration 980, Loss: 0.5372241713106632


Epoch 1:  53%|█████████████████████████████████████████████████████████████████                                                         | 1000/1875 [06:46<05:54,  2.47it/s]

Epoch 1, Iteration 1000, Loss: 0.5337220159024


Epoch 1:  54%|██████████████████████████████████████████████████████████████████▎                                                       | 1020/1875 [06:54<05:51,  2.43it/s]

Epoch 1, Iteration 1020, Loss: 0.5299489531300816


Epoch 1:  55%|███████████████████████████████████████████████████████████████████▋                                                      | 1040/1875 [07:02<05:41,  2.44it/s]

Epoch 1, Iteration 1040, Loss: 0.5262545210166046


Epoch 1:  57%|████████████████████████████████████████████████████████████████████▉                                                     | 1060/1875 [07:11<05:32,  2.45it/s]

Epoch 1, Iteration 1060, Loss: 0.5233513199706685


Epoch 1:  58%|██████████████████████████████████████████████████████████████████████▎                                                   | 1080/1875 [07:19<05:24,  2.45it/s]

Epoch 1, Iteration 1080, Loss: 0.5198948196169955


Epoch 1:  59%|███████████████████████████████████████████████████████████████████████▌                                                  | 1100/1875 [07:27<05:20,  2.42it/s]

Epoch 1, Iteration 1100, Loss: 0.5165545420280911


Epoch 1:  60%|████████████████████████████████████████████████████████████████████████▊                                                 | 1120/1875 [07:35<05:08,  2.45it/s]

Epoch 1, Iteration 1120, Loss: 0.5132677892954755


Epoch 1:  61%|██████████████████████████████████████████████████████████████████████████▏                                               | 1140/1875 [07:43<05:00,  2.44it/s]

Epoch 1, Iteration 1140, Loss: 0.5097069520111147


Epoch 1:  62%|███████████████████████████████████████████████████████████████████████████▍                                              | 1160/1875 [07:52<04:55,  2.42it/s]

Epoch 1, Iteration 1160, Loss: 0.5073409383474239


Epoch 1:  63%|████████████████████████████████████████████████████████████████████████████▊                                             | 1180/1875 [08:00<04:45,  2.43it/s]

Epoch 1, Iteration 1180, Loss: 0.5044850121299594


Epoch 1:  64%|██████████████████████████████████████████████████████████████████████████████                                            | 1200/1875 [08:08<04:39,  2.41it/s]

Epoch 1, Iteration 1200, Loss: 0.5014410443541905


Epoch 1:  65%|███████████████████████████████████████████████████████████████████████████████▍                                          | 1220/1875 [08:16<04:27,  2.45it/s]

Epoch 1, Iteration 1220, Loss: 0.49892676679692305


Epoch 1:  66%|████████████████████████████████████████████████████████████████████████████████▋                                         | 1240/1875 [08:24<04:18,  2.45it/s]

Epoch 1, Iteration 1240, Loss: 0.4963838415821233


Epoch 1:  67%|█████████████████████████████████████████████████████████████████████████████████▉                                        | 1260/1875 [08:32<04:10,  2.45it/s]

Epoch 1, Iteration 1260, Loss: 0.4934045558233583


Epoch 1:  68%|███████████████████████████████████████████████████████████████████████████████████▎                                      | 1280/1875 [08:41<03:59,  2.49it/s]

Epoch 1, Iteration 1280, Loss: 0.4904974501405377


Epoch 1:  69%|████████████████████████████████████████████████████████████████████████████████████▌                                     | 1300/1875 [08:49<03:52,  2.47it/s]

Epoch 1, Iteration 1300, Loss: 0.48813034019218043


Epoch 1:  70%|█████████████████████████████████████████████████████████████████████████████████████▉                                    | 1320/1875 [08:57<03:47,  2.43it/s]

Epoch 1, Iteration 1320, Loss: 0.4858604161971898


Epoch 1:  71%|███████████████████████████████████████████████████████████████████████████████████████▏                                  | 1340/1875 [09:05<03:39,  2.44it/s]

Epoch 1, Iteration 1340, Loss: 0.48371378064933995


Epoch 1:  73%|████████████████████████████████████████████████████████████████████████████████████████▍                                 | 1360/1875 [09:13<03:29,  2.45it/s]

Epoch 1, Iteration 1360, Loss: 0.48167452866430666


Epoch 1:  74%|█████████████████████████████████████████████████████████████████████████████████████████▊                                | 1380/1875 [09:22<03:25,  2.41it/s]

Epoch 1, Iteration 1380, Loss: 0.4798786355155534


Epoch 1:  75%|███████████████████████████████████████████████████████████████████████████████████████████                               | 1400/1875 [09:30<03:12,  2.46it/s]

Epoch 1, Iteration 1400, Loss: 0.47739315169730356


Epoch 1:  76%|████████████████████████████████████████████████████████████████████████████████████████████▍                             | 1420/1875 [09:38<03:04,  2.46it/s]

Epoch 1, Iteration 1420, Loss: 0.47537226254566456


Epoch 1:  77%|█████████████████████████████████████████████████████████████████████████████████████████████▋                            | 1440/1875 [09:46<02:59,  2.43it/s]

Epoch 1, Iteration 1440, Loss: 0.4731971909136822


Epoch 1:  78%|██████████████████████████████████████████████████████████████████████████████████████████████▉                           | 1460/1875 [09:55<02:53,  2.39it/s]

Epoch 1, Iteration 1460, Loss: 0.470674249769686


Epoch 1:  79%|████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 1480/1875 [10:03<02:43,  2.42it/s]

Epoch 1, Iteration 1480, Loss: 0.46849478002436257


Epoch 1:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 1500/1875 [10:11<02:30,  2.50it/s]

Epoch 1, Iteration 1500, Loss: 0.4661668055405219


Epoch 1:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 1520/1875 [10:19<02:27,  2.41it/s]

Epoch 1, Iteration 1520, Loss: 0.4640040365047753


Epoch 1:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 1540/1875 [10:27<02:14,  2.49it/s]

Epoch 1, Iteration 1540, Loss: 0.46247986754910514


Epoch 1:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 1560/1875 [10:36<02:09,  2.44it/s]

Epoch 1, Iteration 1560, Loss: 0.46074858060918555


Epoch 1:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 1580/1875 [10:44<01:59,  2.47it/s]

Epoch 1, Iteration 1580, Loss: 0.45842463932459865


Epoch 1:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 1600/1875 [10:52<01:55,  2.39it/s]

Epoch 1, Iteration 1600, Loss: 0.45663883990608156


Epoch 1:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 1620/1875 [11:00<01:43,  2.47it/s]

Epoch 1, Iteration 1620, Loss: 0.45504095799025196


Epoch 1:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 1640/1875 [11:08<01:37,  2.41it/s]

Epoch 1, Iteration 1640, Loss: 0.45354216598519465


Epoch 1:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 1660/1875 [11:17<01:28,  2.44it/s]

Epoch 1, Iteration 1660, Loss: 0.4516073660229344


Epoch 1:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 1680/1875 [11:25<01:18,  2.49it/s]

Epoch 1, Iteration 1680, Loss: 0.45002949202344533


Epoch 1:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 1700/1875 [11:33<01:11,  2.45it/s]

Epoch 1, Iteration 1700, Loss: 0.44783391310888176


Epoch 1:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 1720/1875 [11:41<01:02,  2.47it/s]

Epoch 1, Iteration 1720, Loss: 0.4460758188609467


Epoch 1:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 1740/1875 [11:49<00:55,  2.43it/s]

Epoch 1, Iteration 1740, Loss: 0.44452590245282514


Epoch 1:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 1760/1875 [11:57<00:46,  2.45it/s]

Epoch 1, Iteration 1760, Loss: 0.4431683802553876


Epoch 1:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 1780/1875 [12:06<00:38,  2.44it/s]

Epoch 1, Iteration 1780, Loss: 0.4417008124291897


Epoch 1:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 1800/1875 [12:14<00:30,  2.45it/s]

Epoch 1, Iteration 1800, Loss: 0.43968883836434947


Epoch 1:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 1820/1875 [12:22<00:22,  2.39it/s]

Epoch 1, Iteration 1820, Loss: 0.43824286598425644


Epoch 1:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 1840/1875 [12:30<00:14,  2.49it/s]

Epoch 1, Iteration 1840, Loss: 0.43680747263133524


Epoch 1:  99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 1860/1875 [12:38<00:06,  2.44it/s]

Epoch 1, Iteration 1860, Loss: 0.43552818660454085


Epoch 1: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1875/1875 [12:45<00:00,  2.45it/s]


Epoch 1, Average Loss: 0.4347138034661611
Starting evaluation...


Evaluating Epoch 1: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 119/119 [00:20<00:00,  5.85it/s]


Epoch 1, Accuracy: 89.53947368421052%


Epoch 2:   1%|█▎                                                                                                                          | 20/1875 [00:08<12:35,  2.45it/s]

Epoch 2, Iteration 20, Loss: 0.25064207017421725


Epoch 2:   2%|██▋                                                                                                                         | 40/1875 [00:16<12:42,  2.41it/s]

Epoch 2, Iteration 40, Loss: 0.2687077116221189


Epoch 2:   3%|███▉                                                                                                                        | 60/1875 [00:24<12:30,  2.42it/s]

Epoch 2, Iteration 60, Loss: 0.26631021524469056


Epoch 2:   4%|█████▎                                                                                                                      | 80/1875 [00:32<12:14,  2.45it/s]

Epoch 2, Iteration 80, Loss: 0.26349906604737044


Epoch 2:   5%|██████▌                                                                                                                    | 100/1875 [00:40<11:57,  2.47it/s]

Epoch 2, Iteration 100, Loss: 0.2579891748726368


Epoch 2:   6%|███████▊                                                                                                                   | 120/1875 [00:49<11:56,  2.45it/s]

Epoch 2, Iteration 120, Loss: 0.25455123956004777


Epoch 2:   7%|█████████▏                                                                                                                 | 140/1875 [00:57<11:59,  2.41it/s]

Epoch 2, Iteration 140, Loss: 0.25489118663328036


Epoch 2:   9%|██████████▍                                                                                                                | 160/1875 [01:05<11:39,  2.45it/s]

Epoch 2, Iteration 160, Loss: 0.2530573168769479


Epoch 2:  10%|███████████▊                                                                                                               | 180/1875 [01:13<11:26,  2.47it/s]

Epoch 2, Iteration 180, Loss: 0.2514714022891389


Epoch 2:  11%|█████████████                                                                                                              | 200/1875 [01:22<11:31,  2.42it/s]

Epoch 2, Iteration 200, Loss: 0.25093712627887726


Epoch 2:  12%|██████████████▍                                                                                                            | 220/1875 [01:30<11:23,  2.42it/s]

Epoch 2, Iteration 220, Loss: 0.24989724159240723


Epoch 2:  13%|███████████████▋                                                                                                           | 240/1875 [01:38<10:54,  2.50it/s]

Epoch 2, Iteration 240, Loss: 0.25353204645216465


Epoch 2:  14%|█████████████████                                                                                                          | 260/1875 [01:46<11:17,  2.38it/s]

Epoch 2, Iteration 260, Loss: 0.2540976851605452


Epoch 2:  15%|██████████████████▎                                                                                                        | 280/1875 [01:54<11:06,  2.39it/s]

Epoch 2, Iteration 280, Loss: 0.25422754008322956


Epoch 2:  16%|███████████████████▋                                                                                                       | 300/1875 [02:03<10:47,  2.43it/s]

Epoch 2, Iteration 300, Loss: 0.25358022935688496


Epoch 2:  17%|████████████████████▉                                                                                                      | 320/1875 [02:11<10:48,  2.40it/s]

Epoch 2, Iteration 320, Loss: 0.2547223586589098


Epoch 2:  18%|██████████████████████▎                                                                                                    | 340/1875 [02:19<10:23,  2.46it/s]

Epoch 2, Iteration 340, Loss: 0.25401879641063074


Epoch 2:  19%|███████████████████████▌                                                                                                   | 360/1875 [02:27<10:29,  2.41it/s]

Epoch 2, Iteration 360, Loss: 0.2539546957446469


Epoch 2:  20%|████████████████████████▉                                                                                                  | 380/1875 [02:35<10:15,  2.43it/s]

Epoch 2, Iteration 380, Loss: 0.25419764640299897


Epoch 2:  21%|██████████████████████████▏                                                                                                | 400/1875 [02:44<09:55,  2.48it/s]

Epoch 2, Iteration 400, Loss: 0.25477172844111917


Epoch 2:  22%|███████████████████████████▌                                                                                               | 420/1875 [02:52<09:50,  2.46it/s]

Epoch 2, Iteration 420, Loss: 0.25649390476090567


Epoch 2:  23%|████████████████████████████▊                                                                                              | 440/1875 [03:00<09:44,  2.45it/s]

Epoch 2, Iteration 440, Loss: 0.257137621905316


Epoch 2:  25%|██████████████████████████████▏                                                                                            | 460/1875 [03:08<09:53,  2.38it/s]

Epoch 2, Iteration 460, Loss: 0.25663724781378455


Epoch 2:  26%|███████████████████████████████▍                                                                                           | 480/1875 [03:16<09:25,  2.47it/s]

Epoch 2, Iteration 480, Loss: 0.2563279311172664


Epoch 2:  27%|████████████████████████████████▊                                                                                          | 500/1875 [03:25<09:17,  2.47it/s]

Epoch 2, Iteration 500, Loss: 0.25692192965745925


Epoch 2:  28%|██████████████████████████████████                                                                                         | 520/1875 [03:33<09:12,  2.45it/s]

Epoch 2, Iteration 520, Loss: 0.25604064332751125


Epoch 2:  29%|███████████████████████████████████▍                                                                                       | 540/1875 [03:41<09:02,  2.46it/s]

Epoch 2, Iteration 540, Loss: 0.25631051997619647


Epoch 2:  30%|████████████████████████████████████▋                                                                                      | 560/1875 [03:49<08:54,  2.46it/s]

Epoch 2, Iteration 560, Loss: 0.2558584269003144


Epoch 2:  31%|██████████████████████████████████████                                                                                     | 580/1875 [03:57<08:52,  2.43it/s]

Epoch 2, Iteration 580, Loss: 0.2554078257674801


Epoch 2:  32%|███████████████████████████████████████▎                                                                                   | 600/1875 [04:06<08:41,  2.44it/s]

Epoch 2, Iteration 600, Loss: 0.2553665374591947


Epoch 2:  33%|████████████████████████████████████████▋                                                                                  | 620/1875 [04:14<08:35,  2.43it/s]

Epoch 2, Iteration 620, Loss: 0.25554983552184796


Epoch 2:  34%|█████████████████████████████████████████▉                                                                                 | 640/1875 [04:22<08:28,  2.43it/s]

Epoch 2, Iteration 640, Loss: 0.25576681467937307


Epoch 2:  35%|███████████████████████████████████████████▎                                                                               | 660/1875 [04:30<08:13,  2.46it/s]

Epoch 2, Iteration 660, Loss: 0.2562537461857904


Epoch 2:  36%|████████████████████████████████████████████▌                                                                              | 680/1875 [04:38<08:08,  2.45it/s]

Epoch 2, Iteration 680, Loss: 0.2576914161334143


Epoch 2:  37%|█████████████████████████████████████████████▉                                                                             | 700/1875 [04:47<07:53,  2.48it/s]

Epoch 2, Iteration 700, Loss: 0.25707135360155786


Epoch 2:  38%|███████████████████████████████████████████████▏                                                                           | 720/1875 [04:55<07:53,  2.44it/s]

Epoch 2, Iteration 720, Loss: 0.25733845641629566


Epoch 2:  39%|████████████████████████████████████████████████▌                                                                          | 740/1875 [05:03<07:37,  2.48it/s]

Epoch 2, Iteration 740, Loss: 0.25691400911356954


Epoch 2:  41%|█████████████████████████████████████████████████▊                                                                         | 760/1875 [05:11<07:39,  2.43it/s]

Epoch 2, Iteration 760, Loss: 0.25661845146433304


Epoch 2:  42%|███████████████████████████████████████████████████▏                                                                       | 780/1875 [05:19<07:36,  2.40it/s]

Epoch 2, Iteration 780, Loss: 0.25648016950640923


Epoch 2:  43%|████████████████████████████████████████████████████▍                                                                      | 800/1875 [05:28<07:19,  2.45it/s]

Epoch 2, Iteration 800, Loss: 0.2564468004740775


Epoch 2:  44%|█████████████████████████████████████████████████████▊                                                                     | 820/1875 [05:36<07:12,  2.44it/s]

Epoch 2, Iteration 820, Loss: 0.256178126284262


Epoch 2:  45%|███████████████████████████████████████████████████████                                                                    | 840/1875 [05:44<07:05,  2.43it/s]

Epoch 2, Iteration 840, Loss: 0.25627353324421814


Epoch 2:  46%|████████████████████████████████████████████████████████▍                                                                  | 860/1875 [05:52<07:03,  2.40it/s]

Epoch 2, Iteration 860, Loss: 0.25701601030521615


Epoch 2:  47%|█████████████████████████████████████████████████████████▋                                                                 | 880/1875 [06:01<06:45,  2.45it/s]

Epoch 2, Iteration 880, Loss: 0.25726037861948664


Epoch 2:  48%|███████████████████████████████████████████████████████████                                                                | 900/1875 [06:09<06:36,  2.46it/s]

Epoch 2, Iteration 900, Loss: 0.2565514141569535


Epoch 2:  49%|████████████████████████████████████████████████████████████▎                                                              | 920/1875 [06:17<06:24,  2.48it/s]

Epoch 2, Iteration 920, Loss: 0.2554651954859171


Epoch 2:  50%|█████████████████████████████████████████████████████████████▋                                                             | 940/1875 [06:25<06:32,  2.38it/s]

Epoch 2, Iteration 940, Loss: 0.25475083170656826


Epoch 2:  51%|██████████████████████████████████████████████████████████████▉                                                            | 960/1875 [06:33<06:20,  2.40it/s]

Epoch 2, Iteration 960, Loss: 0.2544527025621695


Epoch 2:  52%|████████████████████████████████████████████████████████████████▎                                                          | 980/1875 [06:41<06:05,  2.45it/s]

Epoch 2, Iteration 980, Loss: 0.25434013935452215


Epoch 2:  53%|█████████████████████████████████████████████████████████████████                                                         | 1000/1875 [06:50<05:58,  2.44it/s]

Epoch 2, Iteration 1000, Loss: 0.2546441851742566


Epoch 2:  54%|██████████████████████████████████████████████████████████████████▎                                                       | 1020/1875 [06:58<05:44,  2.48it/s]

Epoch 2, Iteration 1020, Loss: 0.2549920352833236


Epoch 2:  54%|██████████████████████████████████████████████████████████████████▍                                                       | 1021/1875 [06:58<05:44,  2.48it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)



In [9]:
accuracy

90.94736842105263

In [11]:
results

{'train_loss': [0.4347138034661611, 0.24919227015773454, 0.19091659723321597],
 'val_accuracy': [89.53947368421052, 91.15789473684211, 90.94736842105263]}