## Lab 3
### Part 2: Dealing with overfitting

Today we work with [Fashion-MNIST dataset](https://github.com/zalandoresearch/fashion-mnist) (*hint: it is available in `torchvision`*).

Your goal for today:
1. Train a FC (fully-connected) network that achieves >= 0.885 test accuracy.
2. Cause considerable overfitting by modifying the network (e.g. increasing the number of network parameters and/or layers) and demonstrate in in the appropriate way (e.g. plot loss and accurasy on train and validation set w.r.t. network complexity).
3. Try to deal with overfitting (at least partially) by using regularization techniques (Dropout/Batchnorm/...) and demonstrate the results.

__Please, write a small report describing your ideas, tries and achieved results in the end of this file.__

*Note*: Tasks 2 and 3 are interrelated, in task 3 your goal is to make the network from task 2 less prone to overfitting. Task 1 is independent from 2 and 3.

*Note 2*: We recomment to use Google Colab or other machine with GPU acceleration.

In [20]:
import torch
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
import torchsummary
from IPython.display import clear_output
from matplotlib import pyplot as plt
from matplotlib.pyplot import figure
import numpy as np
import os

from tqdm import tqdm
from plotly import express as ex
import plotly.graph_objects as go

device = 'cuda:0' if torch.cuda.is_available() else 'cpu'
print(device)

cuda:0


In [3]:
# Technical function
def mkdir(path):
    if not os.path.exists(root_path):
        os.mkdir(root_path)
        print('Directory', path, 'is created!')
    else:
        print('Directory', path, 'already exists!')
        
root_path = 'fmnist'
mkdir(root_path)

Directory fmnist already exists!


In [4]:
download = True
train_transform = transforms.ToTensor()
test_transform = transforms.ToTensor()
transforms.Compose((transforms.ToTensor()))


fmnist_dataset_train = torchvision.datasets.FashionMNIST(root_path, 
                                                        train=True, 
                                                        transform=train_transform,
                                                        target_transform=None,
                                                        download=download)
fmnist_dataset_test = torchvision.datasets.FashionMNIST(root_path, 
                                                       train=False, 
                                                       transform=test_transform,
                                                       target_transform=None,
                                                       download=download)

In [5]:
train_loader = torch.utils.data.DataLoader(fmnist_dataset_train, 
                                           batch_size=256,
                                           shuffle=True,
                                           num_workers=2,)
test_loader = torch.utils.data.DataLoader(fmnist_dataset_test,
                                          batch_size=256,
                                          shuffle=False,
                                          num_workers=2)

In [6]:
len(fmnist_dataset_test)

10000

In [7]:
for img, label in train_loader:
    print(img.shape)
#     print(img)
    print(label.shape)
    print(label.size(0))
    break

torch.Size([256, 1, 28, 28])
torch.Size([256])
256


### Task 1
Train a network that achieves $\geq 0.885$ test accuracy. It's fine to use only Linear (`nn.Linear`) layers and activations/dropout/batchnorm. Convolutional layers might be a great use, but we will meet them a bit later.

In [76]:
class TinyNeuralNetwork(nn.Module):
    def __init__(self, input_shape=28*28, num_classes=10, input_channels=1):
        super(self.__class__, self).__init__()
        self.model = nn.Sequential(
            nn.Flatten(), # This layer converts image into a vector to use Linear layers afterwards
            # Your network structure comes here
            nn.Linear(input_shape, input_shape),
            nn.ReLU(),
            nn.Linear(input_shape, num_classes),
            nn.Softmax()
        )
        
    def forward(self, inp):  
        out = self.model(inp)
        return out

In [77]:
torchsummary.summary(TinyNeuralNetwork().to(device), (28*28,))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
           Flatten-1                  [-1, 784]               0
            Linear-2                  [-1, 784]         615,440
              ReLU-3                  [-1, 784]               0
            Linear-4                   [-1, 10]           7,850
           Softmax-5                   [-1, 10]               0
Total params: 623,290
Trainable params: 623,290
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.02
Params size (MB): 2.38
Estimated Total Size (MB): 2.40
----------------------------------------------------------------


Your experiments come here:

In [78]:
model = TinyNeuralNetwork().to(device)

learning_rate = 0.001
num_epochs = 50

opt = torch.optim.Adam(model.parameters(), lr=learning_rate) # YOUR CODE HERE
loss_func =  nn.CrossEntropyLoss()  # YOUR CODE HERE


# Your experiments, training and validation loops here

In [79]:
# Train the model
total_step = len(train_loader)
for epoch in tqdm(range(num_epochs)):
    for i, (images, labels) in enumerate(train_loader):  
        
        # Move tensors to the configured device
#         images = images.reshape(-1, 28*28).to(device)
        images = images.to(device)
        labels = labels.to(device)
        
        # Forward pass
        outputs = model(images)
        loss = loss_func(outputs, labels)
        
        # Backprpagation and optimization
        opt.zero_grad()
        loss.backward()
        opt.step()
        
        if (i+1) % 100 == 0:
            print ('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}' 
                   .format(epoch+1, num_epochs, i+1, total_step, loss.item()))
    
    #Compute Accuracy
    with torch.no_grad():
        correct = 0
        total = 0
        for images, labels in test_loader:
            images = images.reshape(-1, 28*28).to(device)
            labels = labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        accuracy = 100 * correct / total
#         print('Accuracy on test images: {} %'.format()
        print ('Epoch [{}/{}], \t Accuracy {}%'.format(epoch+1, num_epochs, accuracy ))

  0%|                                                                                                                                                                | 0/50 [00:00<?, ?it/s]

Epoch [1/50], Step [100/235], Loss: 1.7053
Epoch [1/50], Step [200/235], Loss: 1.6837


  2%|███                                                                                                                                                     | 1/50 [00:05<04:20,  5.32s/it]

Epoch [1/50], 	 Accuracy 79.01%
Epoch [2/50], Step [100/235], Loss: 1.6556
Epoch [2/50], Step [200/235], Loss: 1.6107


  4%|██████                                                                                                                                                  | 2/50 [00:10<04:14,  5.31s/it]

Epoch [2/50], 	 Accuracy 83.45%
Epoch [3/50], Step [100/235], Loss: 1.6219
Epoch [3/50], Step [200/235], Loss: 1.5965


  6%|█████████                                                                                                                                               | 3/50 [00:16<04:11,  5.35s/it]

Epoch [3/50], 	 Accuracy 84.35%
Epoch [4/50], Step [100/235], Loss: 1.5901
Epoch [4/50], Step [200/235], Loss: 1.5725


  8%|████████████▏                                                                                                                                           | 4/50 [00:21<04:10,  5.46s/it]

Epoch [4/50], 	 Accuracy 81.83%
Epoch [5/50], Step [100/235], Loss: 1.6213
Epoch [5/50], Step [200/235], Loss: 1.6129


 10%|███████████████▏                                                                                                                                        | 5/50 [00:27<04:06,  5.48s/it]

Epoch [5/50], 	 Accuracy 84.99%
Epoch [6/50], Step [100/235], Loss: 1.6121
Epoch [6/50], Step [200/235], Loss: 1.5935


 12%|██████████████████▏                                                                                                                                     | 6/50 [00:32<04:02,  5.51s/it]

Epoch [6/50], 	 Accuracy 85.27%
Epoch [7/50], Step [100/235], Loss: 1.5632
Epoch [7/50], Step [200/235], Loss: 1.5857


 14%|█████████████████████▎                                                                                                                                  | 7/50 [00:38<03:57,  5.51s/it]

Epoch [7/50], 	 Accuracy 86.72%
Epoch [8/50], Step [100/235], Loss: 1.5656
Epoch [8/50], Step [200/235], Loss: 1.5932


 16%|████████████████████████▎                                                                                                                               | 8/50 [00:43<03:51,  5.50s/it]

Epoch [8/50], 	 Accuracy 85.59%
Epoch [9/50], Step [100/235], Loss: 1.5570
Epoch [9/50], Step [200/235], Loss: 1.6085


 18%|███████████████████████████▎                                                                                                                            | 9/50 [00:49<03:47,  5.56s/it]

Epoch [9/50], 	 Accuracy 86.74%
Epoch [10/50], Step [100/235], Loss: 1.5690
Epoch [10/50], Step [200/235], Loss: 1.5730


 20%|██████████████████████████████▏                                                                                                                        | 10/50 [00:55<03:52,  5.81s/it]

Epoch [10/50], 	 Accuracy 87.05%
Epoch [11/50], Step [100/235], Loss: 1.5839
Epoch [11/50], Step [200/235], Loss: 1.5450


 22%|█████████████████████████████████▏                                                                                                                     | 11/50 [01:02<03:56,  6.06s/it]

Epoch [11/50], 	 Accuracy 86.86%
Epoch [12/50], Step [100/235], Loss: 1.5774
Epoch [12/50], Step [200/235], Loss: 1.5576


 24%|████████████████████████████████████▏                                                                                                                  | 12/50 [01:08<03:53,  6.15s/it]

Epoch [12/50], 	 Accuracy 86.06%
Epoch [13/50], Step [100/235], Loss: 1.5630
Epoch [13/50], Step [200/235], Loss: 1.5432


 26%|███████████████████████████████████████▎                                                                                                               | 13/50 [01:15<03:52,  6.29s/it]

Epoch [13/50], 	 Accuracy 86.99%
Epoch [14/50], Step [100/235], Loss: 1.5807
Epoch [14/50], Step [200/235], Loss: 1.5663


 28%|██████████████████████████████████████████▎                                                                                                            | 14/50 [01:21<03:47,  6.33s/it]

Epoch [14/50], 	 Accuracy 87.27%
Epoch [15/50], Step [100/235], Loss: 1.5828
Epoch [15/50], Step [200/235], Loss: 1.5586


 30%|█████████████████████████████████████████████▎                                                                                                         | 15/50 [01:28<03:41,  6.32s/it]

Epoch [15/50], 	 Accuracy 87.69%
Epoch [16/50], Step [100/235], Loss: 1.5622
Epoch [16/50], Step [200/235], Loss: 1.5688


 32%|████████████████████████████████████████████████▎                                                                                                      | 16/50 [01:34<03:34,  6.31s/it]

Epoch [16/50], 	 Accuracy 87.4%
Epoch [17/50], Step [100/235], Loss: 1.5242
Epoch [17/50], Step [200/235], Loss: 1.5703


 34%|███████████████████████████████████████████████████▎                                                                                                   | 17/50 [01:40<03:28,  6.32s/it]

Epoch [17/50], 	 Accuracy 87.82%
Epoch [18/50], Step [100/235], Loss: 1.5555
Epoch [18/50], Step [200/235], Loss: 1.5631


 36%|██████████████████████████████████████████████████████▎                                                                                                | 18/50 [01:47<03:22,  6.32s/it]

Epoch [18/50], 	 Accuracy 87.5%
Epoch [19/50], Step [100/235], Loss: 1.5442
Epoch [19/50], Step [200/235], Loss: 1.6168


 38%|█████████████████████████████████████████████████████████▍                                                                                             | 19/50 [01:53<03:14,  6.27s/it]

Epoch [19/50], 	 Accuracy 87.57%
Epoch [20/50], Step [100/235], Loss: 1.5500
Epoch [20/50], Step [200/235], Loss: 1.5875


 40%|████████████████████████████████████████████████████████████▍                                                                                          | 20/50 [01:59<03:08,  6.28s/it]

Epoch [20/50], 	 Accuracy 87.59%
Epoch [21/50], Step [100/235], Loss: 1.5518
Epoch [21/50], Step [200/235], Loss: 1.5432


 42%|███████████████████████████████████████████████████████████████▍                                                                                       | 21/50 [02:06<03:02,  6.29s/it]

Epoch [21/50], 	 Accuracy 88.45%
Epoch [22/50], Step [100/235], Loss: 1.5571
Epoch [22/50], Step [200/235], Loss: 1.5513


 44%|██████████████████████████████████████████████████████████████████▍                                                                                    | 22/50 [02:12<02:55,  6.27s/it]

Epoch [22/50], 	 Accuracy 88.03%
Epoch [23/50], Step [100/235], Loss: 1.5521
Epoch [23/50], Step [200/235], Loss: 1.5541


 46%|█████████████████████████████████████████████████████████████████████▍                                                                                 | 23/50 [02:18<02:48,  6.24s/it]

Epoch [23/50], 	 Accuracy 87.92%
Epoch [24/50], Step [100/235], Loss: 1.5441
Epoch [24/50], Step [200/235], Loss: 1.5572


 48%|████████████████████████████████████████████████████████████████████████▍                                                                              | 24/50 [02:24<02:42,  6.23s/it]

Epoch [24/50], 	 Accuracy 88.27%
Epoch [25/50], Step [100/235], Loss: 1.5727
Epoch [25/50], Step [200/235], Loss: 1.5466


 50%|███████████████████████████████████████████████████████████████████████████▌                                                                           | 25/50 [02:31<02:38,  6.34s/it]

Epoch [25/50], 	 Accuracy 87.68%
Epoch [26/50], Step [100/235], Loss: 1.5313
Epoch [26/50], Step [200/235], Loss: 1.5218


 52%|██████████████████████████████████████████████████████████████████████████████▌                                                                        | 26/50 [02:37<02:33,  6.40s/it]

Epoch [26/50], 	 Accuracy 88.37%
Epoch [27/50], Step [100/235], Loss: 1.5297
Epoch [27/50], Step [200/235], Loss: 1.5257


 54%|█████████████████████████████████████████████████████████████████████████████████▌                                                                     | 27/50 [02:44<02:28,  6.46s/it]

Epoch [27/50], 	 Accuracy 88.35%
Epoch [28/50], Step [100/235], Loss: 1.5624
Epoch [28/50], Step [200/235], Loss: 1.5422


 56%|████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 28/50 [02:50<02:23,  6.51s/it]

Epoch [28/50], 	 Accuracy 88.37%
Epoch [29/50], Step [100/235], Loss: 1.5478
Epoch [29/50], Step [200/235], Loss: 1.5420


 58%|███████████████████████████████████████████████████████████████████████████████████████▌                                                               | 29/50 [02:57<02:16,  6.50s/it]

Epoch [29/50], 	 Accuracy 88.35%
Epoch [30/50], Step [100/235], Loss: 1.5487
Epoch [30/50], Step [200/235], Loss: 1.5323


 60%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 30/50 [03:04<02:10,  6.52s/it]

Epoch [30/50], 	 Accuracy 88.58%
Epoch [31/50], Step [100/235], Loss: 1.5271
Epoch [31/50], Step [200/235], Loss: 1.5363


 62%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 31/50 [03:10<02:04,  6.53s/it]

Epoch [31/50], 	 Accuracy 88.63%
Epoch [32/50], Step [100/235], Loss: 1.5485
Epoch [32/50], Step [200/235], Loss: 1.5289


 64%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 32/50 [03:17<01:57,  6.54s/it]

Epoch [32/50], 	 Accuracy 87.89%
Epoch [33/50], Step [100/235], Loss: 1.5425
Epoch [33/50], Step [200/235], Loss: 1.5633


 66%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 33/50 [03:23<01:50,  6.52s/it]

Epoch [33/50], 	 Accuracy 88.42%
Epoch [34/50], Step [100/235], Loss: 1.5449
Epoch [34/50], Step [200/235], Loss: 1.5577


 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 34/50 [03:30<01:44,  6.50s/it]

Epoch [34/50], 	 Accuracy 88.7%
Epoch [35/50], Step [100/235], Loss: 1.5381
Epoch [35/50], Step [200/235], Loss: 1.5678


 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 35/50 [03:36<01:37,  6.47s/it]

Epoch [35/50], 	 Accuracy 88.44%
Epoch [36/50], Step [100/235], Loss: 1.5349
Epoch [36/50], Step [200/235], Loss: 1.5649


 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 36/50 [03:42<01:30,  6.45s/it]

Epoch [36/50], 	 Accuracy 88.49%
Epoch [37/50], Step [100/235], Loss: 1.5652
Epoch [37/50], Step [200/235], Loss: 1.5445


 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 37/50 [03:49<01:23,  6.45s/it]

Epoch [37/50], 	 Accuracy 88.0%
Epoch [38/50], Step [100/235], Loss: 1.5445
Epoch [38/50], Step [200/235], Loss: 1.5205


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 38/50 [03:56<01:18,  6.54s/it]

Epoch [38/50], 	 Accuracy 88.46%
Epoch [39/50], Step [100/235], Loss: 1.5308
Epoch [39/50], Step [200/235], Loss: 1.5291


 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 39/50 [04:03<01:14,  6.81s/it]

Epoch [39/50], 	 Accuracy 88.38%
Epoch [40/50], Step [100/235], Loss: 1.5469
Epoch [40/50], Step [200/235], Loss: 1.5141


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 40/50 [04:10<01:07,  6.76s/it]

Epoch [40/50], 	 Accuracy 88.97%
Epoch [41/50], Step [100/235], Loss: 1.5108
Epoch [41/50], Step [200/235], Loss: 1.5832


 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 41/50 [04:16<00:59,  6.64s/it]

Epoch [41/50], 	 Accuracy 89.15%
Epoch [42/50], Step [100/235], Loss: 1.5492
Epoch [42/50], Step [200/235], Loss: 1.5271


 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 42/50 [04:22<00:52,  6.58s/it]

Epoch [42/50], 	 Accuracy 88.68%
Epoch [43/50], Step [100/235], Loss: 1.5281
Epoch [43/50], Step [200/235], Loss: 1.5567


 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 43/50 [04:30<00:47,  6.81s/it]

Epoch [43/50], 	 Accuracy 88.98%
Epoch [44/50], Step [100/235], Loss: 1.5595
Epoch [44/50], Step [200/235], Loss: 1.5598


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 44/50 [04:37<00:41,  6.84s/it]

Epoch [44/50], 	 Accuracy 88.74%
Epoch [45/50], Step [100/235], Loss: 1.5275
Epoch [45/50], Step [200/235], Loss: 1.5403


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 45/50 [04:44<00:34,  6.92s/it]

Epoch [45/50], 	 Accuracy 88.94%
Epoch [46/50], Step [100/235], Loss: 1.5439
Epoch [46/50], Step [200/235], Loss: 1.5213


 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 46/50 [04:51<00:28,  7.03s/it]

Epoch [46/50], 	 Accuracy 88.43%
Epoch [47/50], Step [100/235], Loss: 1.5299
Epoch [47/50], Step [200/235], Loss: 1.5306


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 47/50 [04:58<00:21,  7.07s/it]

Epoch [47/50], 	 Accuracy 88.71%
Epoch [48/50], Step [100/235], Loss: 1.5235
Epoch [48/50], Step [200/235], Loss: 1.5197


 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 48/50 [05:05<00:13,  6.93s/it]

Epoch [48/50], 	 Accuracy 88.8%
Epoch [49/50], Step [100/235], Loss: 1.5322
Epoch [49/50], Step [200/235], Loss: 1.5367


 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 49/50 [05:11<00:06,  6.80s/it]

Epoch [49/50], 	 Accuracy 89.08%
Epoch [50/50], Step [100/235], Loss: 1.5272
Epoch [50/50], Step [200/235], Loss: 1.5372


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [05:18<00:00,  6.37s/it]

Epoch [50/50], 	 Accuracy 88.96%





In [80]:
with torch.no_grad():
    correct = 0
    total = 0
    for images, labels in test_loader:
        images = images.reshape(-1, 28*28).to(device)
        labels = labels.to(device)
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

    accuracy = 100 * correct / total
#         print('Accuracy on test images: {} %'.format()
    print ('Accuracy {}%'.format( accuracy ))

Accuracy 88.96%


### Task 2: Overfit it.
Build a network that will overfit to this dataset. Demonstrate the overfitting in the appropriate way (e.g. plot loss and accurasy on train and test set w.r.t. network complexity).

*Note:* you also might decrease the size of `train` dataset to enforce the overfitting and speed up the computations.

In [158]:
# train_loader = torch.utils.data.DataLoader(fmnist_dataset_train, 
#                                            batch_size=256,
#                                            shuffle=True,
#                                            num_workers=2,)

In [159]:
class OverfittingNeuralNetwork(nn.Module):
    def __init__(self, input_shape=28*28, num_classes=10, input_channels=1):
        super(self.__class__, self).__init__()
        self.model = nn.Sequential(
            nn.Flatten(), # This layer converts image into a vector to use Linear layers afterwards
            # Your network structure comes here
            nn.Linear(input_shape, input_shape),
            nn.ReLU(),
            nn.Linear(input_shape, num_classes),
            nn.Softmax()
        )
        
    def forward(self, inp):       
        out = self.model(inp)
        return out

In [160]:
torchsummary.summary(OverfittingNeuralNetwork().to(device), (28*28,))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
           Flatten-1                  [-1, 784]               0
            Linear-2                  [-1, 784]         615,440
              ReLU-3                  [-1, 784]               0
            Linear-4                   [-1, 10]           7,850
           Softmax-5                   [-1, 10]               0
Total params: 623,290
Trainable params: 623,290
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.02
Params size (MB): 2.38
Estimated Total Size (MB): 2.40
----------------------------------------------------------------


In [161]:
model = OverfittingNeuralNetwork().to(device)

learning_rate = 0.001
num_epochs = 100

opt = torch.optim.Adam(model.parameters(), lr=learning_rate) # YOUR CODE HERE
loss_func =  nn.CrossEntropyLoss()  # YOUR CODE HERE

# Your experiments, come here

In [162]:
train_loader = torch.utils.data.DataLoader(fmnist_dataset_train, 
                                           batch_size=256,
                                           shuffle=False,
                                           num_workers=2,)
test_loader = torch.utils.data.DataLoader(fmnist_dataset_test,
                                          batch_size=256,
                                          shuffle=False,
                                          num_workers=2)

In [163]:
print(len(train_loader))
print(len(test_loader))

train_dataset_stop_index = 1 #with batch size 256 (part ~ 35%)

235
40


In [164]:
# Train the model
total_step = len(train_loader)
accuracy_train_list = []
accuracy_test_list = []
loss_train_list = []
loss_test_list = []

for epoch in tqdm(range(num_epochs)):
    for i, (images, labels) in enumerate(train_loader):  
        if i == train_dataset_stop_index :
            break
            
        images = images.to(device)
        labels = labels.to(device)
        
        # Forward pass
        outputs = model(images)
        loss = loss_func(outputs, labels)
        
        # Backprpagation and optimization
        opt.zero_grad()
        loss.backward()
        opt.step()
        
        if (i+1) % 39 == 0:
            print ('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}' 
                   .format(epoch+1, num_epochs, i+1, train_dataset_stop_index, loss.item()))
    
    #Compute train Accuracy
    with torch.no_grad():
        correct = 0
        total = 0
        for i, (images, labels) in enumerate(train_loader):  
            if i == train_dataset_stop_index :
                break
            
            images = images.reshape(-1, 28*28).to(device)
            labels = labels.to(device)
            outputs = model(images)
            loss = loss_func(outputs, labels)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        accuracy_train = 100 * correct / total
        accuracy_train_list.append(accuracy_train)
        
        loss_train_list.append(loss.item())
    
    
    #Compute test Accuracy
    with torch.no_grad():
        correct = 0
        total = 0
        for i, (images, labels) in enumerate(test_loader):
            images = images.reshape(-1, 28*28).to(device)
            labels = labels.to(device)
            outputs = model(images)
            loss = loss_func(outputs, labels)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        accuracy_test = 100 * correct / total
        accuracy_test_list.append(accuracy_test)
        
        loss_test_list.append(loss.item())
    
    print ('Epoch [{}/{}], \t Train accuracy {}%'.format(epoch+1, num_epochs, accuracy_train ))
    print ('Epoch [{}/{}], \t Test accuracy {}%'.format(epoch+1, num_epochs, accuracy_test ))



  0%|                                                                                                                                                               | 0/100 [00:00<?, ?it/s][A[A

  1%|█▌                                                                                                                                                     | 1/100 [00:04<07:06,  4.31s/it][A[A

Epoch [1/100], 	 Train accuracy 53.125%
Epoch [1/100], 	 Test accuracy 48.09%




  2%|███                                                                                                                                                    | 2/100 [00:09<07:23,  4.52s/it][A[A

Epoch [2/100], 	 Train accuracy 51.953125%
Epoch [2/100], 	 Test accuracy 48.92%




  3%|████▌                                                                                                                                                  | 3/100 [00:14<07:29,  4.63s/it][A[A

Epoch [3/100], 	 Train accuracy 52.34375%
Epoch [3/100], 	 Test accuracy 50.54%




  4%|██████                                                                                                                                                 | 4/100 [00:18<07:24,  4.63s/it][A[A

Epoch [4/100], 	 Train accuracy 54.6875%
Epoch [4/100], 	 Test accuracy 52.65%




  5%|███████▌                                                                                                                                               | 5/100 [00:23<07:17,  4.60s/it][A[A

Epoch [5/100], 	 Train accuracy 55.859375%
Epoch [5/100], 	 Test accuracy 54.23%




  6%|█████████                                                                                                                                              | 6/100 [00:28<07:21,  4.69s/it][A[A

Epoch [6/100], 	 Train accuracy 57.421875%
Epoch [6/100], 	 Test accuracy 56.19%




  7%|██████████▌                                                                                                                                            | 7/100 [00:33<07:21,  4.74s/it][A[A

Epoch [7/100], 	 Train accuracy 60.15625%
Epoch [7/100], 	 Test accuracy 57.32%




  8%|████████████                                                                                                                                           | 8/100 [00:37<07:08,  4.66s/it][A[A

Epoch [8/100], 	 Train accuracy 62.5%
Epoch [8/100], 	 Test accuracy 57.26%




  9%|█████████████▌                                                                                                                                         | 9/100 [00:42<07:10,  4.73s/it][A[A

Epoch [9/100], 	 Train accuracy 68.359375%
Epoch [9/100], 	 Test accuracy 62.82%




 10%|███████████████                                                                                                                                       | 10/100 [00:49<08:01,  5.35s/it][A[A

Epoch [10/100], 	 Train accuracy 67.96875%
Epoch [10/100], 	 Test accuracy 64.51%




 11%|████████████████▌                                                                                                                                     | 11/100 [00:54<07:53,  5.32s/it][A[A

Epoch [11/100], 	 Train accuracy 69.53125%
Epoch [11/100], 	 Test accuracy 64.73%




 12%|██████████████████                                                                                                                                    | 12/100 [01:00<07:56,  5.42s/it][A[A

Epoch [12/100], 	 Train accuracy 73.046875%
Epoch [12/100], 	 Test accuracy 66.39%




 13%|███████████████████▌                                                                                                                                  | 13/100 [01:06<08:01,  5.53s/it][A[A

Epoch [13/100], 	 Train accuracy 75.390625%
Epoch [13/100], 	 Test accuracy 68.04%




 14%|█████████████████████                                                                                                                                 | 14/100 [01:11<07:46,  5.42s/it][A[A

Epoch [14/100], 	 Train accuracy 74.609375%
Epoch [14/100], 	 Test accuracy 68.34%




 15%|██████████████████████▌                                                                                                                               | 15/100 [01:16<07:30,  5.31s/it][A[A

Epoch [15/100], 	 Train accuracy 74.609375%
Epoch [15/100], 	 Test accuracy 68.42%




 16%|████████████████████████                                                                                                                              | 16/100 [01:21<07:15,  5.19s/it][A[A

Epoch [16/100], 	 Train accuracy 75.390625%
Epoch [16/100], 	 Test accuracy 68.52%




 17%|█████████████████████████▌                                                                                                                            | 17/100 [01:26<07:04,  5.11s/it][A[A

Epoch [17/100], 	 Train accuracy 76.171875%
Epoch [17/100], 	 Test accuracy 68.76%




 18%|███████████████████████████                                                                                                                           | 18/100 [01:30<06:54,  5.06s/it][A[A

Epoch [18/100], 	 Train accuracy 77.34375%
Epoch [18/100], 	 Test accuracy 69.34%




 19%|████████████████████████████▌                                                                                                                         | 19/100 [01:35<06:46,  5.02s/it][A[A

Epoch [19/100], 	 Train accuracy 78.125%
Epoch [19/100], 	 Test accuracy 70.07%




 20%|██████████████████████████████                                                                                                                        | 20/100 [01:41<06:53,  5.17s/it][A[A

Epoch [20/100], 	 Train accuracy 79.296875%
Epoch [20/100], 	 Test accuracy 70.41%




 21%|███████████████████████████████▌                                                                                                                      | 21/100 [01:46<06:44,  5.13s/it][A[A

Epoch [21/100], 	 Train accuracy 79.296875%
Epoch [21/100], 	 Test accuracy 70.66%




 22%|█████████████████████████████████                                                                                                                     | 22/100 [01:51<06:35,  5.07s/it][A[A

Epoch [22/100], 	 Train accuracy 78.90625%
Epoch [22/100], 	 Test accuracy 70.65%




 23%|██████████████████████████████████▌                                                                                                                   | 23/100 [01:56<06:25,  5.01s/it][A[A

Epoch [23/100], 	 Train accuracy 78.90625%
Epoch [23/100], 	 Test accuracy 70.83%




 24%|████████████████████████████████████                                                                                                                  | 24/100 [02:01<06:19,  4.99s/it][A[A

Epoch [24/100], 	 Train accuracy 79.6875%
Epoch [24/100], 	 Test accuracy 71.14%




 25%|█████████████████████████████████████▌                                                                                                                | 25/100 [02:06<06:14,  4.99s/it][A[A

Epoch [25/100], 	 Train accuracy 81.25%
Epoch [25/100], 	 Test accuracy 71.37%




 26%|███████████████████████████████████████                                                                                                               | 26/100 [02:11<06:09,  4.99s/it][A[A

Epoch [26/100], 	 Train accuracy 81.640625%
Epoch [26/100], 	 Test accuracy 71.58%




 27%|████████████████████████████████████████▌                                                                                                             | 27/100 [02:16<06:01,  4.96s/it][A[A

Epoch [27/100], 	 Train accuracy 81.25%
Epoch [27/100], 	 Test accuracy 71.69%




 28%|██████████████████████████████████████████                                                                                                            | 28/100 [02:21<05:58,  4.98s/it][A[A

Epoch [28/100], 	 Train accuracy 81.25%
Epoch [28/100], 	 Test accuracy 71.86%




 29%|███████████████████████████████████████████▌                                                                                                          | 29/100 [02:26<05:55,  5.00s/it][A[A

Epoch [29/100], 	 Train accuracy 81.640625%
Epoch [29/100], 	 Test accuracy 72.14%




 30%|█████████████████████████████████████████████                                                                                                         | 30/100 [02:31<06:01,  5.16s/it][A[A

Epoch [30/100], 	 Train accuracy 82.421875%
Epoch [30/100], 	 Test accuracy 72.28%




 31%|██████████████████████████████████████████████▌                                                                                                       | 31/100 [02:37<06:01,  5.24s/it][A[A

Epoch [31/100], 	 Train accuracy 86.328125%
Epoch [31/100], 	 Test accuracy 72.02%




 32%|████████████████████████████████████████████████                                                                                                      | 32/100 [02:42<05:58,  5.28s/it][A[A

Epoch [32/100], 	 Train accuracy 86.71875%
Epoch [32/100], 	 Test accuracy 72.15%




 33%|█████████████████████████████████████████████████▌                                                                                                    | 33/100 [02:48<06:02,  5.42s/it][A[A

Epoch [33/100], 	 Train accuracy 85.9375%
Epoch [33/100], 	 Test accuracy 72.71%




 34%|███████████████████████████████████████████████████                                                                                                   | 34/100 [02:53<05:50,  5.31s/it][A[A

Epoch [34/100], 	 Train accuracy 85.15625%
Epoch [34/100], 	 Test accuracy 72.21%




 35%|████████████████████████████████████████████████████▌                                                                                                 | 35/100 [02:58<05:47,  5.34s/it][A[A

Epoch [35/100], 	 Train accuracy 87.5%
Epoch [35/100], 	 Test accuracy 72.49%




 36%|██████████████████████████████████████████████████████                                                                                                | 36/100 [03:03<05:34,  5.23s/it][A[A

Epoch [36/100], 	 Train accuracy 90.234375%
Epoch [36/100], 	 Test accuracy 72.02%




 37%|███████████████████████████████████████████████████████▌                                                                                              | 37/100 [03:08<05:24,  5.16s/it][A[A

Epoch [37/100], 	 Train accuracy 90.234375%
Epoch [37/100], 	 Test accuracy 72.47%




 38%|█████████████████████████████████████████████████████████                                                                                             | 38/100 [03:14<05:27,  5.29s/it][A[A

Epoch [38/100], 	 Train accuracy 89.0625%
Epoch [38/100], 	 Test accuracy 73.19%




 39%|██████████████████████████████████████████████████████████▌                                                                                           | 39/100 [03:20<05:31,  5.44s/it][A[A

Epoch [39/100], 	 Train accuracy 88.671875%
Epoch [39/100], 	 Test accuracy 73.18%




 40%|████████████████████████████████████████████████████████████                                                                                          | 40/100 [03:26<05:36,  5.61s/it][A[A

Epoch [40/100], 	 Train accuracy 89.84375%
Epoch [40/100], 	 Test accuracy 73.68%




 41%|█████████████████████████████████████████████████████████████▍                                                                                        | 41/100 [03:31<05:22,  5.46s/it][A[A

Epoch [41/100], 	 Train accuracy 90.625%
Epoch [41/100], 	 Test accuracy 73.37%




 42%|███████████████████████████████████████████████████████████████                                                                                       | 42/100 [03:36<05:19,  5.50s/it][A[A

Epoch [42/100], 	 Train accuracy 91.015625%
Epoch [42/100], 	 Test accuracy 73.34%




 43%|████████████████████████████████████████████████████████████████▌                                                                                     | 43/100 [03:41<05:05,  5.36s/it][A[A

Epoch [43/100], 	 Train accuracy 90.625%
Epoch [43/100], 	 Test accuracy 73.93%




 44%|██████████████████████████████████████████████████████████████████                                                                                    | 44/100 [03:46<04:50,  5.19s/it][A[A

Epoch [44/100], 	 Train accuracy 90.234375%
Epoch [44/100], 	 Test accuracy 74.08%




 45%|███████████████████████████████████████████████████████████████████▌                                                                                  | 45/100 [03:51<04:45,  5.18s/it][A[A

Epoch [45/100], 	 Train accuracy 91.015625%
Epoch [45/100], 	 Test accuracy 74.2%




 46%|█████████████████████████████████████████████████████████████████████                                                                                 | 46/100 [03:57<04:51,  5.39s/it][A[A

Epoch [46/100], 	 Train accuracy 92.1875%
Epoch [46/100], 	 Test accuracy 74.09%




 47%|██████████████████████████████████████████████████████████████████████▌                                                                               | 47/100 [04:03<04:52,  5.52s/it][A[A

Epoch [47/100], 	 Train accuracy 92.1875%
Epoch [47/100], 	 Test accuracy 73.67%




 48%|████████████████████████████████████████████████████████████████████████                                                                              | 48/100 [04:08<04:45,  5.49s/it][A[A

Epoch [48/100], 	 Train accuracy 92.1875%
Epoch [48/100], 	 Test accuracy 73.87%




 49%|█████████████████████████████████████████████████████████████████████████▌                                                                            | 49/100 [04:14<04:38,  5.45s/it][A[A

Epoch [49/100], 	 Train accuracy 92.578125%
Epoch [49/100], 	 Test accuracy 74.5%




 50%|███████████████████████████████████████████████████████████████████████████                                                                           | 50/100 [04:20<04:46,  5.73s/it][A[A

Epoch [50/100], 	 Train accuracy 92.578125%
Epoch [50/100], 	 Test accuracy 74.56%




 51%|████████████████████████████████████████████████████████████████████████████▌                                                                         | 51/100 [04:25<04:35,  5.62s/it][A[A

Epoch [51/100], 	 Train accuracy 92.578125%
Epoch [51/100], 	 Test accuracy 74.63%




 52%|██████████████████████████████████████████████████████████████████████████████                                                                        | 52/100 [04:30<04:20,  5.43s/it][A[A

Epoch [52/100], 	 Train accuracy 92.578125%
Epoch [52/100], 	 Test accuracy 74.41%




 53%|███████████████████████████████████████████████████████████████████████████████▌                                                                      | 53/100 [04:37<04:29,  5.74s/it][A[A

Epoch [53/100], 	 Train accuracy 92.578125%
Epoch [53/100], 	 Test accuracy 74.25%




 54%|█████████████████████████████████████████████████████████████████████████████████                                                                     | 54/100 [04:42<04:19,  5.65s/it][A[A

Epoch [54/100], 	 Train accuracy 92.578125%
Epoch [54/100], 	 Test accuracy 74.36%




 55%|██████████████████████████████████████████████████████████████████████████████████▌                                                                   | 55/100 [04:47<04:04,  5.44s/it][A[A

Epoch [55/100], 	 Train accuracy 92.578125%
Epoch [55/100], 	 Test accuracy 74.92%




 56%|████████████████████████████████████████████████████████████████████████████████████                                                                  | 56/100 [04:53<03:58,  5.42s/it][A[A

Epoch [56/100], 	 Train accuracy 92.96875%
Epoch [56/100], 	 Test accuracy 75.13%




 57%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                | 57/100 [04:58<03:56,  5.51s/it][A[A

Epoch [57/100], 	 Train accuracy 92.96875%
Epoch [57/100], 	 Test accuracy 75.05%




 58%|███████████████████████████████████████████████████████████████████████████████████████                                                               | 58/100 [05:04<03:50,  5.48s/it][A[A

Epoch [58/100], 	 Train accuracy 93.359375%
Epoch [58/100], 	 Test accuracy 74.92%




 59%|████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 59/100 [05:09<03:46,  5.53s/it][A[A

Epoch [59/100], 	 Train accuracy 94.140625%
Epoch [59/100], 	 Test accuracy 74.84%




 60%|██████████████████████████████████████████████████████████████████████████████████████████                                                            | 60/100 [05:14<03:34,  5.36s/it][A[A

Epoch [60/100], 	 Train accuracy 94.140625%
Epoch [60/100], 	 Test accuracy 74.83%




 61%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 61/100 [05:20<03:35,  5.53s/it][A[A

Epoch [61/100], 	 Train accuracy 94.140625%
Epoch [61/100], 	 Test accuracy 75.04%




 62%|█████████████████████████████████████████████████████████████████████████████████████████████                                                         | 62/100 [05:26<03:27,  5.46s/it][A[A

Epoch [62/100], 	 Train accuracy 94.140625%
Epoch [62/100], 	 Test accuracy 75.25%




 63%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 63/100 [05:31<03:18,  5.37s/it][A[A

Epoch [63/100], 	 Train accuracy 94.53125%
Epoch [63/100], 	 Test accuracy 75.2%




 64%|████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 64/100 [05:36<03:12,  5.35s/it][A[A

Epoch [64/100], 	 Train accuracy 94.53125%
Epoch [64/100], 	 Test accuracy 75.25%




 65%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 65/100 [05:42<03:13,  5.54s/it][A[A

Epoch [65/100], 	 Train accuracy 95.3125%
Epoch [65/100], 	 Test accuracy 75.37%




 66%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 66/100 [05:47<03:05,  5.45s/it][A[A

Epoch [66/100], 	 Train accuracy 95.3125%
Epoch [66/100], 	 Test accuracy 75.51%




 67%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 67/100 [05:53<02:57,  5.38s/it][A[A

Epoch [67/100], 	 Train accuracy 95.3125%
Epoch [67/100], 	 Test accuracy 75.56%




 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 68/100 [05:58<02:50,  5.32s/it][A[A

Epoch [68/100], 	 Train accuracy 95.3125%
Epoch [68/100], 	 Test accuracy 75.79%




 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 69/100 [06:03<02:45,  5.34s/it][A[A

Epoch [69/100], 	 Train accuracy 95.3125%
Epoch [69/100], 	 Test accuracy 75.6%




 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 70/100 [06:08<02:40,  5.34s/it][A[A

Epoch [70/100], 	 Train accuracy 95.3125%
Epoch [70/100], 	 Test accuracy 75.53%




 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 71/100 [06:14<02:34,  5.33s/it][A[A

Epoch [71/100], 	 Train accuracy 95.703125%
Epoch [71/100], 	 Test accuracy 75.62%




 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 72/100 [06:19<02:25,  5.19s/it][A[A

Epoch [72/100], 	 Train accuracy 95.703125%
Epoch [72/100], 	 Test accuracy 75.88%




 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 73/100 [06:24<02:19,  5.16s/it][A[A

Epoch [73/100], 	 Train accuracy 96.09375%
Epoch [73/100], 	 Test accuracy 76.08%




 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 74/100 [06:29<02:12,  5.08s/it][A[A

Epoch [74/100], 	 Train accuracy 96.09375%
Epoch [74/100], 	 Test accuracy 76.14%




 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 75/100 [06:34<02:07,  5.11s/it][A[A

Epoch [75/100], 	 Train accuracy 96.09375%
Epoch [75/100], 	 Test accuracy 76.12%




 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 76/100 [06:39<02:01,  5.05s/it][A[A

Epoch [76/100], 	 Train accuracy 96.09375%
Epoch [76/100], 	 Test accuracy 76.11%




 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 77/100 [06:44<01:57,  5.11s/it][A[A

Epoch [77/100], 	 Train accuracy 96.09375%
Epoch [77/100], 	 Test accuracy 76.04%




 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 78/100 [06:49<01:53,  5.16s/it][A[A

Epoch [78/100], 	 Train accuracy 96.09375%
Epoch [78/100], 	 Test accuracy 76.15%




 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 79/100 [06:54<01:47,  5.12s/it][A[A

Epoch [79/100], 	 Train accuracy 96.09375%
Epoch [79/100], 	 Test accuracy 76.19%




 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 80/100 [06:59<01:41,  5.06s/it][A[A

Epoch [80/100], 	 Train accuracy 96.09375%
Epoch [80/100], 	 Test accuracy 76.16%




 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 81/100 [07:04<01:35,  5.04s/it][A[A

Epoch [81/100], 	 Train accuracy 96.09375%
Epoch [81/100], 	 Test accuracy 76.23%




 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 82/100 [07:09<01:30,  5.03s/it][A[A

Epoch [82/100], 	 Train accuracy 96.09375%
Epoch [82/100], 	 Test accuracy 76.2%




 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 83/100 [07:14<01:25,  5.00s/it][A[A

Epoch [83/100], 	 Train accuracy 96.09375%
Epoch [83/100], 	 Test accuracy 76.12%




 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 84/100 [07:19<01:20,  5.00s/it][A[A

Epoch [84/100], 	 Train accuracy 96.484375%
Epoch [84/100], 	 Test accuracy 76.07%




 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 85/100 [07:24<01:14,  4.98s/it][A[A

Epoch [85/100], 	 Train accuracy 96.875%
Epoch [85/100], 	 Test accuracy 76.1%




 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 86/100 [07:29<01:09,  4.98s/it][A[A

Epoch [86/100], 	 Train accuracy 96.875%
Epoch [86/100], 	 Test accuracy 76.21%




 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 87/100 [07:34<01:04,  4.97s/it][A[A

Epoch [87/100], 	 Train accuracy 96.875%
Epoch [87/100], 	 Test accuracy 76.14%




 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 88/100 [07:39<00:59,  4.96s/it][A[A

Epoch [88/100], 	 Train accuracy 96.875%
Epoch [88/100], 	 Test accuracy 76.13%




 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 89/100 [07:44<00:54,  4.97s/it][A[A

Epoch [89/100], 	 Train accuracy 96.875%
Epoch [89/100], 	 Test accuracy 76.24%




 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 90/100 [07:49<00:49,  4.99s/it][A[A

Epoch [90/100], 	 Train accuracy 96.875%
Epoch [90/100], 	 Test accuracy 76.2%




 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 91/100 [07:54<00:44,  4.99s/it][A[A

Epoch [91/100], 	 Train accuracy 96.875%
Epoch [91/100], 	 Test accuracy 76.29%




 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 92/100 [07:59<00:39,  4.97s/it][A[A

Epoch [92/100], 	 Train accuracy 96.875%
Epoch [92/100], 	 Test accuracy 76.4%




 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 93/100 [08:04<00:34,  4.96s/it][A[A

Epoch [93/100], 	 Train accuracy 96.875%
Epoch [93/100], 	 Test accuracy 76.4%




 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 94/100 [08:09<00:29,  4.97s/it][A[A

Epoch [94/100], 	 Train accuracy 96.875%
Epoch [94/100], 	 Test accuracy 76.47%




 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 95/100 [08:14<00:24,  4.96s/it][A[A

Epoch [95/100], 	 Train accuracy 96.875%
Epoch [95/100], 	 Test accuracy 76.44%




 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 96/100 [08:19<00:19,  4.95s/it][A[A

Epoch [96/100], 	 Train accuracy 96.875%
Epoch [96/100], 	 Test accuracy 76.42%




 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 97/100 [08:24<00:14,  4.98s/it][A[A

Epoch [97/100], 	 Train accuracy 96.875%
Epoch [97/100], 	 Test accuracy 76.37%




 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 98/100 [08:29<00:09,  4.97s/it][A[A

Epoch [98/100], 	 Train accuracy 96.875%
Epoch [98/100], 	 Test accuracy 76.37%




 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 99/100 [08:34<00:04,  4.95s/it][A[A

Epoch [99/100], 	 Train accuracy 96.875%
Epoch [99/100], 	 Test accuracy 76.46%




100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [08:38<00:00,  5.19s/it][A[A

Epoch [100/100], 	 Train accuracy 96.875%
Epoch [100/100], 	 Test accuracy 76.43%





In [165]:
fig = go.Figure()

fig.add_trace(go.Scatter(
    x= list(range(len(accuracy_train_list))),
    y=accuracy_train_list,
))
fig.add_trace(go.Scatter(
    x= list(range(len(accuracy_test_list))),
    y=accuracy_test_list,

))

fig.show()

In [166]:
fig = go.Figure()

fig.add_trace(go.Scatter(
    x= list(range(len(loss_train_list))),
    y=loss_train_list,
))
fig.add_trace(go.Scatter(
    x= list(range(len(loss_test_list))),
    y=loss_test_list,

))

fig.show()

### Task 3: Fix it.
Fix the overfitted network from the previous step (at least partially) by using regularization techniques (Dropout/Batchnorm/...) and demonstrate the results. 

In [174]:
class FixedNeuralNetwork(nn.Module):
    def __init__(self, input_shape=28*28, num_classes=10, input_channels=1):
        super(self.__class__, self).__init__()
        self.model = nn.Sequential(
            nn.Flatten(), # This layer converts image into a vector to use Linear layers afterwards
            # Your network structure comes here
            
            nn.Linear(input_shape, input_shape),
            nn.ReLU(),
            nn.Dropout(p=0.5),
            nn.Linear(input_shape, num_classes),
            nn.Softmax()
        )
        
    def forward(self, inp):       
        out = self.model(inp)
        return out

In [175]:
torchsummary.summary(FixedNeuralNetwork().to(device), (28*28,))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
           Flatten-1                  [-1, 784]               0
            Linear-2                  [-1, 784]         615,440
              ReLU-3                  [-1, 784]               0
           Dropout-4                  [-1, 784]               0
            Linear-5                   [-1, 10]           7,850
           Softmax-6                   [-1, 10]               0
Total params: 623,290
Trainable params: 623,290
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.02
Params size (MB): 2.38
Estimated Total Size (MB): 2.40
----------------------------------------------------------------


In [191]:
model = FixedNeuralNetwork().to(device)

learning_rate = 0.001
num_epochs = 50

opt = torch.optim.Adam(model.parameters(), lr=learning_rate) # YOUR CODE HERE
loss_func =  nn.CrossEntropyLoss()  # YOUR CODE HERE

# Your experiments, come here

In [192]:
train_loader = torch.utils.data.DataLoader(fmnist_dataset_train, 
                                           batch_size=2048,
                                           shuffle=False,
                                           num_workers=2,)
test_loader = torch.utils.data.DataLoader(fmnist_dataset_test,
                                          batch_size=256,
                                          shuffle=False,
                                          num_workers=2)

In [193]:
print(len(train_loader))
print(len(test_loader))

train_dataset_stop_index = 300 #with batch size 256 (part ~ 35%)

30
40


In [194]:
# Train the model
total_step = len(train_loader)
accuracy_train_list = []
accuracy_test_list = []
loss_train_list = []
loss_test_list = []

for epoch in tqdm(range(num_epochs)):
    for i, (images, labels) in enumerate(train_loader):  
        if i == train_dataset_stop_index :
            break
            
        images = images.to(device)
        labels = labels.to(device)
        
        # Forward pass
        outputs = model(images)
        loss = loss_func(outputs, labels)
        
        # Backprpagation and optimization
        opt.zero_grad()
        loss.backward()
        opt.step()
        
        if (i+1) % 100 == 0:
            print ('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}' 
                   .format(epoch+1, num_epochs, i+1, train_dataset_stop_index, loss.item()))
    
    #Compute train Accuracy
    with torch.no_grad():
        correct = 0
        total = 0
        for i, (images, labels) in enumerate(train_loader):  
            if i == train_dataset_stop_index :
                break
            
            images = images.reshape(-1, 28*28).to(device)
            labels = labels.to(device)
            outputs = model(images)
            loss = loss_func(outputs, labels)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        accuracy_train = 100 * correct / total
        accuracy_train_list.append(accuracy_train)
        
        loss_train_list.append(loss.item())
    
    
    #Compute test Accuracy
    with torch.no_grad():
        correct = 0
        total = 0
        for i, (images, labels) in enumerate(test_loader):
            images = images.reshape(-1, 28*28).to(device)
            labels = labels.to(device)
            outputs = model(images)
            loss = loss_func(outputs, labels)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        accuracy_test = 100 * correct / total
        accuracy_test_list.append(accuracy_test)
        
        loss_test_list.append(loss.item())
    
    print ('Epoch [{}/{}], \t Train accuracy {}%'.format(epoch+1, num_epochs, accuracy_train ))
    print ('Epoch [{}/{}], \t Test accuracy {}%'.format(epoch+1, num_epochs, accuracy_test ))



  0%|                                                                                                                                                                | 0/50 [00:00<?, ?it/s][A[A

  2%|███                                                                                                                                                     | 1/50 [00:09<07:26,  9.11s/it][A[A

Epoch [1/50], 	 Train accuracy 73.385%
Epoch [1/50], 	 Test accuracy 72.49%




  4%|██████                                                                                                                                                  | 2/50 [00:19<07:40,  9.58s/it][A[A

Epoch [2/50], 	 Train accuracy 77.70333333333333%
Epoch [2/50], 	 Test accuracy 76.82%




  6%|█████████                                                                                                                                               | 3/50 [00:30<07:39,  9.78s/it][A[A

Epoch [3/50], 	 Train accuracy 79.11%
Epoch [3/50], 	 Test accuracy 78.39%




  8%|████████████▏                                                                                                                                           | 4/50 [00:40<07:34,  9.89s/it][A[A

Epoch [4/50], 	 Train accuracy 80.01%
Epoch [4/50], 	 Test accuracy 78.98%




 10%|███████████████▏                                                                                                                                        | 5/50 [00:50<07:30, 10.01s/it][A[A

Epoch [5/50], 	 Train accuracy 82.83666666666667%
Epoch [5/50], 	 Test accuracy 81.98%




 12%|██████████████████▏                                                                                                                                     | 6/50 [01:00<07:22, 10.06s/it][A[A

Epoch [6/50], 	 Train accuracy 83.67333333333333%
Epoch [6/50], 	 Test accuracy 82.61%




 14%|█████████████████████▎                                                                                                                                  | 7/50 [01:10<07:14, 10.10s/it][A[A

Epoch [7/50], 	 Train accuracy 84.66333333333333%
Epoch [7/50], 	 Test accuracy 83.54%




 16%|████████████████████████▎                                                                                                                               | 8/50 [01:21<07:05, 10.14s/it][A[A

Epoch [8/50], 	 Train accuracy 84.98%
Epoch [8/50], 	 Test accuracy 83.63%




 18%|███████████████████████████▎                                                                                                                            | 9/50 [01:31<07:05, 10.37s/it][A[A

Epoch [9/50], 	 Train accuracy 85.49833333333333%
Epoch [9/50], 	 Test accuracy 83.9%




 20%|██████████████████████████████▏                                                                                                                        | 10/50 [01:42<06:53, 10.35s/it][A[A

Epoch [10/50], 	 Train accuracy 85.87333333333333%
Epoch [10/50], 	 Test accuracy 84.49%




 22%|█████████████████████████████████▏                                                                                                                     | 11/50 [01:52<06:41, 10.30s/it][A[A

Epoch [11/50], 	 Train accuracy 86.08%
Epoch [11/50], 	 Test accuracy 84.43%




 24%|████████████████████████████████████▏                                                                                                                  | 12/50 [02:02<06:30, 10.28s/it][A[A

Epoch [12/50], 	 Train accuracy 86.31666666666666%
Epoch [12/50], 	 Test accuracy 84.65%




 26%|███████████████████████████████████████▎                                                                                                               | 13/50 [02:12<06:19, 10.26s/it][A[A

Epoch [13/50], 	 Train accuracy 86.52%
Epoch [13/50], 	 Test accuracy 85.03%




 28%|██████████████████████████████████████████▎                                                                                                            | 14/50 [02:24<06:19, 10.55s/it][A[A

Epoch [14/50], 	 Train accuracy 86.51%
Epoch [14/50], 	 Test accuracy 84.89%




 30%|█████████████████████████████████████████████▎                                                                                                         | 15/50 [02:34<06:12, 10.63s/it][A[A

Epoch [15/50], 	 Train accuracy 87.16166666666666%
Epoch [15/50], 	 Test accuracy 85.23%




 32%|████████████████████████████████████████████████▎                                                                                                      | 16/50 [02:45<05:58, 10.56s/it][A[A

Epoch [16/50], 	 Train accuracy 87.23333333333333%
Epoch [16/50], 	 Test accuracy 85.34%




 34%|███████████████████████████████████████████████████▎                                                                                                   | 17/50 [02:55<05:44, 10.43s/it][A[A

Epoch [17/50], 	 Train accuracy 87.32166666666667%
Epoch [17/50], 	 Test accuracy 85.5%




 36%|██████████████████████████████████████████████████████▎                                                                                                | 18/50 [03:05<05:31, 10.36s/it][A[A

Epoch [18/50], 	 Train accuracy 87.42%
Epoch [18/50], 	 Test accuracy 85.63%




 38%|█████████████████████████████████████████████████████████▍                                                                                             | 19/50 [03:15<05:20, 10.33s/it][A[A

Epoch [19/50], 	 Train accuracy 87.80666666666667%
Epoch [19/50], 	 Test accuracy 85.84%




 40%|████████████████████████████████████████████████████████████▍                                                                                          | 20/50 [03:26<05:09, 10.31s/it][A[A

Epoch [20/50], 	 Train accuracy 88.01%
Epoch [20/50], 	 Test accuracy 85.84%




 42%|███████████████████████████████████████████████████████████████▍                                                                                       | 21/50 [03:36<04:59, 10.32s/it][A[A

Epoch [21/50], 	 Train accuracy 88.14333333333333%
Epoch [21/50], 	 Test accuracy 86.13%




 44%|██████████████████████████████████████████████████████████████████▍                                                                                    | 22/50 [03:46<04:47, 10.27s/it][A[A

Epoch [22/50], 	 Train accuracy 88.35666666666667%
Epoch [22/50], 	 Test accuracy 85.95%




 46%|█████████████████████████████████████████████████████████████████████▍                                                                                 | 23/50 [03:56<04:35, 10.22s/it][A[A

Epoch [23/50], 	 Train accuracy 88.43333333333334%
Epoch [23/50], 	 Test accuracy 86.25%




 48%|████████████████████████████████████████████████████████████████████████▍                                                                              | 24/50 [04:07<04:25, 10.22s/it][A[A

Epoch [24/50], 	 Train accuracy 88.45666666666666%
Epoch [24/50], 	 Test accuracy 86.2%




 50%|███████████████████████████████████████████████████████████████████████████▌                                                                           | 25/50 [04:17<04:18, 10.34s/it][A[A

Epoch [25/50], 	 Train accuracy 88.55333333333333%
Epoch [25/50], 	 Test accuracy 86.21%




 52%|██████████████████████████████████████████████████████████████████████████████▌                                                                        | 26/50 [04:28<04:13, 10.57s/it][A[A

Epoch [26/50], 	 Train accuracy 88.53666666666666%
Epoch [26/50], 	 Test accuracy 86.44%




 54%|█████████████████████████████████████████████████████████████████████████████████▌                                                                     | 27/50 [04:39<04:02, 10.53s/it][A[A

Epoch [27/50], 	 Train accuracy 88.68166666666667%
Epoch [27/50], 	 Test accuracy 86.51%




 56%|████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 28/50 [04:49<03:49, 10.45s/it][A[A

Epoch [28/50], 	 Train accuracy 88.88666666666667%
Epoch [28/50], 	 Test accuracy 86.41%




 58%|███████████████████████████████████████████████████████████████████████████████████████▌                                                               | 29/50 [04:59<03:38, 10.39s/it][A[A

Epoch [29/50], 	 Train accuracy 88.74166666666666%
Epoch [29/50], 	 Test accuracy 86.36%




 60%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 30/50 [05:09<03:26, 10.34s/it][A[A

Epoch [30/50], 	 Train accuracy 89.08833333333334%
Epoch [30/50], 	 Test accuracy 86.79%




 62%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 31/50 [05:20<03:15, 10.32s/it][A[A

Epoch [31/50], 	 Train accuracy 89.13666666666667%
Epoch [31/50], 	 Test accuracy 86.61%




 64%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 32/50 [05:30<03:06, 10.35s/it][A[A

Epoch [32/50], 	 Train accuracy 89.27666666666667%
Epoch [32/50], 	 Test accuracy 86.87%




 66%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 33/50 [05:41<02:58, 10.52s/it][A[A

Epoch [33/50], 	 Train accuracy 89.11333333333333%
Epoch [33/50], 	 Test accuracy 86.55%




 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 34/50 [05:52<02:48, 10.52s/it][A[A

Epoch [34/50], 	 Train accuracy 89.305%
Epoch [34/50], 	 Test accuracy 86.96%




 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 35/50 [06:02<02:36, 10.43s/it][A[A

Epoch [35/50], 	 Train accuracy 89.47833333333334%
Epoch [35/50], 	 Test accuracy 86.98%




 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 36/50 [06:12<02:24, 10.34s/it][A[A

Epoch [36/50], 	 Train accuracy 89.32166666666667%
Epoch [36/50], 	 Test accuracy 87.04%




 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 37/50 [06:22<02:14, 10.32s/it][A[A

Epoch [37/50], 	 Train accuracy 89.44833333333334%
Epoch [37/50], 	 Test accuracy 87.15%




 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 38/50 [06:33<02:05, 10.47s/it][A[A

Epoch [38/50], 	 Train accuracy 89.55833333333334%
Epoch [38/50], 	 Test accuracy 87.23%




 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 39/50 [06:44<01:55, 10.48s/it][A[A

Epoch [39/50], 	 Train accuracy 89.52333333333333%
Epoch [39/50], 	 Test accuracy 87.3%




 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 40/50 [06:54<01:44, 10.44s/it][A[A

Epoch [40/50], 	 Train accuracy 89.59666666666666%
Epoch [40/50], 	 Test accuracy 87.17%




 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 41/50 [07:04<01:33, 10.38s/it][A[A

Epoch [41/50], 	 Train accuracy 89.78166666666667%
Epoch [41/50], 	 Test accuracy 87.36%




 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 42/50 [07:15<01:23, 10.43s/it][A[A

Epoch [42/50], 	 Train accuracy 89.90166666666667%
Epoch [42/50], 	 Test accuracy 87.56%




 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 43/50 [07:26<01:14, 10.64s/it][A[A

Epoch [43/50], 	 Train accuracy 89.98666666666666%
Epoch [43/50], 	 Test accuracy 87.31%




 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 44/50 [07:36<01:03, 10.66s/it][A[A

Epoch [44/50], 	 Train accuracy 90.22166666666666%
Epoch [44/50], 	 Test accuracy 87.27%




 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 45/50 [07:47<00:52, 10.53s/it][A[A

Epoch [45/50], 	 Train accuracy 90.17666666666666%
Epoch [45/50], 	 Test accuracy 87.29%




 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 46/50 [07:58<00:42, 10.64s/it][A[A

Epoch [46/50], 	 Train accuracy 90.275%
Epoch [46/50], 	 Test accuracy 87.39%




 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 47/50 [08:08<00:31, 10.66s/it][A[A

Epoch [47/50], 	 Train accuracy 90.40833333333333%
Epoch [47/50], 	 Test accuracy 87.62%




 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 48/50 [08:19<00:21, 10.69s/it][A[A

Epoch [48/50], 	 Train accuracy 90.34%
Epoch [48/50], 	 Test accuracy 87.49%




 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 49/50 [08:30<00:10, 10.65s/it][A[A

Epoch [49/50], 	 Train accuracy 90.35166666666667%
Epoch [49/50], 	 Test accuracy 87.54%




100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [08:40<00:00, 10.41s/it][A[A

Epoch [50/50], 	 Train accuracy 90.51833333333333%
Epoch [50/50], 	 Test accuracy 87.78%





In [195]:
fig = go.Figure()

fig.add_trace(go.Scatter(
    x= list(range(len(accuracy_train_list))),
    y=accuracy_train_list,
))
fig.add_trace(go.Scatter(
    x= list(range(len(accuracy_test_list))),
    y=accuracy_test_list,

))

fig.show()

In [196]:
fig = go.Figure()

fig.add_trace(go.Scatter(
    x= list(range(len(loss_train_list))),
    y=loss_train_list,
))
fig.add_trace(go.Scatter(
    x= list(range(len(loss_test_list))),
    y=loss_test_list,

))

fig.show()

### Conclusions:
_Write down small report with your conclusions and your ideas._

1. Удалось натренировать FC-NN на датасете FMNIST с точностью 88.5%

2. Удалось сделать оверфит FC-NN на датасете FMNIST 

3. Удалось побороть оверфит нейросети при помощи механизма Dropout