In [126]:
import numpy as np
from utils import *
from train_utils import *

# Introduction

This is a continuation of the previous project for classifying MNIST digits, this time implementing a neural network. Problem statements from edX are italicized.

# Activation Functions

*The first step is to design the activation function for each neuron. In this problem, we will initialize the network weights to 1, use **ReLU** for the activation function of the hidden layers, and use an identity function for the output neuron. The hidden layer has a bias but the output layer does not. Complete the helper functions in `neural_networks.py`, including `rectified_linear_unit` and `rectified_linear_unit_derivative`, for you to use in the `NeuralNetwork` class, and implement them below.*

In [27]:
def rectified_linear_unit(x):
    """ Returns the ReLU of x, or the maximum between 0 and x."""
    return np.max([x,0])

## Taking the Derivative

Now implement its derivative so that we can properly run backpropagation when training the net. Note: we will consider the derivative at zero to have the same value as the derivative at all negative points.

Since
\begin{equation}
  ReLU(x) =
  \begin{cases}
                                   x & \text{if $x > 0$} \\
                                   0 & \text{if $x \leq 0$}
  \end{cases}
\end{equation}

Then
\begin{equation}
  \frac{d}{dx}ReLU(x) =
  \begin{cases}
                                   1 & \text{if $x > 0$} \\
                                   0 & \text{if $x \leq 0$}
  \end{cases}
\end{equation}

This can be implemented easily with an `if` statement.

In [28]:
def rectified_linear_unit_derivative(x):
    """ Returns the ReLU of x, or the maximum between 0 and x."""
    if x <= 0:
        return 0
    else:
        return 1

# Training the Network

*Forward propagation is simply the summation of the previous layer's output multiplied by the weight of each wire, while back-propagation works by computing the partial derivatives of the cost function with respect to every weight or bias in the network. In back propagation, the network gets better at minimizing the error and predicting the output of the data being used for training by incrementally updating their weights and biases using stochastic gradient descent.*

*We are trying to estimate a continuous-valued function, thus we will use squared loss as our cost function and an identity function as the output activation function.  $f(x)$  is the activation function that is called on the input to our final layer output node, and  $\hat a$  is the predicted value, while  y  is the actual value of the input.*

\begin{align}
   C &= \frac{1}{2}(y−a)^2 \\
f(x) &= x
\end{align} 


*When you're done implementing the function `train` (below and in your local repository), run the script and see if the errors are decreasing. If your errors are all under 0.15 after the last training iteration then you have implemented the neural network training correctly.*

*You'll notice that the train function inherits from `NeuralNetworkBase` in the codebox below; this is done for grading purposes. In your local code, you implement the function directly in your Neural Network class all in one file. The rest of the code in `NeuralNetworkBase` is the same as in the original `NeuralNetwork` class you have locally.*

In [None]:
class NeuralNetwork(NeuralNetworkBase):

    def train(self, x1, x2, y):

        # Use standard variables and store as arrays
        W1 = np.array(self.input_to_hidden_weights) # 3 x 2
        b = np.array(self.biases) # 3 x 1
        W2 = self.hidden_to_output_weights #np.array(self.hidden_to_output_weights) # 1 x 3
        f2 = output_layer_activation
        df2 = output_layer_activation_derivative
        eta = self.learning_rate

        # Vectorize ReLU functions
        f1 = np.vectorize(rectified_linear_unit)
        df1 = np.vectorize(rectified_linear_unit_derivative)

        ### Forward propagation ###
        x = np.array([[x1], [x2]]) # 2 x 1

        # Calculate the input and activation of the hidden layer
        z1 = W1 @ x + b # 3 x 1
        h1 = f1(z1) # 3 x 1

        z2 =  W2 @ h1 
        o1 = f2(z2)

        ### Backpropagation ###
        # Compute gradients
        bias_gradients = np.multiply( df1(z1), np.transpose(W2) ) * (o1 - y)
        input_to_hidden_weight_gradients = np.multiply(np.vstack((x.T, x.T, x.T)), np.hstack((bias_gradients, bias_gradients)))
        hidden_to_output_weight_gradients = np.transpose( np.multiply(h1, (o1 - y)) )

        # Use gradients to adjust weights and biases using gradient descent
        self.biases = b - eta * bias_gradients
        self.input_to_hidden_weights = W1 - eta * input_to_hidden_weight_gradients
        self.hidden_to_output_weights = W2 - eta * hidden_to_output_weight_gradients

# Predicting the Test Data

*Now fill in the code for the function `predict`, which will use your trained neural network in order to label new data.*

In [None]:
class NeuralNetwork(NeuralNetworkBase):

    def predict(self, x1, x2):

       # Use standard variables and store as arrays
        W1 = np.array(self.input_to_hidden_weights)
        b = np.array(self.biases)
        W2 = np.array(self.hidden_to_output_weights)
        f2 = output_layer_activation
        df2 = output_layer_activation_derivative
        eta = self.learning_rate
        
        # Vectorize ReLU functions
        f1 = np.vectorize(rectified_linear_unit)
        df1 = np.vectorize(rectified_linear_unit_derivative)
        
        ### Forward propagation ###
        x = np.array([[x1], [x2]])
        
        # Compute output for a single input(should be same as the forward propagation in training)
        z1 = W1 @ x + b
        h1 = f1(z1)
        z2 = W2 @ h1
        o1 = f2(z2)

        return o1.item()

This block of code is simply the chunk from the train() function above for forward propagation.

## Testing the Network

In [175]:
%run -i neural_nets

Point, (1, 1) Prediction, [7.0384532]
Test Passed
Point, (2, 2) Prediction, [14.04281483]
Test Passed
Point, (3, 3) Prediction, [21.04717646]
Test Passed
Point, (5, 5) Prediction, [35.05589972]
Test Passed
Point, (10, 10) Prediction, [70.07770787]
Test Passed


# Conceptual Questions

1. *What is the danger to having too many hidden units in your network?*
    - It will take up more memory
    - It may overfit the training data
    - It will take longer to train

2. *What would happen if you run the code for more epochs in terms of training and testing accuracy? What should we expect to see?*
    - As above, the network would take longer to train. More importantly, it could potentially overfit to the training data, which would likely cause it to perform poorly on unseen data.
    
![Accuracy vs. Epochs](acc-epoch.png)

# Classification for MNIST Using Deep Neural Networks
*In this section, we are going to use deep neural networks to perform the same classification task as in previous sections. We will use PyTorch, a python deep learning framework. Using a framework like PyTorch means you don't have to implement all of the details (like in the earlier problem) and can spend more time thinking through your high level architecture.*

# Fully-Connected Neural Networks

*First, we will employ the most basic form of a deep neural network, in which the neurons in adjacent layers are fully connected to one another.*

## Training and Testing Accuracy Over Time

*We have provided a toy example **nnet_fc.py** in which we have implemented for you a simple neural network. This network has one hidden layer of 10 neurons with a rectified linear unit (ReLU) nonlinearity, as well as an output layer of 10 neurons (one for each digit class). Finally, a softmax function normalizes the activations of the output neurons so that they specify a probability distribution. Reference the PyTorch Documentation and read through it in order to gain a better understanding of the code. Then, try running the code on your computer with the command `Python3 nnet_fc.py`. This will train the network with 10 epochs, where an epoch is a complete pass through the training dataset. Total training time of your network should take no more than a couple of minutes. At the end of training, your model should have an accuracy of more than  $85\%$  on test data.*

In [11]:
def NN(batch_size=32, lr=0.1, momentum=0, hidden_units=10):
    np.random.seed(12321)  # for reproducibility
    torch.manual_seed(12321)  # for reproducibility
    
    # Load the dataset
    num_classes = 10
    X_train, y_train, X_test, y_test = get_MNIST_data()

    # Split into train and dev
    dev_split_index = int(9 * len(X_train) / 10)
    X_dev = X_train[dev_split_index:]
    y_dev = y_train[dev_split_index:]
    X_train = X_train[:dev_split_index]
    y_train = y_train[:dev_split_index]

    permutation = np.array([i for i in range(len(X_train))])
    np.random.shuffle(permutation)
    X_train = [X_train[i] for i in permutation]
    y_train = [y_train[i] for i in permutation]

    # Split dataset into batches
    train_batches = batchify_data(X_train, y_train, batch_size)
    dev_batches = batchify_data(X_dev, y_dev, batch_size)
    test_batches = batchify_data(X_test, y_test, batch_size)

    #################################
    ## Model specification - BASELINE
    model = nn.Sequential(
              nn.Linear(784, hidden_units), # in_features = 28x28 (pixels in image), out_features = 10 (neurons in hidden layer)
              nn.ReLU(), # Hidden layer activation
              nn.Linear(hidden_units, 10), # 10 inputs from previous layer, 10 outputs (one for each digit)
            )
    ##################################

    train_model(train_batches, dev_batches, model, lr=lr, momentum=momentum)

    ## Evaluate the model on test data
    loss, accuracy = run_epoch(test_batches, model.eval(), None)

    print("-------------\nLoss on test set:"  + str(loss) + "\nAccuracy on test set: " + str(accuracy))

In [12]:
NN()

-------------
Epoch 1:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1939.10it/s]


Train loss: 0.445684 | Train accuracy: 0.870758


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4573.09it/s]


Val loss:   0.260342 | Val accuracy:   0.923630
-------------
Epoch 2:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 2053.68it/s]


Train loss: 0.303323 | Train accuracy: 0.912289


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4166.72it/s]


Val loss:   0.239971 | Val accuracy:   0.929479
-------------
Epoch 3:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 2036.44it/s]


Train loss: 0.281178 | Train accuracy: 0.918920


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4573.11it/s]


Val loss:   0.232849 | Val accuracy:   0.932152
-------------
Epoch 4:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 2055.04it/s]


Train loss: 0.266577 | Train accuracy: 0.923088


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 6249.93it/s]


Val loss:   0.231824 | Val accuracy:   0.930983
-------------
Epoch 5:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1942.01it/s]


Train loss: 0.255165 | Train accuracy: 0.926460


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3605.79it/s]


Val loss:   0.230423 | Val accuracy:   0.931317
-------------
Epoch 6:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1931.00it/s]


Train loss: 0.245930 | Train accuracy: 0.928442


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4807.09it/s]


Val loss:   0.229930 | Val accuracy:   0.931150
-------------
Epoch 7:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1894.16it/s]


Train loss: 0.238349 | Train accuracy: 0.930702


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4464.29it/s]


Val loss:   0.231337 | Val accuracy:   0.930648
-------------
Epoch 8:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1922.17it/s]


Train loss: 0.232549 | Train accuracy: 0.932276


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3826.58it/s]


Val loss:   0.229597 | Val accuracy:   0.932487
-------------
Epoch 9:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1912.59it/s]


Train loss: 0.227751 | Train accuracy: 0.933888


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4261.42it/s]


Val loss:   0.229607 | Val accuracy:   0.932487
-------------
Epoch 10:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1939.07it/s]


Train loss: 0.223966 | Train accuracy: 0.935147


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4807.65it/s]


Val loss:   0.228388 | Val accuracy:   0.932487


100%|██████████████████████████████████████████████████████████████████████████████| 312/312 [00:00<00:00, 4469.13it/s]


-------------
Loss on test set:0.2672268722492915
Accuracy on test set: 0.9204727564102564


## Improving Accuracy - Modifying Hyper Parameters

*We would like to try to improve the performance of the model by performing a mini grid search over hyper parameters (note that a full grid search should include more values and combinations).*

*To this end, we will use our **baseline model** (batch size 32, hidden size 10, learning rate 0.1, momentum 0 and the ReLU activation function) and modify one parameter each time while keeping all others to the baseline.*

*We will use the validation accuracy of the model after training for 10 epochs. For the LeakyReLU activation function, use the default parameters from pyTorch (negative_slope=0.01).*

### Batch Size
Batch size increased from 32 to 64.

In [6]:
NN(batch_size=64)

-------------
Epoch 1:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1214.45it/s]


Train loss: 0.528406 | Train accuracy: 0.851016


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2825.90it/s]


Val loss:   0.270610 | Val accuracy:   0.922715
-------------
Epoch 2:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1230.36it/s]


Train loss: 0.312326 | Train accuracy: 0.910569


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2914.06it/s]


Val loss:   0.245788 | Val accuracy:   0.927923
-------------
Epoch 3:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1213.23it/s]


Train loss: 0.287699 | Train accuracy: 0.917927


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2913.99it/s]


Val loss:   0.234042 | Val accuracy:   0.930948
-------------
Epoch 4:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1198.94it/s]


Train loss: 0.273053 | Train accuracy: 0.922505


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2825.74it/s]


Val loss:   0.225923 | Val accuracy:   0.935316
-------------
Epoch 5:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1223.23it/s]


Train loss: 0.262140 | Train accuracy: 0.924655


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2913.97it/s]


Val loss:   0.220798 | Val accuracy:   0.936828
-------------
Epoch 6:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1226.91it/s]


Train loss: 0.253124 | Train accuracy: 0.927157


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2914.10it/s]


Val loss:   0.216004 | Val accuracy:   0.937164
-------------
Epoch 7:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1198.92it/s]


Train loss: 0.244414 | Train accuracy: 0.929660


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 3007.99it/s]


Val loss:   0.213142 | Val accuracy:   0.937668
-------------
Epoch 8:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1209.50it/s]


Train loss: 0.237167 | Train accuracy: 0.931606


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2914.02it/s]


Val loss:   0.210919 | Val accuracy:   0.939684
-------------
Epoch 9:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1239.37it/s]


Train loss: 0.230904 | Train accuracy: 0.933459


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 3008.06it/s]


Val loss:   0.209108 | Val accuracy:   0.941364
-------------
Epoch 10:



100%|██████████████████████████████████████████████████████████████████████████████| 843/843 [00:00<00:00, 1217.95it/s]


Train loss: 0.225577 | Train accuracy: 0.934794


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2914.08it/s]


Val loss:   0.208171 | Val accuracy:   0.940020


100%|██████████████████████████████████████████████████████████████████████████████| 156/156 [00:00<00:00, 3067.00it/s]


-------------
Loss on test set:0.24238464534760285
Accuracy on test set: 0.9314903846153846


### Learning Rate
Learning rate decreased by a factor of 10 (`lr = 0.01`).

In [7]:
NN(lr=0.01)

-------------
Epoch 1:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1967.81it/s]


Train loss: 1.060107 | Train accuracy: 0.720417


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4573.17it/s]


Val loss:   0.422035 | Val accuracy:   0.895388
-------------
Epoch 2:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 2008.91it/s]


Train loss: 0.430563 | Train accuracy: 0.882576


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3749.95it/s]


Val loss:   0.317500 | Val accuracy:   0.914940
-------------
Epoch 3:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1981.09it/s]


Train loss: 0.367536 | Train accuracy: 0.897044


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5514.82it/s]


Val loss:   0.285166 | Val accuracy:   0.922293
-------------
Epoch 4:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 2013.66it/s]


Train loss: 0.340316 | Train accuracy: 0.904157


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5208.38it/s]


Val loss:   0.268281 | Val accuracy:   0.926303
-------------
Epoch 5:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 2004.15it/s]


Train loss: 0.323848 | Train accuracy: 0.907880


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5514.79it/s]


Val loss:   0.257622 | Val accuracy:   0.927640
-------------
Epoch 6:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1987.93it/s]


Train loss: 0.312422 | Train accuracy: 0.910862


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4464.26it/s]


Val loss:   0.250134 | Val accuracy:   0.928476
-------------
Epoch 7:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1951.91it/s]


Train loss: 0.303781 | Train accuracy: 0.913289


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4464.26it/s]


Val loss:   0.244547 | Val accuracy:   0.930983
-------------
Epoch 8:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1937.35it/s]


Train loss: 0.296870 | Train accuracy: 0.915142


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5067.71it/s]


Val loss:   0.240068 | Val accuracy:   0.931818
-------------
Epoch 9:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1947.22it/s]


Train loss: 0.291028 | Train accuracy: 0.916938


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5514.71it/s]


Val loss:   0.236431 | Val accuracy:   0.933322
-------------
Epoch 10:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1919.06it/s]


Train loss: 0.285981 | Train accuracy: 0.918179


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4261.39it/s]


Val loss:   0.233266 | Val accuracy:   0.934659


100%|██████████████████████████████████████████████████████████████████████████████| 312/312 [00:00<00:00, 4010.70it/s]


-------------
Loss on test set:0.2788660805194806
Accuracy on test set: 0.9206730769230769


### Momentum
Momentum increased to `0.9`.

In [8]:
NN(momentum=0.9)

-------------
Epoch 1:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1579.50it/s]


Train loss: 0.612039 | Train accuracy: 0.823614


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4464.29it/s]


Val loss:   0.433070 | Val accuracy:   0.884358
-------------
Epoch 2:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1519.36it/s]


Train loss: 0.503209 | Train accuracy: 0.863182


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3605.77it/s]


Val loss:   0.393585 | Val accuracy:   0.905582
-------------
Epoch 3:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1496.06it/s]


Train loss: 0.480990 | Train accuracy: 0.873870


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5357.19it/s]


Val loss:   0.484579 | Val accuracy:   0.823028
-------------
Epoch 4:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1534.67it/s]


Train loss: 0.472248 | Train accuracy: 0.876130


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 6250.03it/s]


Val loss:   0.503579 | Val accuracy:   0.858790
-------------
Epoch 5:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1515.89it/s]


Train loss: 0.453664 | Train accuracy: 0.883243


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4464.26it/s]


Val loss:   0.403466 | Val accuracy:   0.896892
-------------
Epoch 6:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1534.76it/s]


Train loss: 0.446544 | Train accuracy: 0.887689


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4076.20it/s]


Val loss:   0.407349 | Val accuracy:   0.896892
-------------
Epoch 7:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1572.03it/s]


Train loss: 0.422924 | Train accuracy: 0.892876


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3676.49it/s]


Val loss:   0.390636 | Val accuracy:   0.903075
-------------
Epoch 8:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1513.51it/s]


Train loss: 0.406662 | Train accuracy: 0.897710


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5208.38it/s]


Val loss:   0.416626 | Val accuracy:   0.904913
-------------
Epoch 9:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1447.76it/s]


Train loss: 0.402913 | Train accuracy: 0.900508


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3826.58it/s]


Val loss:   0.374994 | Val accuracy:   0.912934
-------------
Epoch 10:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1486.37it/s]


Train loss: 0.386717 | Train accuracy: 0.905379


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4360.57it/s]


Val loss:   0.371283 | Val accuracy:   0.913102


100%|██████████████████████████████████████████████████████████████████████████████| 312/312 [00:00<00:00, 6133.95it/s]


-------------
Loss on test set:0.4073197087750603
Accuracy on test set: 0.9078525641025641


### LeakyReLU Activation
Modify the hidden layer activation function.

In [13]:
def NN_Leaky(batch_size=32, lr=0.1, momentum=0, hidden_units=10):
    np.random.seed(12321)  # for reproducibility
    torch.manual_seed(12321)  # for reproducibility
    
    # Load the dataset
    num_classes = 10
    X_train, y_train, X_test, y_test = get_MNIST_data()

    # Split into train and dev
    dev_split_index = int(9 * len(X_train) / 10)
    X_dev = X_train[dev_split_index:]
    y_dev = y_train[dev_split_index:]
    X_train = X_train[:dev_split_index]
    y_train = y_train[:dev_split_index]

    permutation = np.array([i for i in range(len(X_train))])
    np.random.shuffle(permutation)
    X_train = [X_train[i] for i in permutation]
    y_train = [y_train[i] for i in permutation]

    # Split dataset into batches
    train_batches = batchify_data(X_train, y_train, batch_size)
    dev_batches = batchify_data(X_dev, y_dev, batch_size)
    test_batches = batchify_data(X_test, y_test, batch_size)

    #################################
    ## Model specification - BASELINE
    model = nn.Sequential(
              nn.Linear(784, hidden_units), # in_features = 28x28 (pixels in image), out_features = 10 (neurons in hidden layer)
              nn.LeakyReLU(), # Hidden layer activation
              nn.Linear(hidden_units, 10), # 10 inputs from previous layer, 10 outputs (one for each digit)
            )
    ##################################

    train_model(train_batches, dev_batches, model, lr=lr, momentum=momentum)

    ## Evaluate the model on test data
    loss, accuracy = run_epoch(test_batches, model.eval(), None)

    print("-------------\nLoss on test set:"  + str(loss) + "\nAccuracy on test set: " + str(accuracy))

In [10]:
NN_Leaky()

-------------
Epoch 1:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1894.20it/s]


Train loss: 0.444938 | Train accuracy: 0.871128


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3989.37it/s]


Val loss:   0.261497 | Val accuracy:   0.922627
-------------
Epoch 2:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1978.38it/s]


Train loss: 0.303264 | Train accuracy: 0.913011


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4360.47it/s]


Val loss:   0.241508 | Val accuracy:   0.928810
-------------
Epoch 3:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1973.75it/s]


Train loss: 0.281472 | Train accuracy: 0.918809


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 6249.38it/s]


Val loss:   0.235257 | Val accuracy:   0.929646
-------------
Epoch 4:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1887.85it/s]


Train loss: 0.267219 | Train accuracy: 0.923551


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3676.52it/s]


Val loss:   0.235469 | Val accuracy:   0.930481
-------------
Epoch 5:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1873.56it/s]


Train loss: 0.256387 | Train accuracy: 0.926052


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3906.28it/s]


Val loss:   0.233859 | Val accuracy:   0.930816
-------------
Epoch 6:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1893.33it/s]


Train loss: 0.247782 | Train accuracy: 0.928534


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5067.61it/s]


Val loss:   0.229305 | Val accuracy:   0.930816
-------------
Epoch 7:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1960.57it/s]


Train loss: 0.240420 | Train accuracy: 0.930553


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5067.55it/s]


Val loss:   0.229741 | Val accuracy:   0.931317
-------------
Epoch 8:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1912.54it/s]


Train loss: 0.234297 | Train accuracy: 0.932758


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5208.34it/s]


Val loss:   0.228470 | Val accuracy:   0.933322
-------------
Epoch 9:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 1926.33it/s]


Train loss: 0.228930 | Train accuracy: 0.934610


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 5859.37it/s]


Val loss:   0.228252 | Val accuracy:   0.932487
-------------
Epoch 10:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:00<00:00, 2023.57it/s]


Train loss: 0.224515 | Train accuracy: 0.935147


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 4261.30it/s]


Val loss:   0.227615 | Val accuracy:   0.931985


100%|██████████████████████████████████████████████████████████████████████████████| 312/312 [00:00<00:00, 3769.10it/s]


-------------
Loss on test set:0.2689260167236894
Accuracy on test set: 0.9207732371794872


### Summary

<table>
  <tr>
    <th>Modification</th>
    <th>Validation Accuracy</th>
    <th>Test Accuracy</th>
  </tr>
  <tr>
    <td>Baseline</td>
    <td>0.932487</td>
    <td>0.920472</td>
  </tr>
  <tr>
    <td>Batch Size</td>
    <td>0.940020</td>
    <td>0.931490</td>
  </tr>
  <tr>
    <td>Learning Rate</td>
    <td>0.934659</td>
    <td>0.920673</td>
  </tr>
  <tr>
    <td>Momentum</td>
    <td>0.913102</td>
    <td>0.907852</td>
  </tr>
  <tr>
    <td>LeakyReLU</td>
    <td>0.931985</td>
    <td>0.920773</td>
  </tr>

</table>

As summarized in the table above, increasing the batch size resulted in the best performance in terms of validation and test accuracy.

## Improving Accuracy - Modifying Architecture
*Modifying the model's architecture is also worth considering. Increase the hidden representation size from 10 to 128 and repeat the grid search over the same hyper parameters.*

### Baseline

In [14]:
NN(hidden_units=128)

-------------
Epoch 1:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 976.61it/s]


Train loss: 0.366301 | Train accuracy: 0.897025


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2640.83it/s]


Val loss:   0.177677 | Val accuracy:   0.948028
-------------
Epoch 2:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 973.25it/s]


Train loss: 0.174206 | Train accuracy: 0.949022


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2640.85it/s]


Val loss:   0.125863 | Val accuracy:   0.966745
-------------
Epoch 3:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 971.58it/s]


Train loss: 0.122325 | Train accuracy: 0.965397


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2717.39it/s]


Val loss:   0.103957 | Val accuracy:   0.970922
-------------
Epoch 4:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 961.63it/s]


Train loss: 0.094732 | Train accuracy: 0.973214


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2604.15it/s]


Val loss:   0.092489 | Val accuracy:   0.974265
-------------
Epoch 5:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 928.55it/s]


Train loss: 0.077078 | Train accuracy: 0.978345


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2717.40it/s]


Val loss:   0.084448 | Val accuracy:   0.975936
-------------
Epoch 6:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 946.60it/s]


Train loss: 0.064287 | Train accuracy: 0.982161


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2604.15it/s]


Val loss:   0.079375 | Val accuracy:   0.976103
-------------
Epoch 7:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 954.58it/s]


Train loss: 0.054688 | Train accuracy: 0.985107


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2604.18it/s]


Val loss:   0.076046 | Val accuracy:   0.976939
-------------
Epoch 8:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 965.48it/s]


Train loss: 0.046741 | Train accuracy: 0.987404


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2678.58it/s]


Val loss:   0.074542 | Val accuracy:   0.976771
-------------
Epoch 9:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 970.24it/s]


Train loss: 0.040228 | Train accuracy: 0.989571


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2640.83it/s]


Val loss:   0.073430 | Val accuracy:   0.976939
-------------
Epoch 10:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 969.19it/s]


Train loss: 0.034583 | Train accuracy: 0.991294


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2678.34it/s]


Val loss:   0.072713 | Val accuracy:   0.977941


100%|██████████████████████████████████████████████████████████████████████████████| 312/312 [00:00<00:00, 2673.79it/s]


-------------
Loss on test set:0.07395259204965371
Accuracy on test set: 0.9771634615384616


### Batch Size

In [18]:
NN(batch_size=64, hidden_units=128)

-------------
Epoch 1:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 827.06it/s]


Train loss: 0.463914 | Train accuracy: 0.875315


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 1942.71it/s]


Val loss:   0.232220 | Val accuracy:   0.932460
-------------
Epoch 2:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 786.94it/s]


Train loss: 0.243034 | Train accuracy: 0.930883


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2072.20it/s]


Val loss:   0.172784 | Val accuracy:   0.951277
-------------
Epoch 3:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 797.09it/s]


Train loss: 0.185378 | Train accuracy: 0.947120


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2027.18it/s]


Val loss:   0.139340 | Val accuracy:   0.961862
-------------
Epoch 4:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 790.15it/s]


Train loss: 0.148813 | Train accuracy: 0.957555


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 1864.95it/s]


Val loss:   0.118853 | Val accuracy:   0.968078
-------------
Epoch 5:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 805.63it/s]


Train loss: 0.123663 | Train accuracy: 0.965636


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 1984.02it/s]


Val loss:   0.105527 | Val accuracy:   0.970766
-------------
Epoch 6:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 803.47it/s]


Train loss: 0.105418 | Train accuracy: 0.970789


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2072.20it/s]


Val loss:   0.095873 | Val accuracy:   0.972110
-------------
Epoch 7:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 810.26it/s]


Train loss: 0.091731 | Train accuracy: 0.974607


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2072.20it/s]


Val loss:   0.089742 | Val accuracy:   0.974798
-------------
Epoch 8:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 811.96it/s]


Train loss: 0.081071 | Train accuracy: 0.977869


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2072.20it/s]


Val loss:   0.085501 | Val accuracy:   0.975302
-------------
Epoch 9:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 808.65it/s]


Train loss: 0.072484 | Train accuracy: 0.980186


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2027.17it/s]


Val loss:   0.082241 | Val accuracy:   0.976647
-------------
Epoch 10:



100%|███████████████████████████████████████████████████████████████████████████████| 843/843 [00:01<00:00, 811.19it/s]


Train loss: 0.065312 | Train accuracy: 0.982095


100%|████████████████████████████████████████████████████████████████████████████████| 93/93 [00:00<00:00, 2072.23it/s]


Val loss:   0.079208 | Val accuracy:   0.976815


100%|██████████████████████████████████████████████████████████████████████████████| 156/156 [00:00<00:00, 2031.37it/s]


-------------
Loss on test set:0.08362655630574012
Accuracy on test set: 0.9748597756410257


### Learning Rate

In [15]:
NN(lr=0.01, hidden_units=128)

-------------
Epoch 1:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 996.76it/s]


Train loss: 0.908129 | Train accuracy: 0.796792


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2884.59it/s]


Val loss:   0.377350 | Val accuracy:   0.906250
-------------
Epoch 2:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1008.65it/s]


Train loss: 0.396553 | Train accuracy: 0.891449


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2757.37it/s]


Val loss:   0.291037 | Val accuracy:   0.920622
-------------
Epoch 3:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1014.10it/s]


Train loss: 0.337542 | Train accuracy: 0.905361


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2840.90it/s]


Val loss:   0.260009 | Val accuracy:   0.924465
-------------
Epoch 4:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 997.94it/s]


Train loss: 0.306622 | Train accuracy: 0.913493


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2568.52it/s]


Val loss:   0.240016 | Val accuracy:   0.931150
-------------
Epoch 5:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 991.51it/s]


Train loss: 0.283807 | Train accuracy: 0.919458


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2840.95it/s]


Val loss:   0.224068 | Val accuracy:   0.936664
-------------
Epoch 6:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1005.06it/s]


Train loss: 0.264718 | Train accuracy: 0.925608


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2840.92it/s]


Val loss:   0.210177 | Val accuracy:   0.940007
-------------
Epoch 7:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 990.61it/s]


Train loss: 0.248103 | Train accuracy: 0.929998


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2717.37it/s]


Val loss:   0.198000 | Val accuracy:   0.944352
-------------
Epoch 8:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 967.68it/s]


Train loss: 0.233398 | Train accuracy: 0.934777


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2717.41it/s]


Val loss:   0.187217 | Val accuracy:   0.948195
-------------
Epoch 9:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 993.95it/s]


Train loss: 0.220230 | Train accuracy: 0.938259


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2840.92it/s]


Val loss:   0.177614 | Val accuracy:   0.952039
-------------
Epoch 10:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 981.16it/s]


Train loss: 0.208362 | Train accuracy: 0.941483


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2678.57it/s]


Val loss:   0.169065 | Val accuracy:   0.955047


100%|██████████████████████████████████████████████████████████████████████████████| 312/312 [00:00<00:00, 2768.42it/s]


-------------
Loss on test set:0.19775969692720816
Accuracy on test set: 0.9427083333333334


### Momentum

In [16]:
NN(momentum=0.9, hidden_units=128)

-------------
Epoch 1:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 844.07it/s]


Train loss: 0.296532 | Train accuracy: 0.910325


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2884.63it/s]


Val loss:   0.175828 | Val accuracy:   0.951370
-------------
Epoch 2:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 788.95it/s]


Train loss: 0.166171 | Train accuracy: 0.952708


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2976.22it/s]


Val loss:   0.146533 | Val accuracy:   0.962734
-------------
Epoch 3:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 770.87it/s]


Train loss: 0.129765 | Train accuracy: 0.962582


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3073.76it/s]


Val loss:   0.148729 | Val accuracy:   0.960060
-------------
Epoch 4:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 778.47it/s]


Train loss: 0.114271 | Train accuracy: 0.968250


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2976.22it/s]


Val loss:   0.180497 | Val accuracy:   0.958556
-------------
Epoch 5:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 773.79it/s]


Train loss: 0.100601 | Train accuracy: 0.971158


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2884.63it/s]


Val loss:   0.181498 | Val accuracy:   0.958723
-------------
Epoch 6:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 772.25it/s]


Train loss: 0.107211 | Train accuracy: 0.971306


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2976.22it/s]


Val loss:   0.151349 | Val accuracy:   0.965575
-------------
Epoch 7:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 763.18it/s]


Train loss: 0.092641 | Train accuracy: 0.974659


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2929.69it/s]


Val loss:   0.162009 | Val accuracy:   0.967079
-------------
Epoch 8:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 746.24it/s]


Train loss: 0.091958 | Train accuracy: 0.976678


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2798.51it/s]


Val loss:   0.175171 | Val accuracy:   0.967079
-------------
Epoch 9:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 744.53it/s]


Train loss: 0.090026 | Train accuracy: 0.977178


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2798.52it/s]


Val loss:   0.206695 | Val accuracy:   0.964739
-------------
Epoch 10:



100%|█████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:02<00:00, 765.74it/s]


Train loss: 0.082375 | Train accuracy: 0.979605


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2976.26it/s]


Val loss:   0.189066 | Val accuracy:   0.963737


100%|██████████████████████████████████████████████████████████████████████████████| 312/312 [00:00<00:00, 2951.27it/s]


-------------
Loss on test set:0.24351653198783213
Accuracy on test set: 0.9580328525641025


### LeakyReLU Activation

In [17]:
NN_Leaky(hidden_units=128)

-------------
Epoch 1:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1031.01it/s]


Train loss: 0.366998 | Train accuracy: 0.897025


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3073.83it/s]


Val loss:   0.179281 | Val accuracy:   0.947527
-------------
Epoch 2:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1002.94it/s]


Train loss: 0.175318 | Train accuracy: 0.948837


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2840.91it/s]


Val loss:   0.126164 | Val accuracy:   0.965909
-------------
Epoch 3:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1030.23it/s]


Train loss: 0.123247 | Train accuracy: 0.965156


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2976.20it/s]


Val loss:   0.104298 | Val accuracy:   0.970922
-------------
Epoch 4:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1018.13it/s]


Train loss: 0.095639 | Train accuracy: 0.973270


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3024.22it/s]


Val loss:   0.092842 | Val accuracy:   0.972928
-------------
Epoch 5:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1040.16it/s]


Train loss: 0.077833 | Train accuracy: 0.978197


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2929.72it/s]


Val loss:   0.084848 | Val accuracy:   0.975100
-------------
Epoch 6:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1026.40it/s]


Train loss: 0.065095 | Train accuracy: 0.981939


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2717.39it/s]


Val loss:   0.079743 | Val accuracy:   0.976604
-------------
Epoch 7:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1025.10it/s]


Train loss: 0.055313 | Train accuracy: 0.984921


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2929.68it/s]


Val loss:   0.076754 | Val accuracy:   0.977941
-------------
Epoch 8:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1029.59it/s]


Train loss: 0.047483 | Train accuracy: 0.987293


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 3024.19it/s]


Val loss:   0.073949 | Val accuracy:   0.978443
-------------
Epoch 9:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1044.34it/s]


Train loss: 0.040985 | Train accuracy: 0.989015


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2929.65it/s]


Val loss:   0.072207 | Val accuracy:   0.978108
-------------
Epoch 10:



100%|████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:01<00:00, 1040.93it/s]


Train loss: 0.035277 | Train accuracy: 0.991108


100%|██████████████████████████████████████████████████████████████████████████████| 187/187 [00:00<00:00, 2840.95it/s]


Val loss:   0.070790 | Val accuracy:   0.978108


100%|██████████████████████████████████████████████████████████████████████████████| 312/312 [00:00<00:00, 2951.25it/s]


-------------
Loss on test set:0.07374823891008511
Accuracy on test set: 0.9776642628205128


### Summary

<table>
  <tr>
    <th>Modification</th>
    <th>Validation Accuracy</th>
    <th>Test Accuracy</th>
  </tr>
  <tr>
    <td>Baseline</td>
    <td>0.977941</td>
    <td>0.977163</td>
  </tr>
  <tr>
    <td>Batch Size</td>
    <td>0.976815</td>
    <td>0.974859</td>
  </tr>
  <tr>
    <td>Learning Rate</td>
    <td>0.955047</td>
    <td>0.942708</td>
  </tr>
  <tr>
    <td>Momentum</td>
    <td>0.963737</td>
    <td>0.958032</td>
  </tr>
  <tr>
    <td>LeakyReLU</td>
    <td>0.978108</td>
    <td>0.977664</td>
  </tr>

</table>

Increasing the neuron count in the hidden layer greatly improved the performance for each modification. Using a LeakyReLU activation resulted in the best performance.

# Convolutional Neural Networks

*Next, we are going to apply convolutional neural networks to the same task. These networks have demonstrated great performance on many deep learning tasks, especially in computer vision.*

*We provide skeleton code `part2-mnist/nnet_cnn.py` which includes examples of some (not all) of the new layers you will need in this part. Using the PyTorch Documentation, complete the code to implement a convolutional neural network with following layers in order:*

- A convolutional layer with 32 filters of size  3×3 

- A ReLU nonlinearity

- A max pooling layer with size  2×2 

- A convolutional layer with 64 filters of size  3×3 

- A ReLU nonlinearity

- A max pooling layer with size  2×2 

- A flatten layer

- A fully connected layer with 128 neurons

- A dropout layer with drop probability 0.5

- A fully-connected layer with 10 neurons

Note: We are not using a softmax layer because it is already present in the loss: PyTorch's `nn.CrossEntropyLoss` combines `nn.LogSoftMax` with `nn.NLLLoss`.

In [143]:
def CNN(batch_size=32, lr=0.1, momentum=0, hidden_units=128):
    np.random.seed(12321)  # for reproducibility
    torch.manual_seed(12321)  # for reproducibility
    
    # Load the dataset
    num_classes = 10
    X_train, y_train, X_test, y_test = get_MNIST_data()

    # Split into train and dev
    dev_split_index = int(9 * len(X_train) / 10)
    X_dev = X_train[dev_split_index:]
    y_dev = y_train[dev_split_index:]
    X_train = X_train[:dev_split_index]
    y_train = y_train[:dev_split_index]

    permutation = np.array([i for i in range(len(X_train))])
    np.random.shuffle(permutation)
    X_train = [X_train[i] for i in permutation]
    y_train = [y_train[i] for i in permutation]

    # Split dataset into batches
    train_batches = batchify_data(X_train, y_train, batch_size)
    dev_batches = batchify_data(X_dev, y_dev, batch_size)
    test_batches = batchify_data(X_test, y_test, batch_size)

    #################################
    ## Model specification - BASELINE
    model = nn.Sequential(
                # Convolution layer: in_channels, out_channels, kernel_size, stride
                nn.Conv2d(1, 32, (3, 3)),
                nn.ReLU(),
                nn.MaxPool2d((2, 2)),
                nn.Conv2d(32, 64, (3, 3)),
                nn.ReLU(),
                nn.MaxPool2d((2, 2)),
                Flatten(),
                nn.Linear(5 * 5 * 64, hidden_units),
                nn.Dropout(0.5),
                nn.Linear(hidden_units, 10)
            )
    ##################################

    train_model(train_batches, dev_batches, model, lr=lr, momentum=momentum)

    ## Evaluate the model on test data
    loss, accuracy = run_epoch(test_batches, model.eval(), None)

    print("-------------\nLoss on test set:"  + str(loss) + "\nAccuracy on test set: " + str(accuracy))

In [147]:
%run -i nnet_cnn

-------------
Epoch 1:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:48<00:00, 34.73it/s]


Train loss: 0.244054 | Train accuracy: 0.923459


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 159.44it/s]


Val loss:   0.059416 | Val accuracy:   0.983122
-------------
Epoch 2:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:48<00:00, 34.55it/s]


Train loss: 0.078025 | Train accuracy: 0.976623


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 156.14it/s]


Val loss:   0.043600 | Val accuracy:   0.988302
-------------
Epoch 3:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:48<00:00, 34.57it/s]


Train loss: 0.057098 | Train accuracy: 0.983069


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 149.40it/s]


Val loss:   0.040539 | Val accuracy:   0.987968
-------------
Epoch 4:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:49<00:00, 34.29it/s]


Train loss: 0.044892 | Train accuracy: 0.986626


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 159.22it/s]


Val loss:   0.034283 | Val accuracy:   0.989305
-------------
Epoch 5:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:48<00:00, 34.61it/s]


Train loss: 0.039341 | Train accuracy: 0.987663


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 152.69it/s]


Val loss:   0.034289 | Val accuracy:   0.989472
-------------
Epoch 6:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:49<00:00, 34.39it/s]


Train loss: 0.033283 | Train accuracy: 0.989645


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 155.06it/s]


Val loss:   0.037130 | Val accuracy:   0.989138
-------------
Epoch 7:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:48<00:00, 34.43it/s]


Train loss: 0.028377 | Train accuracy: 0.990831


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 165.87it/s]


Val loss:   0.038385 | Val accuracy:   0.988636
-------------
Epoch 8:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:48<00:00, 34.62it/s]


Train loss: 0.025532 | Train accuracy: 0.991924


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 158.23it/s]


Val loss:   0.031706 | Val accuracy:   0.990976
-------------
Epoch 9:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:48<00:00, 35.10it/s]


Train loss: 0.022932 | Train accuracy: 0.992794


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 156.66it/s]


Val loss:   0.038258 | Val accuracy:   0.990307
-------------
Epoch 10:



100%|██████████████████████████████████████████████████████████████████████████████| 1687/1687 [00:48<00:00, 35.04it/s]


Train loss: 0.020331 | Train accuracy: 0.993405


100%|███████████████████████████████████████████████████████████████████████████████| 187/187 [00:01<00:00, 151.21it/s]


Val loss:   0.036694 | Val accuracy:   0.991143


100%|███████████████████████████████████████████████████████████████████████████████| 312/312 [00:01<00:00, 162.51it/s]


Loss on test set:0.02735500419751192 Accuracy on test set: 0.9904847756410257


The code above shows what is being run from **nnet_cnn.py**, while the following cell actually runs the file. 

Although it took some time to run all epochs (8 minutes 28 seconds) this model performs extremely well, achieving 99.05% accuracy on the test set!

# Overlapping, Multi-Digit MNIST
In this problem, we are going to go beyond the basic MNIST. We will train a few neural networks to solve the problem of hand-written digit recognition using a multi-digit version of MNIST.

## Fully connected network
*Complete the code **main** in **mlp.py** to build a fully-connected model with a single hidden layer with 64 units. For this, you need to make use of Linear layers in PyTorch; we provide you with an implementation of `Flatten`, which maps a higher dimensional tensor into an $N x d$ one, where $N$ is the number of samples in your batch and $d$ is the length of the flattened dimension (if your tensor is $N x h x w$, the flattened dimension is  $d=(h \cdot w)$ ). Hint: Note that your model must have two outputs (corresponding to the first and second digits) to be compatible with the data.*

In [137]:
class MLP(nn.Module):

    def __init__(self, input_dimension):
        super(MLP, self).__init__()
        self.flatten = Flatten()
        self.fc1 = nn.Linear(input_dimension, 64)
        self.fc2 = nn.Linear(64, 20) # 20 output neurons (10 digits x 2)

    def forward(self, x):
        xf = self.flatten(x)
        out = self.fc1(xf)
        out = self.fc2(out)
        out_first_digit = out[:, 0:10]
        out_second_digit = out[:, 10:]

        return out_first_digit, out_second_digit
    
    def main():
        X_train, y_train, X_test, y_test = U.get_data(path_to_data_dir, use_mini_dataset)

        # Split into train and dev
        dev_split_index = int(9 * len(X_train) / 10)
        X_dev = X_train[dev_split_index:]
        y_dev = [y_train[0][dev_split_index:], y_train[1][dev_split_index:]]
        X_train = X_train[:dev_split_index]
        y_train = [y_train[0][:dev_split_index], y_train[1][:dev_split_index]]

        permutation = np.array([i for i in range(len(X_train))])
        np.random.shuffle(permutation)
        X_train = [X_train[i] for i in permutation]
        y_train = [[y_train[0][i] for i in permutation], [y_train[1][i] for i in permutation]]

        # Split dataset into batches
        train_batches = batchify_data(X_train, y_train, batch_size)
        dev_batches = batchify_data(X_dev, y_dev, batch_size)
        test_batches = batchify_data(X_test, y_test, batch_size)

        # Load model
        input_dimension = img_rows * img_cols
        model = MLP(input_dimension) # TODO add proper layers to MLP class above

        # Train
        train_model(train_batches, dev_batches, model)

        ## Evaluate the model on test data
        loss, acc = run_epoch(test_batches, model.eval(), None)
        print('Test loss1: {:.6f}  accuracy1: {:.6f}  loss2: {:.6f}   accuracy2: {:.6f}'.format(loss[0], acc[0], loss[1], acc[1]))

In [171]:
%run -i mlp

-------------
Epoch 1:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 638.17it/s]


Train | loss1: 0.776068  accuracy1: 0.792538 | loss2: 0.798555  accuracy2: 0.777441


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.91it/s]


Valid | loss1: 0.430175  accuracy1: 0.878780 | loss2: 0.457375  accuracy2: 0.860887
-------------
Epoch 2:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 644.74it/s]


Train | loss1: 0.396823  accuracy1: 0.886927 | loss2: 0.426801  accuracy2: 0.870357


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.95it/s]


Valid | loss1: 0.382405  accuracy1: 0.889113 | loss2: 0.403938  accuracy2: 0.875504
-------------
Epoch 3:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 633.24it/s]


Train | loss1: 0.360463  accuracy1: 0.896769 | loss2: 0.390284  accuracy2: 0.883285


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1554.17it/s]


Valid | loss1: 0.367611  accuracy1: 0.894405 | loss2: 0.386381  accuracy2: 0.880544
-------------
Epoch 4:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 638.17it/s]


Train | loss1: 0.342956  accuracy1: 0.901246 | loss2: 0.372160  accuracy2: 0.889290


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.94it/s]


Valid | loss1: 0.360734  accuracy1: 0.895161 | loss2: 0.376846  accuracy2: 0.886341
-------------
Epoch 5:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 642.53it/s]


Train | loss1: 0.331562  accuracy1: 0.904443 | loss2: 0.360041  accuracy2: 0.893127


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1593.99it/s]


Valid | loss1: 0.356971  accuracy1: 0.896421 | loss2: 0.370512  accuracy2: 0.887853
-------------
Epoch 6:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 619.60it/s]


Train | loss1: 0.323069  accuracy1: 0.906973 | loss2: 0.350922  accuracy2: 0.895880


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1680.19it/s]


Valid | loss1: 0.354749  accuracy1: 0.899950 | loss2: 0.365907  accuracy2: 0.890625
-------------
Epoch 7:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 624.03it/s]


Train | loss1: 0.316259  accuracy1: 0.909169 | loss2: 0.343622  accuracy2: 0.898354


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1593.96it/s]


Valid | loss1: 0.353413  accuracy1: 0.900202 | loss2: 0.362405  accuracy2: 0.893397
-------------
Epoch 8:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 629.61it/s]


Train | loss1: 0.310557  accuracy1: 0.910698 | loss2: 0.337544  accuracy2: 0.900328


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1516.23it/s]


Valid | loss1: 0.352648  accuracy1: 0.899698 | loss2: 0.359679  accuracy2: 0.894153
-------------
Epoch 9:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 624.02it/s]


Train | loss1: 0.305646  accuracy1: 0.912172 | loss2: 0.332348  accuracy2: 0.901968


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.95it/s]


Valid | loss1: 0.352283  accuracy1: 0.898942 | loss2: 0.357529  accuracy2: 0.894909
-------------
Epoch 10:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 646.21it/s]


Train | loss1: 0.301333  accuracy1: 0.913201 | loss2: 0.327817  accuracy2: 0.903025


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.92it/s]


Valid | loss1: 0.352215  accuracy1: 0.898438 | loss2: 0.355823  accuracy2: 0.895665
-------------
Epoch 11:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 644.74it/s]


Train | loss1: 0.297492  accuracy1: 0.914202 | loss2: 0.323807  accuracy2: 0.904220


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.95it/s]


Valid | loss1: 0.352375  accuracy1: 0.899194 | loss2: 0.354468  accuracy2: 0.897429
-------------
Epoch 12:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 652.20it/s]


Train | loss1: 0.294033  accuracy1: 0.915036 | loss2: 0.320212  accuracy2: 0.904665


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.67it/s]


Valid | loss1: 0.352714  accuracy1: 0.898438 | loss2: 0.353398  accuracy2: 0.896925
-------------
Epoch 13:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 619.92it/s]


Train | loss1: 0.290891  accuracy1: 0.916342 | loss2: 0.316959  accuracy2: 0.905333


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1554.22it/s]


Valid | loss1: 0.353195  accuracy1: 0.898185 | loss2: 0.352561  accuracy2: 0.898185
-------------
Epoch 14:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 635.21it/s]


Train | loss1: 0.288017  accuracy1: 0.916787 | loss2: 0.313989  accuracy2: 0.906611


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1554.18it/s]


Valid | loss1: 0.353787  accuracy1: 0.898942 | loss2: 0.351919  accuracy2: 0.898185
-------------
Epoch 15:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 627.51it/s]


Train | loss1: 0.285370  accuracy1: 0.917427 | loss2: 0.311259  accuracy2: 0.907724


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1593.98it/s]


Valid | loss1: 0.354469  accuracy1: 0.898942 | loss2: 0.351440  accuracy2: 0.898185
-------------
Epoch 16:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 625.41it/s]


Train | loss1: 0.282918  accuracy1: 0.918038 | loss2: 0.308734  accuracy2: 0.908697


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.95it/s]


Valid | loss1: 0.355223  accuracy1: 0.897933 | loss2: 0.351099  accuracy2: 0.897933
-------------
Epoch 17:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 645.48it/s]


Train | loss1: 0.280636  accuracy1: 0.918789 | loss2: 0.306384  accuracy2: 0.909419


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.96it/s]


Valid | loss1: 0.356033  accuracy1: 0.899194 | loss2: 0.350877  accuracy2: 0.898438
-------------
Epoch 18:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 632.96it/s]


Train | loss1: 0.278502  accuracy1: 0.919623 | loss2: 0.304189  accuracy2: 0.910365


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.95it/s]


Valid | loss1: 0.356888  accuracy1: 0.897933 | loss2: 0.350755  accuracy2: 0.899194
-------------
Epoch 19:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 636.73it/s]


Train | loss1: 0.276497  accuracy1: 0.920485 | loss2: 0.302129  accuracy2: 0.911032


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.93it/s]


Valid | loss1: 0.357780  accuracy1: 0.896925 | loss2: 0.350721  accuracy2: 0.899446
-------------
Epoch 20:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 631.12it/s]


Train | loss1: 0.274608  accuracy1: 0.920930 | loss2: 0.300188  accuracy2: 0.911727


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.92it/s]


Valid | loss1: 0.358699  accuracy1: 0.897429 | loss2: 0.350763  accuracy2: 0.899194
-------------
Epoch 21:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 637.45it/s]


Train | loss1: 0.272821  accuracy1: 0.921319 | loss2: 0.298353  accuracy2: 0.912200


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.96it/s]


Valid | loss1: 0.359640  accuracy1: 0.896169 | loss2: 0.350871  accuracy2: 0.898942
-------------
Epoch 22:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 629.61it/s]


Train | loss1: 0.271126  accuracy1: 0.921625 | loss2: 0.296614  accuracy2: 0.912978


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1680.14it/s]


Valid | loss1: 0.360598  accuracy1: 0.895917 | loss2: 0.351037  accuracy2: 0.899446
-------------
Epoch 23:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 636.73it/s]


Train | loss1: 0.269513  accuracy1: 0.922070 | loss2: 0.294962  accuracy2: 0.913089


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.96it/s]


Valid | loss1: 0.361567  accuracy1: 0.895413 | loss2: 0.351254  accuracy2: 0.899194
-------------
Epoch 24:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 643.27it/s]


Train | loss1: 0.267976  accuracy1: 0.922375 | loss2: 0.293387  accuracy2: 0.913562


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1635.94it/s]


Valid | loss1: 0.362544  accuracy1: 0.894909 | loss2: 0.351516  accuracy2: 0.899194
-------------
Epoch 25:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 633.25it/s]


Train | loss1: 0.266507  accuracy1: 0.922848 | loss2: 0.291884  accuracy2: 0.914229


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1680.13it/s]


Valid | loss1: 0.363526  accuracy1: 0.894909 | loss2: 0.351818  accuracy2: 0.898690
-------------
Epoch 26:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 631.02it/s]


Train | loss1: 0.265100  accuracy1: 0.923376 | loss2: 0.290447  accuracy2: 0.914591


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1593.98it/s]


Valid | loss1: 0.364511  accuracy1: 0.894153 | loss2: 0.352155  accuracy2: 0.899194
-------------
Epoch 27:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 629.61it/s]


Train | loss1: 0.263751  accuracy1: 0.923682 | loss2: 0.289070  accuracy2: 0.915008


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1594.02it/s]


Valid | loss1: 0.365495  accuracy1: 0.893649 | loss2: 0.352524  accuracy2: 0.899194
-------------
Epoch 28:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 635.29it/s]


Train | loss1: 0.262455  accuracy1: 0.924266 | loss2: 0.287748  accuracy2: 0.915453


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1726.77it/s]


Valid | loss1: 0.366477  accuracy1: 0.892893 | loss2: 0.352921  accuracy2: 0.899446
-------------
Epoch 29:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 630.86it/s]


Train | loss1: 0.261209  accuracy1: 0.924600 | loss2: 0.286478  accuracy2: 0.915897


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1554.17it/s]


Valid | loss1: 0.367456  accuracy1: 0.892893 | loss2: 0.353343  accuracy2: 0.898438
-------------
Epoch 30:



100%|███████████████████████████████████████████████████████████████████████████████| 562/562 [00:00<00:00, 629.61it/s]


Train | loss1: 0.260008  accuracy1: 0.924766 | loss2: 0.285256  accuracy2: 0.916315


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1593.96it/s]


Valid | loss1: 0.368430  accuracy1: 0.892389 | loss2: 0.353787  accuracy2: 0.898185


100%|████████████████████████████████████████████████████████████████████████████████| 62/62 [00:00<00:00, 1554.12it/s]


-------------
Test loss1: 0.400817  accuracy1: 0.892389  loss2: 0.374367   accuracy2: 0.893901


This model has first and second digit accuracies of 89.24% and 89.39%, respectively. Runtime was 38.6 seconds.

## Convolutional Model

*Complete the code **main** in **conv.py** to build a convolutional model. For this, you need to make use of `Conv2D` layers and `MaxPool2d` layers (and perhaps Dropout) in PyTorch. Make sure that the last layer of the neural network is a fully connected (Linear) layer.*

![CNN Architecture](CNN-example-block-diagram.jpg)

The CNN architecture is diagrammed above. It is modelled after the same architecture as [this tutorial](https://adventuresinmachinelearning.com/convolutional-neural-networks-tutorial-in-pytorch/), but modified to accommodate the overlapping digits as well as to use the helper functions provided by MIT.

In [None]:
class CNN(nn.Module):

    def __init__(self, input_dimension):
        super(CNN, self).__init__()
        self.layer1 = nn.Sequential(
            nn.Conv2d(1, 32, kernel_size=(5, 7), stride=1, padding=(2,3)),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=(2, 4), stride=(2, 3))
        self.layer2 = nn.Sequential(
            nn.Conv2d(32, 64, kernel_size=(5, 7), stride=1, padding=(2,3)),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=(2, 3), stride=2))
        self.drop_out = nn.Dropout()
        self.fc1 = nn.Linear(7 * 10 * 64, 1000)
        self.fc2 = nn.Linear(1000, 20)

    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.reshape(out.size(0), -1)
        out = self.drop_out(out)
        out = self.fc1(out)
        out = self.fc2(out)
        
        out_first_digit = out[:, 0:10]
        out_second_digit = out[:, 10:]

        return out_first_digit, out_second_digit

In [174]:
%run -i conv

-------------
Epoch 1:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.35it/s]


Train | loss1: 0.586273  accuracy1: 0.807245 | loss2: 0.645280  accuracy2: 0.781611


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 21.91it/s]


Valid | loss1: 0.181297  accuracy1: 0.942036 | loss2: 0.191528  accuracy2: 0.942036
-------------
Epoch 2:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.36it/s]


Train | loss1: 0.154962  accuracy1: 0.950400 | loss2: 0.208491  accuracy2: 0.930605


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 21.85it/s]


Valid | loss1: 0.125574  accuracy1: 0.959173 | loss2: 0.130962  accuracy2: 0.955393
-------------
Epoch 3:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.29it/s]


Train | loss1: 0.116085  accuracy1: 0.963301 | loss2: 0.152944  accuracy2: 0.947509


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 21.11it/s]


Valid | loss1: 0.099154  accuracy1: 0.965222 | loss2: 0.108946  accuracy2: 0.961190
-------------
Epoch 4:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.39it/s]


Train | loss1: 0.091363  accuracy1: 0.970502 | loss2: 0.121541  accuracy2: 0.959353


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.38it/s]


Valid | loss1: 0.074898  accuracy1: 0.976058 | loss2: 0.082824  accuracy2: 0.972278
-------------
Epoch 5:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.35it/s]


Train | loss1: 0.073952  accuracy1: 0.976006 | loss2: 0.105834  accuracy2: 0.964496


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 21.69it/s]


Valid | loss1: 0.069939  accuracy1: 0.977319 | loss2: 0.079217  accuracy2: 0.973538
-------------
Epoch 6:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.35it/s]


Train | loss1: 0.066719  accuracy1: 0.978119 | loss2: 0.092791  accuracy2: 0.968250


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.77it/s]


Valid | loss1: 0.071781  accuracy1: 0.976815 | loss2: 0.071417  accuracy2: 0.974798
-------------
Epoch 7:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.41it/s]


Train | loss1: 0.059524  accuracy1: 0.980483 | loss2: 0.084011  accuracy2: 0.970863


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.18it/s]


Valid | loss1: 0.056010  accuracy1: 0.981855 | loss2: 0.062415  accuracy2: 0.977319
-------------
Epoch 8:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.30it/s]


Train | loss1: 0.054386  accuracy1: 0.982540 | loss2: 0.075661  accuracy2: 0.974533


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.03it/s]


Valid | loss1: 0.063398  accuracy1: 0.978327 | loss2: 0.060497  accuracy2: 0.979839
-------------
Epoch 9:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.27it/s]


Train | loss1: 0.048382  accuracy1: 0.984736 | loss2: 0.069127  accuracy2: 0.975867


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.55it/s]


Valid | loss1: 0.058155  accuracy1: 0.980091 | loss2: 0.055950  accuracy2: 0.980847
-------------
Epoch 10:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.38it/s]


Train | loss1: 0.047396  accuracy1: 0.983319 | loss2: 0.064417  accuracy2: 0.977452


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.18it/s]


Valid | loss1: 0.052153  accuracy1: 0.983367 | loss2: 0.048946  accuracy2: 0.982359
-------------
Epoch 11:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.33it/s]


Train | loss1: 0.041161  accuracy1: 0.986599 | loss2: 0.059770  accuracy2: 0.979204


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.14it/s]


Valid | loss1: 0.054961  accuracy1: 0.983871 | loss2: 0.053456  accuracy2: 0.980343
-------------
Epoch 12:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.36it/s]


Train | loss1: 0.041225  accuracy1: 0.986432 | loss2: 0.055892  accuracy2: 0.980483


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 23.09it/s]


Valid | loss1: 0.050465  accuracy1: 0.984123 | loss2: 0.045349  accuracy2: 0.983367
-------------
Epoch 13:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.36it/s]


Train | loss1: 0.036486  accuracy1: 0.987711 | loss2: 0.055127  accuracy2: 0.980149


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.17it/s]


Valid | loss1: 0.050758  accuracy1: 0.984375 | loss2: 0.046686  accuracy2: 0.982107
-------------
Epoch 14:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.39it/s]


Train | loss1: 0.035414  accuracy1: 0.988323 | loss2: 0.051108  accuracy2: 0.982457


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.31it/s]


Valid | loss1: 0.054922  accuracy1: 0.981855 | loss2: 0.046016  accuracy2: 0.984375
-------------
Epoch 15:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.30it/s]


Train | loss1: 0.032244  accuracy1: 0.988935 | loss2: 0.047082  accuracy2: 0.983485


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.79it/s]


Valid | loss1: 0.049506  accuracy1: 0.984627 | loss2: 0.039916  accuracy2: 0.986643
-------------
Epoch 16:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.38it/s]


Train | loss1: 0.031853  accuracy1: 0.989129 | loss2: 0.045982  accuracy2: 0.983235


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.06it/s]


Valid | loss1: 0.045684  accuracy1: 0.985383 | loss2: 0.040609  accuracy2: 0.985635
-------------
Epoch 17:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.35it/s]


Train | loss1: 0.028787  accuracy1: 0.989491 | loss2: 0.042449  accuracy2: 0.985209


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 21.94it/s]


Valid | loss1: 0.048380  accuracy1: 0.985635 | loss2: 0.047443  accuracy2: 0.982611
-------------
Epoch 18:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.26it/s]


Train | loss1: 0.028880  accuracy1: 0.990408 | loss2: 0.040003  accuracy2: 0.985904


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 21.70it/s]


Valid | loss1: 0.047411  accuracy1: 0.985131 | loss2: 0.037047  accuracy2: 0.987399
-------------
Epoch 19:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.37it/s]


Train | loss1: 0.026921  accuracy1: 0.990881 | loss2: 0.041468  accuracy2: 0.985014


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 21.77it/s]


Valid | loss1: 0.046961  accuracy1: 0.985635 | loss2: 0.038640  accuracy2: 0.986643
-------------
Epoch 20:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.37it/s]


Train | loss1: 0.025762  accuracy1: 0.990992 | loss2: 0.037075  accuracy2: 0.987211


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.08it/s]


Valid | loss1: 0.040231  accuracy1: 0.988407 | loss2: 0.036506  accuracy2: 0.986391
-------------
Epoch 21:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.37it/s]


Train | loss1: 0.026609  accuracy1: 0.990714 | loss2: 0.037301  accuracy2: 0.986849


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.09it/s]


Valid | loss1: 0.049063  accuracy1: 0.985635 | loss2: 0.038566  accuracy2: 0.986643
-------------
Epoch 22:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.37it/s]


Train | loss1: 0.023931  accuracy1: 0.991353 | loss2: 0.034802  accuracy2: 0.987823


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.37it/s]


Valid | loss1: 0.042707  accuracy1: 0.986895 | loss2: 0.038539  accuracy2: 0.988407
-------------
Epoch 23:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.38it/s]


Train | loss1: 0.024903  accuracy1: 0.991159 | loss2: 0.031719  accuracy2: 0.988990


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.46it/s]


Valid | loss1: 0.043289  accuracy1: 0.987903 | loss2: 0.036051  accuracy2: 0.986895
-------------
Epoch 24:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.41it/s]


Train | loss1: 0.019703  accuracy1: 0.992744 | loss2: 0.033340  accuracy2: 0.987572


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.16it/s]


Valid | loss1: 0.047115  accuracy1: 0.986139 | loss2: 0.037841  accuracy2: 0.987399
-------------
Epoch 25:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.31it/s]


Train | loss1: 0.019852  accuracy1: 0.992938 | loss2: 0.032032  accuracy2: 0.988962


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.18it/s]


Valid | loss1: 0.046411  accuracy1: 0.986895 | loss2: 0.036891  accuracy2: 0.986643
-------------
Epoch 26:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.29it/s]


Train | loss1: 0.019100  accuracy1: 0.993466 | loss2: 0.030813  accuracy2: 0.989074


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.01it/s]


Valid | loss1: 0.036858  accuracy1: 0.989667 | loss2: 0.035615  accuracy2: 0.987651
-------------
Epoch 27:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.23it/s]


Train | loss1: 0.019963  accuracy1: 0.992605 | loss2: 0.029519  accuracy2: 0.989880


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.07it/s]


Valid | loss1: 0.044888  accuracy1: 0.987651 | loss2: 0.034572  accuracy2: 0.987651
-------------
Epoch 28:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.30it/s]


Train | loss1: 0.019150  accuracy1: 0.993800 | loss2: 0.026087  accuracy2: 0.990825


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.66it/s]


Valid | loss1: 0.042060  accuracy1: 0.987147 | loss2: 0.037911  accuracy2: 0.987399
-------------
Epoch 29:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.29it/s]


Train | loss1: 0.018515  accuracy1: 0.993216 | loss2: 0.027967  accuracy2: 0.989713


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.70it/s]


Valid | loss1: 0.045143  accuracy1: 0.988911 | loss2: 0.040728  accuracy2: 0.988659
-------------
Epoch 30:



100%|████████████████████████████████████████████████████████████████████████████████| 562/562 [01:28<00:00,  6.27it/s]


Train | loss1: 0.017875  accuracy1: 0.993856 | loss2: 0.025823  accuracy2: 0.990853


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.04it/s]


Valid | loss1: 0.038975  accuracy1: 0.987903 | loss2: 0.034628  accuracy2: 0.988155


100%|██████████████████████████████████████████████████████████████████████████████████| 62/62 [00:02<00:00, 22.29it/s]


Test loss1: 0.049754  accuracy1: 0.986895  loss2: 0.048650   accuracy2: 0.983619


This was a fairly complex model, so the runtime without GPU acceleration was very long (45 minutes 59 seconds). However, the model performs very well at classifying both overlapped digits, with a test accuracy of 98.69% for the first digit and 98.36% for the second digit!

# Conclusions and What's Next
In this project, we manually implemented a basic 3 layer neural network. After successfull testing, we used the PyTorch framework to more easily build neural networks.

We began with the most basic form of a deep neural network, which consisted of fully connected layers of neurons. We attempted to improve accuracy by performing a "mini" grid search over hyperparameters, changing batch size, learning rate, momentum, and the hidden layer activation function. Adjusting the batch size resulted in the highest validation and test accuracy with 0.940020 and	0.931490, respectively, compared to the baseline network's 0.932487	and 0.920472.

We then changed the network architecture by increasing the number of nodes in the hidden layer from 10 to 128. This increased the baseline accuracies to 0.977941 and 0.977163. After performing the same mini grid search, we found that batch size no longer provided the best model, but the LeakyReLU activation, with 0.978108 and	0.977664 validation/test accuracies.

As the last assignment for the single digit MNIST classification, we built a convolutional neural network using PyTorch, which achieved a test accuracy of 0.990485.

Finally, we expanded our CNN to tackle the overlapping, multi-digit MNIST problem. This problem showcased versatility of deep neural networks - simply by changing the output layer, we were able to train the network to a different problem. 

We began by building a fully connected network to solve the problem. This model had first- and second- digit accuracies of 89.24% and 89.39% respectively, and a runtime of only 38.6 seconds.

We then applied a CNN to this problem which was much more complex - taking 46 minutes to complete 30 epochs. However, it performed remarkably well, achieving a test accuracy of 98.69% and 98.36%.

For future work, we will implement the same models with GPU acceleration.