In [1]:
import sys
sys.path.append("..")

import time
import numpy as np
import matplotlib.pyplot as plt

import torch
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import torch.nn.functional as F

import torch.nn as nn

import seaborn as sns # conda install seaborn
import pandas as pd # ^^ this will automatically install pandas

import pyro
from pyro.infer.mcmc import MCMC
import pyro.distributions as dist

from kernel.sghmc import SGHMC
from kernel.sgld import SGLD
from kernel.sgd import SGD
from kernel.sgnuts import NUTS as SGNUTS

pyro.set_rng_seed(101)

plt.rcParams['figure.dpi'] = 300

In [2]:
assert torch.cuda.is_available()
device = torch.device("cuda" if torch.cuda.is_available() else "cpu" )

In [3]:
# Simple dataset wrapper class

class Dataset(torch.utils.data.Dataset):
    def __init__(self, data, targets):
        self.data = data
        self.targets = targets
        
    def __len__(self):
        return(len(self.data))
    
    def __getitem__(self, idx):
        return self.data[idx], self.targets[idx]

### Hyperparams

In [4]:
BATCH_SIZE = 500
NUM_EPOCHS = 800
WARMUP_EPOCHS = 150
HIDDEN_SIZE = 100

### Download CIFAR10 and setup datasets / dataloaders

In [5]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

train_dataset = datasets.CIFAR10('./data', train=True, download=True)

val_dataset = datasets.CIFAR10('./data', train=False, download=True)
    
mean = np.array([0.4912, 0.4823, 0.4468])
std = np.array([0.2470, 0.2435, 0.2616])

# scale the datasets
X_train = torch.FloatTensor(train_dataset.data / 255.0)
X_train = torch.reshape(X_train, (len(X_train), 3, 32, 32))
Y_train = torch.LongTensor(train_dataset.targets)

X_val = torch.FloatTensor(val_dataset.data / 255.0)
X_val = torch.reshape(X_val, (len(X_val), 3, 32, 32))
Y_val = torch.LongTensor(val_dataset.targets)

# redefine the datasets
train_dataset = Dataset(X_train, Y_train)
val_dataset = Dataset(X_val, Y_val)

# setup the dataloaders
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False)

Files already downloaded and verified
Files already downloaded and verified


### Define the Convolutional Bayesian neural network  model

In [6]:
PyroLinear = pyro.nn.PyroModule[torch.nn.Linear]
    
class CBNN(pyro.nn.PyroModule):
    
    def __init__(self, n_channels, hidden_size, output_size, prec=1., device='cpu'):
        super().__init__()
        # prec is a kwarg that should only used by SGD to set the regularization strength 
        # recall that a Guassian prior over the weights is equivalent to L2 norm regularization in the non-Bayes setting
        
        # TODO add gamma priors to precision terms
        
        self.n_channels = n_channels
        self.device = device
        
        self.conv1 = nn.Conv2d(3, n_channels, kernel_size=3, padding=1)
        self.conv1_batchnorm = nn.BatchNorm2d(num_features=n_channels)
        self.conv2 = nn.Conv2d(n_channels, n_channels//2, kernel_size=3, padding=1)
        self.conv2_batchnorm = nn.BatchNorm2d(num_features=n_channels//2)
        
        self.fc1 = PyroLinear(8 * 8 * n_channels // 2, hidden_size)
        
        self.fc1_w_loc = torch.zeros((hidden_size, 8 * 8 * n_channels//2), device=self.device)
        self.fc1_w_scale = torch.ones((hidden_size, 8 * 8 * n_channels//2), device=self.device) * prec
        
        self.fc1_b_loc = torch.zeros((hidden_size), device=self.device)
        self.fc1_b_scale = torch.ones((hidden_size), device=self.device) * prec
        
        self.fc1.weight = pyro.nn.PyroSample(dist.Normal(self.fc1_w_loc, self.fc1_w_scale).to_event(2))
        self.fc1.bias   = pyro.nn.PyroSample(dist.Normal(self.fc1_b_loc, self.fc1_b_scale).to_event(1))
        
        self.fc2 = PyroLinear(hidden_size, output_size)
        
        self.fc2_w_loc = torch.zeros((output_size, hidden_size), device=self.device)
        self.fc2_w_scale = torch.ones((output_size, hidden_size), device=self.device) * prec
        
        self.fc2_b_loc = torch.zeros((output_size), device=self.device)
        self.fc2_b_scale = torch.ones((output_size), device=self.device) * prec
        
        self.fc2.weight = pyro.nn.PyroSample(dist.Normal(self.fc2_w_loc, self.fc2_w_scale).to_event(2))
        self.fc2.bias   = pyro.nn.PyroSample(dist.Normal(self.fc2_b_loc, self.fc2_b_scale).to_event(1))
        
        self.log_softmax = torch.nn.LogSoftmax(dim=1)

    def forward(self, x, y=None):
        x = x.to(self.device)
        x = self.conv1_batchnorm(self.conv1(x))
        x = F.max_pool2d(torch.tanh(x), 2)
        x = self.conv2_batchnorm(self.conv2(x))
        x = F.max_pool2d(torch.tanh(x), 2)
        x = x.view(-1, 8 * 8 * self.n_channels//2)
        
        x = torch.tanh(self.fc1(x))
        x = self.fc2(x)
        x = self.log_softmax(x)# output (log) softmax probabilities of each class
        
        if y is not None:
            y = y.to(self.device)
            
        with pyro.plate("data", x.shape[0]):
            obs = pyro.sample("obs", dist.Categorical(logits=x), obs=y)

### Deeper model

*Experimental* doesn't seem to work well at the moment.

In [7]:
PyroLinear = pyro.nn.PyroModule[torch.nn.Linear]
    
class deep_CBNN(pyro.nn.PyroModule):
    
    def __init__(self, output_size, prec=1., device='cpu'):
        super().__init__()
        # prec is a kwarg that should only used by SGD to set the regularization strength 
        # recall that a Guassian prior over the weights is equivalent to L2 norm regularization in the non-Bayes setting
        
        # TODO add gamma priors to precision terms
        self.device = device
        
        self.conv1 = nn.Conv2d(3, 32, 3)
        self.conv1_batchnorm = nn.BatchNorm2d(num_features=32)
        self.conv2 = nn.Conv2d(32, 64, 3)
        self.conv2_batchnorm = nn.BatchNorm2d(num_features=64)
        self.conv3 = nn.Conv2d(64, 128, 3)
        self.conv3_batchnorm = nn.BatchNorm2d(num_features=128)
        self.pool = nn.MaxPool2d(2, 2)
        
        self.fc1 = PyroLinear(128 * 2 * 2, 128)
        
        self.fc1_w_loc = torch.zeros((128, 128 * 2 * 2), device=self.device)
        self.fc1_w_scale = torch.ones((128, 128 * 2 * 2), device=self.device) * prec
        
        self.fc1_b_loc = torch.zeros((128), device=self.device)
        self.fc1_b_scale = torch.ones((128), device=self.device) * prec
        
        self.fc1.weight = pyro.nn.PyroSample(dist.Normal(self.fc1_w_loc, self.fc1_w_scale).to_event(2))
        self.fc1.bias   = pyro.nn.PyroSample(dist.Normal(self.fc1_b_loc, self.fc1_b_scale).to_event(1))
        
        self.fc2 = PyroLinear(128, 64)
        
        self.fc2_w_loc = torch.zeros((64, 128), device=self.device)
        self.fc2_w_scale = torch.ones((64, 128), device=self.device) * prec
        
        self.fc2_b_loc = torch.zeros((64), device=self.device)
        self.fc2_b_scale = torch.ones((64), device=self.device) * prec
        
        self.fc2.weight = pyro.nn.PyroSample(dist.Normal(self.fc2_w_loc, self.fc2_w_scale).to_event(2))
        self.fc2.bias   = pyro.nn.PyroSample(dist.Normal(self.fc2_b_loc, self.fc2_b_scale).to_event(1))
        
        self.fc3 = PyroLinear(64, 32)
        
        self.fc3_w_loc = torch.zeros((32, 64), device=self.device)
        self.fc3_w_scale = torch.ones((32, 64), device=self.device) * prec
        
        self.fc3_b_loc = torch.zeros((32), device=self.device)
        self.fc3_b_scale = torch.ones((32), device=self.device) * prec
        
        self.fc3.weight = pyro.nn.PyroSample(dist.Normal(self.fc3_w_loc, self.fc3_w_scale).to_event(2))
        self.fc3.bias   = pyro.nn.PyroSample(dist.Normal(self.fc3_b_loc, self.fc3_b_scale).to_event(1))
        
        self.fc4 = PyroLinear(32, output_size)
        
        self.fc4_w_loc = torch.zeros((output_size, 32), device=self.device)
        self.fc4_w_scale = torch.ones((output_size, 32), device=self.device) * prec
        
        self.fc4_b_loc = torch.zeros((output_size), device=self.device)
        self.fc4_b_scale = torch.ones((output_size), device=self.device) * prec
        
        self.fc4.weight = pyro.nn.PyroSample(dist.Normal(self.fc4_w_loc, self.fc4_w_scale).to_event(2))
        self.fc4.bias   = pyro.nn.PyroSample(dist.Normal(self.fc4_b_loc, self.fc4_b_scale).to_event(1))
        
        self.log_softmax = torch.nn.LogSoftmax(dim=1)

    def forward(self, x, y=None):
        x = x.to(self.device)
        x = self.conv1_batchnorm(self.conv1(x))
        x = self.pool(torch.tanh(x))
        x = self.conv2_batchnorm(self.conv2(x))
        x = self.pool(torch.tanh(x))
        x = self.conv3_batchnorm(self.conv3(x))
        x = self.pool(torch.tanh(x))
        x = x.view(-1, 128 * 2 * 2)
        
        x = torch.tanh(self.fc1(x))
        x = torch.tanh(self.fc2(x))
        x = torch.tanh(self.fc3(x))
        x = self.fc4(x)
        x = self.log_softmax(x)# output (log) softmax probabilities of each class
        
        if y is not None:
            y = y.to(self.device)
            
        with pyro.plate("data", x.shape[0]):
            obs = pyro.sample("obs", dist.Categorical(logits=x), obs=y)

### Run SGHMC 

We run SGHMC to sample approximately from the posterior distribution.

In [8]:
LR = 1e-6
MOMENTUM_DECAY = 0.01
RESAMPLE_EVERY_N = 0
NUM_STEPS = 1

pyro.clear_param_store()

bnn = CBNN(32, HIDDEN_SIZE, 10, device=device).to(device)
# bnn = deep_CBNN(10, device=device).to(device)

sghmc = SGHMC(bnn,
              subsample_positions=[0, 1],
              batch_size=BATCH_SIZE,
              learning_rate=LR,
              momentum_decay=MOMENTUM_DECAY,
              num_steps=NUM_STEPS,
              resample_every_n=RESAMPLE_EVERY_N,
              device=device)

sghmc_mcmc = MCMC(sghmc, num_samples=len(train_dataset)//BATCH_SIZE, warmup_steps=0, mp_context="spawn")

sghmc_test_errs = []

# full posterior predictive 
full_predictive = torch.FloatTensor(10000, 10)
full_predictive.zero_()

for epoch in range(1, 1+NUM_EPOCHS + WARMUP_EPOCHS):
    bnn.train()
    sghmc_mcmc.run(X_train, Y_train)
    
    if epoch >= WARMUP_EPOCHS:
        
        sghmc_samples = sghmc_mcmc.get_samples()
        bnn.eval()
        predictive = pyro.infer.Predictive(bnn, posterior_samples=sghmc_samples)
        start = time.time()
        
        with torch.no_grad():
            epoch_predictive = None
            for x, y in val_loader:
                if epoch_predictive is None:
                    epoch_predictive = predictive(x)['obs'].to(torch.int64)
                else:
                    epoch_predictive = torch.cat((epoch_predictive, predictive(x)['obs'].to(torch.int64)), dim=1)
        
            epoch_predictive = epoch_predictive.cpu()
            
            for sample in epoch_predictive:
                predictive_one_hot = F.one_hot(sample, num_classes=10)
                full_predictive = full_predictive + predictive_one_hot
                
            full_y_hat = torch.argmax(full_predictive, dim=1)
            total = Y_val.shape[0]
            correct = int((full_y_hat == Y_val).sum())
            
        end = time.time()
        
        sghmc_test_errs.append(1.0 - correct/total)

        print("Epoch [{}/{}] test accuracy: {:.4f} time: {:.2f}".format(epoch-WARMUP_EPOCHS, NUM_EPOCHS, correct/total, end - start))

Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:05, 17.51it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.52it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.20it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.50it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.24it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.55it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.06it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.70it/s, lr=1.00e-06]
Sample: 100%|███████████████████████████

Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.33it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.09it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.98it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.09it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.07it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.87it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.09it/s, lr=1.00e-06]
Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.35it/s, lr=1.00e-06]
Sample: 100%|███████████████████████████

Epoch [0/800] test accuracy: 0.3867 time: 14.81


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.48it/s, lr=1.00e-06]


Epoch [1/800] test accuracy: 0.3910 time: 14.86


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.86it/s, lr=1.00e-06]


Epoch [2/800] test accuracy: 0.3890 time: 14.81


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.33it/s, lr=1.00e-06]


Epoch [3/800] test accuracy: 0.3905 time: 14.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.40it/s, lr=1.00e-06]


Epoch [4/800] test accuracy: 0.3910 time: 15.14


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.00it/s, lr=1.00e-06]


Epoch [5/800] test accuracy: 0.3939 time: 14.90


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.67it/s, lr=1.00e-06]


Epoch [6/800] test accuracy: 0.3952 time: 14.81


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.31it/s, lr=1.00e-06]


Epoch [7/800] test accuracy: 0.3955 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.03it/s, lr=1.00e-06]


Epoch [8/800] test accuracy: 0.3929 time: 14.81


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.40it/s, lr=1.00e-06]


Epoch [9/800] test accuracy: 0.3948 time: 14.86


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.50it/s, lr=1.00e-06]


Epoch [10/800] test accuracy: 0.3961 time: 15.00


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.80it/s, lr=1.00e-06]


Epoch [11/800] test accuracy: 0.3957 time: 15.17


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.22it/s, lr=1.00e-06]


Epoch [12/800] test accuracy: 0.3963 time: 14.90


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.31it/s, lr=1.00e-06]


Epoch [13/800] test accuracy: 0.3959 time: 14.83


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.26it/s, lr=1.00e-06]


Epoch [14/800] test accuracy: 0.3966 time: 14.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.37it/s, lr=1.00e-06]


Epoch [15/800] test accuracy: 0.3972 time: 15.45


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:04, 23.32it/s, lr=1.00e-06]


Epoch [16/800] test accuracy: 0.3972 time: 15.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.50it/s, lr=1.00e-06]


Epoch [17/800] test accuracy: 0.3979 time: 16.03


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.17it/s, lr=1.00e-06]


Epoch [18/800] test accuracy: 0.3973 time: 15.70


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.96it/s, lr=1.00e-06]


Epoch [19/800] test accuracy: 0.3980 time: 15.44


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.68it/s, lr=1.00e-06]


Epoch [20/800] test accuracy: 0.3982 time: 15.50


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.15it/s, lr=1.00e-06]


Epoch [21/800] test accuracy: 0.3983 time: 15.38


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.38it/s, lr=1.00e-06]


Epoch [22/800] test accuracy: 0.3978 time: 15.20


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.96it/s, lr=1.00e-06]


Epoch [23/800] test accuracy: 0.3984 time: 15.31


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.94it/s, lr=1.00e-06]


Epoch [24/800] test accuracy: 0.3984 time: 15.08


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.23it/s, lr=1.00e-06]


Epoch [25/800] test accuracy: 0.3978 time: 15.18


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.18it/s, lr=1.00e-06]


Epoch [26/800] test accuracy: 0.3971 time: 15.10


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.25it/s, lr=1.00e-06]


Epoch [27/800] test accuracy: 0.3966 time: 15.44


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.80it/s, lr=1.00e-06]


Epoch [28/800] test accuracy: 0.3966 time: 15.05


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.41it/s, lr=1.00e-06]


Epoch [29/800] test accuracy: 0.3966 time: 15.07


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.84it/s, lr=1.00e-06]


Epoch [30/800] test accuracy: 0.3956 time: 15.33


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.29it/s, lr=1.00e-06]


Epoch [31/800] test accuracy: 0.3954 time: 14.94


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.94it/s, lr=1.00e-06]


Epoch [32/800] test accuracy: 0.3959 time: 15.18


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.18it/s, lr=1.00e-06]


Epoch [33/800] test accuracy: 0.3964 time: 15.15


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.82it/s, lr=1.00e-06]


Epoch [34/800] test accuracy: 0.3981 time: 15.09


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.51it/s, lr=1.00e-06]


Epoch [35/800] test accuracy: 0.3976 time: 15.35


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.48it/s, lr=1.00e-06]


Epoch [36/800] test accuracy: 0.3985 time: 15.20


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.83it/s, lr=1.00e-06]


Epoch [37/800] test accuracy: 0.3986 time: 15.25


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.11it/s, lr=1.00e-06]


Epoch [38/800] test accuracy: 0.3979 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.55it/s, lr=1.00e-06]


Epoch [39/800] test accuracy: 0.3986 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.78it/s, lr=1.00e-06]


Epoch [40/800] test accuracy: 0.3984 time: 14.77


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.35it/s, lr=1.00e-06]


Epoch [41/800] test accuracy: 0.3979 time: 14.98


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.23it/s, lr=1.00e-06]


Epoch [42/800] test accuracy: 0.3977 time: 15.08


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.88it/s, lr=1.00e-06]


Epoch [43/800] test accuracy: 0.3989 time: 14.98


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.06it/s, lr=1.00e-06]


Epoch [44/800] test accuracy: 0.3986 time: 14.83


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.39it/s, lr=1.00e-06]


Epoch [45/800] test accuracy: 0.3986 time: 14.82


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.67it/s, lr=1.00e-06]


Epoch [46/800] test accuracy: 0.3989 time: 14.85


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.31it/s, lr=1.00e-06]


Epoch [47/800] test accuracy: 0.3990 time: 14.85


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.26it/s, lr=1.00e-06]


Epoch [48/800] test accuracy: 0.4002 time: 14.91


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.92it/s, lr=1.00e-06]


Epoch [49/800] test accuracy: 0.4003 time: 15.07


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.43it/s, lr=1.00e-06]


Epoch [50/800] test accuracy: 0.4010 time: 14.94


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.86it/s, lr=1.00e-06]


Epoch [51/800] test accuracy: 0.4006 time: 14.77


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.30it/s, lr=1.00e-06]


Epoch [52/800] test accuracy: 0.4008 time: 14.82


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.49it/s, lr=1.00e-06]


Epoch [53/800] test accuracy: 0.4001 time: 14.85


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.83it/s, lr=1.00e-06]


Epoch [54/800] test accuracy: 0.3998 time: 14.83


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.32it/s, lr=1.00e-06]


Epoch [55/800] test accuracy: 0.3997 time: 15.13


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.05it/s, lr=1.00e-06]


Epoch [56/800] test accuracy: 0.3996 time: 14.90


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.11it/s, lr=1.00e-06]


Epoch [57/800] test accuracy: 0.4005 time: 14.89


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.50it/s, lr=1.00e-06]


Epoch [58/800] test accuracy: 0.4007 time: 15.54


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.90it/s, lr=1.00e-06]


Epoch [59/800] test accuracy: 0.4010 time: 15.39


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.18it/s, lr=1.00e-06]


Epoch [60/800] test accuracy: 0.4000 time: 15.23


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.75it/s, lr=1.00e-06]


Epoch [61/800] test accuracy: 0.4002 time: 15.59


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.30it/s, lr=1.00e-06]


Epoch [62/800] test accuracy: 0.4007 time: 15.51


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.83it/s, lr=1.00e-06]


Epoch [63/800] test accuracy: 0.4011 time: 15.46


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.34it/s, lr=1.00e-06]


Epoch [64/800] test accuracy: 0.4013 time: 14.85


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.69it/s, lr=1.00e-06]


Epoch [65/800] test accuracy: 0.4012 time: 14.78


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.76it/s, lr=1.00e-06]


Epoch [66/800] test accuracy: 0.4006 time: 14.77


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.58it/s, lr=1.00e-06]


Epoch [67/800] test accuracy: 0.4003 time: 14.92


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.85it/s, lr=1.00e-06]


Epoch [68/800] test accuracy: 0.4005 time: 15.04


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.04it/s, lr=1.00e-06]


Epoch [69/800] test accuracy: 0.4003 time: 14.78


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.34it/s, lr=1.00e-06]


Epoch [70/800] test accuracy: 0.4003 time: 14.77


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.43it/s, lr=1.00e-06]


Epoch [71/800] test accuracy: 0.4005 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.18it/s, lr=1.00e-06]


Epoch [72/800] test accuracy: 0.4006 time: 14.86


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.37it/s, lr=1.00e-06]


Epoch [73/800] test accuracy: 0.4003 time: 15.13


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.58it/s, lr=1.00e-06]


Epoch [74/800] test accuracy: 0.4003 time: 15.16


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.58it/s, lr=1.00e-06]


Epoch [75/800] test accuracy: 0.4012 time: 15.14


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.85it/s, lr=1.00e-06]


Epoch [76/800] test accuracy: 0.4009 time: 14.71


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.25it/s, lr=1.00e-06]


Epoch [77/800] test accuracy: 0.4004 time: 14.84


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.37it/s, lr=1.00e-06]


Epoch [78/800] test accuracy: 0.4000 time: 14.74


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.24it/s, lr=1.00e-06]


Epoch [79/800] test accuracy: 0.4002 time: 14.74


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.85it/s, lr=1.00e-06]


Epoch [80/800] test accuracy: 0.4000 time: 14.88


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.54it/s, lr=1.00e-06]


Epoch [81/800] test accuracy: 0.4003 time: 15.13


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.91it/s, lr=1.00e-06]


Epoch [82/800] test accuracy: 0.4001 time: 14.81


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.97it/s, lr=1.00e-06]


Epoch [83/800] test accuracy: 0.4008 time: 14.82


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.03it/s, lr=1.00e-06]


Epoch [84/800] test accuracy: 0.4009 time: 14.76


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.47it/s, lr=1.00e-06]


Epoch [85/800] test accuracy: 0.4002 time: 14.75


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.05it/s, lr=1.00e-06]


Epoch [86/800] test accuracy: 0.4001 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.26it/s, lr=1.00e-06]


Epoch [87/800] test accuracy: 0.3999 time: 15.13


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.81it/s, lr=1.00e-06]


Epoch [88/800] test accuracy: 0.3998 time: 14.92


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.29it/s, lr=1.00e-06]


Epoch [89/800] test accuracy: 0.3992 time: 14.78


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.29it/s, lr=1.00e-06]


Epoch [90/800] test accuracy: 0.3994 time: 14.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.86it/s, lr=1.00e-06]


Epoch [91/800] test accuracy: 0.3997 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.08it/s, lr=1.00e-06]


Epoch [92/800] test accuracy: 0.3999 time: 14.78


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.29it/s, lr=1.00e-06]


Epoch [93/800] test accuracy: 0.4001 time: 14.92


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.96it/s, lr=1.00e-06]


Epoch [94/800] test accuracy: 0.3999 time: 15.19


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.90it/s, lr=1.00e-06]


Epoch [95/800] test accuracy: 0.3997 time: 14.75


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.33it/s, lr=1.00e-06]


Epoch [96/800] test accuracy: 0.3997 time: 14.74


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.50it/s, lr=1.00e-06]


Epoch [97/800] test accuracy: 0.4008 time: 14.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.52it/s, lr=1.00e-06]


Epoch [98/800] test accuracy: 0.4014 time: 14.77


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.22it/s, lr=1.00e-06]


Epoch [99/800] test accuracy: 0.4014 time: 14.75


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.30it/s, lr=1.00e-06]


Epoch [100/800] test accuracy: 0.4018 time: 15.06


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.85it/s, lr=1.00e-06]


Epoch [101/800] test accuracy: 0.4021 time: 14.86


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.06it/s, lr=1.00e-06]


Epoch [102/800] test accuracy: 0.4018 time: 14.71


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.45it/s, lr=1.00e-06]


Epoch [103/800] test accuracy: 0.4019 time: 14.71


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.43it/s, lr=1.00e-06]


Epoch [104/800] test accuracy: 0.4019 time: 14.82


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.27it/s, lr=1.00e-06]


Epoch [105/800] test accuracy: 0.4021 time: 14.74


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.41it/s, lr=1.00e-06]


Epoch [106/800] test accuracy: 0.4013 time: 14.90


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.77it/s, lr=1.00e-06]


Epoch [107/800] test accuracy: 0.4016 time: 15.09


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.22it/s, lr=1.00e-06]


Epoch [108/800] test accuracy: 0.4020 time: 14.88


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.38it/s, lr=1.00e-06]


Epoch [109/800] test accuracy: 0.4019 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.08it/s, lr=1.00e-06]


Epoch [110/800] test accuracy: 0.4025 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.31it/s, lr=1.00e-06]


Epoch [111/800] test accuracy: 0.4027 time: 14.71


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.08it/s, lr=1.00e-06]


Epoch [112/800] test accuracy: 0.4028 time: 14.77


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.80it/s, lr=1.00e-06]


Epoch [113/800] test accuracy: 0.4031 time: 15.06


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.66it/s, lr=1.00e-06]


Epoch [114/800] test accuracy: 0.4035 time: 14.89


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.91it/s, lr=1.00e-06]


Epoch [115/800] test accuracy: 0.4039 time: 14.75


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.85it/s, lr=1.00e-06]


Epoch [116/800] test accuracy: 0.4041 time: 14.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.95it/s, lr=1.00e-06]


Epoch [117/800] test accuracy: 0.4038 time: 14.78


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.91it/s, lr=1.00e-06]


Epoch [118/800] test accuracy: 0.4036 time: 14.79


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.32it/s, lr=1.00e-06]


Epoch [119/800] test accuracy: 0.4037 time: 14.89


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.76it/s, lr=1.00e-06]


Epoch [120/800] test accuracy: 0.4041 time: 15.04


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.77it/s, lr=1.00e-06]


Epoch [121/800] test accuracy: 0.4038 time: 14.87


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.19it/s, lr=1.00e-06]


Epoch [122/800] test accuracy: 0.4035 time: 14.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.18it/s, lr=1.00e-06]


Epoch [123/800] test accuracy: 0.4037 time: 14.76


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.99it/s, lr=1.00e-06]


Epoch [124/800] test accuracy: 0.4035 time: 14.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.91it/s, lr=1.00e-06]


Epoch [125/800] test accuracy: 0.4032 time: 14.82


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.85it/s, lr=1.00e-06]


Epoch [126/800] test accuracy: 0.4035 time: 15.08


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.65it/s, lr=1.00e-06]


Epoch [127/800] test accuracy: 0.4037 time: 14.86


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.19it/s, lr=1.00e-06]


Epoch [128/800] test accuracy: 0.4039 time: 14.84


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.98it/s, lr=1.00e-06]


Epoch [129/800] test accuracy: 0.4048 time: 14.81


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.46it/s, lr=1.00e-06]


Epoch [130/800] test accuracy: 0.4046 time: 14.87


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.61it/s, lr=1.00e-06]


Epoch [131/800] test accuracy: 0.4042 time: 14.80


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.17it/s, lr=1.00e-06]


Epoch [132/800] test accuracy: 0.4035 time: 15.48


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 25.84it/s, lr=1.00e-06]


Epoch [133/800] test accuracy: 0.4033 time: 15.67


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.06it/s, lr=1.00e-06]


Epoch [134/800] test accuracy: 0.4034 time: 15.25


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.17it/s, lr=1.00e-06]


Epoch [135/800] test accuracy: 0.4040 time: 15.38


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.32it/s, lr=1.00e-06]


Epoch [136/800] test accuracy: 0.4037 time: 15.24


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.28it/s, lr=1.00e-06]


Epoch [137/800] test accuracy: 0.4036 time: 14.98


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.51it/s, lr=1.00e-06]


Epoch [138/800] test accuracy: 0.4032 time: 15.01


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 27.22it/s, lr=1.00e-06]


Epoch [139/800] test accuracy: 0.4035 time: 15.76


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 26.24it/s, lr=1.00e-06]


KeyboardInterrupt: 

In [None]:
sns.set_style("dark")
    
sghmc_test_errs = np.array(sghmc_test_errs)

err_dict = {'SGHMC' : sghmc_test_errs}
x = np.arange(1, NUM_EPOCHS+1)
lst = []
for i in range(len(x)):
    for updater in err_dict.keys():
        lst.append([x[i], updater, err_dict[updater][i]])

df = pd.DataFrame(lst, columns=['iterations', 'updater','test error'])
sns.lineplot(data=df.pivot("iterations", "updater", "test error"))
plt.ylabel("test error")
plt.show() #dpi=300