In [14]:
import sys
sys.path.append("..")

import numpy as np
import matplotlib.pyplot as plt

import torch
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import torch.nn.functional as F

import pyro
from pyro.infer.mcmc import MCMC
import pyro.distributions as dist

from kernel.sghmc import SGHMC
from kernel.sgld import SGLD
from kernel.sgd import SGD

pyro.set_rng_seed(101)

In [2]:
class Dataset(torch.utils.data.Dataset):
    def __init__(self, data, targets):
        self.data = data
        self.targets = targets
        
    def __len__(self):
        return(len(self.data))
    
    def __getitem__(self, idx):
        return self.data[idx], self.targets[idx]

In [3]:
BATCH_SIZE = 500
NUM_EPOCHS = 800
WARMUP_EPOCHS = 50

In [4]:
train_dataset = datasets.MNIST('./data', train=True, download=True)

test_dataset = datasets.MNIST('./data', train=False, download=True)

perm = torch.randperm(len(train_dataset))
train_idx = perm[:len(train_dataset)*5//6]
val_idx = perm[len(train_dataset)*5//6:]
    
mean = 0.1307
std = 0.3081

# scale and normalise the datasets
X_train = train_dataset.data[train_idx] / 255.0
Y_train = train_dataset.targets[train_idx]

X_val = train_dataset.data[val_idx] / 255.0 
Y_val = train_dataset.targets[val_idx]

X_test = (test_dataset.data / 255.0 - mean) / std
Y_test = test_dataset.targets

# redefine the datasets
train_dataset = Dataset(X_train, Y_train)
val_dataset = Dataset(X_val, Y_val)
test_dataset = Dataset(X_test, Y_test)

# setup the dataloaders
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)

In [5]:
PyroLinear = pyro.nn.PyroModule[torch.nn.Linear]
    
class BNN(pyro.nn.PyroModule):
    
    def __init__(self, input_size, hidden_size, output_size, prec=1.):
        super().__init__()
        # prec is a kwarg that should only used by SGD to set the regularization strength 
        # recall that a Guassian prior over the weights is equivalent to L2 norm regularization in the non-Bayes setting
        
        # TODO add gamma priors to precision terms
        self.fc1 = PyroLinear(input_size, hidden_size)
        self.fc1.weight = pyro.nn.PyroSample(dist.Normal(0., prec).expand([hidden_size, input_size]).to_event(2))
        self.fc1.bias   = pyro.nn.PyroSample(dist.Normal(0., prec).expand([hidden_size]).to_event(1))
        
        self.fc2 = PyroLinear(hidden_size, output_size)
        self.fc2.weight = pyro.nn.PyroSample(dist.Normal(0., prec).expand([output_size, hidden_size]).to_event(2))
        self.fc2.bias   = pyro.nn.PyroSample(dist.Normal(0., prec).expand([output_size]).to_event(1))
        
        self.relu = torch.nn.ReLU()
        self.log_softmax = torch.nn.LogSoftmax(dim=1)

    def forward(self, x, y=None):
        x = x.view(-1, 28*28)
        x = self.relu(self.fc1(x))
        x = self.fc2(x)
        x = self.log_softmax(x)# output (log) softmax probabilities of each class
        
        with pyro.plate("data", x.shape[0]):
            obs = pyro.sample("obs", dist.Categorical(logits=x), obs=y)

In [6]:
LR = 2e-6
MOMENTUM_DECAY = 0.01
NUM_STEPS = 1

bnn = BNN(28*28, 100, 10)

sghmc = SGHMC(bnn,
              subsample_positions=[0, 1],
              batch_size=BATCH_SIZE,
              learning_rate=LR,
              momentum_decay=MOMENTUM_DECAY,
              num_steps=NUM_STEPS)

sghmc_mcmc = MCMC(sghmc, num_samples=len(train_dataset)//BATCH_SIZE, warmup_steps=0)
# full posterior predictive 
full_predictive = torch.FloatTensor(10000, 10)
full_predictive.zero_()

for epoch in range(1+NUM_EPOCHS + WARMUP_EPOCHS):
    sghmc_mcmc.run(X_train, Y_train)
    
    if epoch >= WARMUP_EPOCHS:
        
        sghmc_samples = sghmc_mcmc.get_samples()
        predictive = pyro.infer.Predictive(bnn, posterior_samples=sghmc_samples)
        start = time.time()
        
        with torch.no_grad():
            epoch_predictive = None
            for x, y in val_loader:
                if epoch_predictive is None:
                    epoch_predictive = predictive(x)['obs'].to(torch.int8)
                else:
                    epoch_predictive = torch.cat((epoch_predictive, predictive(x)['obs'].to(torch.int8)), dim=1)
                    
            for sample in epoch_predictive:
                predictive_one_hot = F.one_hot(sample, num_classes=10)
                full_predictive = full_predictive + predictive_one_hot
                
            full_y_hat = torch.argmax(full_predictive, dim=1)
            total = Y_val.shape[0]
            correct = int((full_y_hat == Y_val).sum())
            
        end = time.time()

        print("Epoch [{}/{}] test accuracy: {:.4f} time: {:.2f}".format(epoch-WARMUP_EPOCHS, NUM_EPOCHS, correct/total, end - start))

Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:03, 29.39it/s, lr=2.00e-06]
Sample:  45%|█████████████████████████████▋                                    | 45/100 [00:01, 50.08it/s, lr=2.00e-06]

KeyboardInterrupt: 

In [19]:
import time

LR = 2e-5
NOISE_RATE = 4e-5
NUM_STEPS = 1

bnn = BNN(28*28, 100, 10)

sgld = SGLD(bnn,
            subsample_positions=[0, 1],
            batch_size=BATCH_SIZE,
            learning_rate=LR,
            noise_rate=NOISE_RATE,
            num_steps=NUM_STEPS)

sgld_mcmc = MCMC(sgld, num_samples=len(train_dataset)//BATCH_SIZE, warmup_steps=0)
# full posterior predictive 
full_predictive = torch.FloatTensor(10000, 10)
full_predictive.zero_()

for epoch in range(1+NUM_EPOCHS + WARMUP_EPOCHS):
    sgld_mcmc.run(X_train, Y_train)
    sgld_samples = sgld_mcmc.get_samples()
    
    if epoch >= WARMUP_EPOCHS:
        
        start = time.time()
        sgld_samples = sgld_mcmc.get_samples()
        predictive = pyro.infer.Predictive(bnn, posterior_samples=sgld_samples)
        
        with torch.no_grad():
            epoch_predictive = None
            for x, y in val_loader:
                if epoch_predictive is None:
                    epoch_predictive = predictive(x)['obs'].to(torch.int64)
                else:
                    epoch_predictive = torch.cat((epoch_predictive, predictive(x)['obs'].to(torch.int64)), dim=1)
            
            for sample in epoch_predictive:
                predictive_one_hot = F.one_hot(sample, num_classes=10)
                full_predictive = full_predictive + predictive_one_hot
                
            full_y_hat = torch.argmax(full_predictive, dim=1)
            total = Y_val.shape[0]
            correct = int((full_y_hat == Y_val).sum())
            
        end = time.time()

        print("Epoch [{}/{}] test accuracy: {:.4f} time: {:.2f}".format(epoch-WARMUP_EPOCHS, NUM_EPOCHS, correct/total, end - start))

Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 44.23it/s, lr=2.00e-05]


Epoch [-50/800] test accuracy: 0.5739 time: 4.44


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 48.60it/s, lr=2.00e-05]


Epoch [-49/800] test accuracy: 0.6134 time: 4.51


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 51.18it/s, lr=2.00e-05]


Epoch [-48/800] test accuracy: 0.6292 time: 4.46


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.59it/s, lr=2.00e-05]


Epoch [-47/800] test accuracy: 0.6277 time: 4.40


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.28it/s, lr=2.00e-05]


Epoch [-46/800] test accuracy: 0.6410 time: 4.40


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.61it/s, lr=2.00e-05]


Epoch [-45/800] test accuracy: 0.6433 time: 4.44


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.06it/s, lr=2.00e-05]


Epoch [-44/800] test accuracy: 0.6419 time: 4.49


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 48.63it/s, lr=2.00e-05]


Epoch [-43/800] test accuracy: 0.6366 time: 4.38


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.59it/s, lr=2.00e-05]


Epoch [-42/800] test accuracy: 0.6345 time: 4.43


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 47.30it/s, lr=2.00e-05]


Epoch [-41/800] test accuracy: 0.6387 time: 4.64


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.77it/s, lr=2.00e-05]


Epoch [-40/800] test accuracy: 0.6381 time: 4.66


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.59it/s, lr=2.00e-05]


Epoch [-39/800] test accuracy: 0.6376 time: 4.70


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.77it/s, lr=2.00e-05]


Epoch [-38/800] test accuracy: 0.6375 time: 4.63


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 47.07it/s, lr=2.00e-05]


Epoch [-37/800] test accuracy: 0.6373 time: 4.64


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.59it/s, lr=2.00e-05]


Epoch [-36/800] test accuracy: 0.6441 time: 4.44


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.71it/s, lr=2.00e-05]


Epoch [-35/800] test accuracy: 0.6437 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.66it/s, lr=2.00e-05]


Epoch [-34/800] test accuracy: 0.6509 time: 4.46


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.23it/s, lr=2.00e-05]


Epoch [-33/800] test accuracy: 0.6498 time: 4.48


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.74it/s, lr=2.00e-05]


Epoch [-32/800] test accuracy: 0.6492 time: 4.39


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.54it/s, lr=2.00e-05]


Epoch [-31/800] test accuracy: 0.6486 time: 4.46


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.81it/s, lr=2.00e-05]


Epoch [-30/800] test accuracy: 0.6505 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.41it/s, lr=2.00e-05]


Epoch [-29/800] test accuracy: 0.6513 time: 4.42


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.85it/s, lr=2.00e-05]


Epoch [-28/800] test accuracy: 0.6504 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.08it/s, lr=2.00e-05]


Epoch [-27/800] test accuracy: 0.6507 time: 4.40


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.81it/s, lr=2.00e-05]


Epoch [-26/800] test accuracy: 0.6509 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.49it/s, lr=2.00e-05]


Epoch [-25/800] test accuracy: 0.6489 time: 4.46


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.54it/s, lr=2.00e-05]


Epoch [-24/800] test accuracy: 0.6492 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.39it/s, lr=2.00e-05]


Epoch [-23/800] test accuracy: 0.6496 time: 4.60


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 47.32it/s, lr=2.00e-05]


Epoch [-22/800] test accuracy: 0.6536 time: 4.63


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.59it/s, lr=2.00e-05]


Epoch [-21/800] test accuracy: 0.6545 time: 4.66


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.83it/s, lr=2.00e-05]


Epoch [-20/800] test accuracy: 0.6544 time: 4.70


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.27it/s, lr=2.00e-05]


Epoch [-19/800] test accuracy: 0.6547 time: 4.64


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 47.07it/s, lr=2.00e-05]


Epoch [-18/800] test accuracy: 0.6528 time: 4.45


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.83it/s, lr=2.00e-05]


Epoch [-17/800] test accuracy: 0.6533 time: 4.39


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.15it/s, lr=2.00e-05]


Epoch [-16/800] test accuracy: 0.6530 time: 4.38


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.34it/s, lr=2.00e-05]


Epoch [-15/800] test accuracy: 0.6514 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.72it/s, lr=2.00e-05]


Epoch [-14/800] test accuracy: 0.6539 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.23it/s, lr=2.00e-05]


Epoch [-13/800] test accuracy: 0.6537 time: 4.46


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 47.16it/s, lr=2.00e-05]


Epoch [-12/800] test accuracy: 0.6545 time: 4.40


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.31it/s, lr=2.00e-05]


Epoch [-11/800] test accuracy: 0.6562 time: 4.39


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.39it/s, lr=2.00e-05]


Epoch [-10/800] test accuracy: 0.6559 time: 4.43


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.79it/s, lr=2.00e-05]


Epoch [-9/800] test accuracy: 0.6554 time: 4.49


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 51.08it/s, lr=2.00e-05]


Epoch [-8/800] test accuracy: 0.6553 time: 4.45


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.46it/s, lr=2.00e-05]


Epoch [-7/800] test accuracy: 0.6553 time: 4.44


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.59it/s, lr=2.00e-05]


Epoch [-6/800] test accuracy: 0.6568 time: 4.48


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.96it/s, lr=2.00e-05]


Epoch [-5/800] test accuracy: 0.6573 time: 4.62


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.72it/s, lr=2.00e-05]


Epoch [-4/800] test accuracy: 0.6566 time: 4.74


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.96it/s, lr=2.00e-05]


Epoch [-3/800] test accuracy: 0.6573 time: 4.67


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 47.27it/s, lr=2.00e-05]


Epoch [-2/800] test accuracy: 0.6570 time: 4.69


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.04it/s, lr=2.00e-05]


Epoch [-1/800] test accuracy: 0.6571 time: 4.75


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.18it/s, lr=2.00e-05]


Epoch [0/800] test accuracy: 0.6563 time: 4.54


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.61it/s, lr=2.00e-05]


Epoch [1/800] test accuracy: 0.6574 time: 4.43


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.69it/s, lr=2.00e-05]


Epoch [2/800] test accuracy: 0.6574 time: 4.43


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.13it/s, lr=2.00e-05]


Epoch [3/800] test accuracy: 0.6559 time: 4.46


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.54it/s, lr=2.00e-05]


Epoch [4/800] test accuracy: 0.6554 time: 4.43


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.01it/s, lr=2.00e-05]


Epoch [5/800] test accuracy: 0.6559 time: 4.42


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.98it/s, lr=2.00e-05]


Epoch [6/800] test accuracy: 0.6563 time: 4.42


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.66it/s, lr=2.00e-05]


Epoch [7/800] test accuracy: 0.6554 time: 4.39


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.83it/s, lr=2.00e-05]


Epoch [8/800] test accuracy: 0.6552 time: 4.46


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.39it/s, lr=2.00e-05]


Epoch [9/800] test accuracy: 0.6548 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.44it/s, lr=2.00e-05]


Epoch [10/800] test accuracy: 0.6555 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.08it/s, lr=2.00e-05]


Epoch [11/800] test accuracy: 0.6553 time: 4.43


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 49.66it/s, lr=2.00e-05]


Epoch [12/800] test accuracy: 0.6548 time: 4.41


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 50.11it/s, lr=2.00e-05]


Epoch [13/800] test accuracy: 0.6538 time: 4.43


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.64it/s, lr=2.00e-05]


Epoch [14/800] test accuracy: 0.6541 time: 4.66


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 46.55it/s, lr=2.00e-05]


Epoch [15/800] test accuracy: 0.6555 time: 4.72


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 45.06it/s, lr=2.00e-05]


Epoch [16/800] test accuracy: 0.6543 time: 4.72


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 42.79it/s, lr=2.00e-05]


Epoch [17/800] test accuracy: 0.6539 time: 4.77


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 44.23it/s, lr=2.00e-05]


Epoch [18/800] test accuracy: 0.6551 time: 4.81


Sample:  85%|████████████████████████████████████████████████████████          | 85/100 [00:01, 56.01it/s, lr=2.00e-05]

KeyboardInterrupt: 

In [20]:
LR = 2e-6
WEIGHT_DECAY=0.1
WITH_MOMENTUM=True
MOMENTUM_DECAY=0.75

bnn = BNN(28*28, 100, 10, prec=1.)

sgd = SGD(bnn,
          subsample_positions=[0, 1],
          batch_size=BATCH_SIZE,
          learning_rate=LR,
          weight_decay=WEIGHT_DECAY,
          with_momentum=WITH_MOMENTUM,
          momentum_decay=MOMENTUM_DECAY)

sgd_mcmc = MCMC(sgd, num_samples=len(train_dataset)//BATCH_SIZE, warmup_steps=0)

for epoch in range(1+NUM_EPOCHS):
    sgd_mcmc.run(X_train, Y_train)
        
    if epoch >= 0:
        
        sgd_samples = sgd_mcmc.get_samples()
        point_estimate = {site : sgd_samples[site][-1, :].unsqueeze(0) for site in sgd_samples.keys()}
        predictive = pyro.infer.Predictive(bnn, posterior_samples=point_estimate)
        start = time.time()
        
        with torch.no_grad():
            total = 0
            correct = 0
            for x, y in val_loader:
                batch_predictive = predictive(x)['obs']
                batch_y_hat = batch_predictive.mode(0)[0]
                total += y.shape[0]
                correct += int((batch_y_hat == y).sum())
            
        end = time.time()

        print("Epoch [{}/{}] test accuracy: {:.4f}".format(epoch, NUM_EPOCHS, correct/total))

Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:02, 47.05it/s, lr=2.00e-06]


Epoch [-50/800] test accuracy: 0.5426


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 51.34it/s, lr=2.00e-06]


Epoch [-49/800] test accuracy: 0.5365


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 51.45it/s, lr=2.00e-06]


Epoch [-48/800] test accuracy: 0.5006


Sample: 100%|█████████████████████████████████████████████████████████████████| 100/100 [00:01, 51.03it/s, lr=2.00e-06]


Epoch [-47/800] test accuracy: 0.5541


Warmup:   0%|                                                                                    | 0/100 [00:00, ?it/s]

KeyboardInterrupt: 