# Evaluate Gradient Masking

This notebook runs some checks to determine if the networks may be gradient masked.
These checks may take some time and are not necessarily suitable as metrics themselves.

In [1]:
import argparse
import tqdm
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms, models
from torch.optim.lr_scheduler import StepLR
import matplotlib.pyplot as plt
from foolbox import PyTorchModel, accuracy, samples
from foolbox.attacks import LinfPGD, FGSM
from advertorch.attacks import LinfSPSAAttack
from src.trainers import Trainer, FGSMTrainer
from robustbench.model_zoo.models import Carmon2019UnlabeledNet
from src.utils import adversarial_accuracy, fgsm_
import eagerpy as ep
from src.Nets import CIFAR_Wide_Res_Net, CIFAR_Res_Net, CIFAR_Net, ResNet18GradReg
from src.gradient_masking_tests import run_masking_benchmarks
%load_ext autoreload
%autoreload 2
%aimport src.Nets, src.trainers

## Setup to import trained CIFAR-10 Models

In [2]:
# setup
device = torch.device("cuda")
batch_size = 32
# remove the normalize
transform = transform = transforms.Compose(
            [transforms.ToTensor()]
)
        
normalized_min = (0 - 0.5) / 0.5
normalized_max = (1 - 0.5) / 0.5
train_dataset = datasets.CIFAR10(root='../data', train=True,
                                download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size,
                                  shuffle=True, num_workers=2)
test_dataset = datasets.CIFAR10(root='../data', train=False,
                               download=True, transform=transform)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=batch_size,
                                 shuffle=False, num_workers=2)
classes = classes = ('plane', 'car', 'bird', 'cat',
   'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

Files already downloaded and verified
Files already downloaded and verified


## Load Trained Models

In [13]:
# # Regular CIFAR-10  ResNet Model
model = CIFAR_Res_Net(device).eval()
model.load_state_dict(torch.load("../models/cifar_res_net.model"))
# CIFAR-10  ResNet Model trained with large FGSM steps
fgsm_model = CIFAR_Res_Net(device).eval()
fgsm_model.load_state_dict(torch.load("../models/cifar_res_net_fgsm06.model"))
# # # CIFAR-10  ResNet Model trained with small FGSM steps
fgsm_model_small = CIFAR_Res_Net(device).eval()
fgsm_model_small.load_state_dict(torch.load("../models/cifar_res_net_20e_fgsm03.model"))
# # # CIFAR-10  ResNet Model trained with large Step-ll steps
step_ll_model = CIFAR_Res_Net(device).eval()
step_ll_model.load_state_dict(torch.load("../models/cifar_res_net_20e_stepll.model"))
# # CIFAR-10  ResNet Model trained through input gradient regularization
gradient_norm_model = CIFAR_Res_Net(device).eval()
state_dict = torch.load("D:/Libraries/Documents/tulip/cifar10/logs/cifar10/ResNet18/200e/best.pth.tar")['state_dict']
gradient_norm_model.load_state_dict(state_dict)

<All keys matched successfully>

# Run Benchmarks
### The benchmarks consist of:
- Standard Accuracy
- FGSM attack at different epsilons
- PGD attack
- Unbounded PGD attack
- Black Box (SPSA) Attack

For a gradient masked model, we might expect that:
- FGSM accuracy does not drop as epsilon increases
- PGD preforms worse than FGSM (turns out to not ever be the case)
- Unbounded PGD attack does not reach 0% accuracy
- Black box accuracy is lower than white box accuracy 

Notice that random attacks are stronger as epsilon increases

In [10]:
# Regular Model
run_masking_benchmarks(model, test_dataset, epsilon=0.06, device=device, batch_size=batch_size)

100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 69.27it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.40it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.41it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.47it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:52<00:00,  5.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:52<00:00,  5.95it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [00:35<00:00,  2.71s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 65.86it/s]
100%|███████████████████████████████████

Model accuracy: 85.21%
FGSM attack model accuracy -- eps = 0.006: 36.980000000000004%, eps = 0.03: 3.9800000000000004%, eps = 0.06: 1.9%
PGD accuracy: 0.0%
Unbounded PGD model accuracy: 0.0%
SPSA accuracy: 17.0%
Random attack model accuracy -- eps = 0.006: 85.09%, eps = 0.03: 82.85%, eps = 0.06: 73.15%





Strangely, the fgsm model with large steps produces a model where increasing epsilon not only does not make the attack stronger, but instead, makes it much weaker.

In contrast, the model is significantly less robust at small epsilons.

It might be the case that we have created a subspace, beyond the decision boundary, making the model appear robust there.

However, this still does not explain how the model is now much more susceptible at smaller epsilons!

This seems to indicate the gradient is still informative?

#### The fgsm attack on eps=0.06 is WORSE than no attack at all!

Random attacks do not really get stronger as epsilon increases

In [11]:
# fgsm model with large steps
run_masking_benchmarks(fgsm_model, test_dataset, epsilon=0.06, device=device, batch_size=batch_size)

100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 69.69it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.44it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:52<00:00,  5.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:52<00:00,  5.95it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [00:35<00:00,  2.71s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 65.94it/s]
100%|███████████████████████████████████

Model accuracy: 72.15%
FGSM attack model accuracy -- eps = 0.006: 10.24%, eps = 0.03: 74.28%, eps = 0.06: 85.22%
PGD accuracy: 0.0%
Unbounded PGD model accuracy: 0.0%
SPSA accuracy: 5.0%
Random attack model accuracy -- eps = 0.006: 73.1%, eps = 0.03: 75.32%, eps = 0.06: 72.05%





In [14]:
# fgsm model with small steps
run_masking_benchmarks(fgsm_model_small, test_dataset, epsilon=0.06, device=device, batch_size=batch_size)

100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 67.46it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.25it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:52<00:00,  5.93it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:52<00:00,  5.95it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [00:35<00:00,  2.76s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:05<00:00, 61.72it/s]
100%|███████████████████████████████████

Model accuracy: 69.11%
FGSM attack model accuracy -- eps = 0.006: 62.519999999999996%, eps = 0.03: 37.0%, eps = 0.06: 17.14%
PGD accuracy: 9.68%
Unbounded PGD model accuracy: 0.0%
SPSA accuracy: 37.0%
Random attack model accuracy -- eps = 0.006: 69.43%, eps = 0.03: 69.28%, eps = 0.06: 69.23%





### Step-ll potential gradient masking!
We notice that increasing epsilon does not improve the attack. 

However, unlike with FGSM, the model is more robust at small epsilons.

This together with black box outpreforming white box attacks, suggests an incidence of gradient masking

Random attacks do not really get stronger (actually get a bit weaker) as epsilon increases

In [15]:
# step-ll model
run_masking_benchmarks(step_ll_model, test_dataset, epsilon=0.06, device=device, batch_size=batch_size)

100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 70.08it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.45it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 26.69it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:53<00:00,  5.88it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:53<00:00,  5.90it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [00:35<00:00,  2.71s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 65.77it/s]
100%|███████████████████████████████████

Model accuracy: 73.55000000000001%
FGSM attack model accuracy -- eps = 0.006: 54.04%, eps = 0.03: 57.410000000000004%, eps = 0.06: 55.58%
PGD accuracy: 1.6%
Unbounded PGD model accuracy: 0.0%
SPSA accuracy: 27.0%
Random attack model accuracy -- eps = 0.006: 73.94%, eps = 0.03: 77.83%, eps = 0.06: 76.89%





Gradient normalization model does become more robust.

Tried with 200 epochs, as in paper. all other nets 20e.

Not able to replicate reported accuracy at eps=0.03 (reported is ~42%)

Once more, random attacks get stronger as epsilon increases

In [16]:
run_masking_benchmarks(gradient_norm_model, test_dataset, epsilon=0.06, device=device, batch_size=batch_size)

100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 70.54it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 26.91it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 26.87it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:11<00:00, 27.01it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:52<00:00,  5.93it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:52<00:00,  5.93it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [00:35<00:00,  2.72s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:04<00:00, 64.71it/s]
100%|███████████████████████████████████

Model accuracy: 92.47999999999999%
FGSM attack model accuracy -- eps = 0.006: 72.28%, eps = 0.03: 13.850000000000001%, eps = 0.06: 3.45%
PGD accuracy: 0.0%
Unbounded PGD model accuracy: 0.0%
SPSA accuracy: 9.0%
Random attack model accuracy -- eps = 0.006: 92.45%, eps = 0.03: 90.09%, eps = 0.06: 81.96%





## Wide RESNET Model

In [7]:
run_masking_benchmarks(wide_model, test_dataset, epsilon=0.06, device=device, batch_size=batch_size)

100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:28<00:00, 11.02it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:46<00:00,  6.78it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:46<00:00,  6.79it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:46<00:00,  6.73it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [10:44<00:00,  2.06s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [10:43<00:00,  2.05s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [03:41<00:00, 17.02s/it]

Model accuracy: 84.27%
FGSM attack model accuracy -- eps = 0.006: 31.900000000000002%, eps = 0.03: 5.33%, eps = 0.06: 4.5600000000000005%
PGD accuracy: 0.0%
Unbounded PGD model accuracy: 0.0%
SPSA accuracy: 11.0%





In [8]:
run_masking_benchmarks(wide_fgsm_model, test_dataset, epsilon=0.06, device=device, batch_size=batch_size)

100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:15<00:00, 20.21it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:46<00:00,  6.70it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:46<00:00,  6.77it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [00:45<00:00,  6.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [10:28<00:00,  2.01s/it]
100%|████████████████████████████████████████████████████████████████████████████████| 313/313 [10:26<00:00,  2.00s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 13/13 [03:34<00:00, 16.49s/it]

Model accuracy: 63.190000000000005%
FGSM attack model accuracy -- eps = 0.006: 12.4%, eps = 0.03: 72.77%, eps = 0.06: 85.47%
PGD accuracy: 0.0%
Unbounded PGD model accuracy: 0.0%
SPSA accuracy: 0.0%



