# Загрузка библиотеки

In [6]:
!pip install PROTECA



In [7]:
import proteca

In [8]:
!pip install pandas
!pip install matplotlib
!pip install torch
!pip install torchvision
!pip install scipy



# Импортирование необходимых модулей

In [9]:
import pandas as pd
from proteca.attacks import *
import os
from typing import List
import glob
import random
import datetime
import numpy as np
import matplotlib.pyplot as plt
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision
from torchvision.transforms import *
from PIL import Image
np.random.seed(42)

In [10]:
!pip install prefetch-generator



# Проведение тестирования моделей машинного обучения

Предобработка данных

In [11]:
IMAGENET_MEAN = np.array([0.485, 0.456, 0.406])
IMAGENET_STD = np.array([0.229, 0.224, 0.225])
preprocess_alexnet = Compose([
    Resize(224),
    CenterCrop(224),
    ToTensor(),
    Normalize(IMAGENET_MEAN, IMAGENET_STD)
])

Определение аппаратных характеристик

In [12]:
if torch.cuda.is_available():
    device = torch.device('cuda')
else:
    device = torch.device('cpu')

Функция вывода результатов моделей машинного обучения

In [13]:
def predict_image_top_categories(
    img_tensor: torch.tensor,
    model: torchvision.models,
    labels: List[str],
    device: torch.device,
    num_top_cat: int = 5) -> List[List[str]]:
    input_batch = img_tensor.unsqueeze(0)
    
    input_batch = input_batch.to(device)
    output = model(input_batch)
    probabilities = torch.nn.functional.softmax(output[0], dim=0).cpu()
    top_prob, top_catid = torch.topk(probabilities, num_top_cat)
    return top_prob, top_catid

Определение имен классов

In [14]:
with open('synset_words.txt', 'r', encoding='utf-8') as f:
    synset_words = [' '.join(s.replace('\n', '').split(' ')[1:]) for s in f.readlines()]

Выведем имена классов:

In [15]:
synset_words

['tench, Tinca tinca',
 'goldfish, Carassius auratus',
 'great white shark, white shark, man-eater, man-eating shark, Carcharodon carcharias',
 'tiger shark',
 'hammerhead, hammerhead shark',
 'electric ray, crampfish, numbfish, torpedo',
 'stingray',
 'cock',
 'hen',
 'ostrich',
 'brambling',
 'goldfinch',
 'house finch, linnet',
 'junco, snowbird',
 'indigo bunting, indigo finch, indigo bird, Passerina cyanea',
 'robin, American robin, Turdus migratorius',
 'bulbul',
 'jay',
 'magpie',
 'chickadee',
 'water ouzel, dipper',
 'kite',
 'bald eagle, American eagle, Haliaeetus leucocephalus',
 'vulture',
 'great grey owl, great gray owl, Strix nebulosa',
 'European fire salamander, Salamandra salamandra',
 'common newt, Triturus vulgaris',
 'eft',
 'spotted salamander, Ambystoma maculatum',
 'axolotl, mud puppy, Ambystoma mexicanum',
 'bullfrog, Rana catesbeiana',
 'tree frog, tree-frog',
 'tailed frog, bell toad, ribbed toad, tailed toad, Ascaphus trui',
 'loggerhead, loggerhead turtle, 

Инициируем несколько моделей машинного обучения, необходимых для классификации изображений:
1. GoogleNet
2. MobileNet
3. VGG-19
4. AlexNet
5. TResNet-L-V2 (ResNet50)
6. EfficientNet

In [16]:
net2 = torchvision.models.googlenet(pretrained=True, progress=True)
net3 = torchvision.models.mobilenet_v3_small(pretrained=True, progress=True)
net4 = torchvision.models.vgg19_bn(pretrained=True, progress=True)
net5 = torchvision.models.alexnet(pretrained=True, progress=True)
net6 = torchvision.models.resnet50(pretrained=True, progress=True)#RESNET50
net7 = torchvision.models.efficientnet_b0(pretrained=True, progress=True)#efficientnet_b0 



Проверим корректность **AlexNet** на стандартном примере:
![bpe1](Panda_closeup_Vi7CuXC.jpg)

Проверим качество выбранных моделей машинного обучения

In [17]:
net1 = torchvision.models.alexnet(pretrained=True, progress=True)
net1.eval();
net1.to(device);

In [18]:
original_img_tensor = preprocess_alexnet(Image.open('Panda_closeup_Vi7CuXC.jpg'))
confidences, cat_ids = predict_image_top_categories(original_img_tensor, net1, synset_words, device, num_top_cat=5)
top_pred_id = cat_ids[0]
res = []

Выведем результат в *.json*:

In [19]:
data = {}
data['test']=[]
for conf, cat_id in zip(confidences, cat_ids):
                # if conf == 0:
                    # full_conf = full_conf + (conf.item())
    infa = {}
    infa['labels'] = synset_words[cat_id]
    infa['conf'] = (conf.item())
    res.append(infa)
            #picture.append({'picture':str(i), 'res': res})
            #data['test'].append(picture)
data['test'].append({'picture':str('Panda_closeup_Vi7CuXC.jpg'), 'res': res})

In [20]:
data

{'test': [{'picture': 'Panda_closeup_Vi7CuXC.jpg',
   'res': [{'labels': 'giant panda, panda, panda bear, coon bear, Ailuropoda melanoleuca',
     'conf': 0.9999985694885254},
    {'labels': 'soccer ball', 'conf': 1.351479909317277e-06},
    {'labels': 'Siamese cat, Siamese', 'conf': 3.3915821262553436e-08},
    {'labels': 'lesser panda, red panda, panda, bear cat, cat bear, Ailurus fulgens',
     'conf': 2.6094390648268018e-08},
    {'labels': 'skunk, polecat, wood pussy',
     'conf': 2.4985789437437234e-08}]}]}

Стоит сделать вывод, что модель машинного обучения работает качественно, так как доминирующий класс *'giant panda, panda, panda bear, coon bear, Ailuropoda melanoleuca'* с достоверностью **0.999**

Тееперь воспользуемся библиотекой **PROTECA** для отравления данных и посмотрим на результат

In [21]:
adv_tensor_img, adv_tensor_noise, _ = U_backdoor(original_img_tensor, net1, top_pred_id, device, 0.05)
data['bad'] = []

Сохраним результат также в формате *.json*

In [22]:
confidences, cat_ids = predict_image_top_categories(adv_tensor_img, net1, synset_words, device, num_top_cat=5)
res2 = []
for conf, cat_id in zip(confidences, cat_ids):
    infa = {}
    infa['labels'] = synset_words[cat_id]
    infa['conf'] = (conf.item())

    res2.append(infa)
data['bad'].append({'picture':str('Panda_closeup_Vi7CuXC.jpg'), 'res': res2})

In [23]:
data

{'test': [{'picture': 'Panda_closeup_Vi7CuXC.jpg',
   'res': [{'labels': 'giant panda, panda, panda bear, coon bear, Ailuropoda melanoleuca',
     'conf': 0.9999985694885254},
    {'labels': 'soccer ball', 'conf': 1.351479909317277e-06},
    {'labels': 'Siamese cat, Siamese', 'conf': 3.3915821262553436e-08},
    {'labels': 'lesser panda, red panda, panda, bear cat, cat bear, Ailurus fulgens',
     'conf': 2.6094390648268018e-08},
    {'labels': 'skunk, polecat, wood pussy',
     'conf': 2.4985789437437234e-08}]}],
 'bad': [{'picture': 'Panda_closeup_Vi7CuXC.jpg',
   'res': [{'labels': 'spotlight, spot', 'conf': 0.7288926839828491},
    {'labels': 'stage', 'conf': 0.21507349610328674},
    {'labels': 'park bench', 'conf': 0.03723229467868805},
    {'labels': 'greenhouse, nursery, glasshouse',
     'conf': 0.004835900850594044},
    {'labels': 'picket fence, paling', 'conf': 0.004413774702697992}]}]}

Из результатов видно, что модель машинного обучения возвращает неверный класс *'spotlight, spot'* (данные **'bad'**) по сравнению с безопасными данными (**'test'**)

# Пример обеспечения гарантированной защиты (на основе ансамблеевой защиты)

Возьмем 4 модели и применим библиотеку **PROTECA** для их тестирования

In [24]:
data_mal = {}
data_mal['res'] = []

info = []
net2.eval();
net2.to(device);
original_img_tensor2 = preprocess_alexnet(Image.open('Panda_closeup_Vi7CuXC.jpg'))
adv_tensor_img, adv_tensor_noise, _ = U_backdoor(original_img_tensor2, net2, top_pred_id, device, 0.05)    
confidences, cat_ids = predict_image_top_categories(adv_tensor_img, net2, synset_words, device, num_top_cat=5)
info.append({'model': "GoogleNet", 'label': synset_words[cat_ids[0]], 'conf':confidences[0].item()})
net3.eval();
net3.to(device);
adv_tensor_img, adv_tensor_noise, _ = U_backdoor(original_img_tensor2, net3, top_pred_id, device, 0.05)    
confidences, cat_ids = predict_image_top_categories(adv_tensor_img, net3, synset_words, device, num_top_cat=5)
info.append({'model': "MobileNet V3", 'label': synset_words[cat_ids[0]], 'conf':confidences[0].item()})
net4.eval();
net4.to(device);
adv_tensor_img, adv_tensor_noise, _ = U_backdoor(original_img_tensor2, net4, top_pred_id, device, 0.05)    
confidences, cat_ids = predict_image_top_categories(adv_tensor_img, net4, synset_words, device, num_top_cat=5)
info.append({'model': "AlexNet", 'label': synset_words[cat_ids[0]], 'conf':confidences[0].item()})
net5.eval();
net5.to(device);
adv_tensor_img, adv_tensor_noise, _ = U_backdoor(original_img_tensor2, net5, top_pred_id, device, 0.05)    
confidences, cat_ids = predict_image_top_categories(adv_tensor_img, net5, synset_words, device, num_top_cat=5)
info.append({'model': "VGG", 'label': synset_words[cat_ids[0]], 'conf':confidences[0].item()})
data_mal['res'].append({'file_test': 'Panda_closeup_Vi7CuXC.jpg', 'info':info})


Выведем данные

In [25]:
data_mal

{'res': [{'file_test': 'Panda_closeup_Vi7CuXC.jpg',
   'info': [{'model': 'GoogleNet',
     'label': 'window screen',
     'conf': 0.4160960018634796},
    {'model': 'MobileNet V3',
     'label': 'fire screen, fireguard',
     'conf': 0.3094629943370819},
    {'model': 'AlexNet',
     'label': 'spotlight, spot',
     'conf': 0.29397979378700256},
    {'model': 'VGG',
     'label': 'spotlight, spot',
     'conf': 0.9927536845207214}]}]}

Как видно из результатов, что имена класов отличаются, воспользуемся этим

In [26]:
detect = 0
   
for item in data_mal['res']:
    if item['info'][0]['label']!=item['info'][1]['label'] or item['info'][1]['label']!=item['info'][2]['label']:
        detect = detect+1

In [27]:
detect

1

Если **detect>0** - значит защита обеспечена, при значении равной количеству данных - **обеспечивается 100% защита**, в данном случае воздействие производиться 1 изображением.

# Выводы

Искомая производительность

Качество с backdoor

Эффективность защиты