

**Практика 6: Атака по переносу (Transfer Attack) на модели ИИ**

**Выполнил: Очередько Антон Николаевич ББМО-01-23**


Шаг 1: Загрузка и создание двух различных моделей

In [2]:
import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Conv2D, MaxPooling2D
from tensorflow.keras.utils import to_categorical

# Загрузка данных MNIST
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

# Нормализация данных
train_images = train_images / 255.0
test_images = test_images / 255.0

# Преобразование меток в one-hot encoding
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

# Модель 1: Простая полносвязная нейронная сеть
model1 = Sequential([
    Flatten(input_shape=(28, 28)),
    Dense(128, activation='relu'),
    Dense(10, activation='softmax')
])

# Компиляция модели
model1.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Обучение модели
model1.fit(train_images, train_labels, epochs=5)

# Сохранение модели
model1.save('mnist_model1.h5')

# Модель 2: Свёрточная нейронная сеть (CNN)
model2 = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    MaxPooling2D((2, 2)),
    Flatten(),
    Dense(128, activation='relu'),
    Dense(10, activation='softmax')
])

# Компиляция модели
model2.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Обучение модели
model2.fit(train_images.reshape(-1, 28, 28, 1), train_labels, epochs=5)

# Сохранение модели
model2.save('mnist_model2.h5')


Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 0us/step


  super().__init__(**kwargs)


Epoch 1/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 4ms/step - accuracy: 0.8821 - loss: 0.4228
Epoch 2/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - accuracy: 0.9633 - loss: 0.1216
Epoch 3/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 3ms/step - accuracy: 0.9756 - loss: 0.0803
Epoch 4/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 4ms/step - accuracy: 0.9823 - loss: 0.0576
Epoch 5/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - accuracy: 0.9873 - loss: 0.0424


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m45s[0m 23ms/step - accuracy: 0.9152 - loss: 0.2899
Epoch 2/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m81s[0m 23ms/step - accuracy: 0.9847 - loss: 0.0520
Epoch 3/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m81s[0m 22ms/step - accuracy: 0.9905 - loss: 0.0315
Epoch 4/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 22ms/step - accuracy: 0.9934 - loss: 0.0205
Epoch 5/5
[1m1875/1875[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 22ms/step - accuracy: 0.9958 - loss: 0.0131




Шаг 2-3: Изучение теории и реализация атаки FGSM на первую модель

In [4]:
import numpy as np
import tensorflow as tf

# Функция FGSM атаки
def fgsm_attack(image, epsilon, gradient):
    # Применение знака градиента к изображению
    perturbed_image = image + epsilon * np.sign(gradient)
    perturbed_image = np.clip(perturbed_image, 0, 1)  # Убедиться, что значения остаются в пределах [0, 1]
    return perturbed_image

# Генерация противоречивых примеров для первой модели
def generate_fgsm_adversarial(model, images, labels, epsilon):
    adversarial_images = []
    for i in range(len(images)):
        image = images[i].reshape(1, 28, 28)  # Изменяем размерность изображения
        image = tf.convert_to_tensor(image, dtype=tf.float32)  # Конвертируем в tensor
        label = labels[i].reshape(1, 10)  # Преобразуем метку в one-hot формат
        with tf.GradientTape() as tape:
            tape.watch(image)
            prediction = model(image)
            loss = tf.keras.losses.categorical_crossentropy(label, prediction)
        gradient = tape.gradient(loss, image)
        adv_image = fgsm_attack(image.numpy(), epsilon, gradient)  # Используем image.numpy() для передачи в fgsm_attack
        adversarial_images.append(adv_image.reshape(28, 28))  # Преобразуем результат в numpy массив
    return np.array(adversarial_images)

# Генерация противоречивых примеров для первой модели
epsilon = 0.1
adversarial_images_model1 = generate_fgsm_adversarial(model1, test_images, test_labels, epsilon)


Шаг 4: Оценка противоречивых примеров на обеих моделях

In [5]:
# Оценка первой модели на противоречивых примерах
loss1, acc1 = model1.evaluate(adversarial_images_model1, test_labels)
print(f'Accuracy of model1 on adversarial examples: {acc1}')

# Оценка второй модели на противоречивых примерах (перенос атаки)
adversarial_images_model1_reshaped = adversarial_images_model1.reshape(-1, 28, 28, 1)
loss2, acc2 = model2.evaluate(adversarial_images_model1_reshaped, test_labels)
print(f'Accuracy of model2 on adversarial examples from model1: {acc2}')


[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.1003 - loss: 6.6267
Accuracy of model1 on adversarial examples: 0.12370000034570694
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 6ms/step - accuracy: 0.9584 - loss: 0.1324
Accuracy of model2 on adversarial examples from model1: 0.9649999737739563


Шаг 5: Анализ переносимости атак

In [6]:
# Генерация противоречивых примеров для второй модели
adversarial_images_model2 = generate_fgsm_adversarial(model2,
                                                     test_images.reshape(-1, 28, 28, 1),
                                                     test_labels, epsilon)

# Оценка первой модели на противоречивых примерах второй модели
loss3, acc3 = model1.evaluate(adversarial_images_model2.reshape(-1, 28, 28), test_labels)
print(f'Accuracy of model1 on adversarial examples from model2: {acc3}')


[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8912 - loss: 0.3350
Accuracy of model1 on adversarial examples from model2: 0.9079999923706055


Вывод:

Модель 1 (простая полносвязная сеть) значительно хуже справляется с атакой FGSM по сравнению с моделью 2 (CNN), что свидетельствует о высокой уязвимости к атакам.
Модель 2, несмотря на более сложную архитектуру, тоже уязвима к атаке, но гораздо менее подвержена потере точности, что говорит о её лучшей защите от таких атак.
Переносимость атак:

Атака, созданная для модели 1, успешно перенеслась на модель 2 с минимальной потерей точности (96.5% точности на примерах из модели 1). Это подтверждает феномен переносимости атак, при котором атакующие примеры, созданные для одной модели, могут быть эффективными против другой модели.
Однако атака, созданная для модели 2, переносится на модель 1 с большей потерей точности (90.8% точности), что подтверждает, что атаки могут переноситься между моделями, но не всегда с одинаковой степенью эффективности.
