In [1]:
import tensorflow.compat.v1 as tf
import numpy as np
import warnings
warnings.filterwarnings('ignore')

from art.defences.trainer import AdversarialTrainer
from art.attacks.evasion import FastGradientMethod
from art.estimators.classification import TensorFlowClassifier
from art.utils import load_mnist

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [10]:
# MNIST 데이터 셋을 각각 train, test로 나눠서 불러온다

(x_train, y_train), (x_test, y_test), min_pixel_value, max_pixel_value = load_mnist()
print(len(y_train))
print(len(y_test))

60000
10000


In [11]:
# 학습을 진행할 모델을 생성한다

input_ph = tf.placeholder(tf.float32, shape=[None, 28, 28, 1])
labels_ph = tf.placeholder(tf.int32, shape=[None, 10])

x = tf.layers.conv2d(input_ph, filters=4, kernel_size=5, activation=tf.nn.relu)
x = tf.layers.max_pooling2d(x, 2, 2)
x = tf.layers.conv2d(x, filters=10, kernel_size=5, activation=tf.nn.relu)
x = tf.layers.max_pooling2d(x, 2, 2)
x = tf.layers.flatten(x)
x = tf.layers.dense(x, 100, activation=tf.nn.relu)
logits = tf.layers.dense(x, 10)

loss = tf.reduce_mean(tf.losses.softmax_cross_entropy(logits=logits, onehot_labels=labels_ph))
optimizer = tf.train.AdamOptimizer(learning_rate=0.01)
train = optimizer.minimize(loss)
sess = tf.Session()
sess.run(tf.global_variables_initializer())

In [13]:
# 모든 종류의 attack을 apply 하는 TensorFlow classifer 선언한다

tclassifier = TensorFlowClassifier(
    clip_values=(min_pixel_value, max_pixel_value),
    input_ph=input_ph,
    output=logits,
    labels_ph=labels_ph,
    train=train,
    loss=loss,
    learning=None,
    sess=sess,
    preprocessing_defences=[],
)

In [14]:
# 위에서 선언한 classifer를 앞서 불러온 데이터 셋을 이용하여 학습시킨다

tclassifier.fit(x_train, y_train, batch_size=64, nb_epochs=3)

In [15]:
# 공격을 진행하지 않은 데이터를 가지고 
# 위에서 학습시킨 classifer를 이용하여 정확도를 분석한다 

predictions = tclassifier.predict(x_test)
accuracy = np.sum(np.argmax(predictions, axis=1) == np.argmax(y_test, axis=1)) / len(y_test)
print("기존의 데이터를 이용한 tensorflow의 정확도 : {}%".format(accuracy * 100))

기존의 데이터를 이용한 tensorflow의 정확도 : 97.91%


In [16]:
# FGSM 공격을 이용하여 기존의 데이터를 공격한다

attack = FastGradientMethod(estimator=tclassifier, eps=0.2)
adv_x_test = attack.generate(x=x_test)

In [17]:
# 위에서 만들어진 FGSM에 의해 공격된 데이터를 가지고
# classifer를 이용하여 정확도를 분석한다

predictions = tclassifier.predict(adv_x_test)
accuracy = np.sum(np.argmax(predictions, axis=1) == np.argmax(y_test, axis=1)) / len(y_test)
print("FGSM 에 의해 공격당한 데이터를 이용한 tensorflow의 정확도 : {}%".format(accuracy * 100))

FGSM 에 의해 공격당한 데이터를 이용한 tensorflow의 정확도 : 35.9%


In [18]:
# ART 에서 제공되는 Adversarial Trainer 선언한다

trainer = AdversarialTrainer(
    tclassifier,
    attack,
    ratio=1.0
)

In [19]:
# 위에서 선언한 Trainer도 같은 데이터 셋을 이용하여 학습시켜준다.

trainer.fit(x_train, y_train, batch_size=64, nb_epochs=3)

Precompute adv samples:   0%|          | 0/1 [00:00<?, ?it/s]

Adversarial training epochs:   0%|          | 0/3 [00:00<?, ?it/s]

In [20]:
# 위에서 만들어진 FGSM에 의해공격된 데이터를 가지고
# 학습된 trainer를 이용하여 정확도를 분석한다

predictions = trainer.predict(adv_x_test)
accuracy = np.sum(np.argmax(predictions, axis=1) == np.argmax(y_test, axis=1)) / len(y_test)
print("FGSM에 의해 공격당한 데이터를 AdversarialTrainer로 다시 학습 시킨후 정확도 : {}%".format(accuracy * 100))

FGSM에 의해 공격당한 데이터를 AdversarialTrainer로 다시 학습 시킨후 정확도 : 92.25999999999999%
