# **<center>Práctica: Adversarial Examples</center>**

#### <center>20 de diciembre, 2021</center>

Los ejemplos adversarios (Adversarial Examples - AE) en redes neuronales han puesto recientemente en duda la robustez de dichas funciones, al ser capaces de cambiar la predicción de una red sin más que perturbar mínimamente los datos de entrada. El modelo de ataque se describe como la adición de una pertubación:

\begin{align}
    % \delta^* = \mbox{arg}\max_{\delta \in \Delta} \mathcal{L}(y,x+\delta), ~\text{where}~\Delta = \lbrace \delta: ||\delta||_{\infty} \leq \epsilon \rbrace
    x_{adv} &= x + \delta     % \text{ donde } \delta =  \epsilon \cdot sign \left( \frac{\partial \mathcal{L}(y_{target},\hat{y})}{\partial x} \right).
\end{align}
Es decir, buscamos la perturbación $\delta$ de tal forma que la predicción hecha por la red sea distinta a la original: 
$$
\hat{y} = f(x, \theta) \neq \hat{y}_{adv} = f(x_{adv}, \theta)
$$  

En este ejercicio se pide construir un ejemplo adversario para una red convolucional. El modelo de ataque a usar se describe a continuación.
 
### **Non-Targeted Attack:**
$$
 \begin{align}
    % \delta^* = \mbox{arg}\max_{\delta \in \Delta} \mathcal{L}(y,x+\delta), ~\text{where}~\Delta = \lbrace \delta: ||\delta||_{\infty} \leq \epsilon \rbrace
    x_{adv} &= x +  \epsilon \cdot sign \left( \frac{\partial \mathcal{L}(y,\hat{y})}{\partial x} \right).
\end{align}
$$

La perturbación $\delta$ se produce en la dirección de ascenso de la función de pérdidas. Es decir, buscamos que la pérdida (error) asociada al ejemplo $x$ aumente.

### **Targeted Attack:**


\begin{align}
    % \delta^* = \mbox{arg}\max_{\delta \in \Delta} \mathcal{L}(y,x+\delta), ~\text{where}~\Delta = \lbrace \delta: ||\delta||_{\infty} \leq \epsilon \rbrace
    x_{adv} &= x -  \epsilon \cdot sign \left( \frac{\partial \mathcal{L}(y_{target},\hat{y})}{\partial x} \right).
\end{align}
En este caso buscamos la perturbación $\delta$ para una etiqueta diferente de la original. Este ataque es conocido como *targeted attack*, y no solo permite engañar a la red sino también forzar su salida en un sentido concreto. 

In [None]:
import tensorflow as tf
import matplotlib.pyplot as plt
from tensorflow.keras import regularizers

In [None]:
cifar10 = tf.keras.datasets.cifar10
(train_images, train_labels), (test_images, test_labels) = cifar10.load_data()

train_images = train_images / 255.0
test_images = test_images / 255.0

num_classes = 10

**Entrenamos una red con keras**

In [None]:
 #Completar

**Seleccionamos una imagen del conjunto de test**


In [None]:
x = test_images[0:1,...]
y = test_labels[0:1,...]
x.shape
plt.imshow(x[0,...])
plt.title('Label: '+str(y))

**Non-Targeted Attack**

In [None]:
ep = 0.03

x = tf.convert_to_tensor(x)
y = tf.convert_to_tensor(y)

with tf.GradientTape() as g:
    g.watch(x)
    y_pred = model(x)
    loss =                      # Rellenar 
    
grad =                          # Rellenar 
pert =                          # Rellenar
x_adv =                         # Rellenar 

In [None]:
fig, axs = plt.subplots(1,4,figsize=(20,20))

pred_x = tf.argmax(model(x),-1).numpy()
axs[0].imshow(x[0,...].numpy())
axs[0].set_title('Pred: '+str(pred_x))

pred_x_adv = tf.argmax(model(x_adv),-1).numpy()
axs[1].imshow(x_adv[0,...].numpy())
axs[1].set_title('Pred: '+str(pred_x_adv))

grad_scaled = grad[0,...].numpy() / grad[0,...].numpy().max()
axs[2].imshow(grad_scaled)
axs[2].set_title('Grad')

axs[3].imshow(pert[0,...].numpy())
axs[3].set_title('Pert')

**Targeted Attack**

In [None]:
ep = 0.03

x = tf.convert_to_tensor(x)
y = tf.convert_to_tensor(y)
y_target =                    # Rellenar 

with tf.GradientTape() as g:
    g.watch(x)
    y_pred = model(x)
    loss =                    # Rellenar 
grad =                        # Rellenar 
pert =                        # Rellenar 
x_adv =                       # Rellenar 

In [None]:
fig, axs = plt.subplots(1,4,figsize=(20,20))

pred_x = tf.argmax(model(x),-1).numpy()
axs[0].imshow(x[0,...].numpy())
axs[0].set_title('Pred: '+str(pred_x))

pred_x_adv = tf.argmax(model(x_adv),-1).numpy()
axs[1].imshow(x_adv[0,...].numpy())
axs[1].set_title('Pred: '+str(pred_x_adv))

grad_scaled = grad[0,...].numpy() / grad[0,...].numpy().max()
axs[2].imshow(grad_scaled)

axs[3].imshow(pert[0,...].numpy())
axs[3].set_title('Pert')