In [5]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.autograd import Variable
import torch.optim as optim

In [6]:
# @title Funciones

# Normaliza a [0,1] por batch para que entrop√≠a y sensibilidad
# Par√°metros:
# v -> Es un tensor.
# eps -> Es un valor de seguridad para evitar que la resta (v m√°ximo - v m√≠nimo) no sea cero.
# La idea es normalizar v utilizando una funci√≥n para ello (v iesimo - v minimo / v maximo - v minimo).
@torch.no_grad()
def _normalize_batch(v, eps=1e-8):
    vmin = v.min()
    vmax = v.max()
    return (v - vmin) / (vmax - vmin + eps)

In [7]:
# @title P√©rdida D-TRADES
def d_trades_loss(
    model,
    x_natural,
    y,
    optimizer,
    step_size=0.003,
    epsilon=0.031,
    perturb_steps=10,
    distance='l_inf',
    alpha=1.0,      # Peso de entrop√≠a
    beta=1.0,       # Peso de sensibilidad
    normalize_terms=True, # True: Para normalizar los valores de [B]; False: para usar los valores tal y como son
    per_sample_sensitivity=True,  # True: Exacto por-ejemplo (loop); False: r√°pido por-batch (aprox.)
    EPS=1e-12, # N√∫mero peque√±o para asegurar estabilidad en el calculo de la entrop√≠a
):

    # ---------- Ataque PGD (igual que TRADES) ----------
    criterion_kl_sum = nn.KLDivLoss(reduction='sum')
    model.eval()
    batch_size = x_natural.size(0)

    x_adv = x_natural.detach() + 0.001 * torch.randn_like(x_natural).detach()

    if distance == 'l_inf':
        for _ in range(perturb_steps):
            x_adv.requires_grad_(True)
            with torch.enable_grad():
                loss_kl = criterion_kl_sum(
                    F.log_softmax(model(x_adv), dim=1),
                    F.softmax(model(x_natural), dim=1)
                )
            grad = torch.autograd.grad(loss_kl, [x_adv])[0]
            x_adv = x_adv.detach() + step_size * torch.sign(grad.detach())
            x_adv = torch.min(torch.max(x_adv, x_natural - epsilon), x_natural + epsilon)
            x_adv = torch.clamp(x_adv, 0.0, 1.0)
    elif distance == 'l_2':
        delta = 0.001 * torch.randn_like(x_natural).detach()
        delta = Variable(delta.data, requires_grad=True)
        opt_delta = torch.optim.SGD([delta], lr=epsilon / perturb_steps * 2)

        for _ in range(perturb_steps):
            adv = x_natural + delta
            opt_delta.zero_grad()
            with torch.enable_grad():
                loss = -criterion_kl_sum(
                    F.log_softmax(model(adv), dim=1),
                    F.softmax(model(x_natural), dim=1)
                )
            loss.backward()
            # renorm grad
            grad_norms = delta.grad.view(batch_size, -1).norm(p=2, dim=1)
            safe = grad_norms.clone()
            safe[safe == 0] = 1.0
            delta.grad.div_(safe.view(-1,1,1,1))
            zero_mask = (grad_norms == 0).view(-1,1,1,1)
            delta.grad[zero_mask] = torch.randn_like(delta.grad[zero_mask])
            delta.grad.div_(grad_norms.view(-1,1,1,1))
            opt_delta.step()
            # proyecci√≥n
            delta.data.add_(x_natural)
            delta.data.clamp_(0,1).sub_(x_natural)
            delta.data.renorm_(p=2, dim=0, maxnorm=epsilon)

        x_adv = Variable(x_natural + delta, requires_grad=False)
    else:
        x_adv = torch.clamp(x_adv, 0.0, 1.0)

    model.train()

    # ---------- Forward limpio y p√©rdidas base ----------

    # Salida del modelo para las imagenes limpias
    logits_nat = model(x_natural)

    # Salida de los ejemplos adversariales
    logits_adv = model(x_adv.detach())

    # Convierte los logits en probabilidades usando softmax
    probs_nat = F.softmax(logits_nat, dim=1)

    # Toma el algoritmo de las probabilidades adversariales
    log_probs_adv = F.log_softmax(logits_adv, dim=1)

    # P√©rdida de entrop√≠a cruzada est√°ndar para los datos limpios
    loss_natural = F.cross_entropy(logits_nat, y, reduction='mean')

    # Calcula la divergencia KL entre dos distribuciones
    # Esto es para el calculo de lambda
    # [B]
    kl_per_example = F.kl_div(
        log_probs_adv, probs_nat, reduction='none'
    ).sum(dim=1)

    # ---------- C√°lculo de entrop√≠a ----------
    # probs_nat -> probabilidad de cada clase
    # La f√≥rmula de la entrop√≠a es: - probabilidad de cada clase * logaritmo de la probabilidad.
    # El sum(dim=1) es la suma sobre las clases, para cada fila del batch.
    # Para evitar un inf dentro del logaritmo, si la probabilidad es cero, dentro del logaritmo.
    # Se usa EPS, un valor muy bajo que reemplazar√° la probabilidad 0.
    # Con el objetivo de evitar obtener un inf al momento de hacer log(0).
    entropy = -(probs_nat * torch.log(probs_nat.clamp_min(EPS))).sum(dim=1)

    # ---------- C√°lculo de sensibilidad ----------
    # Calcula la norma de la gradiente de la KL (calculado anteriormente) respecto a la muestra adversarial
    if per_sample_sensitivity:
        # versi√≥n exacta por-ejemplo (loop) -- m√°s lenta, pero correcta
        # Se toma una muestra x iesima con gradiente activo (requires_grad_(True)).
        # Se calcula su KL individual con reduction='sum'.
        # torch.autograd.grad devuelve la derivada parcial de L en x' (‚àÇKL/‚àÇx‚Ä≤).
        # Se aplana y calcula su norma L2 (norm(p=2, dim=1)).
        # Se acumulan todos los valores del kl_per_example llamada [B].

        sens_list = []
        model.eval()
        for i in range(batch_size):
            xi = x_adv[i:i+1].detach().clone().requires_grad_(True)
            with torch.enable_grad():
                kl_i = F.kl_div(
                    F.log_softmax(model(xi), dim=1),
                    probs_nat[i:i+1].detach(),
                    reduction='sum'
                )
            gi = torch.autograd.grad(kl_i, xi, create_graph=False, retain_graph=False)[0]
            sens_list.append(gi.view(gi.size(0), -1).norm(p=2, dim=1))
        sensitivity = torch.cat(sens_list, dim=0)
    else:
        # versi√≥n por-batch (aprox): un √∫nico grad para la KL total
        # kl_total: una KL promedio (escala batchmean).
        # autograd.grad: gradiente ‚àÇKL_total/‚àÇx_adv.
        # view(...).norm(p=2,dim=1): norma L2 obteniendo [B].

        x_adv_req = x_adv.detach().clone().requires_grad_(True)
        kl_total = F.kl_div(
            F.log_softmax(model(x_adv_req), dim=1),
            probs_nat.detach(),
            reduction='batchmean'
        )
        g = torch.autograd.grad(kl_total, x_adv_req, create_graph=False)[0]
        sensitivity = g.view(batch_size, -1).norm(p=2, dim=1)

    # ---------- Construcci√≥n de lambda ----------
    # Normaliza ambos vectores [B] al rango [0,1] si es que el flag es verdadero
    # Combina ambos t√©rminos: ùúÜ i√©simo = ùõº * entrop√≠a + ùõΩ sensibilidad
    #   alpha: peso de la entrop√≠a (controla la influencia de la incertidumbre).
    #   beta: peso de la sensibilidad (controla la influencia de la vulnerabilidad adversarial).
    # lam.detach(): Hace que Œª(x) se calcula fuera del gr√°fico de entrenamiento. Si no se detacha,
    # PyTorch intentar√≠a retropropagar a trav√©s de las operaciones que generaron Œª(x),
    # lo que distorsionar√≠a la p√©rdida.

    if normalize_terms:
        entropy_n = _normalize_batch(entropy)
        sensitivity_n = _normalize_batch(sensitivity)
    else:
        entropy_n = entropy
        sensitivity_n = sensitivity

    lam = alpha * entropy_n + beta * sensitivity_n
    lam = lam.detach()

    # ---------- P√©rdida robusta ponderada din√°micamente ----------
    # La p√©rdida adversarial dinamica que es la multiplicaci√≥n de:
    # L_RD = El promedio de la sumatoria de (lambda dinamico * p√©rdida robusta por muestra)
    loss_robust_dynamic = (lam * kl_per_example).mean()

    # La p√©rdida total ahora es tal y como se hace en TRADES
    loss_total = loss_natural + loss_robust_dynamic

    # Retorna la p√©rdida total
    return loss_total, lam

In [8]:
!jupyter nbconvert --to script Dtrades.ipynb

[NbConvertApp] Converting notebook Dtrades.ipynb to script
[NbConvertApp] Writing 8005 bytes to Dtrades.py
