Prueba para ver si la función de agregación de atención que tengo se puede estabilizar de forma similar a la softmax:

softmax(x) = softmax(x+c)

In [1]:
import torch
import numpy
import torch.nn as nn
import torch.nn.functional as F

In [17]:
a = torch.randn(3, 10, 2, 10)
exp_a = torch.exp(a)

alpha = torch.einsum("blnk->bl",exp_a) / torch.einsum("blnk->b", exp_a).unsqueeze(-1)

In [18]:
a2 = a - torch.max(a)
exp_a2 = torch.exp(a2)

alpha2= torch.einsum("blnk->bl",exp_a2) / torch.einsum("blnk->b", exp_a2).unsqueeze(-1)

In [19]:
alpha

tensor([[0.1250, 0.1082, 0.1510, 0.0761, 0.0732, 0.1004, 0.0717, 0.1019, 0.1194,
         0.0731],
        [0.0576, 0.1066, 0.0906, 0.0674, 0.0956, 0.1619, 0.0945, 0.0850, 0.1510,
         0.0898],
        [0.1252, 0.1230, 0.0788, 0.0957, 0.0952, 0.0783, 0.0845, 0.1018, 0.0824,
         0.1351]])

In [20]:
alpha2

tensor([[0.1250, 0.1082, 0.1510, 0.0761, 0.0732, 0.1004, 0.0717, 0.1019, 0.1194,
         0.0731],
        [0.0576, 0.1066, 0.0906, 0.0674, 0.0956, 0.1619, 0.0945, 0.0850, 0.1510,
         0.0898],
        [0.1252, 0.1230, 0.0788, 0.0957, 0.0952, 0.0783, 0.0845, 0.1018, 0.0824,
         0.1351]])

¡Al parecer sí funciona! Y debería ser numéricamente estable.

Razonamiento de por qué funciona:

La función de agregación se define como:
$$
f(A) = \frac{\sum_{n,k}{\exp(A_{blnk})}}{\sum_{l,n,k}{\exp(A_{blnk})}}
$$

Si añadimos una constante a todo A:
$$
\begin{align*}
f(A + c) &= \frac{\sum_{n,k} \exp(A_{blnk} + c)}{\sum_{l,n,k} \exp(A_{blnk} + c)} \\
        &= \frac{\exp(c) \sum_{n,k} \exp(A_{blnk})}{\exp(c) \sum_{l,n,k} \exp(A_{blnk})}
\end{align*}
$$

¿Lo hace numéricamente más estable?

1. Garantiza que ningún número es positivo, por lo que no puede haber overflow en ninguna exponenciación (se evitan inf que pueden llevar a NaN si se divide por ellos).
2. Otro problema que puede haber es que haya un underflow de todas las exponenciaciones (lo que haría el denominador cero). En el softmax, que restamos el vector por el valor máximo, sabemos que una de las exponenciaciones es 1, por lo que el denominador no es 0. Sin embargo, en este caso estamos restando el valor máximo de toda la matriz, pero normalizando independientemente en la dimensión de batch. Por tanto, solo tenemos garantizado que uno de los elementos del vector sea distinto de cero.

Vamos a probar a ver si se puede restar numeros diferentes a cada row de batch:

In [2]:
a = torch.randn(3, 10, 2, 10)
exp_a = torch.exp(a)

alpha = torch.einsum("blnk->bl",exp_a) / torch.einsum("blnk->b", exp_a).unsqueeze(-1)
alpha

tensor([[0.1386, 0.1294, 0.0935, 0.0642, 0.1184, 0.0913, 0.0531, 0.1075, 0.1108,
         0.0933],
        [0.1006, 0.1002, 0.1890, 0.0845, 0.0983, 0.0784, 0.1287, 0.0706, 0.0684,
         0.0813],
        [0.0962, 0.1147, 0.0882, 0.0938, 0.0872, 0.0986, 0.1282, 0.0795, 0.1139,
         0.0997]])

In [3]:
a2 = a.view(3, 10, 20)
a2 = a2 - a2.view(3, -1).max(dim=1, keepdim=True).values.unsqueeze(-1)#torch.max(a2, dim=-1, keepdim=True).values
exp_a2 = torch.exp(a2)

alpha2= torch.einsum("bln->bl",exp_a2) / torch.einsum("bln->b", exp_a2).unsqueeze(-1)
alpha2

tensor([[0.1386, 0.1294, 0.0935, 0.0642, 0.1184, 0.0913, 0.0531, 0.1075, 0.1108,
         0.0933],
        [0.1006, 0.1002, 0.1890, 0.0845, 0.0983, 0.0784, 0.1287, 0.0706, 0.0684,
         0.0813],
        [0.0962, 0.1147, 0.0882, 0.0938, 0.0872, 0.0986, 0.1282, 0.0795, 0.1139,
         0.0997]])

¡Conseguido! Lo que hago es restar el máximo para cada ejemplo de batch independientemente. De esta forma se asegura que la matriz a2 es totalmente negativa y además, hay al menos un cero en cada batch, con lo que al aplicar la exponenciación y sumar, el denominador nunca debería poder ser cero.

A continuación comprobación de la estabilidad:

In [36]:
def fagg(A):
    exp_A = torch.exp(A)
    
    alpha = torch.einsum("blnk->bl",exp_A) / torch.einsum("blnk->b", exp_A).unsqueeze(-1)
    return alpha

def fagg_stable(A):
    B, L, N, H = A.size()
    A = A.view(B, L, N*H)
    A = A - A.view(B, -1).max(dim=1, keepdim=True).values.unsqueeze(-1)
    exp_A = torch.exp(A)
    
    alpha = torch.einsum("bln->bl",exp_A) / torch.einsum("bln->b", exp_A).unsqueeze(-1)
    return alpha

In [6]:
A = torch.randn(3, 4, 2, 3)
(fagg(A) == fagg_stable(A)).all()

tensor(True)

Actuación frente a infinitos (exp(88.723) > 3.4e38, el mayor valor posible para un float32)

In [93]:
A = torch.rand(3, 4, 2, 3)
A[0, 0, 0, 0] = 88.723
A[0, 1, 0, 0] = 88.723
A[1, 0, 0, 0] = 88.723
A[1, 3, 0, 0] = 88.723
A[2, 0, 0, 0] = 88.723
A[2, 3, 0, 0] = 88.723

In [94]:
fagg(A)

tensor([[nan, nan, 0., 0.],
        [nan, 0., 0., nan],
        [nan, 0., 0., nan]])

In [95]:
fagg_stable(A)

tensor([[5.0000e-01, 5.0000e-01, 1.4145e-38, 1.7592e-38],
        [5.0000e-01, 1.4661e-38, 1.3485e-38, 5.0000e-01],
        [5.0000e-01, 1.3178e-38, 1.3522e-38, 5.0000e-01]])

faggstable funciona correctamente, y además las filas suman 1

In [89]:
a = torch.exp(torch.tensor([-110], dtype=torch.float32))
a

tensor([0.])

Con -110 ya es suficiente para obtener un cero. El problema de estabilidad que puede ocurrir es qeu todos los números sean demasiado pequeños y entonces el denominador sume cero. Vamos a ver si a fagg_stable le afecta esto:

In [96]:
A = torch.rand(3, 4, 2, 3) - 110
fagg(A)

tensor([[nan, nan, nan, nan],
        [nan, nan, nan, nan],
        [nan, nan, nan, nan]])

In [97]:
fagg_stable(A)

tensor([[0.3141, 0.2303, 0.2318, 0.2238],
        [0.2854, 0.2514, 0.2538, 0.2094],
        [0.2426, 0.2289, 0.2834, 0.2450]])

In [98]:
fagg_stable(A).sum(dim=1)

tensor([1.0000, 1.0000, 1.0000])

Como se puede apreciar, no se ve afectado, al contrario que fagg sin estabilizar. Esto también puede ocurrir si los pesos son muy grandes:

In [101]:
A = torch.rand(3, 4, 2, 3) + 110
fagg(A)

tensor([[nan, nan, nan, nan],
        [nan, nan, nan, nan],
        [nan, nan, nan, nan]])

In [102]:
fagg_stable(A)

tensor([[0.2139, 0.1904, 0.3202, 0.2755],
        [0.2562, 0.2402, 0.2404, 0.2632],
        [0.2385, 0.3024, 0.2321, 0.2270]])

No ocurre si solo unos pocos de los pesos son pequeños

In [103]:
A = torch.rand(3, 4, 2, 3) - 110
A[0,0,0,0] = 0.1
fagg(A)

tensor([[1., 0., 0., 0.],
        [nan, nan, nan, nan],
        [nan, nan, nan, nan]])

In [104]:
fagg_stable(A)

tensor([[1.0000, 0.0000, 0.0000, 0.0000],
        [0.2669, 0.2361, 0.2275, 0.2694],
        [0.2236, 0.2292, 0.3073, 0.2398]])