# Ocultación de palabras futuras con atención casual

En  esta  sección,  se modifica el  mecanismo  de  autoatención  estándar  para  crear  un  mecanismo  de  atención  causal

La  atención  causal,  también  conocida  como  atención  enmascarada,  es  una  forma  especializada  de  autoatención.
 
Restringe  un  modelo  para  que  solo  considere  las  entradas  previas  y  actuales  de  una  secuencia  al  procesar  cualquier  token.  
Esto  contrasta  con  el  mecanismo  estándar  de  autoatención,  que  permite  acceder  a  toda  la  secuencia  de  entrada  a  la  vez.
 
En  consecuencia,  al  calcular  los  puntajes  de  atención,  el  mecanismo  de  atención  causal  garantiza  que  el  modelo  solo  
tenga  en  cuenta  los  tokens  que  aparecen  en  el  mismo  token  o  antes  que  este  en  la  secuencia.Para  lograr  esto  en  LLM  tipo  GPT,  para  cada  token  procesado,  enmascaramos  el  futuro tokens,  que  vienen  después  del  token  actual  en  el  texto  de  entrada

![Texto alternativo](./imgs/3.18.png)



## Aplicación  de  una  máscara  de  atención  causal

![Texto alternativo](./imgs/3.19.png)

Una  forma  de  obtener  la  matriz  de  ponderación  de  atención  enmascarada  en  la  atención  causal  es  aplicar  la  función  softmax  a  los  puntajes  de  atención,  poniendo  a  cero  los  elementos  por  encima  de  la  diagonal  y  normalizando  el  resultado de la matriz.



In [6]:
import torch
import torch.nn as nn

inputs = torch.tensor(
    [[0.43, 0.15, 0.89], # Your     
    [0.55, 0.87, 0.66], # journey  (x^2)
    [0.57, 0.85, 0.64], # starts   (x^3)
    [0.22, 0.58, 0.33], # with     
    [0.77, 0.25, 0.10], # one      
    [0.05, 0.80, 0.55]] # step     
)

d_in = 3
d_out = 2

class SelfAttention_v2(nn.Module):
    def __init__(self, d_in, d_out, qkv_bias=False):
        super().__init__()
        self.d_out = d_out
        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
    
    def forward(self, x):
        keys = self.W_key(x)
        queries = self.W_query(x)
        values = self.W_value(x)

        attn_scores =queries@keys.T
        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
        context_vec = attn_weights @ values
        return context_vec

In [None]:
torch.manual_seed(789)
sa_v2 = SelfAttention_v2(d_in=d_in, d_out=d_out) #A  Reutilice  las  matrices  de  consulta  y  peso  clave  del  objeto  SelfAttention_v2  de  la  sección  anterior  para conveniencia
queries = sa_v2.W_query(inputs)                                   
#A
keys = sa_v2.W_key(inputs) 
attn_scores = queries @ keys.T
attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=1)
print(attn_weights)



tensor([[0.1921, 0.1646, 0.1652, 0.1550, 0.1721, 0.1510],
        [0.2041, 0.1659, 0.1662, 0.1496, 0.1665, 0.1477],
        [0.2036, 0.1659, 0.1662, 0.1498, 0.1664, 0.1480],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.1661, 0.1564],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.1585],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<SoftmaxBackward0>)


Se puede  implementar  el  paso  2  de  la  Figura   usando  la  función  tril  de  PyTorch  para  crear  una  máscara  donde  
los  valores  por  encima  de  la  diagonal  sean  cero.

In [12]:
context_length = attn_scores.shape[0]
mask_simple = torch.tril(torch.ones(context_length, context_length))
print(mask_simple)

#Aplicar el enmascaramiento
simple_masked = attn_weights * mask_simple
print(simple_masked)

tensor([[1., 0., 0., 0., 0., 0.],
        [1., 1., 0., 0., 0., 0.],
        [1., 1., 1., 0., 0., 0.],
        [1., 1., 1., 1., 0., 0.],
        [1., 1., 1., 1., 1., 0.],
        [1., 1., 1., 1., 1., 1.]])
tensor([[0.1921, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2041, 0.1659, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.2036, 0.1659, 0.1662, 0.0000, 0.0000, 0.0000],
        [0.1869, 0.1667, 0.1668, 0.1571, 0.0000, 0.0000],
        [0.1830, 0.1669, 0.1670, 0.1588, 0.1658, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<MulBackward0>)


El  tercer  paso  en  la  Figura es  renormalizar  los  pesos  de  atención  para  que  sumen  1  nuevamente  en  cada  fila.  Podemos  lograr  esto  dividiendo  cada  elemento  de  cada  fila  por  la  suma  de  cada  uno.


In [13]:
row_sums = simple_masked.sum(dim=1, keepdim=True)
masked_simple_norm = simple_masked / row_sums
print(masked_simple_norm)

tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<DivBackward0>)


Cuando  aplicamos  una  máscara  y  luego  renormalizamos  los  pesos  de  atención,  podría  parecer  inicialmente  que  la  
información  de  los  tokens  futuros  (que  pretendemos  enmascarar)  aún  podría  influir  en  el  token  actual  porque  sus  valores  
son  parte  del  cálculo  de  softmax.

Sin  embargo,  la  idea  clave  es  que  cuando  renormalizamos  los  pesos  de  atención  después  del  enmascaramiento,  lo  que  
estamos  haciendo  esencialmente  es  recalcular  el  softmax  sobre  un  subconjunto  más  pequeño  (ya  que  las  posiciones  
enmascaradas  no  contribuyen  al  valor  softmax).

La  elegancia  matemática  de  softmax  es  que,  a  pesar  de  incluir  inicialmente  todas  las  posiciones  en  el  denominador,  
después  de  enmascarar  y  renormalizar,  el  efecto  de  las  posiciones  enmascaradas  se  anula;  no  contribuyen  al  puntaje  
de  softmax  de  ninguna  manera  significativa.

En  términos  más  simples,  después  del  enmascaramiento  y  la  renormalización,  la  distribución  de  los  pesos  de  atención  
es  como  si  se  hubiera  calculado  sólo  entre  las  posiciones  no  enmascaradas  desde  el  principio.
Esto  garantiza  que  no  haya  fugas  de  información  de  tokens  futuros  (o  de  otro  modo  enmascarados)  como  pretendíamos.

![Texto alternativo](./imgs/3.20.png)

Una  forma  más  eficiente  de  obtener  la  matriz  de  peso  de  atención  enmascarada  en  la  atención  causal  es  enmascarar  los  puntajes  de  atención  con  valores  infinitos  negativos  antes  de  aplicar  la  función  softmax.

La  función  softmax  convierte  sus  entradas  en  una  distribución  de  probabilidad.  Cuando  hay  valores  de  infinito  negativo  (∞)  
consecutivos,  la  función  softmax  los  trata  como  cero.probabilidad.  (Matemáticamente,  esto  se  debe  a  que  e ∞se  aproxima  a  0.)

Podemos  implementar  este  "truco"  de  enmascaramiento  más  eficiente  creando  una  máscara  con  1  arribala  diagonal  y  luego  reemplazar  estos  1  con  valores  negativos  de  infinito  ( inf)

In [21]:
mask = torch.triu(torch.ones(context_length, context_length), diagonal=1) #matriz de unos en la diagonal superior
masked = attn_scores.masked_fill(mask.bool(), -torch.inf)
print(masked)

attn_weights = torch.softmax(masked / keys.shape[-1]**0.5, dim=1)
print(attn_weights)

tensor([[0.2899,   -inf,   -inf,   -inf,   -inf,   -inf],
        [0.4656, 0.1723,   -inf,   -inf,   -inf,   -inf],
        [0.4594, 0.1703, 0.1731,   -inf,   -inf,   -inf],
        [0.2642, 0.1024, 0.1036, 0.0186,   -inf,   -inf],
        [0.2183, 0.0874, 0.0882, 0.0177, 0.0786,   -inf],
        [0.3408, 0.1270, 0.1290, 0.0198, 0.1290, 0.0078]],
       grad_fn=<MaskedFillBackward0>)
tensor([[1.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.5517, 0.4483, 0.0000, 0.0000, 0.0000, 0.0000],
        [0.3800, 0.3097, 0.3103, 0.0000, 0.0000, 0.0000],
        [0.2758, 0.2460, 0.2462, 0.2319, 0.0000, 0.0000],
        [0.2175, 0.1983, 0.1984, 0.1888, 0.1971, 0.0000],
        [0.1935, 0.1663, 0.1666, 0.1542, 0.1666, 0.1529]],
       grad_fn=<SoftmaxBackward0>)


Ahora  podríamos  usar  los  pesos  de  atención  modificados  para  calcular  los  vectores  de  contexto  mediante  context_vec  =  
attn_weights  @  values

## Enmascaramiento de  pesos  de  atención  adicionales  con  abandono

![Texto alternativo](./imgs/3.21.png)
