# Tutorial de Pytorch 7: Operaciones con tensores

### **Producto escalar**

El producto escalar de dos vectores es la suma de los productos de sus componentes. Por ejemplo, el producto escalar de los vectores $a$ y $b$ es:


$$a \cdot b = a_1 b_1 + a_2 b_2 + a_3 b_3$$


Si tenemos dos vectores en PyTorch, podemos calcular su producto escalar usando la función torch.dot().

In [5]:
import torch

a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])
c = torch.dot(a, b)

# 1*4 + 2*5 + 3*6 = 32
print("Producto escalar:", c.item())

Producto escalar: 32


Si tenemos un grupo de vectores almacenados en una matriz, podemos calcular el producto escalar de todos los vectores en la matriz con un vector dado.

In [17]:
A = torch.tensor([[1, 2, 3], [4, 5, 6]])
b = torch.tensor([7, 8, 9])
C = torch.matmul(A, b)

# 1*7 + 2*8 + 3*9 = 50
# 4*7 + 5*8 + 6*9 = 122

print("Producto matricial:\n", C)

Producto matricial:
 tensor([ 50, 122])


Si ahora tenemos un tensor correspondiente a un batch de matrices de $2 \times 3 \times 2$ (batch, secuencia, embedding) y un batch de vectores de $2 \times 2$, podemos calcular el producto escalar de cada matriz con su vector correspondiente en el batch. La figura siguiente muestras los tres primeros casos. La matriz amarilla de $2 \times 3$ correspondería al resultado.

<img src="imgs/producto_escalar.svg" width="80%">

In [21]:
import torch

A = torch.arange(1, 13)  # vector de 12 elementos
A = A.view(2, 3, 2)  # vector reconvertido en una matriz de 2x3x2

B = torch.arange(1, 5)
B = B.view(2, 2)

print(A)
print(B)

tensor([[[ 1,  2],
         [ 3,  4],
         [ 5,  6]],

        [[ 7,  8],
         [ 9, 10],
         [11, 12]]])
tensor([[1, 2],
        [3, 4]])


Para hacer el producto escalar de un batch de matrices con un batch de vectores, podemos usar la función torch.bmm() (batch matrix multiplication).

In [27]:
C = torch.bmm(A, B.unsqueeze(1).transpose(1, 2))
print(C.squeeze())

tensor([[ 5, 11, 17],
        [53, 67, 81]])


Veamos que los resultados son correctos:

In [31]:
print(1*1+2*2, 1*3+2*4, 1*5+2*6)
print(3*7+4*8, 3*9+4*10, 3*11+4*12)

5 11 17
53 67 81


## **Atención Q, K, V**

In [94]:
import torch

Q = torch.tensor([[0.0, 0.0, 0.0], [1, 1, 1], [0.2, 0.2, 0.2], [0.3, 0.3, 0.3]])
K = torch.tensor([[0.1, 0.1, 0.1], [0.2, 0.2, 0.2], [0.3, 0.3, 0.3], [0.4, 0.4, 0.4]])
V = torch.tensor([[1., 0., 0.], [0., 1., 0.], [0., 0., 1.], [0., 1., 1.]])

print(Q.shape)
print(K.shape)
print(V.shape)

score = Q @ K.transpose(0, 1)

print("Score:\n", score)

score = score / torch.sqrt(torch.tensor(K.shape[1]).float())
score = torch.softmax(score, dim=1)

print("Score:", score.shape)
print("V:", V.shape)

attn = score @ V  

print(attn)


torch.Size([4, 3])
torch.Size([4, 3])
torch.Size([4, 3])
Score:
 tensor([[0.0000, 0.0000, 0.0000, 0.0000],
        [0.3000, 0.6000, 0.9000, 1.2000],
        [0.0600, 0.1200, 0.1800, 0.2400],
        [0.0900, 0.1800, 0.2700, 0.3600]])
Score: torch.Size([4, 4])
V: torch.Size([4, 3])
tensor([[0.2500, 0.5000, 0.5000],
        [0.1892, 0.5432, 0.5857],
        [0.2372, 0.5087, 0.5173],
        [0.2309, 0.5130, 0.5260]])
