# Tensores en pytorch

El framework **torch** está diseñada para que todo sea muy similar con el manejo de arrays multi-dimensionalidad de **numpy**

In [2]:
import numpy as np
import torch

## Creación de tensores

Para crear un tensor se puede crear una instancia de
- **numpy.ndarray** en **numpy**
- **torch.Tensor** en **torch**

Sin embargo, lo más indicado es utilizar funciones para crearlos de una manera más limpia, retornando los tipos de datos previamente mencionados:
- **numpy.array** en **numpy**
- **torch.tensor** en **torch**

Definición de tensores de rango 0, 1, y 2. Se trata de matrices multidimensionales que se definen como numpy arrays.

In [3]:
x = np.array(12)
y = np.array([12,3,6,14])
z = np.array([[5, 78, 2, 34, 0],
              [6, 79, 3, 35, 1],
              [7, 80, 4, 36, 2]])
print(x, '\n', y, '\n', z)

12 
 [12  3  6 14] 
 [[ 5 78  2 34  0]
 [ 6 79  3 35  1]
 [ 7 80  4 36  2]]


In [4]:
x_t = torch.tensor(12)
y_t = torch.tensor([12,3,6,14])
z_t = torch.tensor([[5, 78, 2, 34, 0],
              [6, 79, 3, 35, 1],
              [7, 80, 4, 36, 2]])
print(x_t, '\n', y_t, '\n', z_t)

tensor(12) 
 tensor([12,  3,  6, 14]) 
 tensor([[ 5, 78,  2, 34,  0],
        [ 6, 79,  3, 35,  1],
        [ 7, 80,  4, 36,  2]])


Obtener el dimensionamiento (el número de ejes). Los escalares tienen 0 dimensiones, por convención.

In [7]:
print(x.ndim, y.ndim, z.ndim)

0 1 2


In [6]:
print(x_t.ndim, y_t.ndim, z_t.ndim)

0 1 2


In [8]:
type(x_t)

torch.Tensor

Obtener la forma de los tensores

In [9]:
print(x.shape, y.shape, z.shape)

() (4,) (3, 5)


In [10]:
print(x_t.shape, y_t.shape, z_t.shape)

torch.Size([]) torch.Size([4]) torch.Size([3, 5])


Se puede dar el caso de que se abuse utilizando el término "dimensiones" para referirse al "rango" o al número de "ejes" de un tensor.

El primer tensor es un escalar. el segundo es un array con un eje de 4 dimensiones. El tercero es un tensor de rango 2, con 3 dimensiones en el primer eje y 5 dimensiones en el segundo eje.

Podemos convertir de tensores de torch a arrays multidimensionales de numpy con el método **.numpy()** de la clase **torch.Tensor**.

In [8]:
z_t.numpy()

array([[ 5, 78,  2, 34,  0],
       [ 6, 79,  3, 35,  1],
       [ 7, 80,  4, 36,  2]], dtype=int64)

Para tensores de rango 0 (escalares), se puede aplicar el método **item()** que retorna el valor correspondiente, resultado diferente al de llamar **numpy()**.

In [9]:
x_t.numpy()

array(12, dtype=int64)

In [10]:
x_t.item()

12

Para crear un tensor con valores aleatorios, se utiliza la función **torch.rand()**, indicando la dimensionalidad del tensor.

In [11]:
r = torch.rand(3,5)
r

tensor([[0.9034, 0.0895, 0.5214, 0.5137, 0.4154],
        [0.6004, 0.5867, 0.1891, 0.0662, 0.4810],
        [0.9953, 0.2214, 0.4408, 0.8284, 0.8722]])

Se puede crear tensores con valores predeterminados con las funciones **torch.ones()**, **torch.zeros()**.

In [14]:
unos = torch.ones(5)
print(unos)
zeros = torch.zeros(3)
print(zeros)

tensor([1., 1., 1., 1., 1.])
tensor([0., 0., 0.])


Se puede crear tensores "vacíos" con **torch.empty()**, para luego inicializarlo.

In [27]:
vacio = torch.empty(5000)
print(vacio[:10])
torch.nn.init.normal_(vacio)
print(vacio[:10])
print(vacio.mean(), vacio.std())

tensor([3.1950e-43, 0.0000e+00, 0.0000e+00, 0.0000e+00, 1.8888e+31, 4.7414e+16,
        6.3371e-10, 5.3483e+22, 2.5180e-12, 4.0967e-11])
tensor([ 1.7327, -0.2745,  1.0904,  0.0665, -0.7550,  1.8800,  0.0812, -0.6130,
        -0.2380,  0.6516])
tensor(0.0064) tensor(0.9985)


Al crear tensores que representen parámetros que se quieren entrenar a partir de descenso de gradiente, se debe indicar que se requiere monitorear sus gradientes, con el argumento ```requires_grad=True```, ya que por defecto este argumento está seteado en ```False```.

In [13]:
w = torch.randn(5, 3, requires_grad=True)
print(w)
b = torch.randn(3, requires_grad=True)
print(b)

tensor([[ 0.4262,  1.6204, -0.4838],
        [ 1.0955, -0.4632, -1.1157],
        [-0.0974, -0.1109, -0.6973],
        [ 0.7594, -1.3064,  0.8943],
        [ 0.7797,  1.0242, -0.6823]], requires_grad=True)
tensor([ 0.5129, -0.2001,  0.9694], requires_grad=True)


## Tipo de datos de los tensores

In [14]:
w = np.array([4.3, 5.6])
print(x.dtype, y.dtype, z.dtype, w.dtype)

int64 int64 int64 float64


In [15]:
w_t = torch.tensor([4.3, 5.6])
print(x_t.dtype, y_t.dtype, z_t.dtype, w_t.dtype)

torch.int64 torch.int64 torch.int64 torch.float32


No se tienen los mismos tipos por defecto (ver los floats), se puede hacer cambio de la representación de los elementos de los tensores en torch.
De hecho, para redes neuronales, es mejor utilzar una representación menos precisa (float32), para optimizar el espacio en memoria RAM y velocidad de procesamiento.
Se puede especificar explícitamente el tipo de un tensor en la función **tensor()**

In [16]:
a = torch.tensor([1., 2.], dtype=torch.float64)
a

tensor([1., 2.], dtype=torch.float64)

En **torch**, se puede también obtener versiones de tensores existentes con otros tipos, usando métodos como **double()** o **to()** (indicando el tipo).

In [17]:
a = torch.tensor([1., 2.]) # por defecto es igual a especificar dtype=torch.float32
print(a)
b = a.double()
print(b)

tensor([1., 2.])
tensor([1., 2.], dtype=torch.float64)


In [18]:
c = a.to(torch.float64)
print(c)

tensor([1., 2.], dtype=torch.float64)


## Dimensionalidad

Al igual que la dimensionalidad de los arrays en numpy se puede modificar con la función **reshape()**, se puede cambiar la forma (dimensiones) de los tensores existentes con el método **view()**. 
Es necesario que las nuevas dimensiones sean compatibles con las dimensiones del tensor original, de lo contrario, ocurrirá un error.

In [19]:
f = torch.arange(1,25,2)
print(f"shape: {f.shape}")
f.numpy()

shape: torch.Size([12])


array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23])

In [20]:
f2 = f.view(3, 4)
print(f"shape: {f2.shape}")
f2.numpy()

shape: torch.Size([3, 4])


array([[ 1,  3,  5,  7],
       [ 9, 11, 13, 15],
       [17, 19, 21, 23]])

In [21]:
f3 = f2.view(6, 2)
print(f"shape: {f3.shape}")
f3.numpy()

shape: torch.Size([6, 2])


array([[ 1,  3],
       [ 5,  7],
       [ 9, 11],
       [13, 15],
       [17, 19],
       [21, 23]])

In [22]:
f4 = f3.view(4, 3)
print(f"shape: {f4.shape}")
f4.numpy()

shape: torch.Size([4, 3])


array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17],
       [19, 21, 23]])

Con la función **torch.reshape()** se puede realizar la misma operación

In [23]:
f4 = torch.reshape(f3, (4, 3))
print(f"shape: {f4.shape}")
f4.numpy()

shape: torch.Size([4, 3])


array([[ 1,  3,  5],
       [ 7,  9, 11],
       [13, 15, 17],
       [19, 21, 23]])

Se puede realizar la transposición de un tensor, indicando los dos rangos que se desean intercambiar, con el método **torch.transpose()**.

In [24]:
f5 = torch.rand(2,4,6)
f6 = torch.transpose(f5, 0, 2)
print(f5.shape)
print(f6.shape)

torch.Size([2, 4, 6])
torch.Size([6, 4, 2])


Se utiliza el método **torch.squeeze()** para simplificar tensores con rangos de dimensionalidad 1, indicando el índice a tratar.

In [25]:
f7 = torch.rand(1, 28, 28, 1)
print(f7.shape)
f8 = torch.squeeze(f7, 3)
print(f8.shape)
f8 = torch.squeeze(f8, 0)
print(f8.shape)

torch.Size([1, 28, 28, 1])
torch.Size([1, 28, 28])
torch.Size([28, 28])


Si se quiere dividir el primer rango de un tensor en varios tensores se pueden utilizar las funciones:
- **torch.chunk()**, indicando el número de pedazos que se desean; el tamaño del vector original debe ser divisible por el número de pedazos, so pena de no obtener todos los pedazos deseados
- **torch.split()**, indicando los tamaños de los pedazos que se desean en una lista; los tamaños deben sumar el tamaño del tensor original.

In [26]:
f9 = torch.rand(12)
print(f9.shape)
tensor_list = torch.chunk(f9, 4)
print(tensor_list)
tensor_list = torch.chunk(f9, 5)
print(tensor_list)
tensor_list = torch.chunk(f9, 6)
print(tensor_list)

torch.Size([12])
(tensor([0.4166, 0.9691, 0.7767]), tensor([0.7785, 0.1937, 0.6786]), tensor([0.5722, 0.4367, 0.5366]), tensor([0.5106, 0.5720, 0.9122]))
(tensor([0.4166, 0.9691, 0.7767]), tensor([0.7785, 0.1937, 0.6786]), tensor([0.5722, 0.4367, 0.5366]), tensor([0.5106, 0.5720, 0.9122]))
(tensor([0.4166, 0.9691]), tensor([0.7767, 0.7785]), tensor([0.1937, 0.6786]), tensor([0.5722, 0.4367]), tensor([0.5366, 0.5106]), tensor([0.5720, 0.9122]))


In [27]:
torch_list = torch.split(f9, (4,2,5,1))
print(torch_list)
torch_list = torch.split(f9, (4,3,3,2))
print(torch_list)

(tensor([0.4166, 0.9691, 0.7767, 0.7785]), tensor([0.1937, 0.6786]), tensor([0.5722, 0.4367, 0.5366, 0.5106, 0.5720]), tensor([0.9122]))
(tensor([0.4166, 0.9691, 0.7767, 0.7785]), tensor([0.1937, 0.6786, 0.5722]), tensor([0.4367, 0.5366, 0.5106]), tensor([0.5720, 0.9122]))


Si lo que se desea es fusionar varios tensores, se pueden utilizar las siguientes funciones:
- **torch.cat()**: se indican los tensores a fusionar en una lista, con el eje del rango a seguir, los demás ejes deben tener la misma dimensionalidad para que se puedan concatenar los tensores.
- **torch.stack()**: se apilan los tensores siguiendo un eje; debe haber consistencia en los ejes diferentes a los de apilación

In [28]:
f10 = torch.rand(3, 2, 5)
f11 = torch.rand(3, 2, 5)
print(torch.cat([f10, f11], axis=0).shape)
print(torch.cat([f10, f11], axis=1).shape)
print(torch.cat([f10, f11], axis=2).shape)


torch.Size([6, 2, 5])
torch.Size([3, 4, 5])
torch.Size([3, 2, 10])


In [29]:
f12 = torch.ones(3)
f13 = torch.zeros(3)
print(f12)
print(torch.stack([f12, f13], axis=0))
print(torch.stack([f12, f13], axis=1))

tensor([1., 1., 1.])
tensor([[1., 1., 1.],
        [0., 0., 0.]])
tensor([[1., 0.],
        [1., 0.],
        [1., 0.]])


## Operaciones sobre tensores

**Operaciones básicas** de sumas, restas, multiplicaciones y divisiones, realizadas elemento por elemento se hacen con el operador matemático correspondiente.

In [30]:
a = torch.tensor([1, 2, 3, 4, 5, 6])
b = torch.tensor([2, 2, 2, 2, 2, 2])
print(f"Suma: {a+b}")
print(f"Resta: {a-b}")
print(f"Multiplicación: {a*b}")
print(f"División: {a/b}")

Suma: tensor([3, 4, 5, 6, 7, 8])
Resta: tensor([-1,  0,  1,  2,  3,  4])
Multiplicación: tensor([ 2,  4,  6,  8, 10, 12])
División: tensor([0.5000, 1.0000, 1.5000, 2.0000, 2.5000, 3.0000])


**Broadcasting**: combinar tensores de rangos diferentes de manera automática, suponiendo repetición de los valores a través de los rangos faltantes.

In [31]:
print(a)
print(a+3)
print(a*3)
print(a*3.)

tensor([1, 2, 3, 4, 5, 6])
tensor([4, 5, 6, 7, 8, 9])
tensor([ 3,  6,  9, 12, 15, 18])
tensor([ 3.,  6.,  9., 12., 15., 18.])


In [32]:
b = torch.tensor([[1,2,3], [4,5,6]])
print(f"b: {b}")
c = torch.tensor([9, 8, 7])
print(f"c: {c}")
print(f"b+c: {b+c}")
print(f"b+1: {b+1}")


b: tensor([[1, 2, 3],
        [4, 5, 6]])
c: tensor([9, 8, 7])
b+c: tensor([[10, 10, 10],
        [13, 13, 13]])
b+1: tensor([[2, 3, 4],
        [5, 6, 7]])


**Producto punto** (producto interno):
- **.dot()** en numpy, o el operador de multiplicación de matrices "**@**".
- **.matmul()** o **.dot()** en **torch** (son equivalentes)
- recientemente se incluyó el operador **@** en **torch**.

In [33]:
print(y)
print(y.dot(y))
print(y @ y)


[12  3  6 14]
385
385


In [34]:
print(y_t.matmul(y_t))
print(y_t.dot(y_t))
print(y_t @ y_t)

tensor(385)
tensor(385)
tensor(385)


En el contexto de las redes neuronales, durante la fase de feedforward, en cada capa $l$ (con su matriz de pesos $W$ y su vector de sesgos $b$) se realiza una **combinación lineal** para el batch de instancias $X$, obteniendo así el **net input** correspondiente:
$z^{[l]} = W^{[l]}*x + b$. 

Supongamos que tenemos la capa $l$ tiene 5 neuronas, que está conectada a una capa anterior de 4 neuronas, y que tenemos un batch de 8 registros.

In [35]:
n_l = 5
n_l_1 = 4
m = 8

W = torch.arange(n_l * n_l_1).view(n_l, n_l_1)
print(f"W: {W.shape}")

X = torch.arange(n_l_1 * m).view(n_l_1, m)
print(f"X: {X.shape}")

b = torch.arange(n_l * 1).view(n_l, 1)
print(f"b: {b.shape}")

Z = W.matmul(X) + b
print(f"Z: {Z.shape}")

print(f"Salidas de las {n_l} neuronas de la capa l, para las {m} instancias del batch\n{Z}")

W: torch.Size([5, 4])
X: torch.Size([4, 8])
b: torch.Size([5, 1])
Z: torch.Size([5, 8])
Salidas de las 5 neuronas de la capa l, para las 8 instancias del batch
tensor([[ 112,  118,  124,  130,  136,  142,  148,  154],
        [ 305,  327,  349,  371,  393,  415,  437,  459],
        [ 498,  536,  574,  612,  650,  688,  726,  764],
        [ 691,  745,  799,  853,  907,  961, 1015, 1069],
        [ 884,  954, 1024, 1094, 1164, 1234, 1304, 1374]])


# Diferenciación automática

Para ilustrar como funciona la diferenciación automática, vamos a crear un modelo "a pie":
- que tiene con 5 neuronas de entrada **x**, y 3 neuronas de salida binarias **y**.
- lo que implica crear como parámetros un tensor de pesos **w** (5, 3), y un vector de sesgos **b** de 3 posiciones, que requieren tener seguimiento de gradientes, por lo que se especifica ```requires_grad=True```.
- se calcula los net inputs **z** correspondientes
- se utiliza una función de pérdida binary cross entropy con la función ```torch.nn.functional.binary_cross_entropy_with_logits()```, que no requiere aplicar una función softmax para calcular las probabilidades, sino que trabaja directamente con los logits.

In [36]:
x = torch.ones(5)  # input tensor
y = torch.zeros(3)  # expected output
w = torch.randn(5, 3, requires_grad=True)
b = torch.randn(3, requires_grad=True)
z = torch.matmul(x, w)+b
loss = torch.nn.functional.binary_cross_entropy_with_logits(z, y)

Los gradientes indicados no se calculan hasta que no se dé una orden específica. Estos quedarán almacenados en el atributo ```grad``` de los tensores monitoreados

In [37]:
print(x.grad)
print(w.grad)
print(b.grad)

None
None
None


Con el método ```backward```, llamado sobre el tensor correspondiente, se realiza la propagación y cálculo de los gradientes.

In [38]:
loss.backward()
print(x.grad)
print(w.grad)
print(b.grad)

None
tensor([[0.0098, 0.0094, 0.0431],
        [0.0098, 0.0094, 0.0431],
        [0.0098, 0.0094, 0.0431],
        [0.0098, 0.0094, 0.0431],
        [0.0098, 0.0094, 0.0431]])
tensor([0.0098, 0.0094, 0.0431])


Por defecto, los gradientes solo se pueden calcular sobre un resultado una sola vez. Una vez se llama al método ```backward()```, pues los valores intermediarios monitoreados se liberan.
Si se quiere llamar mas de una vez al método ```backward```, se debe especificar el argumento ```retain_graph=True```.

In [39]:
z = torch.matmul(x, w)+b
loss = torch.nn.functional.binary_cross_entropy_with_logits(z, y)
loss.backward(retain_graph=True)
loss.backward()

Solo necesitamos monitorear los gradientes durante el entrenamiento.
Cuando tenemos un modelo en producción y solo requerimos hacer inferencia, para mejorar el performance del proceso, los gradientes se pueden deshabilitar creando un bloque ```no_grad()```.

In [40]:
z = torch.matmul(x, w)+b
print(z.requires_grad)

with torch.no_grad():
    z = torch.matmul(x, w)+b
print(z.requires_grad)

True
False


También se puede desligar el monitoreo de un tensor con su método ```detach()```.
En modelos con **transfer learning**, se pueden congelar los gradientes de ciertas capas de modelos transferidos utilizando este método.

In [41]:
z = torch.matmul(x, w)+b
z_det = z.detach()
print(z_det.requires_grad)

False


# Paralelización con GPUs

Por defecto el dispositivo de procesamiento y almacenamiento es la CPU.
En caso de dispongamos de una GPU CUDA, y queramos utilizarla, necesitamos especificárselo a PyTorch.

In [11]:
if torch.cuda.is_available():
    print("Utilizamos la primera GPU disponible")
    device='cuda:0'
else:
    print("No hay GPU, toca correr todo en CPU")
    device='cpu'

No hay GPU, toca correr todo en CPU


Al crear un tensor, especificamos el dispositivo (CPU o GPU) que vamos a utilizar para almacenarlo.

In [6]:
a = torch.tensor([1., 2., 3.], device=torch.device(device))
print(a)

tensor([1., 2., 3.], device='cuda:0')


Comparemos el tiempo que toma el cálculo de una multiplicación de una matriz cuadrada por si misma. 
<font color="Red">Esta sección solo tiene sentido en caso de disponer de una GPU.</font>

In [7]:
import time

In [8]:
x = torch.randn(10000, 10000)

## CPU version
start_time = time.time()
_ = torch.matmul(x, x)
end_time = time.time()
print(f"CPU time: {(end_time - start_time):6.5f}s")

## GPU version
x = x.to(device)
# CUDA is asynchronous, so we need to use different timing functions
start = torch.cuda.Event(enable_timing=True)
end = torch.cuda.Event(enable_timing=True)
start.record()
_ = torch.matmul(x, x)
end.record()
torch.cuda.synchronize()  # Waits for everything to finish running on the GPU
print(f"GPU time: {0.001 * start.elapsed_time(end):6.5f}s")  # Milliseconds to seconds

CPU time: 14.45068s
GPU time: 1.66085s
