<a href="https://colab.research.google.com/github/gibranfp/CursoAprendizajeProfundo/blob/2024-1/notebooks/0a_tensores_pytorch_completo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://www.researchgate.net/publication/349108714/figure/fig1/AS:988814684217344@1612763200002/Timeline-of-deep-learning-frameworks.png" alt="Historia de los marcos de trabajo de aprendizaje profundo" width="85%" height="30%"/>

Fuente: [https://www.researchgate.net/publication/349108714_DLBench_a_comprehensive_experimental_evaluation_of_deep_learning_frameworks](https://www.researchgate.net/publication/349108714_DLBench_a_comprehensive_experimental_evaluation_of_deep_learning_frameworks).

# Tensores
[PyTorch](https://pythorch.org/) es una biblioteca y marco de trabajo de código abierto que facilita la programación de redes neuronales profundas, ofreciendo varias funciones, clases y herramientas. En particular:

1. Definición de arreglos multidimensionales (clase `Tensor`) y operaciones entre ellos con soporte para GPUs y cómputo distribuido.
2. Diferenciación automática.
3. Interfaz modular con distintos niveles de abstracción para definir arquitecturas de redes neuronales y entrenarlas.
4. Clases y funciones para carga, generación de lotes y preprocesamiento de conjuntos de datos.

<img src="https://se.ewi.tudelft.nl/desosa2019/chapters/pytorch/images/pytorch/iGWbOXL.png" alt="Arquitectura de PyTorch" />

Fuente: [https://se.ewi.tudelft.nl/desosa2019/chapters/pytorch/](https://se.ewi.tudelft.nl/desosa2019/chapters/pytorch/)

In [1]:
import torch as th
import numpy as np

## Creación de tensores
El objeto básico de PyTorch es el tensor, un arreglo multidimensional similar al `ndarray` de NumPy.

![](https://static.packt-cdn.com/products/9781787125933/graphics/B07030_14_01.jpg)

Fuente: [Python Machine Learning - Second Edition](https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781787125933/14/ch14lvl1sec85/tensorflow-ranks-and-tensors)

Podemos definir un tensor a partir de valores específicos con la función `tensor()`. Para un escalar (tensor de orden 0) esto sería:

In [2]:
escalar = th.tensor(4.0)
print(f'Tensor de orden 0 (escalar): {escalar}.\nTipo: {type(escalar)}')

Tensor de orden 0 (escalar): 4.0.
Tipo: <class 'torch.Tensor'>


Un vector (tensor de orden 1):

In [3]:
vector = th.tensor([2.0, 3.0, 4.0])
print(f'Tensor de orden 1 (vector): {vector}')

Tensor de orden 1 (vector): tensor([2., 3., 4.])


Una matriz (tensor de orden 2):

In [4]:
matriz = th.tensor([[1, 2, 3], [4, 5, 6]])
print(f'Tensor de orden 2 (matriz): {matriz}')

Tensor de orden 2 (matriz): tensor([[1, 2, 3],
        [4, 5, 6]])


Un tensor de orden 3:

In [5]:
tensor3 = th.tensor([[[1,2,3], [4,5,6]], [[7,8,9], [10,11,12]]])
print(f'Tensor de orden 3: {tensor3}')

Tensor de orden 3: tensor([[[ 1,  2,  3],
         [ 4,  5,  6]],

        [[ 7,  8,  9],
         [10, 11, 12]]])


Similar a NumPy, las instancias de `Tensor` tienen varios atributos:

In [6]:
print(f'Tipo de datos: {tensor3.dtype}')
print(f'Número de ejes: {tensor3.ndim}')
print(f'Forma: {tensor3.shape}')
print(f'Forma: {tensor3.size()}')

Tipo de datos: torch.int64
Número de ejes: 3
Forma: torch.Size([2, 2, 3])
Forma: torch.Size([2, 2, 3])


PyTorch infiere el tipo de datos del tensor a partir de los valores, pero también es posible especificarlo.

In [7]:
vi64 = th.tensor([1, 2])
vf64 = th.tensor([1, 2], dtype=th.float64)
print(f'Tipo de datos por defecto: {vi64.dtype}')
print(f'Tipo de datos especificado: {vf64.dtype}')

Tipo de datos por defecto: torch.int64
Tipo de datos especificado: torch.float64


Otra forma de crear un tensor es con la función `zeros()`, que recibe como argumento la forma del tensor y regresa un tensor de esa forma con todos los elementos iguales a 0.

In [8]:
ceros = th.zeros((3, 4), dtype=th.float32)
print(f'Matriz de ceros: {ceros}')

Matriz de ceros: tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])


Una variación de la función anterior es `zeros_like()`, la cual hace los mismo pero toma la forma a partir de tensor que se pasa como argumento.

In [9]:
ceros_l = th.zeros_like(vi64)
print(f'Matriz de ceros a partir de tensor: {ceros_l} ({ceros_l.dtype})')

Matriz de ceros a partir de tensor: tensor([0, 0]) (torch.int64)


La función `ones()` es similar a la función`zeros()` pero en lugar de poner todos los valores a 0 los pone a 1.

In [10]:
unos = th.ones((3, 4), dtype=th.float32)
print(f'Matriz de unos: {unos} ({unos.dtype})')

Matriz de unos: tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]) (torch.float32)


De forma análoga, `ones_like()` es una variación de esta última función que toma la forma de otro tensor.

In [11]:
unos_l = th.ones_like(vi64)
print(f'Matriz de unos a partir de tensor: {unos_l} ({unos_l.dtype})')

Matriz de unos a partir de tensor: tensor([1, 1]) (torch.int64)


PyTorch también permite crear tensores con valores muestreados de varias. Por ej. uniforme en un rango $[0,1)$ usando la función `rand`:

In [12]:
unif_ten = th.rand((4, 3))
print(f'Matriz con elementos muestreados uniformemente de [0,1): {unif_ten}')

Matriz con elementos muestreados uniformemente de [0,1): tensor([[0.7275, 0.9269, 0.8434],
        [0.8365, 0.7574, 0.9943],
        [0.8477, 0.1155, 0.6657],
        [0.0392, 0.1831, 0.7614]])


Usando los tensores generados por `rand` (y `rand_like`) es posible generar tensores con valores muestreados de una uniforme en un rango $[a, b)$ de la siguiente manera:

In [13]:
a = -5
b = 3
unifab_ten = th.rand((4,3)) * (b - a) + a
print(f'Matriz con elementos muestreados uniformemente de [-5,3): {unifab_ten}')

Matriz con elementos muestreados uniformemente de [-5,3): tensor([[ 0.3538,  2.6222,  2.3268],
        [ 1.2233, -4.7092,  1.5880],
        [-2.6240, -3.2556, -0.7495],
        [-3.1985, -2.3335, -0.5582]])


Alternativamente, podemos instanciar una clase `Tensor` pasando el tamaño como argumento al constructor y llamando al método `uniform_`

In [14]:
th.Tensor(4,3).uniform_(-5, 3)

tensor([[ 0.3970, -2.2954, -2.4220],
        [ 0.4592,  1.5642, -1.1169],
        [-4.8658, -1.2190, -1.1849],
        [ 0.8239,  2.9247,  1.1584]])

Para valores enteros muestreados uniformemente tenemos la función `randint` (y `randint_like`).

In [15]:
unifint_ten = th.randint(low=-5, high=3, size=(4, 3))
print(f'Matriz con enteros muestreados uniformemente de [-5,3): {unifint_ten}')

Matriz con enteros muestreados uniformemente de [-5,3): tensor([[-3, -3, -5],
        [-4, -4, -4],
        [-3, -3, -5],
        [ 0,  1,  1]])


De forma similar, la función `randn` genera tensores con valores muestreados de una normal con media 0 y desviación estándar 1.

In [16]:
randn_ten = th.randn(size=(4,3))
print(f'Matriz con elementos muestreados de normal estándar: {randn_ten}')

Matriz con elementos muestreados de normal estándar: tensor([[-0.4216,  1.1889, -1.3452],
        [-1.3441, -0.8120,  0.5447],
        [-0.1544,  1.2314, -0.7505],
        [ 0.3484, -1.1710,  0.5715]])


Con los tensores generados por `randn` podemos generar tensores cuyos valores sean muestreados de una normal con distinta media y desviación estándar de la siguiente manera:

In [17]:
mu = -5
std = 10

randnms_ten = th.randn(size=(4,3)) * std + mu
print(f'Matriz con elementos muestreados de normal (mu = -5, std = 10): {randnms_ten}')

Matriz con elementos muestreados de normal (mu = -5, std = 10): tensor([[ -6.3787,  -4.2237,  -4.6816],
        [  0.5576,  17.9909, -13.4819],
        [  2.6783, -12.2954,   2.8397],
        [-15.5267,  -4.3565,  -1.1714]])


También podemos generar tensores con valores muestreados de una normal con media y desviación estándar arbitraria usando la función `normal`.

In [18]:
norm_ten = th.normal(size=(4,3), mean=-5, std=10)
print(f'Matriz con elementos muestreados de normal (mu = -5, std = 10): {norm_ten}')

Matriz con elementos muestreados de normal (mu = -5, std = 10): tensor([[-15.6884,  -6.3546, -12.2168],
        [ -9.1101, -11.0426,  -9.4447],
        [-15.8108,  -1.9595,  -5.6174],
        [ 17.2883, -17.9051,   3.1202]])


Si deseamos generar tensores muestreados de una distribución multinomial podemos usar la función `multinomial`, a la cual deben especificarse las probabilidades de cada clase como un tensor de orden 1 y el número de muestras.

In [19]:
cat_ten = th.multinomial(th.tensor([0.2, 0.6, 0.2]), num_samples=100, replacement=True)
print(f'Matriz con enteros muestreados de una multinomial: {cat_ten}')

Matriz con enteros muestreados de una multinomial: tensor([1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 0, 2, 1, 2, 2, 2, 0,
        0, 0, 1, 1, 0, 0, 2, 1, 2, 2, 2, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 1, 2, 2,
        2, 1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 1, 2, 2, 1, 0, 1, 1, 0, 1, 1, 0, 1, 2,
        2, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 2,
        1, 2, 1, 0])


El número de clases depende del tamaño del tensor y el argumento `replacemente` define si las muestras son con o sin reemplazo (en este último caso el número de muestras debe ser menor o igual al número de clases).

Por otra parte, la función `arange()` genera una secuencia de números (como el `range()` de Python):

In [20]:
rango_ten1 = th.arange(start=-3, end=3, step=0.5)
print(f'Arreglo de elementos en el rango [-3,3): {cat_ten}')

Arreglo de elementos en el rango [-3,3): tensor([1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 0, 2, 1, 2, 2, 2, 0,
        0, 0, 1, 1, 0, 0, 2, 1, 2, 2, 2, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 1, 2, 2,
        2, 1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 1, 2, 2, 1, 0, 1, 1, 0, 1, 1, 0, 1, 2,
        2, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 2,
        1, 2, 1, 0])


De manera similar, la función `linspace()` genera tensores con valores con el mismo espaciados en un intervalo.



In [21]:
ls_ten = th.linspace(start=-3, end=3, steps=10)
print(f'Arreglo de elementos en el rango [-3,3]: {cat_ten}')

Arreglo de elementos en el rango [-3,3]: tensor([1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 0, 2, 1, 2, 2, 2, 0,
        0, 0, 1, 1, 0, 0, 2, 1, 2, 2, 2, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 1, 2, 2,
        2, 1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 1, 2, 2, 1, 0, 1, 1, 0, 1, 1, 0, 1, 2,
        2, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 2,
        1, 2, 1, 0])


## Tipos
Los elementos de los tensores pueden ser de distintos tipos básicos y precisiones. Por ej. flotantes de 16 bits (`float16`) o enteros sin signo de 8 bits (`uint8`).

In [22]:
ten_f64 = th.arange(start=-3, end=3, step=0.5, dtype=th.float64)
ten_i32 = th.arange(start=-3, end=3, step=1, dtype=th.int32)
print(f'Tipo flotante de 64: {ten_f64.dtype}')
print(f'Tipo entero de 32: {ten_i32.dtype}')

Tipo flotante de 64: torch.float64
Tipo entero de 32: torch.int32


También se pueden convertir de tipos con el método `type()`:

In [23]:
print(f'Conversión de flotante de 64 a 32: {ten_f64.dtype}')
print(f'Conversión de entero de 32 a 64: {ten_i32.dtype}')

Conversión de flotante de 64 a 32: torch.float64
Conversión de entero de 32 a 64: torch.int32


## Índices
Los índices de los tensores siguen reglas similares a los arreglos de NumPy y las listas de Python.

In [24]:
ten_ind = th.reshape(th.linspace(start=-10, end=10, steps = 32), [8, 4])
print(ten_ind)
print(f"Primer renglón: {ten_ind[0].numpy()}")
print(f"Tercer renglón: {ten_ind[2].numpy()}")
print(f"Último renglón: {ten_ind[-1].numpy()}")

print(f"Primer columna: {ten_ind[:, 0].numpy()}")
print(f"Última columna: {ten_ind[:, -1].numpy()}")

tensor([[-10.0000,  -9.3548,  -8.7097,  -8.0645],
        [ -7.4194,  -6.7742,  -6.1290,  -5.4839],
        [ -4.8387,  -4.1935,  -3.5484,  -2.9032],
        [ -2.2581,  -1.6129,  -0.9677,  -0.3226],
        [  0.3226,   0.9677,   1.6129,   2.2581],
        [  2.9032,   3.5484,   4.1935,   4.8387],
        [  5.4839,   6.1290,   6.7742,   7.4194],
        [  8.0645,   8.7097,   9.3548,  10.0000]])
Primer renglón: [-10.        -9.354838  -8.709678  -8.064516]
Tercer renglón: [-4.83871   -4.1935487 -3.5483873 -2.903226 ]
Último renglón: [ 8.064516  8.709678  9.354838 10.      ]
Primer columna: [-10.          -7.419355    -4.83871     -2.2580647    0.32258093
   2.903226     5.483871     8.064516  ]
Última columna: [-8.064516   -5.483871   -2.903226   -0.32258093  2.2580647   4.83871
  7.419355   10.        ]


También se pueden realizar _slices_:

In [25]:
print("Todos los renglones:", ten_ind[:].numpy())
print("Renglones antes del 6:", ten_ind[:6].numpy())
print("Renglones del 4 al final", ten_ind[4:].numpy())
print("Renglones del 3 al 5", ten_ind[3:6].numpy())
print("Cada dos renglones:", ten_ind[::2].numpy())

Todos los renglones: [[-10.          -9.354838    -8.709678    -8.064516  ]
 [ -7.419355    -6.774194    -6.129032    -5.483871  ]
 [ -4.83871     -4.1935487   -3.5483873   -2.903226  ]
 [ -2.2580647   -1.6129035   -0.9677422   -0.32258093]
 [  0.32258093   0.9677422    1.6129035    2.2580647 ]
 [  2.903226     3.5483873    4.1935487    4.83871   ]
 [  5.483871     6.129032     6.774194     7.419355  ]
 [  8.064516     8.709678     9.354838    10.        ]]
Renglones antes del 6: [[-10.          -9.354838    -8.709678    -8.064516  ]
 [ -7.419355    -6.774194    -6.129032    -5.483871  ]
 [ -4.83871     -4.1935487   -3.5483873   -2.903226  ]
 [ -2.2580647   -1.6129035   -0.9677422   -0.32258093]
 [  0.32258093   0.9677422    1.6129035    2.2580647 ]
 [  2.903226     3.5483873    4.1935487    4.83871   ]]
Renglones del 4 al final [[ 0.32258093  0.9677422   1.6129035   2.2580647 ]
 [ 2.903226    3.5483873   4.1935487   4.83871   ]
 [ 5.483871    6.129032    6.774194    7.419355  ]
 [ 8.0

Un error relativamente comun es:

A diferencia de los arreglos de NumPy, en las instancias de `Tensor` no es posible que el paso de los índices sea negativo.

In [26]:
# NumPy
nparr = np.arange(start=0, stop=10, step=1)
print(nparr[::-1])

# PyTorch
tharr = th.arange(start=0, end=10, step=1)
# produce un error con tharr[::-1]

[9 8 7 6 5 4 3 2 1 0]


Ademas, podemos iterar sobre los elementos de un tensor:

In [27]:
for x in ten_ind:
  print(x)

for x in ten_ind:
  for i in x:
    print(i)

tensor([-10.0000,  -9.3548,  -8.7097,  -8.0645])
tensor([-7.4194, -6.7742, -6.1290, -5.4839])
tensor([-4.8387, -4.1935, -3.5484, -2.9032])
tensor([-2.2581, -1.6129, -0.9677, -0.3226])
tensor([0.3226, 0.9677, 1.6129, 2.2581])
tensor([2.9032, 3.5484, 4.1935, 4.8387])
tensor([5.4839, 6.1290, 6.7742, 7.4194])
tensor([ 8.0645,  8.7097,  9.3548, 10.0000])
tensor(-10.)
tensor(-9.3548)
tensor(-8.7097)
tensor(-8.0645)
tensor(-7.4194)
tensor(-6.7742)
tensor(-6.1290)
tensor(-5.4839)
tensor(-4.8387)
tensor(-4.1935)
tensor(-3.5484)
tensor(-2.9032)
tensor(-2.2581)
tensor(-1.6129)
tensor(-0.9677)
tensor(-0.3226)
tensor(0.3226)
tensor(0.9677)
tensor(1.6129)
tensor(2.2581)
tensor(2.9032)
tensor(3.5484)
tensor(4.1935)
tensor(4.8387)
tensor(5.4839)
tensor(6.1290)
tensor(6.7742)
tensor(7.4194)
tensor(8.0645)
tensor(8.7097)
tensor(9.3548)
tensor(10.)


## Formas
La forma de los tensores pueden cambiar, siempre y cuando se mantenga el mismo número de elementos totales:

![](https://www.tensorflow.org/guide/images/tensor/reshape-before.png)
![](https://www.tensorflow.org/guide/images/tensor/reshape-good1.png)
![](https://www.tensorflow.org/guide/images/tensor/reshape-good2.png)

Fuente: Tutorial [_Introduction to Tensors_](https://www.tensorflow.org/guide/tensor) de Tensorflow

In [28]:
x_orig = th.arange(30)
print(f'Forma de tensor original: {x_orig.shape}')

Forma de tensor original: torch.Size([30])


Nota que es necesario asegurarse de que, al cambiar la forma, el número total de elementos sea el mismo. Por ej. si tenemos 30 elementos, solo podemos cambiar a formas en las que el producto de todas las dimensiones sea igual a 30 ($5 \times 6$, $6 \times 5$, $3 \times 10$, $10 \times 3$, $1 \times 30$, $30 \times 1$, $1 \times 1 \times 30$, $5 \times 1 \times 6$, etc.).

Para cambiar la forma de este vector usamos la función (o el método) `reshape()`.

In [29]:
x_forma2 = th.reshape(x_orig, [3, 2, 5]) # de forma equivalente x_orig.reshape([3, 2, 5])
x_forma3 = th.reshape(x_orig, [3, 10]) # x_orig.reshape([3, 10])
x_forma4 = th.reshape(x_orig, [6, 5]) # x_orig.reshape([6, 5])
x_forma5 = th.reshape(x_orig, [2, 3, 5]) # x_orig.reshape([2, 3, 5])
x_forma6 = th.reshape(x_orig, [5, 3, 2]) # x_orig.reshape([5, 3, 2])

Examinemos sus formas:

In [30]:
print(x_orig.shape)
print(x_forma2.shape)
print(x_forma3.shape)
print(x_forma4.shape)
print(x_forma5.shape)
print(x_forma6.shape)

torch.Size([30])
torch.Size([3, 2, 5])
torch.Size([3, 10])
torch.Size([6, 5])
torch.Size([2, 3, 5])
torch.Size([5, 3, 2])


In [31]:
x_orig, x_forma3

(tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
         18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]),
 tensor([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
         [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
         [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]]))

Si solo requerimos agregar una dimensión, además de la función `reshape` podemos usar `unsqueeze`, la cual toma como argumento un tensor y un eje y regresa un tensor con los mismos elementos pero con una dimensión agregada.

In [32]:
print(f'Tensor de : {x_forma3.shape}')
print(f'Eje 0: {th.unsqueeze(x_forma3, axis=0).shape}')
print(f'Eje 1: {th.unsqueeze(x_forma3, axis=1).shape}')
print(f'Eje 2: {th.unsqueeze(x_forma3, axis=2).shape}')

Tensor de : torch.Size([3, 10])
Eje 0: torch.Size([1, 3, 10])
Eje 1: torch.Size([3, 1, 10])
Eje 2: torch.Size([3, 10, 1])


Para quitar dimensiones de tamaño 1 se puede utilizar la función `squeeze`.

In [33]:
x_exp4 = th.unsqueeze(x_forma3, axis=2)
x_exp4 = th.unsqueeze(x_exp4, axis=0)
print(f'Tensor de 4: {x_exp4.shape}')
print(f'Aplicando squeeze: {th.squeeze(x_exp4).shape}')
print(f'Aplicando squeeze sobre eje 1: {th.squeeze(x_exp4, axis=0).shape}')

Tensor de 4: torch.Size([1, 3, 10, 1])
Aplicando squeeze: torch.Size([3, 10])
Aplicando squeeze sobre eje 1: torch.Size([3, 10, 1])


También podemos dividir un tensor de orden $k$ en múltiples tensores de orden $k$ con la función `split`.

In [34]:
print(f'Tensor de 3: {x_forma2.shape}')
print(f'División en 3 sobre eje 0: {th.split(x_forma2, split_size_or_sections=3, dim=0)}')
print(f'División en 2 sobre eje 1: {th.split(x_forma2, split_size_or_sections=2, dim=1)}')
print(f'División en 3 sobre eje 2: {th.split(x_forma2, split_size_or_sections=[2, 2, 1], dim=2)}')

Tensor de 3: torch.Size([3, 2, 5])
División en 3 sobre eje 0: (tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]]),)
División en 2 sobre eje 1: (tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]]),)
División en 3 sobre eje 2: (tensor([[[ 0,  1],
         [ 5,  6]],

        [[10, 11],
         [15, 16]],

        [[20, 21],
         [25, 26]]]), tensor([[[ 2,  3],
         [ 7,  8]],

        [[12, 13],
         [17, 18]],

        [[22, 23],
         [27, 28]]]), tensor([[[ 4],
         [ 9]],

        [[14],
         [19]],

        [[24],
         [29]]]))


Cuando redimensionamos con `reshape` o asignamos un tensor a otro, no se está creando una copia del tensor original en memoria, sino que solo se modifica la cabecera.

In [35]:
x_orig_igual = x_orig
x_orig[0] = -1
x_orig, x_orig_igual, x_forma2

(tensor([-1,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
         18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]),
 tensor([-1,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
         18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]),
 tensor([[[-1,  1,  2,  3,  4],
          [ 5,  6,  7,  8,  9]],
 
         [[10, 11, 12, 13, 14],
          [15, 16, 17, 18, 19]],
 
         [[20, 21, 22, 23, 24],
          [25, 26, 27, 28, 29]]]))

Para crear una copia de los datos es necesario usar el método `clone()` o `deepcopy()`.

In [36]:
x_orig_clone = x_orig.clone()
x_orig[0] = 9999
x_orig, x_orig_clone, x_forma2

(tensor([9999,    1,    2,    3,    4,    5,    6,    7,    8,    9,   10,   11,
           12,   13,   14,   15,   16,   17,   18,   19,   20,   21,   22,   23,
           24,   25,   26,   27,   28,   29]),
 tensor([-1,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
         18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]),
 tensor([[[9999,    1,    2,    3,    4],
          [   5,    6,    7,    8,    9]],
 
         [[  10,   11,   12,   13,   14],
          [  15,   16,   17,   18,   19]],
 
         [[  20,   21,   22,   23,   24],
          [  25,   26,   27,   28,   29]]]))

## PyTorch y NumPy
Los tensores de PyTorch se pueden convertir a arreglos de NumPy y viceversa.

In [37]:
nparr = np.ones([2, 5])

De arreglo de NumPy a Tensorflow:

In [38]:
tharr = th.tensor(nparr)

In [39]:
tharr.numpy()

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

De tensor a arreglo de NumPy con método `numpy` de cualquier instancia de `Tensor`.

In [40]:
print(tharr.numpy())

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


## Operaciones básicas
PyTorch cuenta con operadores y funciones básicas para los tensores, similares a las de NumPy, entre ellas operadores elemento a elemento, multiplicación de tensores, etc.

### Elemento a elemento
Estas operaciones se realizan entre dos tensores que tienen la misma forma. El resultado es un tensor con la misma forma que la de los operandos, cuyos elementos se obtienen al aplicar la operación especificada entre cada elemento de un tensor y el correspondiente elemento del otro tensor. Estas operaciones pueden ser suma, resta, división, multiplicación, potenciación, etc.

In [41]:
x = th.tensor([[1., 2., 3.]])
y = th.tensor([[3., 4., 5.]])

print(f'x = {x}')
print(f'y = {y}')
print(f'10 * x = {10 * x}')
print(f'x + y = {x + y}')
print(f'x - y = {x - y}')
print(f'x * y = {x * y}')
print(f'x / y = {x / y}')
print(f'x^y = {x**y}')
print(f'x^2 = {x**2}')

x = tensor([[1., 2., 3.]])
y = tensor([[3., 4., 5.]])
10 * x = tensor([[10., 20., 30.]])
x + y = tensor([[4., 6., 8.]])
x - y = tensor([[-2., -2., -2.]])
x * y = tensor([[ 3.,  8., 15.]])
x / y = tensor([[0.3333, 0.5000, 0.6000]])
x^y = tensor([[  1.,  16., 243.]])
x^2 = tensor([[1., 4., 9.]])


### Transpuesta, producto y concatenación
Es posible obtener la transpuesta de una matriz usando la función `transpose` (como argumentos se ponen los índices de los ejes en el orden deseado) o el método `.T` de cualquier instancia de `Tensor`. Además, podemos calcular el producto de dos vectores, dos matrices o un vector y una matriz.

In [42]:
th.transpose(x, 1, 0), x.T

(tensor([[1.],
         [2.],
         [3.]]),
 tensor([[1.],
         [2.],
         [3.]]))

In [43]:
# Generamos 2 matrices aleatorias
M1 = th.rand((4,3))
M2 = th.rand((3,2))

print(f'Transpuesta de x: {th.transpose(x, 1, 0).shape}')
print(f'Transpuesta de y: {y.T.shape}')
print(f'Transpuesta de M1: {th.transpose(M1, 1, 0).shape}')
print(f'Transpuesta de M2: {M2.T.shape}')

Transpuesta de x: torch.Size([3, 1])
Transpuesta de y: torch.Size([3, 1])
Transpuesta de M1: torch.Size([3, 4])
Transpuesta de M2: torch.Size([2, 3])


In [44]:
# x es de [3,1]
# y es de [3,1]
print(x @ y.T) # [3,1] @ [1,3] -> [3,3]
print(x.T @ y)# [1,3] @ [3,1] -> [1,1]
print(M1 @ M2) # [4,3] @ [3,2] -> [4,2]

tensor([[26.]])
tensor([[ 3.,  4.,  5.],
        [ 6.,  8., 10.],
        [ 9., 12., 15.]])
tensor([[1.1174, 1.0505],
        [0.6214, 0.3240],
        [0.9752, 0.8312],
        [0.9344, 0.6338]])


También podemos concatenar (función `concat`) una lista de tensores (primer argumento) sobre un eje específico (argumento `axis`).

In [45]:
print(x)
print(y)
print(th.concat([x, y], axis = 0))
print(th.concat([x, y], axis = 1))

tensor([[1., 2., 3.]])
tensor([[3., 4., 5.]])
tensor([[1., 2., 3.],
        [3., 4., 5.]])
tensor([[1., 2., 3., 3., 4., 5.]])


De forma similar, es posible apilar tensores sobre un eje usando la función `stack` (el tensor resultando es un orden mayor al de los tensores de argumento, los cuales tienen la misma forma).

In [46]:
v1 = th.rand([5])
v2 = th.rand([5])
v3 = th.rand([5])

M1 = th.rand([2,3])
M2 = th.rand([2,3])
M3 = th.rand([2,3])

print(f'Apilado de vectores sobre eje 0: {th.stack([v1, v2, v3], axis=0).shape}')
print(f'Apilado de vectores sobre eje 1: {th.stack([v1, v2, v3], axis=1).shape}')
print(f'Apilado de matrices sobre eje 0: {th.stack([M1, M2, M3], axis=0).shape}')
print(f'Apilado de matrices sobre eje 1: {th.stack([M1, M2, M3], axis=1).shape}')
print(f'Apilado de matrices sobre eje 2: {th.stack([M1, M2, M3], axis=2).shape}')

Apilado de vectores sobre eje 0: torch.Size([3, 5])
Apilado de vectores sobre eje 1: torch.Size([5, 3])
Apilado de matrices sobre eje 0: torch.Size([3, 2, 3])
Apilado de matrices sobre eje 1: torch.Size([2, 3, 3])
Apilado de matrices sobre eje 2: torch.Size([2, 3, 3])


## Reducción
También se puede reducir un eje de un tensor con distintas funciones (y métodos equivalentes), tales como suma (`sum`), producto (`prod`) y promedio (`mean`):

In [47]:
x_reduction = th.rand([3, 10])

print(x_reduction)
print(th.max(x_reduction))
print(th.min(x_reduction))
print(th.argmax(x_reduction))
print(th.argmin(x_reduction))
print(th.mean(x_reduction))
print(th.sum(x_reduction))
print(th.prod(x_reduction))

tensor([[0.6591, 0.6705, 0.2688, 0.2382, 0.7422, 0.5305, 0.1474, 0.8000, 0.4020,
         0.7795],
        [0.9509, 0.1087, 0.8687, 0.6427, 0.2791, 0.9236, 0.6738, 0.1040, 0.9731,
         0.7150],
        [0.0362, 0.3189, 0.3538, 0.5441, 0.8139, 0.5793, 0.5600, 0.1266, 0.5475,
         0.5797]])
tensor(0.9731)
tensor(0.0362)
tensor(18)
tensor(20)
tensor(0.5313)
tensor(15.9378)
tensor(7.0448e-12)


Es posible especificar un eje donde se desea realizar la reducción, para las funciones/métodos `min` y `max` devuelven un par de tensores: el primero es el de valores mínimos y el segundo es el de los índices de estos valores.

In [48]:
print(x_reduction)
print(th.max(x_reduction, axis=0))
print(th.min(x_reduction, axis=0))
print(th.argmax(x_reduction, axis=0))
print(th.argmin(x_reduction, axis=0))
print(th.mean(x_reduction, axis=0))
print(th.sum(x_reduction, axis=0))
print(th.prod(x_reduction, axis=0))

tensor([[0.6591, 0.6705, 0.2688, 0.2382, 0.7422, 0.5305, 0.1474, 0.8000, 0.4020,
         0.7795],
        [0.9509, 0.1087, 0.8687, 0.6427, 0.2791, 0.9236, 0.6738, 0.1040, 0.9731,
         0.7150],
        [0.0362, 0.3189, 0.3538, 0.5441, 0.8139, 0.5793, 0.5600, 0.1266, 0.5475,
         0.5797]])
torch.return_types.max(
values=tensor([0.9509, 0.6705, 0.8687, 0.6427, 0.8139, 0.9236, 0.6738, 0.8000, 0.9731,
        0.7795]),
indices=tensor([1, 0, 1, 1, 2, 1, 1, 0, 1, 0]))
torch.return_types.min(
values=tensor([0.0362, 0.1087, 0.2688, 0.2382, 0.2791, 0.5305, 0.1474, 0.1040, 0.4020,
        0.5797]),
indices=tensor([2, 1, 0, 0, 1, 0, 0, 1, 0, 2]))
tensor([1, 0, 1, 1, 2, 1, 1, 0, 1, 0])
tensor([2, 1, 0, 0, 1, 0, 0, 1, 0, 2])
tensor([0.5488, 0.3660, 0.4971, 0.4750, 0.6117, 0.6778, 0.4604, 0.3435, 0.6408,
        0.6914])
tensor([1.6463, 1.0980, 1.4914, 1.4249, 1.8352, 2.0334, 1.3811, 1.0306, 1.9225,
        2.0742])
tensor([0.0227, 0.0232, 0.0826, 0.0833, 0.1686, 0.2838, 0.0556, 0.0105, 0.21

Para el eje 1 del mismo tensor:

In [49]:
print(x_reduction)
print(th.max(x_reduction, axis=1))
print(th.min(x_reduction, axis=1))
print(th.argmax(x_reduction, axis=1))
print(th.argmin(x_reduction, axis=1))
print(th.mean(x_reduction, axis=1))
print(th.sum(x_reduction, axis=1))
print(th.prod(x_reduction, axis=1))

tensor([[0.6591, 0.6705, 0.2688, 0.2382, 0.7422, 0.5305, 0.1474, 0.8000, 0.4020,
         0.7795],
        [0.9509, 0.1087, 0.8687, 0.6427, 0.2791, 0.9236, 0.6738, 0.1040, 0.9731,
         0.7150],
        [0.0362, 0.3189, 0.3538, 0.5441, 0.8139, 0.5793, 0.5600, 0.1266, 0.5475,
         0.5797]])
torch.return_types.max(
values=tensor([0.8000, 0.9731, 0.8139]),
indices=tensor([7, 8, 4]))
torch.return_types.min(
values=tensor([0.1474, 0.1040, 0.0362]),
indices=tensor([6, 7, 0]))
tensor([7, 8, 4])
tensor([6, 7, 0])
tensor([0.5238, 0.6240, 0.4460])
tensor([5.2381, 6.2396, 4.4601])
tensor([4.1150e-04, 7.2498e-04, 2.3614e-05])


Por otro lado, tenemos la función (y el método) `sort` que ordena un tensor. Al igual que `min` y `max`, cuando se especifica un eje `sort` regresa tanto el tensor de valores como el tensor de índices. Si solo requerimos los índices, podemos usar la función `argsort`.

In [50]:
desord = th.rand([12])
print(f'Tensor desordenado: {desord}')
print(f'Tensor de 3x4 {desord.reshape((3,4))}')

print(f'Tensor de orden 1 de menor a mayor: {th.sort(desord, descending=False)}')
print(f'Tensor de orden 1 de mayor a menor: {th.sort(desord, descending=True)}')

print(f'Tensor de orden 2 de menor a mayor sobre eje 0: {th.sort(th.reshape(desord, (3,4)), descending=False, axis=0)}')
print(f'Tensor de orden 2 de menor a mayor sobre eje 1: {th.sort(th.reshape(desord, (3,4)), descending=False, axis=1)}')

print(f'Índices de menor a mayor: {th.argsort(desord, descending=False)}')
print(f'Índices de mayor a menor: {th.argsort(desord, descending=True)}')
print(f'Índices de eje 0 de menor a mayor: {th.argsort(desord.reshape((3,4)), descending=False, axis=0)}')
print(f'Índices de eje 1 de menor a mayor: {th.argsort(desord.reshape((3,4)), descending=False, axis=1)}')

Tensor desordenado: tensor([0.3555, 0.8553, 0.8753, 0.3264, 0.0396, 0.8767, 0.2760, 0.0361, 0.8812,
        0.1516, 0.3795, 0.0497])
Tensor de 3x4 tensor([[0.3555, 0.8553, 0.8753, 0.3264],
        [0.0396, 0.8767, 0.2760, 0.0361],
        [0.8812, 0.1516, 0.3795, 0.0497]])
Tensor de orden 1 de menor a mayor: torch.return_types.sort(
values=tensor([0.0361, 0.0396, 0.0497, 0.1516, 0.2760, 0.3264, 0.3555, 0.3795, 0.8553,
        0.8753, 0.8767, 0.8812]),
indices=tensor([ 7,  4, 11,  9,  6,  3,  0, 10,  1,  2,  5,  8]))
Tensor de orden 1 de mayor a menor: torch.return_types.sort(
values=tensor([0.8812, 0.8767, 0.8753, 0.8553, 0.3795, 0.3555, 0.3264, 0.2760, 0.1516,
        0.0497, 0.0396, 0.0361]),
indices=tensor([ 8,  5,  2,  1, 10,  0,  3,  6,  9, 11,  4,  7]))
Tensor de orden 2 de menor a mayor sobre eje 0: torch.return_types.sort(
values=tensor([[0.0396, 0.1516, 0.2760, 0.0361],
        [0.3555, 0.8553, 0.3795, 0.0497],
        [0.8812, 0.8767, 0.8753, 0.3264]]),
indices=tensor([[1, 2,

## GPUs
En muchos casos, el uso de GPUs reduce significativamente el tiempo de entrenamiento de los modelos basados en redes neuronales profundas. Por lo mismo, los marcos de trabajo como PyTorch permiten crear o copiar tensores y ejecutar las operaciones tensoriales en uno o más CPUs/GPUs e incluso en distintas computadoras. Además, ofrecen herramientas para controlar de manera flexible dónde se crea o copia cada tensor y dónde se ejecuta cada operación. Por ello, cada instancia de la clase `Tensor` cuenta con el elemento `.device` que indica el dispositivo en el que se encuentra almacenado. Por defecto, si hay al menos uno disponible, los tensores se crean en el GPU.

In [51]:
!nvidia-smi

Mon Aug 21 17:01:47 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17   Driver Version: 525.105.17   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   46C    P8    10W /  70W |      0MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [52]:
xcpu = th.rand((100, 100))
print(xcpu.device)

cpu


Podemos especificar explícitamente dónde queremos crear una instancia de `Tensor` usando el argumento `device` que tienen muchas funciones de PyTorch. Por ej. si queremos crear el tensor en GPU pasamos la cadena `cuda` o `cuda:0`, donde el valor después de los dos puntos en esta última forma especifica el índice del GPU (es distinto de 0 cuando tenemos múltiples GPUs disponibles).

In [53]:
xgpu = th.rand((100, 100), device='cuda:0')
xgpu.device

device(type='cuda', index=0)

Las operaciones que se realicen con estos tensores se correrán en el GPU y los tensores resultantes estarán en este mismo dispositivo.

In [54]:
ygpu = th.rand((100, 100), device='cuda:0')
(xgpu + ygpu).device

device(type='cuda', index=0)

Sin embargo, cuando realizamos una operación con tensores que se encuentran en dispositivos distintos, PyTorch lanza un error.!)

In [55]:
# genera un error porque se quiere realizar un operación con tensores que están en distintos dispositivos
# xgpu1 + xcpu

Por lo tanto, para poder realizar esta operación es necesario transferir uno de los tensores a otro dispositivo. En PyTorch esto lo llevamos a cabo con el método `to`.

In [56]:
xcpugpu = xcpu.to('cuda:0')
(xgpu + xcpugpu).device

device(type='cuda', index=0)

In [57]:
xcpugpu.device

device(type='cuda', index=0)

Para saber si algún GPU está disponible, contamos con la función `is_available` del módulo de `cuda`.

In [58]:
th.cuda.is_available()

True

Comparémos ahora los tiempos de ejecución en CPU y GPU de una multiplicación de dos matrices.

In [59]:
%%timeit -n1 -r1
disp = 'cpu'
res = th.rand((10000, 10000), device=disp) @ th.rand((10000, 10000), device=disp)

29.9 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


In [60]:
%%timeit -n1 -r1
disp = 'cuda:0'
res = th.rand((10000, 10000), device=disp) @ th.rand((10000, 10000), device=disp)

114 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


### Ejercicio
Calcula y despliega el producto de cada matriz de $400 \times 1000$ en un tensor aleatorio $A$ de tamaño $500 \times 400 \times 1000$ con la transpuesta de un tensor aleatorio $B$ de tamaño $200 \times 1000$. Concatena el resultado a un tensor aleatorio $C$ con el mismo número de columnas que el resultado de la operación anterior. Compara los tiempos de ejecución de esta operación en GPU y CPU.