<a href="https://colab.research.google.com/github/gibranfp/CursoAprendizajeProfundo/blob/2023-1/notebooks/1c_tensores_pytorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tensores
[PyTorch](https://pyth.org/) es una biblioteca y marco de trabajo de código abierto que facilita la programación de redes neuronales profundas, ofreciendo varias funciones, clases y herramientas. En particular:

1. Definición de arreglos multidimensionales (clase `Tensor`) y operaciones entre ellos con soporte para GPUs y cómputo distribuido. 
2. Diferenciación automática.
3. Interfaz modular con distintos niveles de abstracción para definir arquitecturas de redes neuronales y entrenarlas.
4. Clases y funciones para carga, generación de lotes y preprocesamiento de conjuntos de datos.

In [1]:
import torch as th
import numpy as np

## Creación de tensores
El objeto básico de PyTorch es el tensor, un arreglo multidimensional similar al `ndarray` de NumPy.

![](https://static.packt-cdn.com/products/9781787125933/graphics/B07030_14_01.jpg)

Fuente: [Python Machine Learning - Second Edition](https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781787125933/14/ch14lvl1sec85/tensorflow-ranks-and-tensors)

Podemos definir un tensor a partir de valores específicos con la función `tensor()`. Para un escalar (tensor de orden 0) esto sería:

In [2]:
x = th.tensor([1,2,3])
y = th.tensor([4,5,6])

In [3]:
escalar = th.tensor(4.0)
print(escalar)

tensor(4.)


Un vector (tensor de orden 1):

In [4]:
vector = th.tensor([2.0, 3.0, 4.0])
print(vector)

tensor([2., 3., 4.])


Una matriz (tensor de orden 2):

In [5]:
matriz = th.tensor([[1, 2, 3],
                      [3, 4, 5]])
print(matriz)

tensor([[1, 2, 3],
        [3, 4, 5]])


Un tensor de orden 3:

In [6]:
tensor3 = th.tensor([[[0, 1, 2, 3, 4],
                          [5, 6, 7, 8, 9]],
                        [[10, 11, 12, 13, 14],
                         [15, 16, 17, 18, 19]],
                        [[20, 21, 22, 23, 24],
                         [25, 26, 27, 28, 29]]])
print(tensor3)

tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]])


Similar a NumPy, las instancias de `Tensor` tienen varios atributos:

In [7]:
print(f"Tipo de dato de cada elemento: {tensor3.dtype}")
print(f"Número de dimensiones: {tensor3.ndim}")
print(f"Forma del tensor: {tensor3.shape}")
print(f"Número total de elementos: {tensor3.size()}")

Tipo de dato de cada elemento: torch.int64
Número de dimensiones: 3
Forma del tensor: torch.Size([3, 2, 5])
Número total de elementos: torch.Size([3, 2, 5])


PyTorch infiere el tipo de datos del tensor a partir de los valores, pero también es posible especificarlo.

In [8]:
anp = th.tensor([1,2], dtype=th.float32)
print(anp)

tensor([1., 2.])


Otra forma de crear un tensor es con la función `zeros()`, que recibe como argumento la forma del tensor y regresa un tensor de esa forma con todos los elementos iguales a 0.

In [9]:
ceros = th.zeros((3,4), dtype=th.float32)
print(ceros)

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])


Una variación de la función anterior es `zeros_like()`, la cual hace los mismo pero toma la forma a partir de tensor que se pasa como argumento.

In [10]:
ceros_l = th.zeros_like(anp)
print(ceros_l)

tensor([0., 0.])


La función `ones()` es similar a la función`zeros()` pero en lugar de poner todos los valores a 0 los pone a 1.

In [11]:
unos = th.ones((3,4), dtype=th.float32)
print(unos)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])


De forma análoga, `ones_like()` es una variación de esta última función que toma la forma de otro tensor. 

In [12]:
unos_l = th.ones_like(unos)
print(unos_l)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])


PyTorch también permite crear tensores con valores muestreados de varias. Por ej. uniforme en un rango $[0,1)$ usando la función `rand`:

In [13]:
unif_ten = th.rand((4,3))
print(unif_ten)

tensor([[0.7399, 0.5273, 0.9179],
        [0.4676, 0.5632, 0.0471],
        [0.2029, 0.1722, 0.5928],
        [0.7716, 0.4936, 0.9220]])


Usando los tensores generados por `rand` (y `rand_like`) es posible generar tensores con valores muestreados de una uniforme en un rango $[a, b)$ de la siguiente manera:

In [14]:
a = -2
b = 1
unifab_ten = th.rand((4,3)) * (b - a) + a
print(unifab_ten)

tensor([[-0.0579, -0.4475, -0.6584],
        [-1.4365, -0.3201, -0.0199],
        [ 0.5157, -0.4455, -1.7306],
        [-1.6753, -1.4524,  0.5068]])


Para valores enteros muestreados uniformemente tenemos la función `randint` (y `randint_like`).

In [15]:
unifint_ten = th.randint(low=-5, high=3, size=((4,3)))
print(unifint_ten)

tensor([[-1,  2, -3],
        [ 0, -1,  2],
        [ 2, -2, -2],
        [ 1, -4,  0]])


Alternativamente, podemos instanciar una clase `Tensor` pasando el tamaño como argumento al constructor y llamando al método `uniform_`

In [16]:
th.Tensor(4,3).uniform_(-2, 1)

tensor([[-1.2479, -1.0194, -1.9495],
        [-0.0883, -1.9459, -0.0882],
        [ 0.9361, -1.5957, -0.3839],
        [-1.1898, -0.1925, -0.8936]])

De forma similar, la función `randn` genera tensores con valores muestreados de una normal con media 0 y desviación estándar 1.

In [17]:
randn_ten = th.randn(size=(4,3))
print(randn_ten)

tensor([[ 0.0215,  0.4928, -0.5928],
        [-0.7078, -0.4810,  0.5169],
        [-1.9499,  0.3263, -1.0993],
        [-1.7028,  0.6982,  1.0659]])


Con los tensores generados por `randn` podemos generar tensores cuyos valores sean muestreados de una normal con distinta media y desviación estándar de la siguiente manera:

In [18]:
mu = -5
std = 10
randnms_ten = th.randn(size=(4,3)) * std + mu
print(randnms_ten)

tensor([[ 15.1004,  -5.8912,  -0.0427],
        [ 13.2261, -21.1527,  -7.0275],
        [ -9.0725,  -6.7271,  -2.9660],
        [-18.6124,  -8.5879, -12.1977]])


También podemos generar tensores con valores muestreados de una normal con media y desviación estándar arbitraria usando la función `normal`.

In [19]:
norm_ten = th.normal(size=(4,3), mean=0, std=1)
print(norm_ten)

tensor([[ 0.9220,  2.2604,  0.1307],
        [ 0.8034, -0.7089, -0.2835],
        [-1.7041, -0.9251,  0.3003],
        [ 2.0494,  1.2863,  0.4166]])


Si deseamos generar tensores muestreados de una distribución multinomial podemos usar la función `multinomial`, a la cual deben especificarse las probabilidades de cada clase como un tensor de orden 1 y el número de muestras.

In [20]:
cat_ten = th.multinomial(th.tensor([0.1, 0.5, 0.2, 0.2]), num_samples=100, replacement=True)
print(cat_ten)

tensor([0, 3, 3, 1, 0, 1, 3, 1, 1, 3, 0, 1, 1, 1, 3, 1, 1, 1, 1, 1, 1, 2, 1, 1,
        2, 3, 1, 1, 2, 1, 0, 3, 1, 2, 0, 0, 0, 0, 0, 2, 1, 1, 1, 3, 2, 2, 2, 2,
        3, 2, 2, 1, 1, 1, 3, 3, 3, 1, 2, 1, 1, 1, 2, 1, 1, 2, 2, 1, 3, 2, 1, 1,
        1, 1, 2, 1, 1, 1, 0, 0, 2, 1, 1, 0, 3, 1, 0, 1, 1, 1, 1, 1, 1, 1, 3, 3,
        3, 3, 1, 3])


El número de clases depende del tamaño del tensor y el argumento `replacemente` define si las muestras son con o sin reemplazo (en este último caso el número de muestras debe ser menor o igual al número de clases).

Por otra parte, la función `arange()` genera una secuencia de números (como el `range()` de Python):

In [21]:
rango_ten1 = th.arange(start=-3, end=3, step=0.5)
print(rango_ten1)

tensor([-3.0000, -2.5000, -2.0000, -1.5000, -1.0000, -0.5000,  0.0000,  0.5000,
         1.0000,  1.5000,  2.0000,  2.5000])


De manera similar, la función `linspace()` genera tensores con valores con el mismo espaciados en un intervalo.



In [22]:
ls_ten = th.linspace(start=-3, end=3, steps=10)
print(ls_ten)

tensor([-3.0000, -2.3333, -1.6667, -1.0000, -0.3333,  0.3333,  1.0000,  1.6667,
         2.3333,  3.0000])


## Tipos
Los elementos de los tensores pueden ser de distintos tipos básicos y precisiones. Por ej. flotantes de 16 bits (`float16`) o enteros sin signo de 8 bits (`uint8`).

In [23]:
tensor_f64 = th.arange(start=-1, end=1, step=0.1, dtype=th.float64)
tensor_i32 = th.arange(start=-10, end=10, step=1, dtype=th.int32)
print(tensor_f64)
print(tensor_i32)

tensor([-1.0000e+00, -9.0000e-01, -8.0000e-01, -7.0000e-01, -6.0000e-01,
        -5.0000e-01, -4.0000e-01, -3.0000e-01, -2.0000e-01, -1.0000e-01,
         5.5511e-17,  1.0000e-01,  2.0000e-01,  3.0000e-01,  4.0000e-01,
         5.0000e-01,  6.0000e-01,  7.0000e-01,  8.0000e-01,  9.0000e-01],
       dtype=torch.float64)
tensor([-10,  -9,  -8,  -7,  -6,  -5,  -4,  -3,  -2,  -1,   0,   1,   2,   3,
          4,   5,   6,   7,   8,   9], dtype=torch.int32)


También se pueden convertir de tipos con el método `type()`:

In [24]:
print(tensor_i32.type(th.float64).dtype)
print(tensor_f64.type(th.float32).dtype)

torch.float64
torch.float32


## Índices
Los índices de los tensores siguen reglas similares a los arreglos de NumPy y las listas de Python.

In [25]:
ten_ind = th.reshape(th.linspace(start=10, end=-10, steps = 12), [3,4])
print(f"Primer renglón: {ten_ind[0].numpy()}")
print(f"Tercer renglón: {ten_ind[2].numpy()}")
print(f"Último renglón: {ten_ind[-1].numpy()}")

print(f"Primer columna: {ten_ind[:, 0].numpy()}")
print(f"Última columna: {ten_ind[:, -1].numpy()}")

Primer renglón: [10.         8.181818   6.363636   4.5454545]
Tercer renglón: [ -4.5454545  -6.363636   -8.181818  -10.       ]
Último renglón: [ -4.5454545  -6.363636   -8.181818  -10.       ]
Primer columna: [10.         2.7272725 -4.5454545]
Última columna: [  4.5454545  -2.7272725 -10.       ]


También se pueden realizar _slices_:

In [26]:
print("Todos los renglones:", ten_ind[:].numpy())
print("Renglones antes del 6:", ten_ind[:6].numpy())
print("Renglones del 4 al final", ten_ind[4:].numpy())
print("Renglones del 3 al 5", ten_ind[3:6].numpy())
print("Cada dos renglones:", ten_ind[::2].numpy())

Todos los renglones: [[ 10.           8.181818     6.363636     4.5454545 ]
 [  2.7272725    0.90909064  -0.90909064  -2.7272725 ]
 [ -4.5454545   -6.363636    -8.181818   -10.        ]]
Renglones antes del 6: [[ 10.           8.181818     6.363636     4.5454545 ]
 [  2.7272725    0.90909064  -0.90909064  -2.7272725 ]
 [ -4.5454545   -6.363636    -8.181818   -10.        ]]
Renglones del 4 al final []
Renglones del 3 al 5 []
Cada dos renglones: [[ 10.          8.181818    6.363636    4.5454545]
 [ -4.5454545  -6.363636   -8.181818  -10.       ]]


A diferencia de los arreglos de NumPy, en las instancias de `Tensor` no es posible que el paso de los índices sea negativo.

In [27]:
# NumPy
nparr = np.arange(start=0, stop=10, step=1)
print(nparr[::-1])

# PyTorch 
tharr = th.arange(start=0, end=10, step=1)
# produce un error con tharr[::-1]

[9 8 7 6 5 4 3 2 1 0]


Ademas, podemos iterar sobre los elementos de un tensor:

In [28]:
for x in ten_ind:
  print(x)

for x in ten_ind:
  for i in x:
    print(i)

tensor([10.0000,  8.1818,  6.3636,  4.5455])
tensor([ 2.7273,  0.9091, -0.9091, -2.7273])
tensor([ -4.5455,  -6.3636,  -8.1818, -10.0000])
tensor(10.)
tensor(8.1818)
tensor(6.3636)
tensor(4.5455)
tensor(2.7273)
tensor(0.9091)
tensor(-0.9091)
tensor(-2.7273)
tensor(-4.5455)
tensor(-6.3636)
tensor(-8.1818)
tensor(-10.)


## Formas
La forma de los tensores pueden cambiar, siempre y cuando se mantenga el mismo número de elementos totales:

![](https://www.tensorflow.org/guide/images/tensor/reshape-before.png)
![](https://www.tensorflow.org/guide/images/tensor/reshape-good1.png)
![](https://www.tensorflow.org/guide/images/tensor/reshape-good2.png)

Fuente: Tutorial [_Introduction to Tensors_](https://www.tensorflow.org/guide/tensor) de Tensorflow

In [29]:
x_orig = th.arange(30)
print(x_orig)

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
        18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])


Para cambiar la forma de este vector usamos la función (o el método) `reshape()`.

In [30]:
x_forma2 = th.reshape(x_orig, [3, 2, 5]) # de forma equivalente x_orig.reshape([3, 2, 5])
x_forma3 = th.reshape(x_orig, [3, 10]) # x_orig.reshape([3, 10])
x_forma4 = th.reshape(x_orig, [6, 5]) # x_orig.reshape([6, 5])
x_forma5 = th.reshape(x_orig, [2, 3, 5]) # x_orig.reshape([2, 3, 5])
x_forma6 = th.reshape(x_orig, [5, 3, 2]) # x_orig.reshape([5, 3, 2])

Examinemos sus formas:

In [31]:
print(x_orig.shape)
print(x_forma2.shape)
print(x_forma3.shape)
print(x_forma4.shape)
print(x_forma5.shape)
print(x_forma6.shape)

torch.Size([30])
torch.Size([3, 2, 5])
torch.Size([3, 10])
torch.Size([6, 5])
torch.Size([2, 3, 5])
torch.Size([5, 3, 2])


Si solo requerimos agregar una dimensión, además de la función `reshape` podemos usar `unsqueeze`, la cual toma como argumento un tensor y un eje y regresa un tensor con los mismos elementos pero con una dimensión agregada.

In [32]:
print(f'Tensor de : {x_forma3.shape}')
print(f'Eje 0: {th.unsqueeze(x_forma3, axis=0).shape}')
print(f'Eje 1: {th.unsqueeze(x_forma3, axis=1).shape}')
print(f'Eje 2: {th.unsqueeze(x_forma3, axis=2).shape}')

Tensor de : torch.Size([3, 10])
Eje 0: torch.Size([1, 3, 10])
Eje 1: torch.Size([3, 1, 10])
Eje 2: torch.Size([3, 10, 1])


Para quitar dimensiones de tamaño 1 se puede utilizar la función `squeeze`.

In [33]:
x_exp4 = th.unsqueeze(x_forma3, axis=2)
x_exp4 = th.unsqueeze(x_exp4, axis=0)
print(f'Tensor de 4: {x_exp4.shape}')
print(f'Aplicando squeeze: {th.squeeze(x_exp4).shape}')
print(f'Aplicando squeeze sobre eje 1: {th.squeeze(x_exp4, axis=0).shape}')

Tensor de 4: torch.Size([1, 3, 10, 1])
Aplicando squeeze: torch.Size([3, 10])
Aplicando squeeze sobre eje 1: torch.Size([3, 10, 1])


También podemos dividir un tensor de orden $k$ en múltiples tensores de orden $k$ con la función `split`.

In [34]:
print(f'Tensor de 3: {x_forma2.shape}')
print(f'División en 3 sobre eje 0: {th.split(x_forma2, split_size_or_sections=3)}')
print(f'División en 2 sobre eje 2: {th.split(x_forma2, split_size_or_sections=2, dim=1)}')
print(f'División en 3 sobre eje 0: {th.split(x_forma2, split_size_or_sections=[2, 2, 1], dim=2)}')

Tensor de 3: torch.Size([3, 2, 5])
División en 3 sobre eje 0: (tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]]),)
División en 2 sobre eje 2: (tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]]),)
División en 3 sobre eje 0: (tensor([[[ 0,  1],
         [ 5,  6]],

        [[10, 11],
         [15, 16]],

        [[20, 21],
         [25, 26]]]), tensor([[[ 2,  3],
         [ 7,  8]],

        [[12, 13],
         [17, 18]],

        [[22, 23],
         [27, 28]]]), tensor([[[ 4],
         [ 9]],

        [[14],
         [19]],

        [[24],
         [29]]]))


## PyTorch y NumPy
Los tensores de PyTorch se pueden convertir a arreglos de NumPy y viceversa. 

In [35]:
nparr = np.ones([2, 5])

De arreglo de NumPy a Tensorflow:

In [36]:
print(th.tensor(nparr)) # con función tensor
print(th.Tensor(nparr)) # instanciando clase Tensor
print(th.from_numpy(nparr)) ## con función from_numpy

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]], dtype=torch.float64)
tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])
tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]], dtype=torch.float64)


De tensor a arreglo de NumPy con método `numpy` de cualquier instancia de `Tensor`.

In [37]:
print(tharr.numpy())

[0 1 2 3 4 5 6 7 8 9]


## Operaciones básicas
PyTorch cuenta con operadores y funciones básicas para los tensores, similares a las de NumPy, entre ellas operadores elemento a elemento, multiplicación de tensores, etc.

### Elemento a elemento
Estas operaciones se realizan entre dos tensores que usualmente tienen el mismo tamaño. La salida es un tensor también del mismo tamaño que se obtiene aplicando la operación especificada entre cada elemento de un tensor y el correspondiente elemento del otro tensor. Estas operaciones pueden ser suma, resta, división, multiplicación, potenciación, etc.

In [38]:
x = th.tensor([[1., 2., 3.]])
y = th.tensor([[3., 4., 5.]])

print(f'x = {x}')
print(f'y = {y}')
print(f'10 * x = {10 * x}')
print(f'x + y = {x + y}')
print(f'x - y = {x - y}')
print(f'x * y = {x * y}')
print(f'x / y = {x / y}')
print(f'x^y = {x**y}')
print(f'x^2 = {x**2}')

x = tensor([[1., 2., 3.]])
y = tensor([[3., 4., 5.]])
10 * x = tensor([[10., 20., 30.]])
x + y = tensor([[4., 6., 8.]])
x - y = tensor([[-2., -2., -2.]])
x * y = tensor([[ 3.,  8., 15.]])
x / y = tensor([[0.3333, 0.5000, 0.6000]])
x^y = tensor([[  1.,  16., 243.]])
x^2 = tensor([[1., 4., 9.]])


### Transpuesta, producto y concatenación
Podemos obtener la transpuesta de una matriz usando la función `transpose` (como argumentos se ponen los índices de los ejes en el orden deseado) o el método `.T` de cualquier instancia de `Tensor`. Además. o calcular el producto de dos vectores, dos matrices o un vector y una matriz.

In [39]:
# Generamos 2 matrices aleatorias
M1 = th.rand((4,3))
M2 = th.rand((3,2))

print(f'Transpuesta de x: {th.transpose(x, 1, 0).shape}')
print(f'Transpuesta de y: {y.T.shape}')
print(f'Transpuesta de M1: {th.transpose(M1, 1, 0).shape}')
print(f'Transpuesta de M2: {M2.T.shape}')

Transpuesta de x: torch.Size([3, 1])
Transpuesta de y: torch.Size([3, 1])
Transpuesta de M1: torch.Size([3, 4])
Transpuesta de M2: torch.Size([2, 3])


También podemos concatenar (función `concat`) una lista de tensores (primer argumento) sobre un eje específico (argumento `axis`).

In [40]:
print(f'x = {x.shape}, y = {y.shape}')
print(f'Concatenación de vectores sobre eje 0: {th.concat([x, y], axis=0).shape}')
print(f'Concatenación de vectores sobre eje 1: {th.concat([x, y], axis=1).shape}')
print(f'Concatenación de matrices sobre eje 0: {th.concat([M1, M2.T], axis=0).shape}') # no funciona sin transpuesta
print(f'Concatenación de matrices sobre eje 1: {th.concat([M1.T, M2], axis=1).shape}')

x = torch.Size([1, 3]), y = torch.Size([1, 3])
Concatenación de vectores sobre eje 0: torch.Size([2, 3])
Concatenación de vectores sobre eje 1: torch.Size([1, 6])
Concatenación de matrices sobre eje 0: torch.Size([6, 3])
Concatenación de matrices sobre eje 1: torch.Size([3, 6])


De forma similar, es posible apilar tensores sobre un eje usando la función `stack` (el tensor resultando es un orden mayor al de los tensores de argumento, los cuales tienen la misma forma).

In [41]:
v1 = th.rand([5])
v2 = th.rand([5])
v3 = th.rand([5])
M1 = th.rand([2,3])
M2 = th.rand([2,3])
M3 = th.rand([2,3])

print(f'Apilado de vectores sobre eje 0: {th.stack([v1, v2, v3], axis=0).shape}')
print(f'Apilado de vectores sobre eje 1: {th.stack([v1, v2, v3], axis=1).shape}')
print(f'Apilado de matrices sobre eje 0: {th.stack([M1, M2, M3], axis=0).shape}')
print(f'Apilado de matrices sobre eje 1: {th.stack([M1, M2, M3], axis=1).shape}')
print(f'Apilado de matrices sobre eje 2: {th.stack([M1, M2, M3], axis=2).shape}')

Apilado de vectores sobre eje 0: torch.Size([3, 5])
Apilado de vectores sobre eje 1: torch.Size([5, 3])
Apilado de matrices sobre eje 0: torch.Size([3, 2, 3])
Apilado de matrices sobre eje 1: torch.Size([2, 3, 3])
Apilado de matrices sobre eje 2: torch.Size([2, 3, 3])


## Reducción
También se puede reducir un eje de un tensor con distintas funciones (y métodos equivalentes), tales como suma (`sum`), producto (`prod`) y promedio (`mean`):

In [42]:
x_reduccion = th.rand([3,10])

print(f'Valor máximo = {th.max(x_reduccion)}') # x_reduccion.max()
print(f'Valor mínimo = {th.min(x_reduccion)}') # x_reduccion.min()
print(f'Índice del valor máximo = {th.argmax(x_reduccion)}') # x_reduccion.argmax()
print(f'Índice del valor mínimo = {th.argmin(x_reduccion)}') # x_reduccion.argmin()
print(f'Suma = {th.sum(x_reduccion)}') # x_reduccion.sum()
print(f'Producto = {th.prod(x_reduccion)}') # x_reduccion.prod()
print(f'Promedio = {th.mean(x_reduccion)}') # x_reduccion.mean()

Valor máximo = 0.9951860308647156
Valor mínimo = 0.016129791736602783
Índice del valor máximo = 26
Índice del valor mínimo = 18
Suma = 11.806269645690918
Producto = 1.9424619458856195e-17
Promedio = 0.3935423195362091


Es posible especificar un eje donde se desea realizar la reducción, para las funciones/métodos `min` y `max` devuelven un par de tensores: el primero es el de valores mínimos y el segundo es el de los índices de estos valores. 

In [43]:
print(f'Max = {x_reduccion.max(axis=0)[0]}') # th.max(x_reduccion, axis=0)[0]
print(f'Índice del valor máximo = {x_reduccion.max(axis=0)[1]}') # th.max(x_reduccion, axis=0)[1]
print(f'Índice del valor máximo (argmax) = {x_reduccion.argmax(axis=0)}') # th.argmax(x_reduccion, axis=0)
print(f'Valor mínimo = {x_reduccion.min(axis=0)[0]}') # th.max(x_reduccion, axis=0)[0]
print(f'Índice del valor mínimo = {x_reduccion.min(axis=0)[1]}') # th.min(x_reduccion, axis=0)[1]
print(f'Índice del valor mínimo (argmin) = {x_reduccion.argmin(axis=0)}') # th.argmin(x_reduccion, axis=0)
print(f'Sum = {x_reduccion.sum(axis=0)}') # th.sum(x_reduccion, axis=0)
print(f'Prod = {x_reduccion.prod(axis=0)}') # th.prod(x_reduccion, axis=0)
print(f'Mean = {x_reduccion.mean(axis=0)}') # th.mean(x_reduccion, axis=0) 

Max = tensor([0.7655, 0.1210, 0.4793, 0.7216, 0.8777, 0.8915, 0.9952, 0.9458, 0.4805,
        0.3522])
Índice del valor máximo = tensor([1, 0, 0, 1, 2, 2, 2, 2, 2, 1])
Índice del valor máximo (argmax) = tensor([1, 0, 0, 1, 2, 2, 2, 2, 2, 1])
Valor mínimo = tensor([0.1149, 0.0728, 0.1386, 0.2405, 0.2107, 0.1410, 0.2840, 0.0901, 0.0161,
        0.3182])
Índice del valor mínimo = tensor([0, 1, 2, 2, 0, 0, 1, 0, 1, 2])
Índice del valor mínimo (argmin) = tensor([0, 1, 2, 2, 0, 0, 1, 0, 1, 2])
Sum = tensor([1.5599, 0.2822, 0.7996, 1.4821, 1.6938, 1.2356, 1.8311, 1.1766, 0.7521,
        0.9933])
Prod = tensor([0.0598, 0.0008, 0.0121, 0.0902, 0.1120, 0.0255, 0.1560, 0.0120, 0.0020,
        0.0362])
Mean = tensor([0.5200, 0.0941, 0.2665, 0.4940, 0.5646, 0.4119, 0.6104, 0.3922, 0.2507,
        0.3311])


Para el eje 1 del mismo tensor:

In [44]:
print(f'Max = {x_reduccion.max(axis=1)[0]}') # th.max(x_reduccion, axis=1)[0]
print(f'Índice del valor máximo = {x_reduccion.max(axis=1)[1]}') # th.max(x_reduccion, axis=1)[1]
print(f'Índice del valor máximo (argmax) = {x_reduccion.argmax(axis=1)}') # th.argmax(x_reduccion, axis=1)
print(f'Valor mínimo = {x_reduccion.min(axis=1)[0]}') # th.max(x_reduccion, axis=1)[0]
print(f'Índice del valor mínimo = {x_reduccion.min(axis=1)[1]}') # th.min(x_reduccion, axis=1)[1]
print(f'Índice del valor mínimo (argmin) = {x_reduccion.argmin(axis=1)}') # th.argmin(x_reduccion, axis=1)
print(f'Sum = {x_reduccion.sum(axis=1)}') # th.sum(x_reduccion, axis=1)
print(f'Prod = {x_reduccion.prod(axis=1)}') # th.prod(x_reduccion, axis=1)
print(f'Mean = {x_reduccion.mean(axis=1)}') # th.mean(x_reduccion, axis=1) 

Max = tensor([0.5519, 0.7655, 0.9952])
Índice del valor máximo = tensor([6, 0, 6])
Índice del valor máximo (argmax) = tensor([6, 0, 6])
Valor mínimo = tensor([0.0901, 0.0161, 0.0883])
Índice del valor mínimo = tensor([7, 8, 1])
Índice del valor mínimo (argmin) = tensor([7, 8, 1])
Sum = tensor([2.8071, 3.3433, 5.6559])
Prod = tensor([4.2212e-07, 2.0418e-07, 2.2538e-04])
Mean = tensor([0.2807, 0.3343, 0.5656])


Por otro lado, tenemos la función (y el método) `sort` que ordena un tensor. Al igual que `min` y `max`, cuando se especifica un eje `sort` regresa tanto el tensor de valores como el tensor de índices. Si solo requerimos los índices, podemos usar la función `argsort`.

In [45]:
desord = th.rand([12])
print(f'Tensor desordenado: {desord}')
print(f'Tensor de 3x4 {desord.reshape((3,4))}')

print(f'Tensor de orden 1 de menor a mayor: {th.sort(desord, descending=False)}')
print(f'Tensor de orden 1 de mayor a menor: {th.sort(desord, descending=True)}')

print(f'Tensor de orden 2 de menor a mayor sobre eje 0: {th.sort(th.reshape(desord, (3,4)), descending=False, axis=0)}')
print(f'Tensor de orden 2 de menor a mayor sobre eje 1: {th.sort(th.reshape(desord, (3,4)), descending=False, axis=1)}')

print(f'Índices de menor a mayor: {th.argsort(desord, descending=False)}')
print(f'Índices de mayor a menor: {th.argsort(desord, descending=True)}')
print(f'Índices de eje 0 de menor a mayor: {th.argsort(desord.reshape((3,4)), descending=False, axis=0)}')
print(f'Índices de eje 1 de menor a mayor: {th.argsort(desord.reshape((3,4)), descending=False, axis=1)}')

Tensor desordenado: tensor([0.3803, 0.4146, 0.2990, 0.3251, 0.6426, 0.9328, 0.2926, 0.7066, 0.5022,
        0.5394, 0.8053, 0.0409])
Tensor de 3x4 tensor([[0.3803, 0.4146, 0.2990, 0.3251],
        [0.6426, 0.9328, 0.2926, 0.7066],
        [0.5022, 0.5394, 0.8053, 0.0409]])
Tensor de orden 1 de menor a mayor: torch.return_types.sort(
values=tensor([0.0409, 0.2926, 0.2990, 0.3251, 0.3803, 0.4146, 0.5022, 0.5394, 0.6426,
        0.7066, 0.8053, 0.9328]),
indices=tensor([11,  6,  2,  3,  0,  1,  8,  9,  4,  7, 10,  5]))
Tensor de orden 1 de mayor a menor: torch.return_types.sort(
values=tensor([0.9328, 0.8053, 0.7066, 0.6426, 0.5394, 0.5022, 0.4146, 0.3803, 0.3251,
        0.2990, 0.2926, 0.0409]),
indices=tensor([ 5, 10,  7,  4,  9,  8,  1,  0,  3,  2,  6, 11]))
Tensor de orden 2 de menor a mayor sobre eje 0: torch.return_types.sort(
values=tensor([[0.3803, 0.4146, 0.2926, 0.0409],
        [0.5022, 0.5394, 0.2990, 0.3251],
        [0.6426, 0.9328, 0.8053, 0.7066]]),
indices=tensor([[0, 0,

## GPUs
En muchos casos, el uso de GPUs reduce significativamente el tiempo de entrenamiento de los modelos basados en redes neuronales profundas. Por lo mismo, los marcos de trabajo como Tensorflow permiten crear o copiar tensores y ejecutar las operaciones tensoriales en uno o más CPUs/GPUs e incluso en distintas computadoras. Además, ofrecen herramientas para controlar de manera flexible dónde se crea o copia cada tensor y dónde se ejecuta cada operación. Por ello, cada instancia de la clase `Tensor` cuenta con el elemento `.device` que indica el dispositivo en el que se encuentra almacenado. Por defecto, los tensores se crean en el GPU.

In [46]:
xcpu = th.rand((100,100))
print(f'Dispositivo = {xcpu.device}')

Dispositivo = cpu


Podemos especificar explícitamente dónde queremos crear una instancia de `Tensor` usando el argumento `device` que tienen muchas funciones de PyTorch. Por ej. si queremos crear el tensor en GPU pasamos la cadena `cuda` o `cuda:0`, donde el valor después de los dos puntos en esta última forma especifica el índice del GPU (es distinto de 0 cuando tenemos múltiples GPUs disponibles).

In [47]:
xgpu1 = th.rand((100,100), device='cuda:0')
xgpu2 = th.rand((100,100), device='cuda:0')
print(f'Dispositivo = {xgpu1.device, xgpu2.device}')

Dispositivo = (device(type='cuda', index=0), device(type='cuda', index=0))


Las operaciones que se realicen con estos tensores se correrán en el GPU y los tensores resultantes estarán en este mismo dispositivo.

In [48]:
print(f'{(xgpu1 + xgpu2).device}')

cuda:0


Sin embargo, cuando realizamos una operación con tensores que se encuentran en dispositivos distintos, PyTorch lanza un error.

In [49]:
# genera un error porque se quiere realizar un operación con tensores que están en distintos dispositivos
# xgpu1 + xcpu

Por lo tanto, para poder realizar esta operación es necesario transferir uno de los tensores a otro dispositivo. En PyTorch esto lo llevamos a cabo con el método `to`.

In [50]:
print(f'{(xgpu1.to("cpu") + xcpu).device}')
print(f'{(xgpu1 + xcpu.to("cuda")).device}')

cpu
cuda:0


Para saber si algún GPU está disponible, contamos con la función `is_available` del módulo de `cuda`.

In [51]:
print(f'{th.cuda.is_available()}')

True


Comparémos ahora los tiempos de ejecución en CPU y GPU de una multiplicación de dos matrices.

In [52]:
%%timeit -n1 -r1
disp = 'cpu'
print(f'{th.rand((10000,10000), device=disp) @ th.rand((10000,10000), device=disp)}')

tensor([[2499.2825, 2528.1794, 2515.3621,  ..., 2503.5759, 2530.5601,
         2522.3784],
        [2473.7625, 2499.4705, 2478.3386,  ..., 2469.1765, 2507.0325,
         2504.0264],
        [2521.0120, 2537.6707, 2532.9814,  ..., 2515.5381, 2545.3018,
         2540.0166],
        ...,
        [2462.8530, 2482.8855, 2465.8928,  ..., 2461.8088, 2491.6279,
         2483.4465],
        [2510.2710, 2544.7288, 2504.7910,  ..., 2514.9312, 2534.3975,
         2529.9126],
        [2484.7905, 2523.1753, 2493.1162,  ..., 2492.6626, 2512.4226,
         2520.3870]])
28.4 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


In [53]:
%%timeit -n1 -r1
disp = 'cuda'
print(f'{th.rand((10000,10000), device=disp) @ th.rand((10000,10000), device=disp)}')

tensor([[2481.1917, 2474.5183, 2469.2876,  ..., 2478.3320, 2455.5205,
         2467.0171],
        [2492.7500, 2485.4753, 2497.4526,  ..., 2502.2185, 2456.4038,
         2484.2300],
        [2500.3464, 2505.5837, 2493.3689,  ..., 2482.5491, 2474.1230,
         2481.0161],
        ...,
        [2512.8955, 2529.6301, 2533.0522,  ..., 2533.3564, 2515.6580,
         2511.7749],
        [2525.2305, 2537.8325, 2520.4155,  ..., 2516.0530, 2518.5938,
         2515.8918],
        [2488.2454, 2480.3728, 2495.4624,  ..., 2507.7048, 2493.0857,
         2487.9937]], device='cuda:0')
2.92 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)


### Ejercicio
Calcula y despliega el producto de cada matriz de $400 \times 1000$ en un tensor aleatorio $A$ de tamaño $500 \times 400 \times 1000$ con la transpuesta de un tensor aleatorio $B$ de tamaño $200 \times 1000$. Concatena el resultado a un tensor aleatorio $C$ con el mismo número de columnas que el resultado de la operación anterior. Compara los tiempos de ejecución de esta operación en GPU y CPU.