# Introducción a PyTorch

**Curso:** CC227 - Introduction to Deep Learning

**Autor:** Jhosimar George Arias Figueroa

*Universidad Peruana de Ciencias Aplicadas (UPC)*

-------

<p align="center">
  <img src = "https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQWyV5brHNCcNRsfWARFMR78N0Wg5V2hksMVYQeOpYnBn4zKOX2PPWky9wqxVoXuvnUi_s&usqp=CAU" width = "300px">
<p/>


¡Bienvenidos al tutorial de PyTorch para el curso de Deep Learning (CC227) de la Universidad Peruana de Ciencias Aplicadas (UPC)! El siguiente notebook está destinado a brindar una breve introducción a los conceptos básicos de PyTorch y a configurarlo para escribir sus propias redes neuronales. PyTorch es un framework de machine learning de código abierto que nos permite implementar nuestras propias redes neuronales y optimizarlas de manera eficiente. Sin embargo, PyTorch no es el único framework de este tipo. Las alternativas a PyTorch incluyen [TensorFlow](https://www.tensorflow.org/), [JAX](https://github.com/google/jax#quickstart-colab-in-the-cloud), [Caffe](http://caffe.berkeleyvision.org/), y muchos otros más. Se decidió enseñar PyTorch porque el framework está bien establecido, tiene una gran comunidad de desarrolladores (originalmente desarrollado por Facebook), es muy flexible y se usa especialmente en la investigación. Muchos artículos actuales publican su código en PyTorch, por lo tanto, es bueno estar familiarizado con este framework. Mientras tanto, TensorFlow (desarrollado por Google) generalmente es conocido por ser una biblioteca de deep learning aplicado mayormente en producción. Aún así, si aprendemos un framework de machine learning en profundidad, es muy fácil aprender otro porque muchos de ellos usan los mismos conceptos e ideas. Por ejemplo, la versión 2 de TensorFlow se inspiró en gran medida en las funciones más populares de PyTorch, lo que hace que los frameworks sean aún más similares.

Hay muchos tutoriales excelentes en línea, incluido ["60-min blitz"](https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html) en el sitio web oficial de PyTorch. Sin embargo, este tutorial está diseñado para brindarle los conceptos básicos particularmente necesarios para las tareas. Durante las próximas semanas, también seguiremos explorando nuevas funciones de PyTorch aplicados a deep learning.

Usaremos un conjunto de bibliotecas estándar que se utilizan a menudo en proyectos de machine learning. Si está ejecutando este notebook en Google Colab, todas las bibliotecas deben estar preinstaladas. Si está ejecutando este notebook localmente, asegúrese de haber instalado [PyTorch](https://pytorch.org/get-started/locally/) adecuadamente. 

In [None]:
## Bibliotecas estándar
import numpy as np 
import time

# Fundamentos de PyTorch

Comenzaremos revisando los conceptos básicos de PyTorch. Como requisito previo, es recomendado estar familiarizado con el paquete `numpy` ya que la mayoría de los frameworks de machine learning se basan en conceptos muy similares.

Entonces, comencemos con la importación de PyTorch. El paquete se llama `torch`, basado en su framework original [Torch](http://torch.ch/). Como primer paso, podemos comprobar su versión: 

In [None]:
import torch
print("Usando torch", torch.__version__)

Usando torch 1.12.0+cu113


Al momento de escribir este tutorial, la versión estable actual es 1.12.0. Por lo tanto, debería ver la salida `Usando torch 1.12.0+cu113`. Si ve un número de versión más bajo, asegúrese de haber instalado el entorno correcto. En caso de que una versión posterior de PyTorch se publique durante el tiempo del curso, no se preocupe. La interfaz entre las versiones de PyTorch no cambia demasiado y, por lo tanto, todo el código también debería poder ejecutarse con versiones más nuevas.

Como en todo framework de machine learning, PyTorch proporciona funciones estocásticas como generar números aleatorios. Sin embargo, una muy buena práctica es configurar su código para que sea reproducible con exactamente los mismos números aleatorios. Es por eso que establecemos una semilla a continuación.

In [None]:
torch.manual_seed(42) # Para reproducibilidad

<torch._C.Generator at 0x7f31db207af0>

## Tensores

![alt](https://i.pinimg.com/originals/80/c0/b1/80c0b157636aa8cb4b4e56180b8ab8e7.png)

Los tensores son el equivalente de PyTorch a las matrices Numpy, con la adición de que también tienen soporte para la aceleración de GPU (hablaremos de esto más adelante). El nombre "tensor" es una generalización de conceptos que ya conoce. Por ejemplo, un vector es un tensor 1-D y una matriz un tensor 2-D. Cuando trabajemos con redes neuronales, usaremos tensores de varias formas y número de dimensiones.

Las funciones más comunes que conoce de `numpy` también se pueden usar en tensores. En realidad, dado que los arreglos `numpy` son tan similares a los tensores, podemos convertir la mayoría de los tensores en arreglos `numpy` (y viceversa) pero no lo necesitamos con demasiada frecuencia.

### Inicialización

Primero comencemos mirando diferentes formas de crear un tensor. Hay muchas opciones posibles, la más simple es llamar a `torch.empty` pasando la forma deseada como argumento de entrada. Esto creará un tensor no inicializado: 

In [None]:
# torch.empty(size): no inicializado
# scalar
x = torch.empty(1)
print('Scalar')
print(x)

# vector, 1D
x = torch.empty(3)
print()
print('Vector 1D')
print(x)

# matriz, 2D
x = torch.empty(2,3)
print()
print('Vector 2D')
print(x)

# tensor, 3 dimensiones
x = torch.empty(2,2,3) 
print()
print('Vector 3D')
print(x)

# tensor, 4 dimensiones
x = torch.empty(2,2,2,3)
print()
print('Vector 4D')
print(x)

Scalar
tensor([1.2620e-35])

Vector 1D
tensor([1.2620e-35, 0.0000e+00, 5.0447e-44])

Vector 2D
tensor([[1.2620e-35, 0.0000e+00, 5.0447e-44],
        [0.0000e+00,        nan, 0.0000e+00]])

Vector 3D
tensor([[[1.2620e-35, 0.0000e+00, 5.0447e-44],
         [0.0000e+00,        nan, 0.0000e+00]],

        [[1.3788e-14, 3.6423e-06, 2.0699e-19],
         [3.3738e-12, 7.4086e+28, 6.9397e+22]]])

Vector 4D
tensor([[[[1.1020e-35, 0.0000e+00, 0.0000e+00],
          [0.0000e+00, 1.4013e-45, 0.0000e+00]],

         [[0.0000e+00, 0.0000e+00, 0.0000e+00],
          [0.0000e+00, 0.0000e+00, 0.0000e+00]]],


        [[[1.4013e-45, 0.0000e+00, 1.4013e-45],
          [0.0000e+00, 1.4013e-45, 0.0000e+00]],

         [[1.4013e-45, 0.0000e+00, 1.4013e-45],
          [0.0000e+00, 1.4013e-45, 0.0000e+00]]]])


Para asignar valores directamente al tensor durante la inicialización, existen muchas alternativas que incluyen:

* `torch.zeros`: Crea un tensor lleno de ceros
* `torch.ones`: Crea un tensor lleno de unos
* `torch.rand`: Crea un tensor con valores aleatorios muestreados uniformemente entre 0 y 1
* `torch.randn`: Crea un tensor con valores aleatorios muestreados a partir de una distribución normal con media 0 y varianza 1
* `torch.arange`: Crea un tensor que contiene los valores $N, N + 1, N + 2, ..., M$
* `torch.tensor(lista de entrada)`: Crea un tensor a partir de los elementos de la lista que proporcionemos

**Directamente de datos**

Los tensores se pueden crear directamente a partir de listas datos. El tipo de datos se infiere automáticamente. 

In [None]:
# Crear de tensor a partir de una lista o matriz
data = [[1, 2], [3, 4]]
x = torch.tensor(data)
print(x)

tensor([[1, 2],
        [3, 4]])


**Con valores aleatorios o constantes:**

Podemos crear tensores con valores aleatorios siguiendo una distribución uniforme (``torch.rand``) o normal (``torch.randn``).

In [None]:
# torch.rand(size): números aleatorios [0, 1]
x = torch.rand(5, 3)
print(x)

tensor([[0.8823, 0.9150, 0.3829],
        [0.9593, 0.3904, 0.6009],
        [0.2566, 0.7936, 0.9408],
        [0.1332, 0.9346, 0.5936],
        [0.8694, 0.5677, 0.7411]])


In [None]:
# torch.randn(size): números aleatorios muestreados a partir de una distribución normal
x = torch.randn(2, 3, 4)
print(x)

tensor([[[ 0.5201,  1.6423, -0.1596, -0.4974],
         [ 0.4396, -0.7581,  1.0783,  0.8008],
         [-0.7746,  0.0349,  0.3211,  1.5736]],

        [[-0.8455,  1.3123,  0.6872, -1.0892],
         [-0.4879, -1.4181,  0.8963,  0.0499],
         [ 2.2667,  1.1790, -0.4345, -1.3864]]])


Podemos obtener la forma de un tensor de la misma forma que en ``numpy`` (`x.shape`), o usando el método `.size`:

In [None]:
shape = x.shape
print("Shape:", x.shape)

size = x.size()
print("Size:", size)

dim1, dim2, dim3 = x.size()
print("Size:", dim1, dim2, dim3)

Shape: torch.Size([2, 3, 4])
Size: torch.Size([2, 3, 4])
Size: 2 3 4


También podemos verificar el tipo de datos y el dispositivo en el que se almacenan:

In [None]:
x = torch.rand(3,4)

print("Tamaño del tensor:", x.shape)
print("Tipo de dato del tensor:", x.dtype)
print("Dispositivo en el que está almacenado el tensor:", x.device)

Tamaño del tensor: torch.Size([3, 4])
Tipo de dato del tensor: torch.float32
Dispositivo en el que está almacenado el tensor: cpu


**Tensores de ceros y unos**

Podemos crear tensores de ceros y unos de forma similar a los que se hace en numpy:

In [None]:
# creamos tensores de unos y ceros acorde al tamaño específicado
shape = (3,4)

# tensor de unos
x_ones = torch.ones(shape)
print('Tensor de unos')
print(x_ones)

# tensor de ceros
print('\nTensor de ceros')
x_zeros = torch.zeros(shape)

print(x_zeros)

Tensor de unos
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

Tensor de ceros
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])


También es posible especificar el tipo de dato al momento de crear el tensor:

In [None]:
# especificamos tipos, por defecto se tiene el tipo de dato -> float32
x = torch.ones(5, 3, dtype=torch.float16)
print(x)

# verificamos tipo
print(x.dtype)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float16)
torch.float16


**A partir de otro tensor:**

El nuevo tensor conserva las propiedades (forma, tipo de datos) del tensor del argumento, a menos que se anule explícitamente:

In [None]:
x_data = torch.tensor([[2,4], [6,7]])
print("Data original", x_data)

x = torch.ones_like(x_data) # retiene las propiedades de x_data
print("\nTensor de unos", x)

x = torch.rand_like(x_data, dtype=torch.float) # sobreescribimos el tipo de dato de x_data
print("\nTensor aleatorio:", x)

Data original tensor([[2, 4],
        [6, 7]])

Tensor de unos tensor([[1, 1],
        [1, 1]])

Tensor aleatorio: tensor([[0.2036, 0.2018],
        [0.2018, 0.9497]])


**Copiar tensor**

Para copiar un tensor podemos hacer uso de [tensor.clone()](https://pytorch.org/docs/stable/generated/torch.clone.html), no es posible usar el operador de asignación directamente ya que cualquier cambio puede afectar al tensor original. Veamos un ejemplo:


In [None]:
x_data = torch.tensor([[2,4], [6,7]])
print("Data original", x_data)

# Tratamos de copiar usando operador de asignación
copy = x_data

# Modificamos un valor del tensor copy
copy[0][0] = 20
print("\nTensor copia:")
print(copy)
print("Tensor original:")
print(x_data)

Data original tensor([[2, 4],
        [6, 7]])

Tensor copia:
tensor([[20,  4],
        [ 6,  7]])
Tensor original:
tensor([[20,  4],
        [ 6,  7]])


Como podemos observar el cambio realizado en el tensor copy también se ve reflejado en el tensor original. Para evitar esto, al momento de hacer una copia es preferible usar [tensor.clone()](https://pytorch.org/docs/stable/generated/torch.clone.html).

In [None]:
x_data = torch.tensor([[2,4], [6,7]])
print("Data original", x_data)

# Copiamos tensor usando .clone()
copy = x_data.clone()

# Modificamos un valor del tensor copy
copy[0][0] = 20

print("\nTensor copia:")
print(copy)
print("Tensor original:")
print(x_data)

Data original tensor([[2, 4],
        [6, 7]])

Tensor copia:
tensor([[20,  4],
        [ 6,  7]])
Tensor original:
tensor([[2, 4],
        [6, 7]])


Podemos ver que ahora el cambio no afecta al tensor original.

### Tensor a Numpy y Numpy a Tensor

Los tensores se pueden convertir en matrices numpy y de matrices numpy de nuevo en tensores. Para transformar una matriz numpy en un tensor, podemos usar la función `torch.from_numpy`:

In [None]:
x_np = np.array([[1, 2], [3, 4]])
x = torch.from_numpy(x_np)

print("Arreglo en Numpy:", x_np)
print("Tensor en PyTorch:", x)

Arreglo en Numpy: [[1 2]
 [3 4]]
Tensor en PyTorch: tensor([[1, 2],
        [3, 4]])


Los cambios en la matriz NumPy se reflejan en el tensor (operaciones in-place):

In [None]:
x_np += 1
print("Arreglo en Numpy:", x_np)
print("Tensor en PyTorch:", x)

Arreglo en Numpy: [[2 3]
 [4 5]]
Tensor en PyTorch: tensor([[2, 3],
        [4, 5]])


Para transformar un tensor de PyTorch en una matriz numpy, podemos usar la función `.numpy()` en tensores:

In [None]:
x = torch.arange(4)
x_np = x.numpy()

print("Tensor en PyTorch:", x)
print("Arreglo en Numpy:", x_np)

Tensor en PyTorch: tensor([0, 1, 2, 3])
Arreglo en Numpy: [0 1 2 3]


Un cambio en el tensor se refleja en la matriz NumPy (operaciones in-place):

In [None]:
x_np += 1
print("Tensor en PyTorch:", x)
print("Arreglo en Numpy:", x_np)

Tensor en PyTorch: tensor([1, 2, 3, 4])
Arreglo en Numpy: [1 2 3 4]


La conversión de tensores a numpy requiere que el tensor esté en la CPU y no en la GPU. En caso de que tengamos un tensor en la GPU, debemos llamar a `.cpu()` en el tensor de antemano. Por lo tanto, obtenemos una línea como `x_np = tensor.cpu().numpy()`. 

### Operaciones de tensores

La mayoría de las operaciones que existen en numpy, también existen en PyTorch. Se puede encontrar una lista completa de operaciones en la [documentación de PyTorch](https://pytorch.org/docs/stable/tensors.html#), pero revisaremos las más importantes aquí.

#### Operaciones elementwise

La operación más sencilla es sumar dos tensores: 

In [None]:
x1 = torch.rand(2, 3)
x2 = torch.rand(2, 3)
y = x1 + x2

print("X1", x1)
print("X2", x2)
print("\nSuma elementwise")
print(y)

X1 tensor([[0.6666, 0.9811, 0.0874],
        [0.0041, 0.1088, 0.1637]])
X2 tensor([[0.7025, 0.6790, 0.9155],
        [0.2418, 0.1591, 0.7653]])

Suma elementwise
tensor([[1.3691, 1.6602, 1.0028],
        [0.2458, 0.2680, 0.9289]])


Llamar a `x1 + x2` crea un nuevo tensor que contiene la suma de las dos entradas. Sin embargo, también podemos usar operaciones in-place que se aplican directamente en la memoria de un tensor. Por lo tanto, cambiamos los valores de `x2` sin la posibilidad de volver a acceder a los valores de` x2` antes de la operación. A continuación se muestra un ejemplo: 

In [None]:
x1 = torch.rand(2, 3)
x2 = torch.rand(2, 3)
print("X1 (antes)", x1)
print("X2 (antes)", x2)

x2.add_(x1)
print("X1 (después)", x1)
print("X2 (después)", x2)

X1 (antes) tensor([[0.2979, 0.8035, 0.3813],
        [0.7860, 0.1115, 0.2477]])
X2 (antes) tensor([[0.6524, 0.6057, 0.3725],
        [0.7980, 0.8399, 0.1374]])
X1 (después) tensor([[0.2979, 0.8035, 0.3813],
        [0.7860, 0.1115, 0.2477]])
X2 (después) tensor([[0.9503, 1.4092, 0.7539],
        [1.5841, 0.9514, 0.3851]])


Las operaciones in-place generalmente se marcan con un sufijo de subrayado (por ejemplo, "add_" en lugar de "add"). Además de la suma podemos realizar otros tipos de operaciones:

In [None]:
# resta
y = x1 - x2
y = torch.sub(x1, x2)
print('Resta elementwise')
print(y)

# multiplicación
y = x1 * x2
y = torch.mul(x1, x2)
print('\nMultiplicación elementwise')
print(y)

# división
y = x1 / x2
y = torch.div(x1, x2)
print('\nDivisión elementwise')
print(y)

Resta elementwise
tensor([[-0.6524, -0.6057, -0.3725],
        [-0.7980, -0.8399, -0.1374]])

Multiplicación elementwise
tensor([[0.2831, 1.1322, 0.2875],
        [1.2451, 0.1061, 0.0954]])

División elementwise
tensor([[0.3135, 0.5702, 0.5059],
        [0.4962, 0.1172, 0.6432]])


Torch también proporciona muchas funciones matemáticas estándar; estos están disponibles como funciones en el módulo `torch` y como métodos de instancia en tensores:

Puede encontrar una lista completa de todas las funciones matemáticas disponibles en la [documentación](https://pytorch.org/docs/stable/torch.html#pointwise-ops); muchas funciones en el módulo `torch` tienen métodos de instancia correspondientes en [objetos tensores](https://pytorch.org/docs/stable/tensors.html).

In [None]:
x = torch.tensor([[1, 2, 3, 4]], dtype=torch.float32)

print('Raíz cuadrada:')
print(torch.sqrt(x))
print(x.sqrt())

print('\nFunciones trigonométricas:')
print(torch.sin(x))
print(x.sin())
print(torch.cos(x))
print(x.cos())

Raíz cuadrada:
tensor([[1.0000, 1.4142, 1.7321, 2.0000]])
tensor([[1.0000, 1.4142, 1.7321, 2.0000]])

Funciones trigonométricas:
tensor([[ 0.8415,  0.9093,  0.1411, -0.7568]])
tensor([[ 0.8415,  0.9093,  0.1411, -0.7568]])
tensor([[ 0.5403, -0.4161, -0.9900, -0.6536]])
tensor([[ 0.5403, -0.4161, -0.9900, -0.6536]])


#### Operaciones de reducción

Hasta ahora hemos visto operaciones aritméticas básicas en tensores que operan elemento a elemento. A veces, es posible que deseemos realizar operaciones que agreguen una parte o la totalidad de un tensor, como una suma; estas se denominan operaciones de **reducción**.

Al igual que las operaciones de elementos anteriores, la mayoría de las operaciones de reducción están disponibles como funciones en el módulo `torch` y como métodos de instancia en objetos` tensor`.

La operación de reducción más simple es la suma. Podemos usar la función [`.sum()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.sum) \(o de manera equivalente [`torch.sum`](https://pytorch.org/docs/stable/generated/torch.sum.html)) para reducir un tensor completo o para reducir solo una dimensión del tensor usando el argumento `dim`:

In [None]:
x = torch.tensor([[1, 2, 3], 
                  [4, 5, 6]], dtype=torch.float32)
print('Tensor original:')
print(x)

print('\nSuma sobre todo el tensor:')
print(torch.sum(x))
print(x.sum())

# Suma de todas las filas (i.e. por cada columna)
print('\nSuma de todas las filas:')
print(torch.sum(x, dim=0))
print(x.sum(dim=0))

# Suma de todas las columnas (i.e. por cada fila)
print('\nSuma de columnas:')
print(torch.sum(x, dim=1))
print(x.sum(dim=1))

Tensor original:
tensor([[1., 2., 3.],
        [4., 5., 6.]])

Suma sobre todo el tensor:
tensor(21.)
tensor(21.)

Suma por filas:
tensor([5., 7., 9.])
tensor([5., 7., 9.])

Suma por columnas:
tensor([ 6., 15.])
tensor([ 6., 15.])


Otras operaciones de reducción útiles incluyen [`mean`](https://pytorch.org/docs/stable/torch.html#torch.mean), [`min`](https://pytorch.org/docs/stable/torch.html#torch.min) y [`max`](https://pytorch.org/docs/stable/torch.html#torch.max). Puede encontrar una lista completa de todas las operaciones de reducción disponibles en la [documentación](https://pytorch.org/docs/stable/torch.html#reduction-ops).

Algunas operaciones de reducción devuelven más de un valor; por ejemplo, `min` devuelve tanto el valor mínimo sobre la dimensión especificada como el índice donde se produce el valor mínimo:

In [None]:
x = torch.tensor([[2, 4, 3, 5], [3, 3, 5, 2]], dtype=torch.float32)
print('Tensor original:')
print(x, x.shape)

# Mínimo general solo devuelve un valor único
print('\nMínimo general: ', x.min())

# Calcular el mínimo a lo largo de cada columna; obtenemos tanto el valor como la ubicación:
# El mínimo de la primera columna es 2 y aparece en el índice 0;
# el mínimo de la segunda columna es 3 y aparece en el índice 1; etc
col_min_vals, col_min_idxs = x.min(dim=0)
print('\nMínimo a lo largo de cada columna:')
print('valores:', col_min_vals)
print('indices:', col_min_idxs)

# Calcule el mínimo a lo largo de cada fila; obtenemos tanto el valor como el mínimo
row_min_vals, row_min_idxs = x.min(dim=1)
print('\nMínimo a lo largo de cada fila:')
print('valores:', row_min_vals)
print('indices:', row_min_idxs)

Tensor original:
tensor([[2., 4., 3., 5.],
        [3., 3., 5., 2.]]) torch.Size([2, 4])

Mínimo general:  tensor(2.)

Mínimo a lo largo de cada columna:
valores: tensor([2., 3., 3., 2.])
indices: tensor([0, 1, 0, 1])

Mínimo a lo largo de cada fila:
valores: tensor([2., 2.])
indices: tensor([0, 3])


Operaciones de reducción *reducen* las dimensiones de tensores: la dimensión sobre la que se realiza la reducción se eliminará de la forma de la salida. Si pasa `keepdim=True` a una operación de reducción, la dimensión especificada no se eliminará; en cambio, el tensor de salida tendrá una forma de 1 en esa dimensión.

Cuando trabaja con tensores multidimensionales, pensar en filas y columnas puede resultar confuso; en cambio, es más útil pensar en la forma que resultará de cada operación. Por ejemplo:

In [None]:
# Creamos tensor de tamaño (128, 10, 3, 64, 64)
x = torch.randn(128, 10, 3, 64, 64)
print(x.shape)

# Media sobre la dimensión 1; tamaño ahora es (128, 3, 64, 64)
x = x.mean(dim=1)
print(x.shape)

# Suma sobre la dimensión 2; tamaño ahora es (128, 3, 64)
x = x.sum(dim=2)
print(x.shape)

# Tomamos la media sobre la dimensión 1, pero evitamos que se elimine la dimensión
# pasando keepdim=True; tamaño ahora es (128, 1, 64)
x = x.mean(dim=1, keepdim=True)
print(x.shape)

torch.Size([128, 10, 3, 64, 64])
torch.Size([128, 3, 64, 64])
torch.Size([128, 3, 64])
torch.Size([128, 1, 64])


### Operaciones matriciales

Otras operaciones de uso común incluyen multiplicaciones de matrices, que son esenciales para las redes neuronales. Muy a menudo, tenemos un vector de entrada $\mathbf{x}$, que se transforma usando una matriz de peso aprendida $\mathbf{W}$. Hay varias formas y funciones para realizar la multiplicación de matrices, algunas de las cuales se enumeran a continuación:

* `torch.matmul`: Realiza el producto matricial sobre dos tensores, donde el comportamiento específico depende de las dimensiones. Si ambas entradas son matrices (tensores bidimensionales), realiza el producto matricial estándar. Para entradas de mayor dimensión, la función admite broadcasting (para obtener más detalles, consulte la [documentación](https://pytorch.org/docs/stable/generated/torch.matmul.html?highlight=matmul#torch.matmul)). También se puede escribir como `a @ b`, similar a numpy.
* `torch.mm`: realiza el producto matricial sobre dos matrices, pero no admite broadcasting (consulte la [documentación](https://pytorch.org/docs/stable/generated/torch.mm.html?highlight=torch%20mm#torch.mm))
* `torch.bmm`: Realiza el producto de matriz con una dimensión de lote de soporte (batch size). Si el primer tensor $T$ tiene la forma ($b \times n \times m$), y el segundo tensor $R$ ($b \times m \times p$), la salida $O$ tiene la forma ( $b \times n \times p $), y se ha calculado realizando multiplicaciones de matriz $b$ de las submatrices de $T$ y $R$: $O_i = T_i @ R_i$
* `torch.einsum`: Realiza multiplicaciones de matrices y sumas (es decir, sumas de productos) utilizando la convención de suma de Einstein. Este operador facilita varias operaciones matriciales. Una explicación de la suma de Einstein la puede encontrar en el [siguiente blog](https://theaisummer.com/einsum-attention/).

Por lo general, usamos `torch.matmul` o` torch.bmm`. Podemos probar una multiplicación de matrices con `torch.matmul` a continuación. 

In [None]:
x = torch.arange(6)
x = x.view(-1, 3)
print(x)

tensor([[0, 1, 2],
        [3, 4, 5]])


In [None]:
W = torch.arange(9).view(3, 3) # Podemos empilar varias operaciones en una sola linea
print(W)

tensor([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]])


In [None]:
h = torch.matmul(x, W) # Multiplicación de matrices
print(h)

tensor([[15, 18, 21],
        [42, 54, 66]])


**Tensores de un solo elemento**

Si tiene un tensor de un elemento, por ejemplo, agregando todos
valores de un tensor en un valor, puede convertirlo en un valor numérico de Python usando ``item ()``: 

In [None]:
sum = h.sum()
value = sum.item()
print(value, type(value))

216 <class 'int'>


### Operaciones de cambio de tamaño

Otra operación común tiene como objetivo cambiar la forma de un tensor. Un tensor de tamaño (2,3) se puede reorganizar a cualquier otra forma con el mismo número de elementos (por ejemplo, un tensor de tamaño (6), o (3,2), ...). En PyTorch, esta operación se llama [`.view()`](https://pytorch.org/docs/1.1.0/tensors.html#torch.Tensor.view).

Podemos usar `.view ()` para aplanar matrices en vectores, y para convertir vectores de 1 dimensión en matrices fila o columna de 2 dimensiones:

In [None]:
x0 = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]])
print('Tensor original')
print(x0)
print('tamaño:', x0.shape)

# Aplanamos (Flatten) x0 en un vector de 1 dimensión (8,)
x1 = x0.view(8)
print('\nTensor aplanado:')
print(x1)
print('tamaño:', x1.shape)

# Convertimos x1 a un vector fila de dos dimensiones de tamaño (1,8)
x2 = x1.view(1, 8)
print('\nVector fila:')
print(x2)
print('tamaño:', x2.shape)

# Convertimos x1 a un vector columna de dos dimensiones de tamaño (8,1)
x3 = x1.view(8, 1)
print('\nVector columna:')
print(x3)
print('tamaño:', x3.shape)

# Convertimos x1 a un tensor de tres dimensiones de tamaño (2, 2, 2)
x4 = x1.view(2, 2, 2)
print('\nTensor de 3 dimensiones:')
print(x4)
print('tamaño:', x4.shape)

Tensor original
tensor([[1, 2, 3, 4],
        [5, 6, 7, 8]])
tamaño: torch.Size([2, 4])

Tensor aplanado:
tensor([1, 2, 3, 4, 5, 6, 7, 8])
tamaño: torch.Size([8])

Vector fila:
tensor([[1, 2, 3, 4, 5, 6, 7, 8]])
tamaño: torch.Size([1, 8])

Vector columna:
tensor([[1],
        [2],
        [3],
        [4],
        [5],
        [6],
        [7],
        [8]])
tamaño: torch.Size([8, 1])

Tensor de 3 dimensiones:
tensor([[[1, 2],
         [3, 4]],

        [[5, 6],
         [7, 8]]])
tamaño: torch.Size([2, 2, 2])


Las llamadas a `.view ()` pueden incluir un único argumento -1; esto pone elementos necesarios en esa dimensión para que la salida tenga la misma forma que la entrada. Esto hace que sea fácil escribir algunas operaciones de cambio de dimensión de una manera que sea independiente de la forma del tensor:

In [None]:
# Podemos reutilizar estas funciones para tensores de diferentes formas
def flatten(x):
  return x.view(-1)

def make_row_vec(x):
  return x.view(1, -1)

x0 = torch.tensor([[1, 2, 3], [4, 5, 6]])
x0_flat = flatten(x0)
x0_row = make_row_vec(x0)
print('x0:')
print(x0)
print('x0_flat:')
print(x0_flat)
print('x0_row:')
print(x0_row)

x1 = torch.tensor([[1, 2], [3, 4]])
x1_flat = flatten(x1)
x1_row = make_row_vec(x1)
print('\nx1:')
print(x1)
print('x1_flat:')
print(x1_flat)
print('x1_row:')
print(x1_row)

x0:
tensor([[1, 2, 3],
        [4, 5, 6]])
x0_flat:
tensor([1, 2, 3, 4, 5, 6])
x0_row:
tensor([[1, 2, 3, 4, 5, 6]])

x1:
tensor([[1, 2],
        [3, 4]])
x1_flat:
tensor([1, 2, 3, 4])
x1_row:
tensor([[1, 2, 3, 4]])


Otro ejemplo usando -1 en la primera dimensión:

In [None]:
x = torch.arange(6)
print('x')
print(x)

# si una de las dimensiones es -1, pytorch determinará automáticamente el tamaño necesario 
x = x.view(-1, 2) # el tamaño -1 se infiere de otras dimensiones 
print('\nx con nueva dimensión')
print(x)

x
tensor([0, 1, 2, 3, 4, 5])

x con nueva dimensión
tensor([[0, 1],
        [2, 3],
        [4, 5]])


#### Intercambio de ejes

Otra operación común de cambio de dimensiones que quizás desee realizar es la transposición de una matriz. Puede que se sorprenda si intenta transponer una matriz con `.view()`: La función `view()` toma elementos en orden de fila, por lo que **no puede transponer matrices con `.view()`** .

En general, solo debe usar `.view()` para agregar nuevas dimensiones a un tensor, o para colapsar dimensiones adyacentes de un tensor.

Para otros tipos de operaciones de reshaping, generalmente necesita usar una función que pueda intercambiar ejes de un tensor. La función más simple de este tipo es `.t()`, específicamente para transposición de matrices. Está disponible como [función en el módulo `torch`](https://pytorch.org/docs/stable/generated/torch.t.html#torch.t) y como [método de instancia de tensor]( https://pytorch.org/docs/stable/tensors.html#torch.Tensor.t):

In [None]:
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
print('Matriz original:')
print(x)
print('\nTranspuesta con view NO FUNCIONA!') #conversion sigue un orden contiguo
print(x.view(3, 2))
print('\nMatriz transpuesta:') #convertimos filas en columnas
print(torch.t(x))
print(x.t())

Matriz original:
tensor([[1, 2, 3],
        [4, 5, 6]])

Transpuesta con view NO FUNCIONA!
tensor([[1, 2],
        [3, 4],
        [5, 6]])

Matriz transpuesta:
tensor([[1, 4],
        [2, 5],
        [3, 6]])
tensor([[1, 4],
        [2, 5],
        [3, 6]])


Para tensores con más de dos dimensiones, podemos usar la función [`torch.transpose`](https://pytorch.org/docs/stable/generated/torch.transpose.html#torch.transpose) para intercambiar dimensiones arbitrarias, o el método [`.permute`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.permute) para permutar dimensiones arbitrariamente

In [None]:
# Creamos tensor de tamaño (2, 3, 4)
x0 = torch.tensor([
     [[1,  2,  3,  4],
      [5,  6,  7,  8],
      [9, 10, 11, 12]],
     [[13, 14, 15, 16],
      [17, 18, 19, 20],
      [21, 22, 23, 24]]])
print('Tensor original:')
print(x0)
print('tamaño:', x0.shape)

# Intercambiar ejes 1 y 2; el tamaño es (2, 4, 3)
x1 = x0.transpose(1, 2)
print('\nIntercambio de ejes 1 y 2:')
print(x1)
print(x1.shape)

# Permutar ejes; el argumento (1, 2, 0) significa:
# - Hacer que la antigua dimensión 1 aparezca en la dimensión 0;
# - Hacer que la antigua dimensión 2 aparezca en la dimensión 1;
# - Hacer que la antigua dimensión 0 aparezca en la dimensión 2
# Esto da como resultado un tensor de forma (3, 4, 2)
x2 = x0.permute(1, 2, 0)
print('\nEjes permutados')
print(x2)
print('tamaño:', x2.shape)

Tensor original:
tensor([[[ 1,  2,  3,  4],
         [ 5,  6,  7,  8],
         [ 9, 10, 11, 12]],

        [[13, 14, 15, 16],
         [17, 18, 19, 20],
         [21, 22, 23, 24]]])
tamaño: torch.Size([2, 3, 4])

Intercambio de ejes 1 y 2:
tensor([[[ 1,  5,  9],
         [ 2,  6, 10],
         [ 3,  7, 11],
         [ 4,  8, 12]],

        [[13, 17, 21],
         [14, 18, 22],
         [15, 19, 23],
         [16, 20, 24]]])
torch.Size([2, 4, 3])

Ejes permutados
tensor([[[ 1, 13],
         [ 2, 14],
         [ 3, 15],
         [ 4, 16]],

        [[ 5, 17],
         [ 6, 18],
         [ 7, 19],
         [ 8, 20]],

        [[ 9, 21],
         [10, 22],
         [11, 23],
         [12, 24]]])
tamaño: torch.Size([3, 4, 2])


La diferencia entre `.transpose()`. y `.permute()`. es que el `.tranpose(dim0, dim1)`. acepta dos argumentos (dimensiones) mientras que `.permute(*dims)` es más general y acepta una tupla.  

#### Tensores contiguos y reshape

Para cambiar el tamaño de los tensores también podemos usar el método [`.reshape()`](https://pytorch.org/docs/stable/generated/torch.reshape.html#torch.reshape). Existe una sutil diferencia entre `reshape()` y `view()`: `view()` requiere que los datos se almacenen de forma contigua en la memoria. Puede consultar esta [respuesta](https://stackoverflow.com/questions/49643225/whats-the-difference-between-reshape-and-view-in-pytorch) de StackOverflow o esta publicación de [blog de Edward Yang](http://blog.ezyang.com/2019/05/pytorch-internals/) para obtener más información. En términos simples, contiguo significa que la forma en que nuestros datos se colocan en la memoria es la misma que la forma en que leeríamos los elementos de ella. Esto sucede porque algunos métodos, como `transpose()` y `view()`, en realidad no cambian cómo se almacenan nuestros datos en la memoria. Simplemente cambian la metainformación sobre nuestro tensor, de modo que cuando lo usemos veremos los elementos en el orden que esperamos.

`reshape()` llama a `view()` internamente si los datos se almacenan de forma contigua, si no, devuelve una copia. La diferencia aquí no es demasiado importante para los tensores básicos, pero si realiza operaciones que hacen que el almacenamiento subyacente de los datos no sea contiguo (como tomar una transposición), tendrá problemas al usar `view()`. Si desea hacer coincidir la forma en que se almacena su tensor en la memoria con la forma en que se usa, puede usar el método [`.contiguous()`](https://pytorch.org/docs/stable/generated/torch.Tensor.contiguous.html#torch.Tensor.contiguous).

In [None]:
x0 = torch.randn(2, 3, 4)

try:
  # Esta secuencia de operaciones fallará
  x1 = x0.transpose(1, 2).view(8, 3)
except RuntimeError as e:
  print(type(e), e)
  
# Podemos resolver el problema usando .contiguous () o .reshape()
x1 = x0.transpose(1, 2).contiguous().view(8, 3)
x2 = x0.transpose(1, 2).reshape(8, 3)
print('Tamaño de x1: ', x1.shape)
print('Tamaño de x2: ', x2.shape)

<class 'RuntimeError'> view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Use .reshape(...) instead.
Tamaño de x1:  torch.Size([8, 3])
Tamaño de x2:  torch.Size([8, 3])


#### Squeeze y Unsqueeze
Squeeze y unsqueeze son métodos muy útiles para agregar y eliminar una dimensión del tensor.

##### Squeeze

Cuando realizamos `squeeze` de un tensor, se eliminan las dimensiones de tamaño 1. Los elementos del tensor original se reordenan con las dimensiones restantes. Por ejemplo, si el tensor de entrada tiene la forma: ($m \times 1 \times n \times 1$), entonces el tensor de salida después de la operación de `squeeze` tendrá la forma: ($m \times n$). Para realizar la operación `squeeze` en un tensor podemos aplicar el método [torch.squeeze()](https://pytorch.org/docs/stable/generated/torch.squeeze.html).

In [None]:
# Creamos tensor
x = torch.randn(3,1,2,1,4)
# Motramos el tamaño del tensor
print("Tamaño del tensor inicial:\n",x.size())
 
# Operación de squeeze
output = torch.squeeze(x)
# Mostramos el tensor luego de la operación
print("Tamaño después squeeze:\n",output.size())

Tamaño del tensor inicial:
 torch.Size([3, 1, 2, 1, 4])
Tamaño después squeeze:
 torch.Size([3, 2, 4])


Podemos observar que en este ejemplo todas las dimensiones iguales a $1$ son eliminadas. Veamos otro ejemplo donde podemos elegir la dimensión a eliminar explícitamente:

In [None]:
# Creamos tensor
x = torch.randn(3,1,2,1,4)
print("Dimensión del tensor inicial:", x.dim())
print("Tamaño del tensor inicial:\n",x.size())
 
# Squeeze el tensor en la dimensión 0
output = torch.squeeze(x,dim=0)
print("Tamaño después squeeze en dim=0:\n",
      output.size())
 
# Squeeze el tensor en la dimensión 1
output = torch.squeeze(x,dim=1)
print("Tamaño después squeeze en dim=1:\n",
      output.size())
 
# Squeeze el tensor en la dimensión 2
output = torch.squeeze(x,dim=2)
print("Tamaño después squeeze en dim=2:\n",
      output.size())
 
# Squeeze el tensor en la dimensión 3
output = torch.squeeze(x,dim=3)
print("Tamaño después squeeze en dim=3:\n",
      output.size())
 
# Squeeze el tensor en la dimensión 4
output = torch.squeeze(x,dim=4)
print("Tamaño después squeeze en dim=4:\n",
      output.size())
# output = torch.squeeze(input,dim=5) # Error

Dimensión del tensor inicial: 5
Tamaño del tensor inicial:
 torch.Size([3, 1, 2, 1, 4])
Tamaño después squeeze en dim=0:
 torch.Size([3, 1, 2, 1, 4])
Tamaño después squeeze en dim=1:
 torch.Size([3, 2, 1, 4])
Tamaño después squeeze en dim=2:
 torch.Size([3, 1, 2, 1, 4])
Tamaño después squeeze en dim=3:
 torch.Size([3, 1, 2, 4])
Tamaño después squeeze en dim=4:
 torch.Size([3, 1, 2, 1, 4])


Notar que cuando hacemos `squeeze` del tensor en la dimensión 0, no hay cambio en la forma del tensor de salida. Cuando hacemos `squeeze` en la dimensión 1 o en la dimensión 3 (ambas son de tamaño 1), solo esta dimensión se elimina en el tensor de salida. Cuando hacemos `squeeze` en la dimensión 2 o la dimensión 4, no hay cambio en la forma del tensor de salida.

##### Unsqueeze

Cuando realizamos `unsqueeze` un tensor, se inserta una nueva dimensión de tamaño 1 en la posición especificada. Siempre una operación de `unsqueeze` aumenta la dimensión del tensor de salida. Por ejemplo, si el tensor de entrada tiene la forma: ($m \times n$) y queremos insertar una nueva dimensión en la posición 1, entonces el tensor de salida después de descomprimir tendrá la forma: ($m \times 1 \times n$). Para realizar la operación `unsqueeze` en un tensor podemos aplicar el método [torch.unsqueeze()](https://pytorch.org/docs/stable/generated/torch.unsqueeze.html).

In [None]:
# Creamos tensor
x = torch.randn(3,2,4)
# Motramos la dimensión y el tamaño del tensor
print("Dimensión del tensor inicial:", x.dim())
print("Tamaño del tensor inicial:\n",x.size())
 
# Unsqueeze el tensor en la dimensión 0
output = torch.unsqueeze(x,dim=0)
print("Tamaño después squeeze en dim=0:\n",
      output.size())

# Unsqueeze el tensor en la dimensión 1
output = torch.unsqueeze(x,dim=1)
print("Tamaño después squeeze en dim=1:\n",
      output.size())

Dimensión del tensor inicial: 3
Tamaño del tensor inicial:
 torch.Size([3, 2, 4])
Tamaño después squeeze en dim=0:
 torch.Size([1, 3, 2, 4])
Tamaño después squeeze en dim=1:
 torch.Size([3, 1, 2, 4])


### Combinando tensores

Podemos combinar tensor usando las operaciones de concatenación (`torch.cat`) y empilado (`torch.stack`)

#### Concatenación

Para concatenar una secuencia de tensores podemos usar la función [torch.cat()](https://pytorch.org/docs/stable/generated/torch.cat.html) que permite concatenar a lo largo de la misma dimensión. Los tensores deben tener la misma forma (excepto en la dimensión que desea realizar la concatenación) o estar vacíos.

In [None]:
# Inicializamos tensores
x = torch.tensor([2, 3, 4, 5])
y = torch.tensor([4, 10, 30])
z = torch.tensor([7, 22, 4, 8, 3, 6])

# Mostramos sus tamaños
print("Tamaño de tensor x: ", x.size())
print("Tamaño de tensor y: ", y.size())
print("Tamaño de tensor z: ", z.size()) 

# Concatenamos a lo largo de la dimensión 0
xyz = torch.cat( (x,y,z) , dim=0)

print("\nTensor concatenado: ")
print(xyz)
print("Tamaño de tensor xyz: ", xyz.size())

Tamaño de tensor x:  torch.Size([4])
Tamaño de tensor y:  torch.Size([3])
Tamaño de tensor z:  torch.Size([6])

Tensor concatenado: 
tensor([ 2,  3,  4,  5,  4, 10, 30,  7, 22,  4,  8,  3,  6])
Tamaño de tensor xyz:  torch.Size([13])


Podemos concatenar tensores de mayor dimensionalidad:

In [None]:
# Inicializamos tensores
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
y = torch.tensor([[10, 20, 30]])

# Mostramos sus tamaños
print("Tamaño de tensor x: ", x.size())
print("Tamaño de tensor y: ", y.size())

# Concatenamos a lo largo de la dimensión 0
xy = torch.cat( (x,y) , dim=0)

print("\nTensor concatenado: ")
print(xy)
print("Tamaño de tensor xy: ", xy.size())

Tamaño de tensor x:  torch.Size([2, 3])
Tamaño de tensor y:  torch.Size([1, 3])

Tensor concatenado: 
tensor([[ 1,  2,  3],
        [ 4,  5,  6],
        [10, 20, 30]])
Tamaño de tensor xy:  torch.Size([3, 3])


En el ejemplo anterior concatenamos en la dimensión 0, es decir, adicionamos una fila al tensor original. Notar que la dimensión en la que se hace la concatenación no necesariamente es la misma, las otras dimensiones si deben ser iguales.

Ahora realizaremos la concatenación por columnas (dimensión 1)

In [None]:
# Inicializamos tensores
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
z = torch.tensor([[10],[20]])

# Mostramos sus tamaños
print("Tamaño de tensor x: ", x.size())
print("Tamaño de tensor z: ", y.size())

# Concatenmos a lo largo de la dimensión 1
xz = torch.cat( (x,z) , dim=1)

print("\nTensor concatenado: ")
print(xz)
print("Tamaño de tensor xz: ", xz.size())

Tamaño de tensor x:  torch.Size([2, 3])
Tamaño de tensor z:  torch.Size([1, 3])

Tensor concatenado: 
tensor([[ 1,  2,  3, 10],
        [ 4,  5,  6, 20]])
Tamaño de tensor xz:  torch.Size([2, 4])


#### Empilado

La operación de empilado también une una secuencia de tensores pero sobre una nueva dimensión. Además, aquí los tensores deben ser del mismo tamaño. Para empilar una secuencia de tensores podemos usar la función [torch.stack()](https://pytorch.org/docs/stable/generated/torch.stack.html)

In [None]:
# Inicializamos tensores
x = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
y = torch.tensor([[10, 20, 30, 40], [50, 60, 70, 80], [90, 100, 110, 120]])

# Mostramos tamaños
print("Tamaño de tensor x: ", x.size())
print("Tamaño de tensor y: ", y.size())

# Empilamos tensores a lo largo de la dimensión 0 
xy = torch.stack([x,y] , dim=0) # (3, 4) --> (1, 3, 4) --> (N, 3, 4)
print("\nTensor empilado: ")
print(xy)
print("Tamaño de tensor xy: ", xy.size())

Tamaño de tensor x:  torch.Size([3, 4])
Tamaño de tensor y:  torch.Size([3, 4])

Tensor empilado: 
tensor([[[  1,   2,   3,   4],
         [  5,   6,   7,   8],
         [  9,  10,  11,  12]],

        [[ 10,  20,  30,  40],
         [ 50,  60,  70,  80],
         [ 90, 100, 110, 120]]])
Tamaño de tensor xy:  torch.Size([2, 3, 4])


Podemos ver que el tamaño de la salida adiciona una nueva dimensión acorde a lo especificado en el método stack. Este proceso es lo mismo que realizar la operación de unsqueeze seguido de una concatenación. En el ejemplo vemos que los tensores que queremos empilar tienen la misma dimensión, $(3,4)$. Al hacer el empilado, primero se adiciona una dimensión en 0, $(1,3,4)$ y luego se concatenan los tensores resultando en un tensor de tamaño $(2,3,4)$.

Entonces tenemos que:

```python
torch.stack([x,y], dim) = torch.cat((torch.unsqueeze(x, dim), torch.unsqueeze(y,dim)), dim)
```

Veamos el resultado:


In [None]:
# Empilamos tensores a lo largo de la dimensión 0 
xy = torch.cat( (torch.unsqueeze(x, dim=0), torch.unsqueeze(y,dim=0)), dim=0)
print("\nTensor empilado: ")
print(xy)
print("Tamaño de tensor xy: ", xy.size())


Tensor empilado: 
tensor([[[  1,   2,   3,   4],
         [  5,   6,   7,   8],
         [  9,  10,  11,  12]],

        [[ 10,  20,  30,  40],
         [ 50,  60,  70,  80],
         [ 90, 100, 110, 120]]])
Tamaño de tensor xy:  torch.Size([2, 3, 4])


Vemos que el resultado es el mismo, corroborando lo afirmado. A continuación mostramos ejemplos empilando sobre otras dimensiones

In [None]:
# Empilamos tensores a lo largo de la dimensión 1
xy = torch.stack([x,y] , dim=1) # (3, 4) --> (3, 1, 4) --> (3, N, 4)
print("\nTensor empilado en dimensión 1: ")
print(xy)
print("Tamaño de tensor xy: ", xy.size())

# Empilamos tensores a lo largo de la dimensión 2
xy = torch.stack([x,y] , dim=2) # (3, 4) --> (3, 4, 1) --> (3, 4, N)
print("\nTensor empilado en dimensión 2: ")
print(xy)
print("Tamaño de tensor xy: ", xy.size())


Tensor empilado en dimensión 1: 
tensor([[[  1,   2,   3,   4],
         [ 10,  20,  30,  40]],

        [[  5,   6,   7,   8],
         [ 50,  60,  70,  80]],

        [[  9,  10,  11,  12],
         [ 90, 100, 110, 120]]])
Tamaño de tensor xy:  torch.Size([3, 2, 4])

Tensor empilado en dimensión 2: 
tensor([[[  1,  10],
         [  2,  20],
         [  3,  30],
         [  4,  40]],

        [[  5,  50],
         [  6,  60],
         [  7,  70],
         [  8,  80]],

        [[  9,  90],
         [ 10, 100],
         [ 11, 110],
         [ 12, 120]]])
Tamaño de tensor xy:  torch.Size([3, 4, 2])


## Indexación

A menudo tenemos la situación en la que necesitamos seleccionar una parte de un tensor. PyTorch proporciona muchas formas de indexar tensores. Sentirse cómodo con estas diferentes opciones facilita la modificación de diferentes partes de los tensores con facilidad.

### Tensor indexing

La indexación de un tensor de Pytorch es similar a la de una lista de Python. La indexación del tensor pytorch se basa en 0, es decir, el primer elemento del arreglo tiene índice 0.

In [None]:
x = torch.tensor([1, 2, 3, 4, 5])
 
# Mostramos tensor
print("Tensor original:", x)
 
# Accesamos valor usando índice válido
temp = x[2]
print("El valor de x[2] es:", temp)
 
# Modificamos valor
x[2] = 10
 
# Mostramos tensor luego de modificar
print("Tensor después de modificar el valor:", x)

Tensor original: tensor([1, 2, 3, 4, 5])
El valor de x[2] es: tensor(3)
Tensor después de modificar el valor: tensor([ 1,  2, 10,  4,  5])


Podemos acceder y modificar en varias dimensiones:

In [None]:
x = torch.rand(size=(3,4,5)) # 3D tensor

print('Tensor original:')
print(x)
print('\n')

# Formas de acceso válidas
print('x[0][0][0]\n', x[0][0][0])
print('x[1,2,3]\n', x[1,2,3])
print('x[-1,-1][-1]\n', x[-1,-1][-1])
print('\n')

# Modificamos tensor
x[0][0][0] = -100
x[1,2,3] = 12.5
x[-1,-1,-1] = 10000.5
print('Tensor después de modificar sus valores:')
print(x)

Tensor original:
tensor([[[0.1427, 0.9851, 0.5783, 0.1433, 0.2137],
         [0.7490, 0.2377, 0.4277, 0.9045, 0.8610],
         [0.5942, 0.9265, 0.2299, 0.2243, 0.3835],
         [0.5560, 0.2684, 0.1374, 0.1094, 0.4948]],

        [[0.1264, 0.5239, 0.8462, 0.4444, 0.3686],
         [0.9906, 0.4605, 0.6124, 0.9093, 0.3077],
         [0.2272, 0.2616, 0.1522, 0.0364, 0.1528],
         [0.4981, 0.0984, 0.0514, 0.7338, 0.9130]],

        [[0.0015, 0.2598, 0.9701, 0.2717, 0.9355],
         [0.4000, 0.9253, 0.4605, 0.7021, 0.3879],
         [0.7867, 0.0265, 0.4429, 0.8799, 0.4947],
         [0.0391, 0.0644, 0.5005, 0.5835, 0.7942]]])


x[0][0][0]
 tensor(0.1427)
x[1,2,3]
 tensor(0.0364)
x[-1,-1][-1]
 tensor(0.7942)


Tensor después de modificar sus valores:
tensor([[[-1.0000e+02,  9.8513e-01,  5.7832e-01,  1.4335e-01,  2.1372e-01],
         [ 7.4898e-01,  2.3773e-01,  4.2769e-01,  9.0454e-01,  8.6102e-01],
         [ 5.9422e-01,  9.2648e-01,  2.2994e-01,  2.2428e-01,  3.8348e-01],
         [ 

### Slice indexing

Similar a las listas de Python y las matrices numpy, los tensores de PyTorch se pueden **cortar (slice)** usando la sintaxis `start:stop` o` start:stop:step`. El índice `stop` es siempre no inclusivo: es el primer elemento que no se incluye en el segmento.

Los índices de inicio y finalización pueden ser negativos, en cuyo caso se cuentan hacia atrás desde el final del tensor.

In [None]:
a = torch.tensor([0, 11, 22, 33, 44, 55, 66])
print(0, a)        # (0) Tensor original
print(1, a[2:5])   # (1) Elementos entre índice 2 y 5
print(2, a[2:])    # (2) Elementos a partir del índice 2
print(3, a[:5])    # (3) Elementos antes del índice 5
print(4, a[:])     # (4) Todos los elementos
print(5, a[1:5:2]) # (5) Cada segundo elemento entre los índices 1 y 5 (incluye el índice inicial 1)
print(6, a[:-1])   # (6) Todo menos el último elemento
print(7, a[-4::2]) # (7) Cada segundo elemento, empezando por el cuarto último elemento

0 tensor([ 0, 11, 22, 33, 44, 55, 66])
1 tensor([22, 33, 44])
2 tensor([22, 33, 44, 55, 66])
3 tensor([ 0, 11, 22, 33, 44])
4 tensor([ 0, 11, 22, 33, 44, 55, 66])
5 tensor([11, 33])
6 tensor([ 0, 11, 22, 33, 44, 55])
7 tensor([33, 55])


Para tensores multidimensionales, puede proporcionar un segmento o un número entero para cada dimensión del tensor con el fin de extraer diferentes tipos de subtensores:

In [None]:
# Creamos el siguiente tensor de 2 dimensiones de tamaño (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = torch.tensor([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print('Tensor original:')
print(a)
print('tamaño: ', a.shape)

# Obtenemos la fila 1 y todas las columnas.
print('\nUna fila:')
print(a[1,:])
print(a[1]) # Da el mismo resultado; podemos omitir: para dimensiones finales
print('tamaño:', a[1].shape)

print('\nColumna única:')
print(a[:, 1])
print('tamaño: ', a[:, 1].shape)

# Obtenemos las dos primeras filas y las últimas tres columnas
print('\nPrimeras dos filas, últimas tres columnas:')
print(a[:2, -3:])
print('tamaño: ', a[:2, -3:].shape)

# Obtenemos cada dos filas y columnas en el índice 1 y 2
print('\nCada dos fila, columnas del medio:')
print(a[::2, 1:3])
print('tamaño: ', a[::2, 1:3].shape)

Tensor original:
tensor([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]])
tamaño:  torch.Size([3, 4])

Una fila:
tensor([5, 6, 7, 8])
tensor([5, 6, 7, 8])
tamaño: torch.Size([4])

Columna única:
tensor([ 2,  6, 10])
tamaño:  torch.Size([3])

Primeras dos filas, últimas tres columnas:
tensor([[2, 3, 4],
        [6, 7, 8]])
tamaño:  torch.Size([2, 3])

Cada dos fila, columnas del medio:
tensor([[ 2,  3],
        [10, 11]])
tamaño:  torch.Size([2, 2])


Hay dos formas comunes de acceder a una sola fila o columna de un tensor: el uso de un número entero reducirá la dimensión en uno y el uso de un segmento de longitud uno mantendrá la misma dimensión. Tenga en cuenta que este es un comportamiento diferente al de MATLAB.

In [None]:
# Creamos el siguiente tensor de dimensión 2 de tamaño (3, 4)
a = torch.tensor([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print('Tensor original')
print(a)

row_r1 = a[1, :]    # Segunda fila del tensor 'a' de 1 dimensión
row_r2 = a[1:2, :]  # Segunda fila del tensor 'a' de 2 dimensiones
print('\nDos formas de acceder a una sola fila:')
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)

# Podemos hacer la misma distinción al acceder a las columnas:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print('\nDos formas de acceder a una sola columna:')
print(col_r1, col_r1.shape)
print(col_r2, col_r2.shape)

Tensor original
tensor([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]])

Dos formas de acceder a una sola fila:
tensor([5, 6, 7, 8]) torch.Size([4])
tensor([[5, 6, 7, 8]]) torch.Size([1, 4])

Dos formas de acceder a una sola columna:
tensor([ 2,  6, 10]) torch.Size([3])
tensor([[ 2],
        [ 6],
        [10]]) torch.Size([3, 1])


### Indexación de tensor de enteros

Cuando indexamos el tensor usando slices, la vista del tensor resultante siempre será un subarreglo del tensor original. Esto es poderoso, pero puede ser restrictivo.

También podemos usar **matrices de índice** para indexar tensores; esto nos permite construir nuevos tensores con mucha más flexibilidad que usando slices.

Como ejemplo, podemos usar matrices de índices para reordenar las filas o columnas de un tensor:

In [None]:
# Creamos el siguiente tensor de dimensión 2 de tamaño (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print('Tensor original:')
print(a)

# Creamos un nuevo tensor de tamaño (5, 4) reordenando las filas de a:
# - Las primeras dos filas son iguales a la primera fila del tensor 'a'
# - La tercera fila es igual que la última fila del tensor 'a'
# - La cuarta y quinta filas son iguales a la segunda fila del tensor 'a'
idx = [0, 0, 2, 1, 1]  # los índices pueden ser listas de números enteros de Python
print('\nReordenamos filas:')
print(a[idx])

# Creamos un nuevo tensor de tamaño (3, 4) reordenando las columnas de a:
idx = torch.tensor([3, 2, 1, 0])  # Las matrices de índices pueden ser tensores de antorcha int64
print('\nReordenamos columnas:')
print(a[:, idx])

Tensor original:
tensor([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]])

Reordenamos filas:
tensor([[ 1,  2,  3,  4],
        [ 1,  2,  3,  4],
        [ 9, 10, 11, 12],
        [ 5,  6,  7,  8],
        [ 5,  6,  7,  8]])

Reordenamos columnas:
tensor([[ 4,  3,  2,  1],
        [ 8,  7,  6,  5],
        [12, 11, 10,  9]])


De manera más general, dadas las matrices de índices `idx0` e` idx1` con `N` elementos cada una,` a[idx0, idx1] `es equivalente a:

```
torch.tensor ([
   a[idx0[0], idx1[0]],
   a[idx0[1], idx1[1]],
   ...,
   a[idx0[N - 1], idx1[N - 1]]
])
```

(Un patrón similar se extiende a tensores con más de dos dimensiones)

Podemos, por ejemplo, usar esto para obtener o establecer la diagonal de un tensor:

In [None]:
a = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print('Tensor original:')
print(a)

idx = [0, 1, 2]
print('\nObtener la diagonal:')
print(a[idx, idx])

# Modificar la diagonal
a[idx, idx] = torch.tensor([11, 22, 33])
print('\nDespués de establecer la diagonal:')
print(a)

Tensor original:
tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])

Obtener la diagonal:
tensor([1, 5, 9])

Después de establecer la diagonal:
tensor([[11,  2,  3],
        [ 4, 22,  6],
        [ 7,  8, 33]])


Un truco útil con la indexación de matrices de enteros es seleccionar o mutar un elemento de cada fila o columna de una matriz:

In [None]:
# Creamos un nuevo tensor del que seleccionaremos elementos
a = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
print('Tensor original:')
print(a)

# Tomamos el elemento de cada fila de a:
# de la fila 0, tomamos el elemento 1;
# de la fila 1, tomamos el elemento 2;
# de la fila 2, tomamos el elemento 1;
# de la fila 3, tomamos el elemento 0
idx0 = torch.arange(a.shape[0])  # Manera rápida de construir [0, 1, 2, 3]
idx1 = torch.tensor([1, 2, 1, 0])
print('\nSeleccionamos un elemento de cada fila:')
print(a[idx0, idx1])

# Ahora establezca cada uno de esos elementos en cero
a[idx0, idx1] = 0
print('\nDespués de modificar un elemento de cada fila:')
print(a)

Tensor original:
tensor([[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12]])

Seleccionamos un elemento de cada fila:
tensor([ 2,  6,  8, 10])

Después de modificar un elemento de cada fila:
tensor([[ 1,  0,  3],
        [ 4,  5,  0],
        [ 7,  0,  9],
        [ 0, 11, 12]])


### Indexación de tensor booleano

La indexación de tensor booleano le permite seleccionar elementos arbitrarios de un tensor de acuerdo con una máscara booleana. Con frecuencia, este tipo de indexación se utiliza para seleccionar o modificar los elementos de un tensor que satisfacen alguna condición.

En PyTorch, usamos tensores de dtype `torch.bool` para contener máscaras booleanas.

(Antes de la versión 1.2.0, no existía el tipo `torch.bool` por lo que en su lugar` torch.uint8` se usaba generalmente para representar datos booleanos, con 0 indicando falso y 1 indicando verdadero. ¡Cuidado con esto en el código PyTorch más antiguo! )

In [None]:
a = torch.tensor([[1,2], [3, 4], [5, 6]])
print('Tensor original:')
print(a)

# Encontramos los elementos de 'a' que sean mayores que 3. La máscara tiene el 
# mismo tamaño que 'a', donde cada elemento de la máscara indica si el elemento 
# correspondiente de 'a' es mayor que tres
mask = (a > 3)
print('\nTensor de máscara:')
print(mask)

# Podemos usar la máscara para construir un tensor de 1 dimensi[on] que contenga 
# los elementos de 'a' que son seleccionados por la máscara
print('\nSeleccionamos elementos con la máscara:')
print(a[mask])

# También podemos usar máscaras booleanas para modificar tensores; por ejemplo, 
# esto establece todos los elementos <= 3 en cero:
a[a <= 3] = 0
print('\nDespués de modificar con máscara:')
print(a)

Tensor original:
tensor([[1, 2],
        [3, 4],
        [5, 6]])

Tensor de máscara:
tensor([[False, False],
        [False,  True],
        [ True,  True]])

Seleccionamos elementos con la máscara:
tensor([4, 5, 6])

Después de modificar con máscara:
tensor([[0, 0],
        [0, 4],
        [5, 6]])


## Broadcasting

Broadcasting es un mecanismo poderoso que permite a PyTorch trabajar con matrices de diferentes formas al realizar operaciones aritméticas. Con frecuencia tenemos un tensor más pequeño y un tensor más grande, y queremos usar el tensor más pequeño varias veces para realizar alguna operación en el tensor más grande.

Por ejemplo, suponga que queremos agregar un vector constante a cada fila de un tensor. Podríamos hacerlo así:

In [None]:
# Agregaremos el vector v a cada fila de la matriz x, almacenando el resultado 
# en la matriz y
x = torch.tensor([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = torch.tensor([1, 0, 1])
y = torch.zeros_like(x)   # Crea una matriz vacía con el mismo tamaño que x

# Sumamos el vector v a cada fila de la matriz x con un bucle explícito
for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

tensor([[ 2,  2,  4],
        [ 5,  5,  7],
        [ 8,  8, 10],
        [11, 11, 13]])


Esto funciona; sin embargo, cuando el tensor x es muy grande, calcular un bucle explícito en Python podría ser lento. Tenga en cuenta que sumar el vector v a cada fila del tensor x es equivalente a formar un tensor vv apilando múltiples copias de v verticalmente, luego realizando la suma de elementos de x y vv. Podríamos implementar este enfoque así:

In [None]:
vv = v.repeat((4, 1))  # Apilamos 4 copias de v una encima de la otra
print(vv)             

tensor([[1, 0, 1],
        [1, 0, 1],
        [1, 0, 1],
        [1, 0, 1]])


Sumamos los tensores

In [None]:
y = x + vv  # Sumar x y vv
print(y)

tensor([[ 2,  2,  4],
        [ 5,  5,  7],
        [ 8,  8, 10],
        [11, 11, 13]])


Broadcasting de PyTorch nos permite realizar este cálculo sin crear realmente múltiples copias de v. Considere esta versión, usando broadcasting:

In [None]:
# Agregaremos el vector v a cada fila de la matriz x almacenando 
# el resultado en la matriz y
x = torch.tensor([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = torch.tensor([1, 0, 1])
y = x + v  # Agregue v a cada fila de x usando broadcasting
print(y)

tensor([[ 2,  2,  4],
        [ 5,  5,  7],
        [ 8,  8, 10],
        [11, 11, 13]])


La línea y = x + v funciona aunque x tiene forma (4, 3) y v tiene forma (3,) debido a broadcasting; esta línea funciona como si v realmente tuviera forma (4, 3), donde cada fila es una copia de v, y la suma se realiza por elementos.

Broadcasting de dos tensores juntos sigue las siguientes reglas:

![alt](https://jidindinesh.github.io/img/Capture.PNG)

1. Si los tensores no tienen la misma dimensionalidad, anteponga 1 al tamaño de la matriz de dimensión inferior hasta que ambos tensores tengan las mismas dimensiones. A: (3 x 4 x 5), B: (4 x 5) -> B: (1 x 4 x 5). RES: (3 x 4 x 5) 
2. Se dice que los dos tensores son *compatibles* en una dimensión si tienen el mismo tamaño en la dimensión, o si uno de los tensores tiene el tamaño 1 en esa dimensión. A: (1 x 4 x 1), B: (3 x 4 x 5)
3. Se puede hacer broadcasting entre dos tensores si son compatibles en todas las dimensiones.
4. Después de broadcasting, cada tensor se comporta como si tuviese una forma igual a la forma máxima de los elementos de los dos tensores de entrada.
5. En cualquier dimensión donde un tensor tiene un tamaño 1 y el otro tensor tiene un tamaño mayor que 1, el primer tensor se comporta como si se hubiera copiado a lo largo de esa dimensión. A: (1 x 4 x 1), B: (3 x 4 x 5). RES: (3 x 4 x 5)

Si esta explicación no tiene sentido, intente leer la explicación de la [documentación](https://pytorch.org/docs/stable/notes/broadcasting.html).

Broadcasting generalmente ocurre implícitamente dentro de muchos operadores de PyTorch. Sin embargo, también podemos realizarlo explícitamente usando la función [`torch.broadcast_tensors`](https://pytorch.org/docs/stable/generated/torch.broadcast_tensors.html#torch.broadcast_tensors).

## Soporte de GPU

Una característica crucial de PyTorch es el soporte de GPU, abreviatura de Graphics Processing Unit. Una GPU puede realizar muchos miles de pequeñas operaciones en paralelo, lo que la hace muy adecuada para realizar grandes operaciones matriciales en redes neuronales.

Las CPU y las GPU tienen diferentes ventajas y desventajas, por lo que muchas computadoras contienen ambos componentes y los usan para diferentes tareas. En caso de que no esté familiarizado con las GPU, puede leer más detalles en esta [publicación de blog de NVIDIA](https://blogs.nvidia.com/blog/2009/12/16/whats-the-difference-between-a-cpu-and-a-gpu/) o [aquí](https://www.intel.com/content/www/us/en/products/docs/processors/what-is-a-gpu.html).

Las GPU pueden acelerar el entrenamiento de una red hasta un factor de $100$ que es esencial para las redes neuronales profundas. PyTorch implementa muchas funciones para admitir GPU (principalmente las de NVIDIA debido a las bibliotecas [CUDA](https://developer.nvidia.com/cuda-zone) y [cuDNN](https://developer.nvidia.com/cudnn)). Primero, verifiquemos si tiene una GPU disponible: 

In [None]:
gpu = torch.cuda.is_available()
print("¿La GPU está disponible? %s" % str(gpu))

¿La GPU está disponible? True


Si tiene una GPU en su computadora, pero el comando anterior devuelve False, asegúrese de tener instalada la versión de CUDA correcta. En Google Colab, asegúrese de haber seleccionado una GPU en su configuración de tiempo de ejecución (en el menú, marque en `Runtime -> Change runtime type`).

De forma predeterminada, todos los tensores que crean se almacenan en la CPU. Podemos enviar un tensor a la GPU usando la función `.to(...)`, o `.cuda()`. Sin embargo, a menudo es una buena práctica definir un objeto "device" en su código que apunte a la GPU si tiene una, o en caso contrario a la CPU. Luego, puede escribir su código con respecto a este objeto de device, lo que permite ejecutar el mismo código tanto en un sistema solo con CPU como en uno con una GPU. Probémoslo a continuación. Podemos especificar el device de la siguiente manera: 

In [None]:
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
print("Device", device)

Device cuda


Ahora creemos un tensor y enviémoslo al device respectivo: 

In [None]:
x = torch.zeros(2, 3)
x = x.to(device) #también puede especificar el device como string "gpu" o "cpu"
print(x)

tensor([[0., 0., 0.],
        [0., 0., 0.]], device='cuda:0')


In [None]:
x = torch.randn(5000, 5000)

## versión CPU
start_time = time.time()
_ = torch.matmul(x, x)
end_time = time.time()
print("CPU time: %6.5fs" % (end_time - start_time))

## versión GPU
x = x.to(device)

# La primera operación en CUDA puede ser lenta, ya que primero debe establecer una comunicación CPU-GPU.
#Por lo tanto, primero ejecutemos un comando arbitrario sin cronometrarlo para una comparación justa.
if torch.cuda.is_available():
    _ = torch.matmul(x*0.0, x)
    
start_time = time.time()
_ = torch.matmul(x, x)
end_time = time.time()
print("GPU time: %6.5fs" % (end_time - start_time))

CPU time: 4.27140s
GPU time: 0.00013s


Dependiendo del tamaño de la operación y la CPU/GPU en su sistema, la aceleración de esta operación puede ser > 500x. Como las operaciones `matmul` son muy comunes en las redes neuronales, ya podemos ver el gran beneficio de entrenar una red neuronal en una GPU. La estimación de tiempo puede ser relativamente ruidosa aquí porque no la hemos ejecutado varias veces. Siéntase libre de extender esto, pero también puede llevar más tiempo en ejecutarlo.

Al generar números aleatorios, el `seed` entre CPU y GPU no está sincronizada. Por lo tanto, debemos establecer el `seed` en la GPU por separado para garantizar un código reproducible. Tenga en cuenta que debido a las diferentes arquitecturas de GPU, ejecutar el mismo código en diferentes GPU no garantiza los mismos números aleatorios. Aún así, no queremos que nuestro código nos dé una salida diferente cada vez que lo ejecutamos exactamente en el mismo hardware. Por lo tanto, también establecemos el `seed` en la GPU: 

In [None]:
# Las operaciones de GPU tienen un seed separado que también queremos establecer 
if torch.cuda.is_available(): 
    torch.cuda.manual_seed(42)
    torch.cuda.manual_seed_all(42)
    
# Además, algunas operaciones en una GPU se implementan estocásticamente para mayor eficiencia.
# Queremos asegurarnos de que todas las operaciones sean deterministas en la GPU (si se usa) para la reproducibilidad 
torch.backends.cudnn.determinstic = True
torch.backends.cudnn.benchmark = False

**Referencias**

1. [Tutorial Oficial de PyTorch](https://pytorch.org/tutorials/beginner/basics/tensorqs_tutorial.html)