<a href="https://colab.research.google.com/github/mrdbourke/pytorch-deep-learning/blob/main/00_pytorch_fundamentals.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab"/></a> 

[Ver Código Fuente](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/00_pytorch_fundamentals.ipynb) | [Ver Diapositivas](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/slides/00_pytorch_and_deep_learning_fundamentals.pdf) | [Ver Video Tutorial](https://youtu.be/Z_ikDlimN6A?t=76)

# 00. Fundamentos de PyTorch

## ¿Qué es PyTorch?

[PyTorch](https://pytorch.org/) es un framework de código abierto para aprendizaje automático y aprendizaje profundo.

## ¿Para qué se puede usar PyTorch?

PyTorch te permite manipular y procesar datos y escribir algoritmos de aprendizaje automático usando código Python.

## ¿Quién usa PyTorch?

Muchas de las compañías tecnológicas más grandes del mundo como [Meta (Facebook)](https://ai.facebook.com/blog/pytorch-builds-the-future-of-ai-and-machine-learning-at-facebook/), Tesla y Microsoft, así como compañías de investigación en inteligencia artificial como [OpenAI usan PyTorch](https://openai.com/blog/openai-pytorch/) para impulsar la investigación y llevar el aprendizaje automático a sus productos.

![pytorch siendo usado en la industria y la investigación](https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/00-pytorch-being-used-across-research-and-industry.png)

Por ejemplo, Andrej Karpathy (jefe de IA en Tesla) ha dado varias charlas ([PyTorch DevCon 2019](https://youtu.be/oBklltKXtDE), [Tesla AI Day 2021](https://youtu.be/j0z4FweCy4M?t=2904)) sobre cómo Tesla usa PyTorch para impulsar sus modelos de visión por computadora para conducción autónoma.

PyTorch también se usa en otras industrias como la agricultura para [impulsar visión por computadora en tractores](https://medium.com/pytorch/ai-for-ag-production-machine-learning-for-agriculture-e8cfdb9849a1).

## ¿Por qué usar PyTorch?

A los investigadores de aprendizaje automático les encanta usar PyTorch. Y a partir de febrero de 2022, PyTorch es el [framework de aprendizaje profundo más usado en Papers With Code](https://paperswithcode.com/trends), un sitio web para rastrear papers de investigación en aprendizaje automático y los repositorios de código adjuntos.

PyTorch también ayuda a cuidar muchas cosas como la aceleración por GPU (hacer que tu código funcione más rápido) detrás de escena.

Así que puedes enfocarte en manipular datos y escribir algoritmos y PyTorch se asegurará de que funcione rápido.

Y si compañías como Tesla y Meta (Facebook) lo usan para construir modelos que despliegan para impulsar cientos de aplicaciones, conducir miles de autos y entregar contenido a miles de millones de personas, claramente es capaz también en el frente de desarrollo.

## Lo que vamos a cubrir en este módulo

Este curso está dividido en diferentes secciones (notebooks).

Cada notebook cubre ideas y conceptos importantes dentro de PyTorch.

Los notebooks subsecuentes se basan en el conocimiento del anterior (la numeración comienza en 00, 01, 02 y va hasta donde sea que termine).

Este notebook trata sobre el bloque de construcción básico del aprendizaje automático y el aprendizaje profundo, el tensor.

Específicamente, vamos a cubrir:

| **Tema** | **Contenidos** |
| ----- | ----- |
| **Introducción a tensores** | Los tensores son el bloque de construcción básico de todo el aprendizaje automático y aprendizaje profundo. |
| **Creando tensores** | Los tensores pueden representar casi cualquier tipo de datos (imágenes, palabras, tablas de números). |
| **Obteniendo información de tensores** | Si puedes poner información en un tensor, también querrás sacarla. |
| **Manipulando tensores** | Los algoritmos de aprendizaje automático (como las redes neuronales) involucran manipular tensores de muchas maneras diferentes como sumar, multiplicar, combinar. |
| **Tratando con formas de tensores** | Uno de los problemas más comunes en aprendizaje automático es lidiar con desajustes de forma (tratar de mezclar tensores de formas incorrectas con otros tensores). |
| **Indexación en tensores** | Si has indexado en una lista de Python o array de NumPy, es muy similar con tensores, excepto que pueden tener muchas más dimensiones. |
| **Mezclando tensores de PyTorch y NumPy** | PyTorch juega con tensores ([`torch.Tensor`](https://pytorch.org/docs/stable/tensors.html)), NumPy le gustan los arrays ([`np.ndarray`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html)) a veces querrás mezclar estos. |
| **Reproducibilidad** | El aprendizaje automático es muy experimental y dado que usa mucha *aleatoriedad* para funcionar, a veces querrás que esa *aleatoriedad* no sea tan aleatoria. |
| **Ejecutando tensores en GPU** | Las GPUs (Unidades de Procesamiento Gráfico) hacen que tu código sea más rápido, PyTorch hace que sea fácil ejecutar tu código en GPUs. |

## ¿Dónde puedes obtener ayuda?

Todos los materiales para este curso [viven en GitHub](https://github.com/mrdbourke/pytorch-deep-learning).

Y si tienes problemas, puedes hacer una pregunta en la [página de Discusiones](https://github.com/mrdbourke/pytorch-deep-learning/discussions) ahí también.

También están los [foros de desarrolladores de PyTorch](https://discuss.pytorch.org/), un lugar muy útil para todo lo relacionado con PyTorch.

## Importando PyTorch

> **Nota:** Antes de ejecutar cualquier código en este notebook, deberías haber pasado por los [pasos de configuración de PyTorch](https://pytorch.org/get-started/locally/).
>
> Sin embargo, **si estás ejecutando en Google Colab**, todo debería funcionar (Google Colab viene con PyTorch y otras librerías instaladas).

Comencemos importando PyTorch y verificando la versión que estamos usando.

In [32]:
!pip uninstall torch torchvision torchaudio -y

Found existing installation: torch 2.6.0+cu124
Uninstalling torch-2.6.0+cu124:
  Successfully uninstalled torch-2.6.0+cu124
Found existing installation: torchvision 0.21.0+cu124
Uninstalling torchvision-0.21.0+cu124:
  Successfully uninstalled torchvision-0.21.0+cu124
Found existing installation: torchaudio 2.6.0+cu124
Uninstalling torchaudio-2.6.0+cu124:
  Successfully uninstalled torchaudio-2.6.0+cu124


In [36]:
!pip install torch==2.7.0.dev20250310+cu124 --index-url https://download.pytorch.org/whl/nightly/cu124
!pip install torchvision==0.22.0.dev20250310+cu124 --index-url https://download.pytorch.org/whl/nightly/cu124
!pip install torchaudio==2.6.0.dev20250310+cu124 --index-url https://download.pytorch.org/whl/nightly/cu124

Looking in indexes: https://download.pytorch.org/whl/nightly/cu124
Collecting torch==2.7.0.dev20250310+cu124
  Using cached https://download.pytorch.org/whl/nightly/cu124/torch-2.7.0.dev20250310%2Bcu124-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (28 kB)
Collecting sympy>=1.13.3 (from torch==2.7.0.dev20250310+cu124)
  Using cached https://download.pytorch.org/whl/nightly/sympy-1.14.0-py3-none-any.whl.metadata (12 kB)
Collecting nvidia-nccl-cu12==2.25.1 (from torch==2.7.0.dev20250310+cu124)
  Using cached https://download.pytorch.org/whl/nightly/cu124/nvidia_nccl_cu12-2.25.1-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (1.8 kB)
Collecting pytorch-triton==3.2.0+git4b3bb1f8 (from torch==2.7.0.dev20250310+cu124)
  Using cached https://download.pytorch.org/whl/nightly/pytorch_triton-3.2.0%2Bgit4b3bb1f8-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (1.3 kB)
Downloading https://download.pytorch.org/whl/nightly/cu124/torch-2.7.0.dev20250310%2Bcu124

In [34]:
!pip install matplotlib

Collecting matplotlib
  Downloading matplotlib-3.10.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Downloading contourpy-1.3.3-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.5 kB)
Collecting cycler>=0.10 (from matplotlib)
  Downloading cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplotlib)
  Downloading fonttools-4.59.0-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (107 kB)
Collecting kiwisolver>=1.3.1 (from matplotlib)
  Downloading kiwisolver-1.4.8-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.2 kB)
Collecting pyparsing>=2.3.1 (from matplotlib)
  Downloading pyparsing-3.2.3-py3-none-any.whl.metadata (5.0 kB)
Downloading matplotlib-3.10.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (8.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.6/8.6 MB[0m [31m48.2 MB/s

In [37]:
import torch
torch.__version__

'2.7.1+cu126'

Maravilloso, parece que tenemos PyTorch 1.10.0+.

Esto significa que si estás pasando por estos materiales, verás mayor compatibilidad con PyTorch 1.10.0+, sin embargo si tu número de versión es mucho más alto que eso, podrías notar algunas inconsistencias.

Y si tienes algún problema, por favor publica en la [página de Discusiones de GitHub del curso](https://github.com/mrdbourke/pytorch-deep-learning/discussions).

## Introducción a tensores

Ahora que tenemos PyTorch importado, es hora de aprender sobre tensores.

Los tensores son el bloque de construcción fundamental del aprendizaje automático.

Su trabajo es representar datos de manera numérica.

Por ejemplo, podrías representar una imagen como un tensor con forma `[3, 224, 224]` lo que significaría `[canales_color, altura, ancho]`, como en que la imagen tiene `3` canales de color (rojo, verde, azul), una altura de `224` píxeles y un ancho de `224` píxeles.

![ejemplo de ir de una imagen de entrada a una representación tensor de la imagen, la imagen se descompone en 3 canales de color así como números para representar la altura y el ancho](https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/00-tensor-shape-example-of-image.png)

En jerga de tensores (el lenguaje usado para describir tensores), el tensor tendría tres dimensiones, una para `canales_color`, `altura` y `ancho`.

Pero nos estamos adelantando.

Aprendamos más sobre tensores codificándolos.

### Creando tensores

PyTorch ama los tensores. Tanto que hay una página completa de documentación dedicada a la clase [`torch.Tensor`](https://pytorch.org/docs/stable/tensors.html).

Tu primera tarea es [leer la documentación sobre `torch.Tensor`](https://pytorch.org/docs/stable/tensors.html) por 10 minutos. Pero puedes llegar a eso después.

Codifiquemos.

Lo primero que vamos a crear es un **escalar**.

Un escalar es un número único y en jerga de tensores es un tensor de dimensión cero.

> **Nota:** Esa es una tendencia para este curso. Nos enfocaremos en escribir código específico. Pero a menudo estableceré ejercicios que involucran leer y familiarizarse con la documentación de PyTorch. Porque después de todo, una vez que termines este curso, sin duda querrás aprender más. Y la documentación es un lugar donde te encontrarás bastante a menudo.

In [3]:
# Escalar
escalar = torch.tensor(7)
escalar

tensor(7)

¿Ves cómo lo de arriba imprimió `tensor(7)`?

Eso significa que aunque `escalar` es un número único, es de tipo `torch.Tensor`.

Podemos verificar las dimensiones de un tensor usando el atributo `ndim`.

In [4]:
escalar.ndim

0

¿Qué tal si quisiéramos recuperar el número del tensor?

Como en, convertirlo de `torch.Tensor` a un entero de Python?

Para hacerlo podemos usar el método `item()`.

In [5]:
# Obtener el número de Python dentro de un tensor (solo funciona con tensores de un elemento)
escalar.item()

7

Bien, ahora veamos un **vector**.

Un vector es un tensor de una dimensión pero puede contener muchos números.

Como en, podrías tener un vector `[3, 2]` para describir `[habitaciones, baños]` en tu casa. O podrías tener `[3, 2, 2]` para describir `[habitaciones, baños, estacionamientos]` en tu casa.

La tendencia importante aquí es que un vector es flexible en lo que puede representar (lo mismo con los tensores).

In [6]:
# Vector
vector = torch.tensor([7, 7])
vector

tensor([7, 7])

Maravilloso, `vector` ahora contiene dos 7s, mi número favorito.

¿Cuántas dimensiones crees que tendrá?

In [7]:
# Verificar el número de dimensiones del vector
vector.ndim

1

Hmm, eso es extraño, `vector` contiene dos números pero solo tiene una dimensión.

Te voy a contar un truco.

Puedes saber el número de dimensiones que tiene un tensor en PyTorch por el número de corchetes en el exterior (`[`) y solo necesitas contar un lado.

¿Cuántos corchetes tiene `vector`?

Otro concepto importante para los tensores es su atributo `shape`. La forma te dice cómo están organizados los elementos dentro de ellos.

Revisemos la forma de `vector`.

In [8]:
# Verificar forma del vector
vector.shape

torch.Size([2])

Lo de arriba devuelve `torch.Size([2])` lo que significa que nuestro vector tiene una forma de `[2]`. Esto es debido a los dos elementos que colocamos dentro de los corchetes (`[7, 7]`).

Ahora veamos una **matriz**.

In [9]:
# Matriz
MATRIZ = torch.tensor([[7, 8], 
                       [9, 10]])
MATRIZ

tensor([[ 7,  8],
        [ 9, 10]])

¡Wow! ¡Más números! Las matrices son tan flexibles como los vectores, excepto que tienen una dimensión extra.

In [10]:
# Verificar número de dimensiones
MATRIZ.ndim

2

`MATRIZ` tiene dos dimensiones (¿contaste el número de corchetes en el exterior de un lado?).

¿Qué `forma` crees que tendrá?

In [11]:
MATRIZ.shape

torch.Size([2, 2])

Obtenemos la salida `torch.Size([2, 2])` porque `MATRIZ` tiene dos elementos de profundidad y dos elementos de ancho.

¿Qué tal si creamos un **tensor**?

In [12]:
# Tensor
TENSOR = torch.tensor([[[1, 2, 3],
                        [3, 6, 9],
                        [2, 4, 5]]])
TENSOR

tensor([[[1, 2, 3],
         [3, 6, 9],
         [2, 4, 5]]])

¡Woah! Qué tensor tan bonito.

Quiero enfatizar que los tensores pueden representar casi cualquier cosa.

El que acabamos de crear podría ser los números de ventas para una tienda de carne y mantequilla de almendras (dos de mis comidas favoritas).

![un tensor simple en google sheets mostrando día de la semana, ventas de carne y ventas de mantequilla de almendras](https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/00_simple_tensor.png)

¿Cuántas dimensiones crees que tiene? (pista: usa el truco de contar corchetes)

In [13]:
# Verificar número de dimensiones para TENSOR
TENSOR.ndim

3

¿Y qué tal su forma?

In [14]:
# Verificar forma de TENSOR
TENSOR.shape

torch.Size([1, 3, 3])

Bien, da como salida `torch.Size([1, 3, 3])`.

Las dimensiones van de exterior a interior.

Eso significa que hay 1 dimensión de 3 por 3.

![ejemplo de diferentes dimensiones de tensor](https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/00-pytorch-different-tensor-dimensions.png)

> **Nota:** Podrías haber notado que uso letras minúsculas para `escalar` y `vector` y letras mayúsculas para `MATRIZ` y `TENSOR`. Esto fue a propósito. En la práctica, a menudo verás escalares y vectores denotados como letras minúsculas como `y` o `a`. Y matrices y tensores denotados como letras mayúsculas como `X` o `W`.
>
> También podrías notar los nombres matriz y tensor usados intercambiablemente. Esto es común. Dado que en PyTorch a menudo tratas con `torch.Tensor`s (de ahí el nombre tensor), sin embargo, la forma y dimensiones de lo que esté adentro dictará lo que realmente es.

Resumamos.

| Nombre | ¿Qué es? | Número de dimensiones | Minúscula o mayúscula (usualmente/ejemplo) |
| ----- | ----- | ----- | ----- |
| **escalar** | un número único | 0 | Minúscula (`a`) |
| **vector** | un número con dirección (ej. velocidad del viento con dirección) pero también puede tener muchos otros números | 1 | Minúscula (`y`) |
| **matriz** | un array 2-dimensional de números | 2 | Mayúscula (`Q`) |
| **tensor** | un array n-dimensional de números | puede ser cualquier número, un tensor 0-dimensional es un escalar, un tensor 1-dimensional es un vector | Mayúscula (`X`) |

![escalar vector matriz tensor y cómo se ven](https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/00-scalar-vector-matrix-tensor.png)

### Tensores aleatorios

Hemos establecido que los tensores representan alguna forma de datos.

Y los modelos de aprendizaje automático como las redes neuronales manipulan y buscan patrones dentro de tensores.

Pero cuando construyes modelos de aprendizaje automático con PyTorch, es raro que crees tensores a mano (como lo que hemos estado haciendo).

En su lugar, un modelo de aprendizaje automático a menudo comienza con grandes tensores aleatorios de números y ajusta estos números aleatorios a medida que trabaja con datos para representarlos mejor.

En esencia:

`Comenzar con números aleatorios -> mirar datos -> actualizar números aleatorios -> mirar datos -> actualizar números aleatorios...`

Como científico de datos, puedes definir cómo el modelo de aprendizaje automático comienza (inicialización), mira datos (representación) y actualiza (optimización) sus números aleatorios.

Nos pondremos manos a la obra con estos pasos más adelante.

Por ahora, veamos cómo crear un tensor de números aleatorios.

Podemos hacerlo usando [`torch.rand()`](https://pytorch.org/docs/stable/generated/torch.rand.html) y pasando el parámetro `size`.

In [15]:
# Crear un tensor aleatorio de tamaño (3, 4)
tensor_aleatorio = torch.rand(size=(3, 4))
tensor_aleatorio, tensor_aleatorio.dtype

(tensor([[0.0428, 0.4498, 0.9708, 0.0040],
         [0.9562, 0.0681, 0.7080, 0.3191],
         [0.8666, 0.7719, 0.7032, 0.9902]]),
 torch.float32)

La flexibilidad de `torch.rand()` es que podemos ajustar el `size` para que sea lo que queramos.

Por ejemplo, digamos que querías un tensor aleatorio en la forma común de imagen de `[224, 224, 3]` (`[altura, ancho, canales_color]`).

In [16]:
# Crear un tensor aleatorio de tamaño (224, 224, 3)
tensor_tamaño_imagen_aleatorio = torch.rand(size=(224, 224, 3))
tensor_tamaño_imagen_aleatorio.shape, tensor_tamaño_imagen_aleatorio.ndim

(torch.Size([224, 224, 3]), 3)

### Ceros y unos

A veces solo querrás llenar tensores con ceros o unos.

Esto sucede mucho con enmascaramiento (como enmascarar algunos de los valores en un tensor con ceros para hacer saber a un modelo que no los aprenda).

Creemos un tensor lleno de ceros con [`torch.zeros()`](https://pytorch.org/docs/stable/generated/torch.zeros.html)

De nuevo, el parámetro `size` entra en juego.

In [17]:
# Crear un tensor de todos ceros
ceros = torch.zeros(size=(3, 4))
ceros, ceros.dtype

(tensor([[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]),
 torch.float32)

Podemos hacer lo mismo para crear un tensor de todos unos excepto usando [`torch.ones()`](https://pytorch.org/docs/stable/generated/torch.ones.html) en su lugar.

In [18]:
# Crear un tensor de todos unos
unos = torch.ones(size=(3, 4))
unos, unos.dtype

(tensor([[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]),
 torch.float32)

### Creando un rango y tensores como

A veces podrías querer un rango de números, como 1 a 10 o 0 a 100.

Puedes usar `torch.arange(start, end, step)` para hacerlo.

Donde:
* `start` = inicio del rango (ej. 0)
* `end` = final del rango (ej. 10)
* `step` = cuántos pasos entre cada valor (ej. 1)

> **Nota:** En Python, puedes usar `range()` para crear un rango. Sin embargo en PyTorch, `torch.range()` está obsoleto y puede mostrar un error en el futuro.

In [19]:
# Usar torch.arange(), torch.range() está obsoleto
cero_a_diez_obsoleto = torch.range(0, 10) # Nota: esto puede devolver un error en el futuro

# Crear un rango de valores de 0 a 10
cero_a_diez = torch.arange(start=0, end=10, step=1)
cero_a_diez

  cero_a_diez_obsoleto = torch.range(0, 10) # Nota: esto puede devolver un error en el futuro


tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

A veces podrías querer un tensor de cierto tipo con la misma forma que otro tensor.

Por ejemplo, un tensor de todos ceros con la misma forma que un tensor previo.

Para hacerlo puedes usar [`torch.zeros_like(input)`](https://pytorch.org/docs/stable/generated/torch.zeros_like.html) o [`torch.ones_like(input)`](https://pytorch.org/docs/1.9.1/generated/torch.ones_like.html) que devuelven un tensor lleno con ceros o unos en la misma forma que el `input` respectivamente.

In [20]:
# También se puede crear un tensor de ceros similar a otro tensor
diez_ceros = torch.zeros_like(input=cero_a_diez) # tendrá la misma forma
diez_ceros

tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

### Tipos de datos de tensor

Hay muchos [tipos de datos de tensor diferentes disponibles en PyTorch](https://pytorch.org/docs/stable/tensors.html#data-types).

Algunos son específicos para CPU y algunos son mejores para GPU.

Conocer cuál usar puede tomar algún tiempo.

Generalmente si ves `torch.cuda` en cualquier lugar, el tensor se está usando para GPU (ya que las GPUs Nvidia usan un toolkit de computación llamado CUDA).

El tipo más común (y generalmente el predeterminado) es `torch.float32` o `torch.float`.

Esto se refiere como "punto flotante de 32-bit".

Pero también está el punto flotante de 16-bit (`torch.float16` o `torch.half`) y punto flotante de 64-bit (`torch.float64` o `torch.double`).

Y para confundir las cosas aún más también hay enteros de 8-bit, 16-bit, 32-bit y 64-bit.

¡Y más!

> **Nota:** Un entero es un número redondo plano como `7` mientras que un flotante tiene un decimal `7.0`.

La razón para todos estos tiene que ver con **precisión en computación**.

Precisión es la cantidad de detalle usado para describir un número.

El valor de precisión más alto (8, 16, 32), más detalle y por lo tanto más datos usados para expresar un número.

Esto importa en aprendizaje profundo y computación numérica porque estás haciendo tantas operaciones, entre más detalle tengas que calcular, más cómputo tienes que usar.

Así que los tipos de datos de menor precisión son generalmente más rápidos de computar pero sacrifican algo de rendimiento en métricas de evaluación como precisión (más rápido de computar pero menos preciso).

> **Recursos:**
  * Ve la [documentación de PyTorch para una lista de todos los tipos de datos de tensor disponibles](https://pytorch.org/docs/stable/tensors.html#data-types).
  * Lee la [página de Wikipedia para un resumen de qué es precisión en computación](https://en.wikipedia.org/wiki/Precision_(computer_science)).

Veamos cómo crear algunos tensores con tipos de datos específicos. Podemos hacerlo usando el parámetro `dtype`.

In [26]:
# Tipo de dato predeterminado para tensores es float32
tensor_float_32 = torch.tensor([3.0, 6.0, 9.0],
                               dtype=None, # predeterminado es None, que es torch.float32 o cualquier tipo de dato que se pase
                               device=None, # predeterminado es None, que usa el tipo de tensor predeterminado
                               requires_grad=False) # si es True, las operaciones realizadas en el tensor se registran

tensor_float_32.shape, tensor_float_32.dtype, tensor_float_32.device

(torch.Size([3]), torch.float32, device(type='cpu'))

Aparte de problemas de forma (las formas de tensor no coinciden), dos de los otros problemas más comunes que encontrarás en PyTorch son problemas de tipo de dato y dispositivo.

Por ejemplo, uno de los tensores es `torch.float32` y el otro es `torch.float16` (PyTorch a menudo le gusta que los tensores estén en el mismo formato).

O uno de tus tensores está en la CPU y el otro está en la GPU (a PyTorch le gusta que los cálculos entre tensores estén en el mismo dispositivo).

Veremos más de esta charla de dispositivos más adelante.

Por ahora creemos un tensor con `dtype=torch.float16`.

In [27]:
tensor_float_16 = torch.tensor([3.0, 6.0, 9.0],
                               dtype=torch.float16) # torch.half también funcionaría

tensor_float_16.dtype

torch.float16

## Obteniendo información de tensores

Una vez que hayas creado tensores (o alguien más o un módulo de PyTorch los haya creado para ti), podrías querer obtener información de ellos.

Hemos visto estos antes pero tres de los atributos más comunes que querrás averiguar sobre tensores son:
* `shape` - ¿qué forma tiene el tensor? (algunas operaciones requieren reglas de forma específicas)
* `dtype` - ¿en qué tipo de dato están almacenados los elementos dentro del tensor?
* `device` - ¿en qué dispositivo está almacenado el tensor? (usualmente GPU o CPU)

Creemos un tensor aleatorio y averigüemos detalles sobre él.

In [28]:
# Crear un tensor
algun_tensor = torch.rand(3, 4)

# Averiguar detalles sobre él
print(algun_tensor)
print(f"Forma del tensor: {algun_tensor.shape}")
print(f"Tipo de dato del tensor: {algun_tensor.dtype}")
print(f"Dispositivo en el que está almacenado el tensor: {algun_tensor.device}") # predeterminado será CPU

tensor([[0.3699, 0.8327, 0.5855, 0.6994],
        [0.9078, 0.8637, 0.0423, 0.0190],
        [0.5496, 0.1149, 0.1026, 0.3939]])
Forma del tensor: torch.Size([3, 4])
Tipo de dato del tensor: torch.float32
Dispositivo en el que está almacenado el tensor: cpu


> **Nota:** Cuando te encuentres con problemas en PyTorch, muy a menudo es uno que tiene que ver con uno de los tres atributos de arriba. Así que cuando aparezcan los mensajes de error, cántate una pequeña canción llamada "qué, qué, dónde":
  * "*¿qué forma tienen mis tensores? ¿qué tipo de dato son y dónde están almacenados? qué forma, qué tipo de dato, dónde dónde dónde*"

## Manipulando tensores (operaciones de tensor)

En aprendizaje profundo, los datos (imágenes, texto, video, audio, estructuras de proteínas, etc) se representan como tensores.

Un modelo aprende investigando esos tensores y realizando una serie de operaciones (podrían ser 1,000,000s+) en tensores para crear una representación de los patrones en los datos de entrada.

Estas operaciones son a menudo una danza maravillosa entre:
* Suma
* Resta
* Multiplicación (elemento por elemento)
* División
* Multiplicación de matrices

Y eso es todo. Seguro que hay unas pocas más aquí y allá pero estos son los bloques de construcción básicos de las redes neuronales.

Apilando estos bloques de construcción de la manera correcta, puedes crear las redes neuronales más sofisticadas (¡igual que lego!).

### Operaciones básicas

Comencemos con algunas de las operaciones fundamentales, suma (`+`), resta (`-`), multiplicación (`*`).

Funcionan justo como piensas que funcionarían.

In [38]:
# Crear un tensor de valores y agregar un número a él
tensor = torch.tensor([1, 2, 3])
tensor + 10

tensor([11, 12, 13])

In [39]:
# Multiplicar por 10
tensor * 10

tensor([10, 20, 30])

Nota cómo los valores del tensor arriba no terminaron siendo `tensor([110, 120, 130])`, esto es porque los valores dentro del tensor no cambian a menos que sean reasignados.

In [40]:
# Los tensores no cambian a menos que sean reasignados
tensor

tensor([1, 2, 3])

Restemos un número y esta vez reasignaremos la variable `tensor`.

In [41]:
# Restar y reasignar
tensor = tensor - 10
tensor

tensor([-9, -8, -7])

In [42]:
# Sumar y reasignar
tensor = tensor + 10
tensor

tensor([1, 2, 3])

PyTorch también tiene un montón de funciones incorporadas como [`torch.mul()`](https://pytorch.org/docs/stable/generated/torch.mul.html#torch.mul) (abreviatura de multiplicación) y [`torch.add()`](https://pytorch.org/docs/stable/generated/torch.add.html) para realizar operaciones básicas.

In [43]:
# También se pueden usar funciones de torch
torch.multiply(tensor, 10)

tensor([10, 20, 30])

In [44]:
# El tensor original sigue sin cambiar
tensor

tensor([1, 2, 3])

Sin embargo, es más común usar los símbolos de operador como `*` en lugar de `torch.mul()`

In [45]:
# Multiplicación elemento por elemento (cada elemento multiplica su equivalente, índice 0->0, 1->1, 2->2)
print(tensor, "*", tensor)
print("Igual a:", tensor * tensor)

tensor([1, 2, 3]) * tensor([1, 2, 3])
Igual a: tensor([1, 4, 9])


### Multiplicación de matrices (es todo lo que necesitas)

Una de las operaciones más comunes en algoritmos de aprendizaje automático y aprendizaje profundo (como redes neuronales) es [multiplicación de matrices](https://www.mathsisfun.com/algebra/matrix-multiplying.html).

PyTorch implementa funcionalidad de multiplicación de matrices en el método [`torch.matmul()`](https://pytorch.org/docs/stable/generated/torch.matmul.html).

Las dos reglas principales para multiplicación de matrices que recordar son:

1. Las **dimensiones internas** deben coincidir:
  * `(3, 2) @ (3, 2)` no funcionará
  * `(2, 3) @ (3, 2)` funcionará
  * `(3, 2) @ (2, 3)` funcionará
2. La matriz resultante tiene la forma de las **dimensiones externas**:
 * `(2, 3) @ (3, 2)` -> `(2, 2)`
 * `(3, 2) @ (2, 3)` -> `(3, 3)`

> **Nota:** "`@`" en Python es el símbolo para multiplicación de matrices.

> **Recurso:** Puedes ver todas las reglas para multiplicación de matrices usando `torch.matmul()` [en la documentación de PyTorch](https://pytorch.org/docs/stable/generated/torch.matmul.html).

Creemos un tensor y realicemos multiplicación elemento por elemento y multiplicación de matrices en él.

In [46]:
import torch
tensor = torch.tensor([1, 2, 3])
tensor.shape

torch.Size([3])

La diferencia entre multiplicación elemento por elemento y multiplicación de matrices es la suma de valores.

Para nuestra variable `tensor` con valores `[1, 2, 3]`:

| Operación | Cálculo | Código |
| ----- | ----- | ----- |
| **Multiplicación elemento por elemento** | `[1*1, 2*2, 3*3]` = `[1, 4, 9]` | `tensor * tensor` |
| **Multiplicación de matrices** | `[1*1 + 2*2 + 3*3]` = `[14]` | `tensor.matmul(tensor)` |

In [47]:
# Multiplicación de matrices elemento por elemento
tensor * tensor

tensor([1, 4, 9])

In [48]:
# Multiplicación de matrices
torch.matmul(tensor, tensor)

tensor(14)

In [49]:
# También se puede usar el símbolo "@" para multiplicación de matrices, aunque no se recomienda
tensor @ tensor

tensor(14)

Puedes hacer multiplicación de matrices a mano pero no se recomienda.

El método incorporado `torch.matmul()` es más rápido.

In [50]:
%%time
# Multiplicación de matrices a mano
# (evita hacer operaciones con bucles for a toda costa, son computacionalmente costosos)
valor = 0
for i in range(len(tensor)):
  valor += tensor[i] * tensor[i]
valor

CPU times: user 1.13 ms, sys: 208 μs, total: 1.34 ms
Wall time: 1.84 ms


tensor(14)

In [51]:
%%time
torch.matmul(tensor, tensor)

CPU times: user 0 ns, sys: 495 μs, total: 495 μs
Wall time: 430 μs


tensor(14)

## Uno de los errores más comunes en aprendizaje profundo (errores de forma)

Porque mucho del aprendizaje profundo es multiplicar y realizar operaciones en matrices y las matrices tienen una regla estricta sobre qué formas y tamaños se pueden combinar, uno de los errores más comunes que encontrarás en aprendizaje profundo es desajustes de forma.

In [56]:
# Las formas necesitan estar de la manera correcta
tensor_A = torch.tensor([[1, 2],
                         [3, 4],
                         [5, 6]], dtype=torch.float32)

tensor_B = torch.tensor([[7, 10],
                         [8, 11], 
                         [9, 12]], dtype=torch.float32)

torch.matmul(tensor_A, tensor_B) # (esto dará error)

RuntimeError: mat1 and mat2 shapes cannot be multiplied (3x2 and 3x2)

Podemos hacer que la multiplicación de matrices funcione entre `tensor_A` y `tensor_B` haciendo que sus dimensiones internas coincidan.

Una de las maneras de hacer esto es con una **transposición** (intercambiar las dimensiones de un tensor dado).

Puedes realizar transposiciones en PyTorch usando:
* `torch.transpose(input, dim0, dim1)` - donde `input` es el tensor deseado para transponer y `dim0` y `dim1` son las dimensiones a intercambiar.
* `tensor.T` - donde `tensor` es el tensor deseado para transponer.

Probemos lo último.

In [53]:
# Ver tensor_A y tensor_B
print(tensor_A)
print(tensor_B)

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])
tensor([[ 7., 10.],
        [ 8., 11.],
        [ 9., 12.]])


In [62]:
tensor_A.shape

torch.Size([3, 2])

In [63]:
tensor_B.shape

torch.Size([3, 2])

In [64]:
tensor_B.T.shape

torch.Size([2, 3])

In [54]:
# Ver tensor_A y tensor_B.T
print(tensor_A)
print(tensor_B.T)

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])
tensor([[ 7.,  8.,  9.],
        [10., 11., 12.]])


In [65]:
# La operación funciona cuando tensor_B está transpuesto
print(f"Formas originales: tensor_A = {tensor_A.shape}, tensor_B = {tensor_B.shape}\n")
print(f"Nuevas formas: tensor_A = {tensor_A.shape} (igual que arriba), tensor_B.T = {tensor_B.T.shape}\n")
print(f"Multiplicando: {tensor_A.shape} * {tensor_B.T.shape} <- las dimensiones internas coinciden\n")
print("Salida:\n")
salida = torch.matmul(tensor_A, tensor_B.T)
print(salida) 
print(f"\nForma de la salida: {salida.shape}")

Formas originales: tensor_A = torch.Size([3, 2]), tensor_B = torch.Size([3, 2])

Nuevas formas: tensor_A = torch.Size([3, 2]) (igual que arriba), tensor_B.T = torch.Size([2, 3])

Multiplicando: torch.Size([3, 2]) * torch.Size([2, 3]) <- las dimensiones internas coinciden

Salida:

tensor([[ 27.,  30.,  33.],
        [ 61.,  68.,  75.],
        [ 95., 106., 117.]])

Forma de la salida: torch.Size([3, 3])


También puedes usar [`torch.mm()`](https://pytorch.org/docs/stable/generated/torch.mm.html) que es una abreviatura de `torch.matmul()`.

In [66]:
# torch.mm es un atajo para matmul
torch.mm(tensor_A, tensor_B.T)

tensor([[ 27.,  30.,  33.],
        [ 61.,  68.,  75.],
        [ 95., 106., 117.]])

Sin la transposición, las reglas de multiplicación de matrices no se cumplen y obtenemos un error como el de arriba.

¿Qué tal un visual?

![demostración visual de multiplicación de matrices](https://github.com/mrdbourke/pytorch-deep-learning/raw/main/images/00-matrix-multiply-crop.gif)

Puedes crear tus propios visuales de multiplicación de matrices como este en http://matrixmultiplication.xyz/.

> **Nota:** Una multiplicación de matrices como esta también se refiere como el [**producto punto**](https://www.mathsisfun.com/algebra/vectors-dot-product.html) de dos matrices.

Las redes neuronales están llenas de multiplicaciones de matrices y productos punto.

El módulo [`torch.nn.Linear()`](https://pytorch.org/docs/1.9.1/generated/torch.nn.Linear.html) (lo veremos en acción más adelante), también conocido como capa feed-forward o capa completamente conectada, implementa una multiplicación de matrices entre una entrada `x` y una matriz de pesos `A`.

$$
y = x\cdot{A^T} + b
$$

Donde:
* `x` es la entrada a la capa (el aprendizaje profundo es una pila de capas como `torch.nn.Linear()` y otras una encima de la otra).
* `A` es la matriz de pesos creada por la capa, esto comienza como números aleatorios que se ajustan a medida que una red neuronal aprende a representar mejor los patrones en los datos (nota la "`T`", eso es porque la matriz de pesos se transpone).
  * **Nota:** También podrías ver a menudo `W` u otra letra como `X` usada para mostrar la matriz de pesos.
* `b` es el término de sesgo usado para desplazar ligeramente los pesos y entradas.
* `y` es la salida (una manipulación de la entrada con la esperanza de descubrir patrones en ella).

Esta es una función lineal (podrías haber visto algo como $y = mx+b$ en la preparatoria o en otro lugar), y se puede usar para dibujar una línea recta!

Juguemos con una capa lineal.

Trata de cambiar los valores de `in_features` y `out_features` abajo y ve qué pasa.

¿Notas algo que tenga que ver con las formas?

In [67]:
# Como la capa lineal comienza con una matriz de pesos aleatoria, hagámosla reproducible (más sobre esto después)
torch.manual_seed(42)
# Esto usa multiplicación de matrices
lineal = torch.nn.Linear(in_features=2, # in_features = coincide con la dimensión interna de la entrada
                         out_features=6) # out_features = describe el valor externo
x = tensor_A
salida = lineal(x)
print(f"Forma de entrada: {x.shape}\n")
print(f"Salida:\n{salida}\n\nForma de salida: {salida.shape}")

Forma de entrada: torch.Size([3, 2])

Salida:
tensor([[2.2368, 1.2292, 0.4714, 0.3864, 0.1309, 0.9838],
        [4.4919, 2.1970, 0.4469, 0.5285, 0.3401, 2.4777],
        [6.7469, 3.1648, 0.4224, 0.6705, 0.5493, 3.9716]],
       grad_fn=<AddmmBackward0>)

Forma de salida: torch.Size([3, 6])


> **Pregunta:** ¿Qué pasa si cambias `in_features` de 2 a 3 arriba? ¿Da error? ¿Cómo podrías cambiar la forma de la entrada (`x`) para acomodarse al error? Pista: ¿qué tuvimos que hacer a `tensor_B` arriba?

Si nunca lo has hecho antes, la multiplicación de matrices puede ser un tema confuso al principio.

Pero después de que hayas jugado con ella unas cuantas veces e incluso abierto algunas redes neuronales, notarás que está en todas partes.

Recuerda, la multiplicación de matrices es todo lo que necesitas.

![la multiplicación de matrices es todo lo que necesitas](https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/00_matrix_multiplication_is_all_you_need.jpeg)

*Cuando empieces a profundizar en las capas de redes neuronales y construir las tuyas propias, encontrarás multiplicaciones de matrices en todas partes. **Fuente:** https://marksaroufim.substack.com/p/working-class-deep-learner*

### Encontrando el min, max, media, suma, etc (agregación)

Ahora que hemos visto algunas maneras de manipular tensores, repasemos algunas maneras de agregarlos (ir de más valores a menos valores).

Primero crearemos un tensor y luego encontraremos el máximo, mínimo, media y suma de él.

In [None]:
# Crear un tensor
x = torch.arange(0, 100, 10)
x

Ahora realicemos algo de agregación.

In [None]:
print(f"Mínimo: {x.min()}")
print(f"Máximo: {x.max()}")
# print(f"Media: {x.mean()}") # esto dará error
print(f"Media: {x.type(torch.float32).mean()}") # no funcionará sin tipo de dato float
print(f"Suma: {x.sum()}")

> **Nota:** Podrías encontrar que algunos métodos como `torch.mean()` requieren que los tensores estén en `torch.float32` (el más común) u otro tipo de dato específico, de otra manera la operación fallará.

También puedes hacer lo mismo que arriba con métodos `torch`.

In [None]:
torch.max(x), torch.min(x), torch.mean(x.type(torch.float32)), torch.sum(x)

### Min/max posicional

También puedes encontrar el índice de un tensor donde ocurre el máximo o mínimo con [`torch.argmax()`](https://pytorch.org/docs/stable/generated/torch.argmax.html) y [`torch.argmin()`](https://pytorch.org/docs/stable/generated/torch.argmin.html) respectivamente.

Esto es útil en caso de que solo quieras la posición donde está el valor más alto (o más bajo) y no el valor real en sí (veremos esto en una sección posterior cuando usemos la [función de activación softmax](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html)).

In [None]:
# Crear un tensor
tensor = torch.arange(10, 100, 10)
print(f"Tensor: {tensor}")

# Devuelve índice de valores max y min
print(f"Índice donde ocurre el valor máximo: {tensor.argmax()}")
print(f"Índice donde ocurre el valor mínimo: {tensor.argmin()}")

### Cambiar tipo de dato de tensor

Como se mencionó, un problema común con operaciones de aprendizaje profundo es tener tus tensores en diferentes tipos de datos.

Si un tensor está en `torch.float64` y otro está en `torch.float32`, podrías tener algunos errores.

Pero hay una solución.

Puedes cambiar los tipos de datos de tensores usando [`torch.Tensor.type(dtype=None)`](https://pytorch.org/docs/stable/generated/torch.Tensor.type.html) donde el parámetro `dtype` es el tipo de dato que te gustaría usar.

Primero crearemos un tensor y verificaremos su tipo de dato (el predeterminado es `torch.float32`).

In [None]:
# Crear un tensor y verificar su tipo de dato
tensor = torch.arange(10., 100., 10.)
tensor.dtype

Ahora crearemos otro tensor igual que antes pero cambiaremos su tipo de dato a `torch.float16`.

In [None]:
# Crear un tensor float16
tensor_float16 = tensor.type(torch.float16)
tensor_float16

Y podemos hacer algo similar para hacer un tensor `torch.int8`.

In [None]:
# Crear un tensor int8
tensor_int8 = tensor.type(torch.int8)
tensor_int8

> **Nota:** Los diferentes tipos de datos pueden ser confusos al principio. Pero piénsalo así, entre menor el número (ej. 32, 16, 8), menos precisa una computadora almacena el valor. Y con una menor cantidad de almacenamiento, esto generalmente resulta en computación más rápida y un modelo general más pequeño. Las redes neuronales basadas en móviles a menudo operan con enteros de 8-bit, más pequeños y rápidos de ejecutar pero menos precisos que sus contrapartes float32. Para más sobre esto, leería sobre [precisión en computación](https://en.wikipedia.org/wiki/Precision_(computer_science)).

> **Ejercicio:** Hasta ahora hemos cubierto bastantes métodos de tensor pero hay muchos más en la [documentación de `torch.Tensor`](https://pytorch.org/docs/stable/tensors.html), recomendaría pasar 10 minutos navegando y viendo cualquiera que te llame la atención. Haz clic en ellos y luego escríbelos en código tú mismo para ver qué pasa.

### Redimensionando, apilando, exprimiendo y desexprimiendo

A menudo querrás redimensionar o cambiar las dimensiones de tus tensores sin realmente cambiar los valores dentro de ellos.

Para hacerlo, algunos métodos populares son:

| Método | Descripción de una línea |
| ----- | ----- |
| [`torch.reshape(input, shape)`](https://pytorch.org/docs/stable/generated/torch.reshape.html#torch.reshape) | Redimensiona `input` a `shape` (si es compatible), también se puede usar `torch.Tensor.reshape()`. |
| [`Tensor.view(shape)`](https://pytorch.org/docs/stable/generated/torch.Tensor.view.html) | Devuelve una vista del tensor original en una `shape` diferente pero comparte los mismos datos que el tensor original. |
| [`torch.stack(tensors, dim=0)`](https://pytorch.org/docs/1.9.1/generated/torch.stack.html) | Concatena una secuencia de `tensors` a lo largo de una nueva dimensión (`dim`), todos los `tensors` deben ser del mismo tamaño. |
| [`torch.squeeze(input)`](https://pytorch.org/docs/stable/generated/torch.squeeze.html) | Exprime `input` para remover todas las dimensiones con valor `1`. |
| [`torch.unsqueeze(input, dim)`](https://pytorch.org/docs/1.9.1/generated/torch.unsqueeze.html) | Devuelve `input` con una dimensión de valor `1` agregada en `dim`. |
| [`torch.permute(input, dims)`](https://pytorch.org/docs/stable/generated/torch.permute.html) | Devuelve una *vista* del `input` original con sus dimensiones permutadas (reorganizadas) a `dims`. |

¿Por qué hacer cualquiera de estos?

Porque los modelos de aprendizaje profundo (redes neuronales) son todos sobre manipular tensores de alguna manera. Y por las reglas de multiplicación de matrices, si tienes desajustes de forma, tendrás errores. Estos métodos te ayudan a asegurarte de que los elementos correctos de tus tensores se estén mezclando con los elementos correctos de otros tensores.

Probémoslos.

Primero, crearemos un tensor.

In [None]:
# Crear un tensor
import torch
x = torch.arange(1., 8.)
x, x.shape

Ahora agreguemos una dimensión extra con `torch.reshape()`.

In [None]:
# Agregar una dimensión extra
x_redimensionado = x.reshape(1, 7)
x_redimensionado, x_redimensionado.shape

También podemos cambiar la vista con `torch.view()`.

In [None]:
# Cambiar vista (mantiene los mismos datos que el original pero cambia la vista)
# Ver más: https://stackoverflow.com/a/54507446/7900723
z = x.view(1, 7)
z, z.shape

Recuerda sin embargo, cambiar la vista de un tensor con `torch.view()` realmente solo crea una nueva vista del *mismo* tensor.

Así que cambiar la vista cambia el tensor original también.

In [None]:
# Cambiar z cambia x
z[:, 0] = 5
z, x

Si quisiéramos apilar nuestro nuevo tensor encima de sí mismo cinco veces, podríamos hacerlo con `torch.stack()`.

In [None]:
# Apilar tensores uno encima del otro
x_apilado = torch.stack([x, x, x, x], dim=0) # prueba cambiar dim a dim=1 y ve qué pasa
x_apilado

¿Qué tal remover todas las dimensiones únicas de un tensor?

Para hacerlo puedes usar `torch.squeeze()` (recuerdo esto como *exprimir* el tensor para solo tener dimensiones mayores a 1).

In [None]:
print(f"Tensor previo: {x_redimensionado}")
print(f"Forma previa: {x_redimensionado.shape}")

# Remover dimensión extra de x_redimensionado
x_exprimido = x_redimensionado.squeeze()
print(f"\nNuevo tensor: {x_exprimido}")
print(f"Nueva forma: {x_exprimido.shape}")

Y para hacer lo contrario de `torch.squeeze()` puedes usar `torch.unsqueeze()` para agregar una dimensión de valor 1 en un índice específico.

In [None]:
print(f"Tensor previo: {x_exprimido}")
print(f"Forma previa: {x_exprimido.shape}")

## Agregar una dimensión extra con unsqueeze
x_desexprimido = x_exprimido.unsqueeze(dim=0)
print(f"\nNuevo tensor: {x_desexprimido}")
print(f"Nueva forma: {x_desexprimido.shape}")

También puedes reorganizar el orden de los valores de ejes con `torch.permute(input, dims)`, donde el `input` se convierte en una *vista* con nuevos `dims`.

In [None]:
# Crear tensor con forma específica
x_original = torch.rand(size=(224, 224, 3))

# Permutar el tensor original para reorganizar el orden de los ejes
x_permutado = x_original.permute(2, 0, 1) # cambia eje 0->1, 1->2, 2->0

print(f"Forma previa: {x_original.shape}")
print(f"Nueva forma: {x_permutado.shape}")

> **Nota**: Porque permutar devuelve una *vista* (comparte los mismos datos que el original), los valores en el tensor permutado serán los mismos que el tensor original y si cambias los valores en la vista, cambiará los valores del original.

## Indexación (seleccionando datos de tensores)

A veces querrás seleccionar datos específicos de tensores (por ejemplo, solo la primera columna o segunda fila).

Para hacerlo, puedes usar indexación.

Si alguna vez has hecho indexación en listas de Python o arrays de NumPy, la indexación en PyTorch con tensores es muy similar.

In [None]:
# Crear un tensor
import torch
x = torch.arange(1, 10).reshape(1, 3, 3)
x, x.shape

Indexar valores va dimensión exterior -> dimensión interior (revisa los corchetes).

In [None]:
# Indexemos corchete por corchete
print(f"Primer corchete:\n{x[0]}") 
print(f"Segundo corchete: {x[0][0]}") 
print(f"Tercer corchete: {x[0][0][0]}")

También puedes usar `:` para especificar "todos los valores en esta dimensión" y luego usar una coma (`,`) para agregar otra dimensión.

In [None]:
# Obtener todos los valores de la dimensión 0 y el índice 0 de la dimensión 1
x[:, 0]

In [None]:
# Obtener todos los valores de las dimensiones 0 y 1 pero solo el índice 1 de la dimensión 2
x[:, :, 1]

In [None]:
# Obtener todos los valores de la dimensión 0 pero solo el valor del índice 1 de las dimensiones 1 y 2
x[:, 1, 1]

In [None]:
# Obtener índice 0 de las dimensiones 0 y 1 y todos los valores de la dimensión 2
x[0, 0, :] # igual que x[0][0]

La indexación puede ser bastante confusa al principio, especialmente con tensores más grandes (todavía tengo que probar indexación múltiples veces para hacerlo bien). Pero con un poco de práctica y siguiendo el lema del explorador de datos (***visualizar, visualizar, visualizar***), empezarás a entenderlo.

## Tensores de PyTorch y NumPy

Dado que NumPy es una librería popular de computación numérica de Python, PyTorch tiene funcionalidad para interactuar con ella de manera agradable.

Los dos métodos principales que querrás usar para NumPy a PyTorch (y de vuelta otra vez) son:
* [`torch.from_numpy(ndarray)`](https://pytorch.org/docs/stable/generated/torch.from_numpy.html) - array de NumPy -> tensor de PyTorch.
* [`torch.Tensor.numpy()`](https://pytorch.org/docs/stable/generated/torch.Tensor.numpy.html) - tensor de PyTorch -> array de NumPy.

Probémoslos.

In [None]:
# Array de NumPy a tensor
import torch
import numpy as np
array = np.arange(1.0, 8.0)
tensor = torch.from_numpy(array)
array, tensor

> **Nota:** Por defecto, los arrays de NumPy se crean con el tipo de dato `float64` y si lo conviertes a un tensor de PyTorch, mantendrá el mismo tipo de dato (como arriba).
>
> Sin embargo, muchos cálculos de PyTorch por defecto usan `float32`.
>
> Así que si quieres convertir tu array de NumPy (float64) -> tensor de PyTorch (float64) -> tensor de PyTorch (float32), puedes usar `tensor = torch.from_numpy(array).type(torch.float32)`.

Porque reasignamos `tensor` arriba, si cambias el tensor, el array se mantiene igual.

In [None]:
# Cambiar el array, mantener el tensor
array = array + 1
array, tensor

Y si quieres ir de tensor de PyTorch a array de NumPy, puedes llamar `tensor.numpy()`.

In [None]:
# Tensor a array de NumPy
tensor = torch.ones(7) # crear un tensor de unos con dtype=float32
numpy_tensor = tensor.numpy() # será dtype=float32 a menos que se cambie
tensor, numpy_tensor

Y la misma regla se aplica que arriba, si cambias el `tensor` original, el nuevo `numpy_tensor` se mantiene igual.

In [None]:
# Cambiar el tensor, mantener el array igual
tensor = tensor + 1
tensor, numpy_tensor

## Reproducibilidad (tratando de sacar lo aleatorio de lo aleatorio)

A medida que aprendes más sobre redes neuronales y aprendizaje automático, empezarás a descubrir cuánto juega un papel la aleatoriedad.

Bueno, pseudoaleatoriedad eso es. Porque después de todo, como están diseñadas, una computadora es fundamentalmente determinista (cada paso es predecible) así que la aleatoriedad que crean son aleatoriedad simulada (aunque también hay debate sobre esto, pero como no soy científico en computación, te dejaré averiguar más por ti mismo).

¿Cómo se relaciona esto con redes neuronales y aprendizaje profundo entonces?

Hemos discutido que las redes neuronales comienzan con números aleatorios para describir patrones en datos (estos números son descripciones pobres) e intentan mejorar esos números aleatorios usando operaciones de tensor (y algunas otras cosas que no hemos discutido aún) para describir mejor los patrones en datos.

En resumen:

``comenzar con números aleatorios -> operaciones de tensor -> tratar de hacer mejor (una y otra y otra vez)``

Aunque la aleatoriedad es buena y poderosa, a veces te gustaría que hubiera un poco menos aleatoriedad.

¿Por qué?

Para que puedas realizar experimentos repetibles.

Por ejemplo, creas un algoritmo capaz de lograr rendimiento X.

Y luego tu amigo lo prueba para verificar que no estás loco.

¿Cómo podría hacer tal cosa?

Ahí es donde entra la **reproducibilidad**.

En otras palabras, ¿puedes obtener los mismos (o muy similares) resultados en tu computadora ejecutando el mismo código que yo obtengo en la mía?

Veamos un ejemplo breve de reproducibilidad en PyTorch.

Comenzaremos creando dos tensores aleatorios, dado que son aleatorios, esperarías que fueran diferentes ¿verdad?

In [None]:
import torch

# Crear dos tensores aleatorios
tensor_aleatorio_A = torch.rand(3, 4)
tensor_aleatorio_B = torch.rand(3, 4)

print(f"Tensor A:\n{tensor_aleatorio_A}\n")
print(f"Tensor B:\n{tensor_aleatorio_B}\n")
print(f"¿Tensor A es igual a Tensor B? (en cualquier lugar)")
tensor_aleatorio_A == tensor_aleatorio_B

Justo como podrías haber esperado, los tensores salen con valores diferentes.

Pero ¿qué tal si quisieras crear dos tensores aleatorios con los *mismos* valores?

Como en, los tensores todavía contendrían valores aleatorios pero serían del mismo sabor.

Ahí es donde entra [`torch.manual_seed(seed)`](https://pytorch.org/docs/stable/generated/torch.manual_seed.html), donde `seed` es un entero (como `42` pero podría ser cualquier cosa) que saboriza la aleatoriedad.

Probémoslo creando algunos tensores aleatorios más *saborizados*.

In [None]:
import torch
import random

# # Establecer la semilla aleatoria
SEMILLA_ALEATORIA=42 # prueba cambiar esto a diferentes valores y ve qué pasa a los números abajo
torch.manual_seed(seed=SEMILLA_ALEATORIA) 
tensor_aleatorio_C = torch.rand(3, 4)

# Hay que resetear la semilla cada vez que se llama un nuevo rand()
# Sin esto, tensor_D sería diferente a tensor_C
torch.random.manual_seed(seed=SEMILLA_ALEATORIA) # prueba comentar esta línea y ver qué pasa
tensor_aleatorio_D = torch.rand(3, 4)

print(f"Tensor C:\n{tensor_aleatorio_C}\n")
print(f"Tensor D:\n{tensor_aleatorio_D}\n")
print(f"¿Tensor C es igual a Tensor D? (en cualquier lugar)")
tensor_aleatorio_C == tensor_aleatorio_D

¡Genial!

Parece que establecer la semilla funcionó.

> **Recurso:** Lo que acabamos de cubrir solo rasca la superficie de reproducibilidad en PyTorch. Para más, sobre reproducibilidad en general y semillas aleatorias, revisaría:
> * [La documentación de reproducibilidad de PyTorch](https://pytorch.org/docs/stable/notes/randomness.html) (un buen ejercicio sería leer esto por 10 minutos e incluso si no lo entiendes ahora, estar consciente de ello es importante).
> * [La página de Wikipedia de semilla aleatoria](https://en.wikipedia.org/wiki/Random_seed) (esto dará un buen resumen de semillas aleatorias y pseudoaleatoriedad en general).

## Ejecutando tensores en GPUs (y haciendo cálculos más rápidos)

Los algoritmos de aprendizaje profundo requieren muchas operaciones numéricas.

Y por defecto estas operaciones se hacen a menudo en una CPU (unidad de procesamiento de computadora).

Sin embargo, hay otra pieza común de hardware llamada GPU (unidad de procesamiento gráfico), que es a menudo mucho más rápida realizando los tipos específicos de operaciones que las redes neuronales necesitan (multiplicaciones de matrices) que las CPUs.

Tu computadora podría tener una.

Si es así, deberías buscar usarla cuando puedas para entrenar redes neuronales porque las probabilidades son que acelere el tiempo de entrenamiento dramáticamente.

Hay algunas maneras de primero obtener acceso a una GPU y segundo hacer que PyTorch use la GPU.

> **Nota:** Cuando referencio "GPU" a través de este curso, estoy referenciando una [GPU Nvidia con CUDA habilitado](https://developer.nvidia.com/cuda-gpus) (CUDA es una plataforma de computación y API que ayuda a permitir que las GPUs se usen para computación de propósito general y no solo gráficos) a menos que se especifique de otra manera.

### 1. Obteniendo una GPU

Ya podrías saber qué está pasando cuando digo GPU. Pero si no, hay algunas maneras de obtener acceso a una.

| **Método** | **Dificultad para configurar** | **Pros** | **Contras** | **Cómo configurar** |
| ----- | ----- | ----- | ----- | ----- |
| Google Colab | Fácil | Gratis de usar, casi configuración cero requerida, puede compartir trabajo con otros tan fácil como un enlace | No guarda las salidas de tus datos, cómputo limitado, sujeto a timeouts | [Sigue la Guía de Google Colab](https://colab.research.google.com/notebooks/gpu.ipynb) |
| Usar la tuya | Medio | Ejecutar todo localmente en tu propia máquina | Las GPUs no son gratis, requieren costo inicial | Sigue las [pautas de instalación de PyTorch](https://pytorch.org/get-started/locally/) |
| Computación en la nube (AWS, GCP, Azure) | Medio-Difícil | Pequeño costo inicial, acceso a casi cómputo infinito | Puede volverse caro si se ejecuta continuamente, toma algo de tiempo configurar correctamente | Sigue las [pautas de instalación de PyTorch](https://pytorch.org/get-started/cloud-partners/) |

Hay más opciones para usar GPUs pero las tres de arriba serán suficientes por ahora.

Personalmente, uso una combinación de Google Colab y mi computadora personal para experimentos de pequeña escala (y crear este curso) y voy a recursos en la nube cuando necesito más poder de cómputo.

> **Recurso:** Si estás buscando comprar una GPU propia pero no estás seguro de qué obtener, [Tim Dettmers tiene una excelente guía](https://timdettmers.com/2020/09/07/which-gpu-for-deep-learning/).

Para verificar si tienes acceso a una GPU Nvidia, puedes ejecutar `!nvidia-smi` donde el `!` (también llamado bang) significa "ejecutar esto en la línea de comando".

In [None]:
!nvidia-smi

Si no tienes una GPU Nvidia accesible, lo de arriba dará como salida algo como:

```
NVIDIA-SMI ha fallado porque no pudo comunicarse con el controlador NVIDIA. Asegúrate de que el controlador NVIDIA más reciente esté instalado y ejecutándose.
```

En ese caso, regresa arriba y sigue los pasos de instalación.

Si tienes una GPU, la línea de arriba dará como salida algo como:

```
Wed Jan 19 22:09:08 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.46       Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   35C    P0    27W / 250W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------|
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
```

### 2. Hacer que PyTorch se ejecute en la GPU

Una vez que tengas una GPU lista para acceder, el siguiente paso es hacer que PyTorch la use para almacenar datos (tensores) y computar en datos (realizar operaciones en tensores).

Para hacerlo, puedes usar el paquete [`torch.cuda`](https://pytorch.org/docs/stable/cuda.html).

En lugar de hablar sobre ello, probémoslo.

Puedes probar si PyTorch tiene acceso a una GPU usando [`torch.cuda.is_available()`](https://pytorch.org/docs/stable/generated/torch.cuda.is_available.html#torch.cuda.is_available).

In [None]:
# Verificar por GPU
import torch
torch.cuda.is_available()

Si lo de arriba da como salida `True`, PyTorch puede ver y usar la GPU, si da como salida `False`, no puede ver la GPU y en ese caso, tendrás que regresar por los pasos de instalación.

Ahora, digamos que quisieras configurar tu código para que se ejecute en CPU *o* la GPU si estuviera disponible.

De esa manera, si tú o alguien decide ejecutar tu código, funcionará independientemente del dispositivo de cómputo que estén usando.

Creemos una variable `device` para almacenar qué tipo de dispositivo está disponible.

In [None]:
# Establecer tipo de dispositivo
device = "cuda" if torch.cuda.is_available() else "cpu"
device

Si lo de arriba da como salida `"cuda"` significa que podemos establecer todo nuestro código de PyTorch para usar el dispositivo CUDA disponible (una GPU) y si da como salida `"cpu"`, nuestro código de PyTorch se quedará con la CPU.

> **Nota:** En PyTorch, es mejor práctica escribir [**código agnóstico de dispositivo**](https://pytorch.org/docs/master/notes/cuda.html#device-agnostic-code). Esto significa código que se ejecutará en CPU (siempre disponible) o GPU (si está disponible).

Si quieres hacer cómputo más rápido puedes usar una GPU pero si quieres hacer cómputo *mucho* más rápido, puedes usar múltiples GPUs.

Puedes contar el número de GPUs a las que PyTorch tiene acceso usando [`torch.cuda.device_count()`](https://pytorch.org/docs/stable/generated/torch.cuda.device_count.html#torch.cuda.device_count).

In [None]:
# Contar número de dispositivos
torch.cuda.device_count()

Conocer el número de GPUs a las que PyTorch tiene acceso es útil en caso de que quisieras ejecutar un proceso específico en una GPU y otro proceso en otra (PyTorch también tiene características para dejarte ejecutar un proceso a través de *todas* las GPUs).

### 2.1 Hacer que PyTorch se ejecute en Apple Silicon

Para ejecutar PyTorch en las GPUs M1/M2/M3 de Apple puedes usar el módulo [`torch.backends.mps`](https://pytorch.org/docs/stable/notes/mps.html).

Asegúrate de que las versiones de macOS y PyTorch estén actualizadas.

Puedes probar si PyTorch tiene acceso a una GPU usando `torch.backends.mps.is_available()`.

In [None]:
# Verificar por GPU de Apple Silicon
import torch
torch.backends.mps.is_available() # Nota que esto imprimirá false si no estás ejecutando en una Mac

In [None]:
# Establecer tipo de dispositivo
device = "mps" if torch.backends.mps.is_available() else "cpu"
device

Como antes, si lo de arriba da como salida `"mps"` significa que podemos establecer todo nuestro código de PyTorch para usar la GPU Apple Silicon disponible.

In [None]:
if torch.cuda.is_available():
    device = "cuda" # Usar GPU NVIDIA (si está disponible)
elif torch.backends.mps.is_available():
    device = "mps" # Usar GPU Apple Silicon (si está disponible)
else:
    device = "cpu" # Por defecto a CPU si no hay GPU disponible

### 3. Poniendo tensores (y modelos) en la GPU

Puedes poner tensores (y modelos, lo veremos después) en un dispositivo específico llamando [`to(device)`](https://pytorch.org/docs/stable/generated/torch.Tensor.to.html) en ellos. Donde `device` es el dispositivo objetivo al que te gustaría que el tensor (o modelo) vaya.

¿Por qué hacer esto?

Las GPUs ofrecen computación numérica mucho más rápida que las CPUs y si una GPU no está disponible, por nuestro **código agnóstico de dispositivo** (ver arriba), se ejecutará en la CPU.

> **Nota:** Poner un tensor en GPU usando `to(device)` (ej. `algun_tensor.to(device)`) devuelve una copia de ese tensor, ej. el mismo tensor estará en CPU y GPU. Para sobrescribir tensores, reasígnalos:
>
> `algun_tensor = algun_tensor.to(device)`

Probemos crear un tensor y ponerlo en la GPU (si está disponible).

In [None]:
# Crear tensor (por defecto en CPU)
tensor = torch.tensor([1, 2, 3])

# Tensor no en GPU
print(tensor, tensor.device)

# Mover tensor a GPU (si está disponible)
tensor_en_gpu = tensor.to(device)
tensor_en_gpu

Si tienes una GPU disponible, el código de arriba dará como salida algo como:

```
tensor([1, 2, 3]) cpu
tensor([1, 2, 3], device='cuda:0')
```

Nota que el segundo tensor tiene `device='cuda:0'`, esto significa que está almacenado en la GPU 0 disponible (las GPUs están indexadas en 0, si dos GPUs estuvieran disponibles, serían `'cuda:0'` y `'cuda:1'` respectivamente, hasta `'cuda:n'`).

### 4. Moviendo tensores de vuelta a la CPU

¿Qué tal si quisiéramos mover el tensor de vuelta a CPU?

Por ejemplo, querrás hacer esto si quieres interactuar con tus tensores con NumPy (NumPy no aprovecha la GPU).

Probemos usar el método [`torch.Tensor.numpy()`](https://pytorch.org/docs/stable/generated/torch.Tensor.numpy.html) en nuestro `tensor_en_gpu`.

In [None]:
# Si el tensor está en GPU, no se puede transformar a NumPy (esto dará error)
tensor_en_gpu.numpy()

En su lugar, para obtener un tensor de vuelta a CPU y usable con NumPy podemos usar [`Tensor.cpu()`](https://pytorch.org/docs/stable/generated/torch.Tensor.cpu.html).

Esto copia el tensor a memoria de CPU para que sea usable con CPUs.

In [None]:
# En su lugar, copiar el tensor de vuelta a cpu
tensor_de_vuelta_en_cpu = tensor_en_gpu.cpu().numpy()
tensor_de_vuelta_en_cpu

Lo de arriba devuelve una copia del tensor de GPU en memoria de CPU así que el tensor original sigue en GPU.

In [None]:
tensor_en_gpu

## Ejercicios

Todos los ejercicios se enfocan en practicar el código de arriba.

Deberías poder completarlos referenciando cada sección o siguiendo el/los recurso(s) enlazados.

**Recursos:**

* [Notebook plantilla de ejercicios para 00](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/extras/exercises/00_pytorch_fundamentals_exercises.ipynb).
* [Notebook de soluciones ejemplo para 00](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/extras/solutions/00_pytorch_fundamentals_exercise_solutions.ipynb) (prueba los ejercicios *antes* de ver esto).

1. Lectura de documentación - Una gran parte del aprendizaje profundo (y aprender a programar en general) es familiarizarse con la documentación de cierto framework que estés usando. Estaremos usando mucho la documentación de PyTorch a través del resto de este curso. Así que recomendaría pasar 10 minutos leyendo lo siguiente (está bien si no entiendes algunas cosas por ahora, el enfoque no es aún comprensión completa, es consciencia). Ve la documentación en [`torch.Tensor`](https://pytorch.org/docs/stable/tensors.html#torch-tensor) y para [`torch.cuda`](https://pytorch.org/docs/master/notes/cuda.html#cuda-semantics).
2. Crear un tensor aleatorio con forma `(7, 7)`.
3. Realizar una multiplicación de matrices en el tensor del 2 con otro tensor aleatorio con forma `(1, 7)` (pista: podrías tener que transponer el segundo tensor).
4. Establecer la semilla aleatoria a `0` y hacer los ejercicios 2 y 3 otra vez.
5. Hablando de semillas aleatorias, vimos cómo establecerla con `torch.manual_seed()` pero ¿hay un equivalente de GPU? (pista: necesitarás buscar en la documentación para `torch.cuda` para este). Si lo hay, establece la semilla aleatoria de GPU a `1234`.
6. Crear dos tensores aleatorios de forma `(2, 3)` y enviarlos ambos a la GPU (necesitarás acceso a una GPU para esto). Establece `torch.manual_seed(1234)` cuando crees los tensores (esto no tiene que ser la semilla aleatoria de GPU).
7. Realizar una multiplicación de matrices en los tensores que creaste en 6 (otra vez, podrías tener que ajustar las formas de uno de los tensores).
8. Encontrar los valores máximos y mínimos de la salida del 7.
9. Encontrar los valores de índice máximos y mínimos de la salida del 7.
10. Hacer un tensor aleatorio con forma `(1, 1, 1, 10)` y luego crear un nuevo tensor con todas las dimensiones `1` removidas para quedar con un tensor de forma `(10)`. Establece la semilla a `7` cuando lo crees e imprime el primer tensor y su forma así como el segundo tensor y su forma.

## Currículo extra

* Pasar 1 hora pasando por el [tutorial de básicos de PyTorch](https://pytorch.org/tutorials/beginner/basics/intro.html) (recomendaría las secciones [Quickstart](https://pytorch.org/tutorials/beginner/basics/quickstart_tutorial.html) y [Tensors](https://pytorch.org/tutorials/beginner/basics/tensorqs_tutorial.html)).
* Para aprender más sobre cómo un tensor puede representar datos, ve este video: [¿Qué es un tensor?](https://youtu.be/f5liqUk0ZTw)