# Módulo 1. Fundamentos de PyTorch

## ¿Qué es PyTorch?

[PyTorch](https://pytorch.org/) es un framework de aprendizaje automático y profundo de código abierto.

## ¿Para qué se puede usar PyTorch?

PyTorch te permite manipular y procesar datos y escribir algoritmos de aprendizaje automático usando código en Python.

## ¿Quién usa PyTorch?

Muchas de las compañías de tecnología más grandes del mundo, como [Meta (Facebook)](https://ai.facebook.com/blog/pytorch-builds-the-future-of-ai-and-machine-learning-at-facebook/), Tesla y Microsoft, así como empresas de investigación en inteligencia artificial como [OpenAI usan PyTorch](https://openai.com/blog/openai-pytorch/) para impulsar la investigación y llevar el aprendizaje automático a sus productos.

Por ejemplo, Andrej Karpathy (jefe de IA en Tesla) ha dado varias charlas ([PyTorch DevCon 2019](https://youtu.be/oBklltKXtDE), [Tesla AI Day 2021](https://youtu.be/j0z4FweCy4M?t=2904)) sobre cómo Tesla usa PyTorch para potenciar sus modelos de visión computacional para conducción autónoma.

PyTorch también se usa en otras industrias, como en la agricultura, para [potenciar la visión computacional en tractores](https://medium.com/pytorch/ai-for-ag-production-machine-learning-for-agriculture-e8cfdb9849a1).

## ¿Por qué usar PyTorch?

A los investigadores de aprendizaje automático les encanta usar PyTorch. Y a partir de febrero de 2022, PyTorch es el [framework de aprendizaje profundo más usado en Papers With Code](https://paperswithcode.com/trends), un sitio web que sigue artículos de investigación en aprendizaje automático y los repositorios de código asociados.

PyTorch también se encarga de muchas cosas detrás de escena, como la aceleración con GPU (haciendo que tu código se ejecute más rápido).

Esto te permite concentrarte en manipular datos y escribir algoritmos, mientras PyTorch se asegura de que se ejecuten rápido.

Y si compañías como Tesla y Meta (Facebook) lo usan para construir modelos que implementan en cientos de aplicaciones, impulsan miles de autos y entregan contenido a miles de millones de personas, también está claro que es capaz en el frente de desarrollo.

## Qué vamos a cubrir en este módulo

Este curso está dividido en diferentes secciones (notebooks).

Cada notebook cubre ideas y conceptos importantes dentro de PyTorch.

Los notebooks siguientes se basan en el conocimiento del anterior (la numeración empieza en 00, 01, 02 y continúa hasta donde sea necesario).

Este notebook trata sobre el bloque básico del aprendizaje automático y profundo, el tensor.

Específicamente, vamos a cubrir:

| **Tema** | **Contenido** |
| ----- | ----- |
| **Introducción a los tensores** | Los tensores son el bloque básico de todo el aprendizaje automático y profundo. |
| **Creación de tensores** | Los tensores pueden representar casi cualquier tipo de datos (imágenes, palabras, tablas de números). |
| **Obtener información de los tensores** | Si puedes poner información en un tensor, también querrás obtenerla. |
| **Manipulación de tensores** | Los algoritmos de aprendizaje automático (como las redes neuronales) implican manipular tensores de muchas maneras, como sumarlos, multiplicarlos, combinarlos. |
| **Manejo de las formas de los tensores** | Uno de los problemas más comunes en el aprendizaje automático es manejar desajustes de forma (intentar mezclar tensores con formas incorrectas con otros tensores). |
| **Indexación en tensores** | Si has indexado en una lista de Python o un array de NumPy, es muy similar con tensores, salvo que pueden tener muchas más dimensiones. |
| **Mezcla de tensores de PyTorch y NumPy** | PyTorch maneja tensores ([`torch.Tensor`](https://pytorch.org/docs/stable/tensors.html)), NumPy maneja arrays ([`np.ndarray`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html)) a veces querrás combinarlos. |
| **Reproducibilidad** | El aprendizaje automático es muy experimental y como usa mucha *aleatoriedad* para funcionar, a veces querrás que esa *aleatoriedad* no sea tan aleatoria. |
| **Ejecutar tensores en GPU** | Las GPUs (unidades de procesamiento gráfico) hacen que tu código sea más rápido, PyTorch facilita la ejecución de tu código en GPUs. |



## Importar PyTorch

> **Nota:** Echa un ojo primero a los pasos para poner en marcha PyTorch [PyTorch setup steps](https://pytorch.org/get-started/locally/). 

Importamos torch y vemos su version

In [1]:
#importa pytorch y comprueba su versión
import torch

print(torch.__version__)


2.5.1


## Introducción a los tensores

Ahora que hemos importado PyTorch, es momento de aprender sobre los tensores.

Los tensores son el bloque fundamental del aprendizaje automático.

Su función es representar datos de manera numérica.

Por ejemplo, podrías representar una imagen como un tensor con forma `[3, 224, 224]`, lo que significaría `[canales_de_color, altura, anchura]`, ya que la imagen tiene `3` canales de color (rojo, verde, azul), una altura de `224` píxeles y una anchura de `224` píxeles.


En el lenguaje de los tensores, el tensor tendría tres dimensiones, una para `canales_de_color`, otra para `altura` y otra para `anchura`.

Pero estamos adelantándonos.

Vamos a aprender más sobre los tensores programándolos.



### Creación de tensores

A PyTorch le encantan los tensores. Tanto que tiene una página completa de documentación dedicada a la clase [`torch.Tensor`](https://pytorch.org/docs/stable/tensors.html).

Tu primera tarea es [leer la documentación de `torch.Tensor`](https://pytorch.org/docs/stable/tensors.html) durante 10 minutos. Pero eso lo puedes hacer más adelante.

Vamos a programar.

Lo primero que vamos a crear es un **escalar**.

Un escalar es un solo número y, en el lenguaje de los tensores, es un tensor de dimensión cero.

> **Nota:** Esa es una tendencia en este curso. Nos enfocaremos en escribir código específico. Pero, a menudo, estableceré ejercicios que impliquen leer y familiarizarse con la documentación de PyTorch. Porque, después de todo, una vez que termines este curso, sin duda querrás aprender más. Y la documentación será un lugar que visitarás con frecuencia.


In [2]:
# crea un tensor escalar
escalar = torch.tensor(3.14)

In [3]:
# comprueba su dimensión
print("Tensor escalar:", escalar)
print("Dimensión:", escalar.dim())

Tensor escalar: tensor(3.1400)
Dimensión: 0


¿Qué pasa si queremos recuperar el número del tensor?

Es decir, convertirlo de `torch.Tensor` a un número entero en Python.

Para hacerlo, podemos usar el método `item()`.


In [4]:
# Consigue el escalar del tensor anterior
valor = escalar.item()

print("Escalar:", valor)
print("Tipo:", type(valor))

Escalar: 3.140000104904175
Tipo: <class 'float'>


In [5]:
# Crea un tensor de tipo vector
vector = torch.tensor([1.0, 2.0, 3.0])

print(vector)

tensor([1., 2., 3.])


In [6]:
# Cuantas dimensiones tiene?
print(vector.dim())

1


In [7]:
# comprueba su forma
print(vector.shape)

torch.Size([3])


In [8]:
# Crea ahora un tensor de tipo matriz
matriz = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
print(matriz)


tensor([[1., 2.],
        [3., 4.]])


In [9]:
# Comprueba el número de dimensiones
print(matriz.dim())


2


In [10]:
# Comprueba la forma de la matriz
print(matriz.shape)

torch.Size([2, 2])


In [11]:
# Crea ahora un tensor de tres dimensiones
tensor_3d = torch.tensor([
    [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]], [[7.0, 8.0, 9.0], [10.0, 11.0, 12.0]]
])

print(tensor_3d)


tensor([[[ 1.,  2.,  3.],
         [ 4.,  5.,  6.]],

        [[ 7.,  8.,  9.],
         [10., 11., 12.]]])


In [12]:
# Comprueba su forma y dimensión
print(tensor_3d.shape)
print(tensor_3d.dim())


torch.Size([2, 2, 3])
3


### Tensores aleatorios

Hemos establecido que los tensores representan alguna forma de datos.

Y los modelos de aprendizaje automático, como las redes neuronales, manipulan y buscan patrones dentro de los tensores.

Sin embargo, al construir modelos de aprendizaje automático con PyTorch, es raro que crees tensores a mano (como lo hemos estado haciendo).

En cambio, un modelo de aprendizaje automático a menudo comienza con grandes tensores aleatorios de números y ajusta estos números aleatorios mientras procesa datos para representarlos mejor.

En esencia:

`Comienza con números aleatorios -> observa los datos -> actualiza los números aleatorios -> observa los datos -> actualiza los números aleatorios...`

Como científico de datos, puedes definir cómo inicia el modelo de aprendizaje automático (inicialización), cómo observa los datos (representación) y cómo actualiza (optimización) sus números aleatorios.

Practicaremos estos pasos más adelante.

Por ahora, veamos cómo crear un tensor de números aleatorios.

Podemos hacerlo usando [`torch.rand()`](https://pytorch.org/docs/stable/generated/torch.rand.html) y pasando el parámetro `size`.


In [13]:
# Crea un tensor aleatorio de tamaño (3, 4)
tensor_random = torch.rand(3, 4)

print(tensor_random)

tensor([[0.3696, 0.6876, 0.1265, 0.0738],
        [0.0175, 0.5356, 0.4067, 0.3878],
        [0.8914, 0.3718, 0.2565, 0.8675]])


La flexibilidad de `torch.rand()` radica en que podemos ajustar el `size` para que sea lo que queramos.

Por ejemplo, supongamos que quieres un tensor aleatorio con la forma común de imagen `[224, 224, 3]` (`[altura, anchura, canales_de_color]`).


In [14]:
# Crea un tensor aleatorio de tamaño (224, 224, 3)
tensor_random_2 = torch.rand(224, 224, 3)

print(tensor_random_2.shape)

torch.Size([224, 224, 3])


### Ceros y unos

A veces querrás llenar tensores solo con ceros o unos.

Esto ocurre mucho con el enmascaramiento (como enmascarar algunos de los valores en un tensor con ceros para indicarle al modelo que no los aprenda).

Vamos a crear un tensor lleno de ceros con [`torch.zeros()`](https://pytorch.org/docs/stable/generated/torch.zeros.html)

De nuevo, el parámetro `size` entra en juego.


In [75]:
# Crea un tensor de ceros con forma 3,4 y muestra su tipo
tensor_ceros = torch.zeros(size=(3, 4))

print(tensor_ceros)
print( tensor_ceros.dtype)

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])
torch.float32


In [None]:
# Crea un tensor de unos de forma 3,4 y muestra su tipo
tensor_unos = torch.ones(size=(3, 4))

print(tensor_unos)
print(tensor_unos.dtype)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])
torch.float32


### Creación de un rango y tensores similares

A veces es posible que necesites un rango de números, como de 1 a 10 o de 0 a 100.

Puedes usar `torch.arange(start, end, step)` para hacerlo.

Donde:
* `start` = inicio del rango (por ejemplo, 0)
* `end` = fin del rango (por ejemplo, 10)
* `step` = cantidad de pasos entre cada valor (por ejemplo, 1)

> **Nota:** En Python, puedes usar `range()` para crear un rango. Sin embargo, en PyTorch, `torch.range()` está en desuso y podría mostrar un error en el futuro.


In [95]:
# Usa torch.arange() para crear un tensor con valores de 0 a 10
rango = torch.arange(start=0, end=11)

print(rango)

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])


A veces puede que necesites un tensor de un cierto tipo con la misma forma que otro tensor.

Por ejemplo, un tensor lleno de ceros con la misma forma que un tensor anterior.

Para hacerlo, puedes usar [`torch.zeros_like(input)`](https://pytorch.org/docs/stable/generated/torch.zeros_like.html) o [`torch.ones_like(input)`](https://pytorch.org/docs/1.9.1/generated/torch.ones_like.html), que devuelven un tensor lleno de ceros o unos, respectivamente, con la misma forma que el `input`.


In [113]:
# Crea un tensor de ceros con la misma forma que el anterior
rango = torch.arange(start=0, end=11)
ceros_como_rango = torch.zeros_like(rango)

print(ceros_como_rango)


tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])


### Tipos de datos de tensores

Existen muchos [tipos de datos de tensores disponibles en PyTorch](https://pytorch.org/docs/stable/tensors.html#data-types).

Algunos son específicos para CPU y otros son mejores para GPU.

Familiarizarse con ellos puede llevar tiempo.

Generalmente, si ves `torch.cuda` en alguna parte, el tensor está siendo usado para GPU (ya que las GPUs de Nvidia usan un conjunto de herramientas de computación llamado CUDA).

El tipo más común (y generalmente el predeterminado) es `torch.float32` o `torch.float`.

Esto se conoce como "punto flotante de 32 bits".

Pero también existe el punto flotante de 16 bits (`torch.float16` o `torch.half`) y el de 64 bits (`torch.float64` o `torch.double`).

Y para complicarlo aún más, también hay enteros de 8, 16, 32 y 64 bits.

¡Y más!

> **Nota:** Un número entero es un número redondo como `7`, mientras que un número en punto flotante tiene un decimal, como `7.0`.

La razón de todos estos tipos de datos tiene que ver con la **precisión en la computación**.

La precisión es la cantidad de detalle utilizada para describir un número.

Cuanto mayor es el valor de precisión (8, 16, 32), más detalle y, por ende, más datos se usan para expresar un número.

Esto es importante en el aprendizaje profundo y la computación numérica porque, al realizar tantas operaciones, cuanto más detalle tienes para calcular, más recursos computacionales necesitas.

Por lo tanto, los tipos de datos de menor precisión son generalmente más rápidos de calcular, pero sacrifican algo de rendimiento en métricas de evaluación como la precisión (más rápido de calcular pero menos preciso).

> **Recursos:** 
  * Consulta la [documentación de PyTorch para ver la lista de todos los tipos de datos de tensores disponibles](https://pytorch.org/docs/stable/tensors.html#data-types).
  * Lee la [página de Wikipedia para obtener una descripción general de la precisión en computación](https://en.wikipedia.org/wiki/Precision_(computer_science)).

Veamos cómo crear algunos tensores con tipos de datos específicos. Podemos hacerlo usando el parámetro `dtype`.


In [146]:
# Crea un tensor con el tipo por defecto (float32)
# Usando float32 por la documentación
tensor_f32 = torch.tensor([1.0, 2.0, 3.0], dtype=torch.float32)

print(tensor_f32)
print(tensor_f32.dtype)

tensor([1., 2., 3.])
torch.float32



Aparte de los problemas de forma (las formas de los tensores no coinciden), dos de los problemas más comunes que encontrarás en PyTorch son los de tipo de dato y de dispositivo.

Por ejemplo, uno de los tensores es `torch.float32` y el otro es `torch.float16` (PyTorch suele preferir que los tensores tengan el mismo formato).

O uno de tus tensores está en la CPU y el otro en la GPU (a PyTorch le gusta que los cálculos entre tensores se realicen en el mismo dispositivo).

Veremos más sobre esta cuestión de dispositivos más adelante.

Por ahora, vamos a crear un tensor con `dtype=torch.float16`.


In [162]:
# crea un tensor float_16_tensor con el tipo dtype=torch.float16
tensor_f16 = torch.tensor([1.0, 2.0, 3.0], dtype=torch.float16)

print(tensor_f16)
print(tensor_f16.dtype)

tensor([1., 2., 3.], dtype=torch.float16)
torch.float16


## Obtener información de los tensores

Una vez que has creado tensores (o alguien más o un módulo de PyTorch los ha creado por ti), es posible que quieras obtener alguna información de ellos.

Ya los hemos visto antes, pero tres de los atributos más comunes que querrás conocer sobre los tensores son:
* `shape` - ¿cuál es la forma del tensor? (algunas operaciones requieren reglas específicas de forma)
* `dtype` - ¿en qué tipo de datos están almacenados los elementos dentro del tensor?
* `device` - ¿en qué dispositivo está almacenado el tensor? (usualmente GPU o CPU)

Vamos a crear un tensor aleatorio y obtener detalles sobre él.


In [177]:
# Crea un tensor aleatorio de forma 3,4
tensor_random3 = torch.rand(size=(3, 4))

# Imprimir sus detalles
print(tensor_random3)
print(tensor_random3.shape)
print(tensor_random3.dtype)
print(tensor_random3.device)


tensor([[0.2336, 0.3358, 0.3961, 0.0517],
        [0.4781, 0.2118, 0.3505, 0.3373],
        [0.8359, 0.9379, 0.4529, 0.9478]])
torch.Size([3, 4])
torch.float32
cpu


## Manipulación de tensores (operaciones con tensores)

En el aprendizaje profundo, los datos (imágenes, texto, video, audio, estructuras de proteínas, etc.) se representan como tensores.

Un modelo aprende investigando esos tensores y realizando una serie de operaciones (que pueden ser millones) sobre los tensores para crear una representación de los patrones en los datos de entrada.

Estas operaciones suelen ser una combinación entre:
* Suma
* Resta
* Multiplicación (elemento a elemento)
* División
* Multiplicación de matrices

Y eso es todo. Claro que hay algunas otras aquí y allá, pero estos son los bloques básicos de las redes neuronales.

Apilando estos bloques básicos de la manera correcta, puedes crear las redes neuronales más sofisticadas (¡como si fueran piezas de lego!).


### Operaciones básicas

Empecemos con algunas de las operaciones fundamentales: suma (`+`), resta (`-`), multiplicación (`*`).

Funcionan tal como esperarías.


In [None]:
tensor_operaciones = torch.tensor([1.0, 2.0, 3.0])

# suma 10 a un tensor
suma = tensor_operaciones + 10

print(suma)

tensor([11., 12., 13.])


In [None]:
# multiplica por 10 un tensor
multiplicacion = tensor_operaciones * 10

print(multiplicacion)


tensor([10., 20., 30.])


Puedes comprobar que los tensores original no se modifican

In [None]:
# Resta 10 al tensor y reasigna
tensor_reasignado = tensor_operaciones - 10

print(tensor_reasignado)

Tensor original: tensor([1., 2., 3.])
tensor([-9., -8., -7.])


In [None]:
# Los tensores no cambian, a no ser que reasignes
print(tensor_operaciones)


PyTorch también tiene un conjunto de funciones integradas como [`torch.mul()`](https://pytorch.org/docs/stable/generated/torch.mul.html#torch.mul) (abreviatura de  `multiply`) y [`torch.add()`](https://pytorch.org/docs/stable/generated/torch.add.html) para realizar operaciones básicas. 

In [None]:
# Multiplica el tensor por 10 usando las funciones de torch
tensor_multiplicado_10 = torch.mul(tensor_operaciones, 10)

print(tensor_multiplicado_10)

tensor([10., 20., 30.])


In [None]:
# Realiza una multiplicación de tensores por elemento 
# (cada elemento multiplica su equivalente, index 0->0, 1->1, 2->2)
tensor_multiplicar_por_elemento = torch.tensor([4.0, 5.0, 6.0])
resultado = torch.mul(tensor_operaciones, tensor_multiplicar_por_elemento)

print(resultado)

tensor([ 4., 10., 18.])


### Multiplicación de matrices

Una de las operaciones más comunes en los algoritmos de aprendizaje automático y aprendizaje profundo (como las redes neuronales) es la [multiplicación de matrices](https://www.mathsisfun.com/algebra/matrix-multiplying.html).

PyTorch implementa la funcionalidad de multiplicación de matrices en el método [`torch.matmul()`](https://pytorch.org/docs/stable/generated/torch.matmul.html).

Las dos reglas principales para recordar en la multiplicación de matrices son:

1. Las **dimensiones internas** deben coincidir:
   * `(3, 2) @ (3, 2)` no funcionará
   * `(2, 3) @ (3, 2)` funcionará
   * `(3, 2) @ (2, 3)` funcionará
2. La matriz resultante tiene la forma de las **dimensiones externas**:
   * `(2, 3) @ (3, 2)` -> `(2, 2)`
   * `(3, 2) @ (2, 3)` -> `(3, 3)`

> **Nota:** "`@`" en Python es el símbolo para la multiplicación de matrices.

> **Recurso:** Puedes ver todas las reglas para la multiplicación de matrices usando `torch.matmul()` [en la documentación de PyTorch](https://pytorch.org/docs/stable/generated/torch.matmul.html).

Vamos a crear un tensor y realizar una multiplicación elemento a elemento y una multiplicación de matrices en él.


In [236]:
import torch
tensor = torch.tensor([1, 2, 3])
tensor.shape

torch.Size([3])

La diferencia entre la multiplicación elemento a elemento y la multiplicación matricial radica en la forma en que se suman los valores.

Para nuestra variable `tensor` con valores `[1, 2, 3]`:

| Operación | Cálculo | Código |
| ----- | ----- | ----- |
| **Multiplicación elemento a elemento** | `[1*1, 2*2, 3*3]` = `[1, 4, 9]` | `tensor * tensor` |
| **Multiplicación matricial** | `[1*1 + 2*2 + 3*3]` = `[14]` | `tensor.matmul(tensor)` |



In [None]:
tensor_multplicacion_matrices = torch.tensor([1, 2, 3])

# realiza una multiplicación elemento a elemento
multiplicacion_elemento = tensor * tensor
print(multiplicacion_elemento)

tensor([1, 4, 9])


In [None]:
# realiza una multiplicación "normal" usando matmul
multiplicacion_matmul = torch.matmul(tensor, tensor)
print(multiplicacion_matmul)


In [249]:
# El operador @ es de python, no se recomienda!
tensor @ tensor

tensor(14)

`torch.matmul()` es mucho más rápido

In [250]:
%%time
# Se puede multiplicar "a mano" 
#  pero es muy lento, evita el uso de bucles, es muy lento computacionalmente
# fíjate en las siguientes celdas y su tiempo de ejecución
value = 0
for i in range(len(tensor)):
  value += tensor[i] * tensor[i]
value

CPU times: total: 0 ns
Wall time: 998 μs


tensor(14)

In [251]:
%%time
torch.matmul(tensor, tensor)

CPU times: total: 0 ns
Wall time: 0 ns


tensor(14)

## Uno de los errores más comunes en el aprendizaje profundo (errores de forma "shape errors")

Dado que gran parte del aprendizaje profundo implica multiplicar y realizar operaciones con matrices, y las matrices tienen reglas estrictas sobre qué formas y tamaños se pueden combinar, uno de los errores más comunes con los que te encontrarás en el aprendizaje profundo es la incompatibilidad de formas.


In [252]:
# Las formas deben ser las correctas para poder realizar la mulitplicación  
tensor_A = torch.tensor([[1, 2],
                         [3, 4],
                         [5, 6]], dtype=torch.float32)

tensor_B = torch.tensor([[7, 10],
                         [8, 11], 
                         [9, 12]], dtype=torch.float32)

# torch.matmul(tensor_A, tensor_B) # (producirá error)

Podemos hacer que la multiplicación de matrices funcione entre `tensor_A` y `tensor_B` haciendo que sus dimensiones internas coincidan.

Una de las formas de lograr esto es con una **transposición** (intercambiar las dimensiones de un tensor dado).

Puedes realizar transposiciones en PyTorch usando:

* `torch.transpose(input, dim0, dim1)` - donde `input` es el tensor deseado para transponer y `dim0` y `dim1` son las dimensiones a intercambiar.
* `tensor.T` - donde `tensor` es el tensor deseado para transponer.

Vamos a probar esta última opción.


In [253]:
# examinar tensores
print(tensor_A)
print(tensor_B)

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])
tensor([[ 7., 10.],
        [ 8., 11.],
        [ 9., 12.]])


In [254]:
# examinar tensor_A y su transpuesta
print(tensor_A)
print(tensor_B.T)

tensor([[1., 2.],
        [3., 4.],
        [5., 6.]])
tensor([[ 7.,  8.,  9.],
        [10., 11., 12.]])


In [255]:
# La operación funciona cuando tensor_B es transpuesto
print(f"Formas originales: tensor_A = {tensor_A.shape}, tensor_B = {tensor_B.shape}\n")
print(f"Nuevas formas: tensor_A = {tensor_A.shape} (igual que arriba), tensor_B.T = {tensor_B.T.shape}\n")
print(f"Multiplicando: {tensor_A.shape} * {tensor_B.T.shape} <- las dimensiones internas coinciden\n")
print("Salida:\n")
output = torch.matmul(tensor_A, tensor_B.T)
print(output) 
print(f"\nForma de la salida: {output.shape}")


Formas originales: tensor_A = torch.Size([3, 2]), tensor_B = torch.Size([3, 2])

Nuevas formas: tensor_A = torch.Size([3, 2]) (igual que arriba), tensor_B.T = torch.Size([2, 3])

Multiplicando: torch.Size([3, 2]) * torch.Size([2, 3]) <- las dimensiones internas coinciden

Salida:

tensor([[ 27.,  30.,  33.],
        [ 61.,  68.,  75.],
        [ 95., 106., 117.]])

Forma de la salida: torch.Size([3, 3])


también se puede usar [`torch.mm()`](https://pytorch.org/docs/stable/generated/torch.mm.html)

In [256]:
# torch.mm es una abreviatura
torch.mm(tensor_A, tensor_B.T)

tensor([[ 27.,  30.,  33.],
        [ 61.,  68.,  75.],
        [ 95., 106., 117.]])

> **Nota:** Una multiplicación matricial como esta también se conoce como el [**producto punto**](https://www.mathsisfun.com/algebra/vectors-dot-product.html) de dos matrices.


Las redes neuronales están llenas de multiplicaciones de matrices y productos punto.

El módulo [`torch.nn.Linear()`](https://pytorch.org/docs/1.9.1/generated/torch.nn.Linear.html) (lo veremos en acción más adelante), también conocido como capa feed-forward o capa completamente conectada, implementa una multiplicación de matrices entre una entrada `x` y una matriz de pesos `A`.

$$
y = x\cdot{A^T} + b
$$


Donde:
* `x` es la entrada de la capa (el aprendizaje profundo es una pila de capas como `torch.nn.Linear()` y otras, una sobre otra).
* `A` es la matriz de pesos creada por la capa; comienza como números aleatorios que se ajustan a medida que una red neuronal aprende a representar mejor los patrones en los datos (observa la "`T`", eso es porque la matriz de pesos se transpone).
  * **Nota:** También es común ver `W` u otra letra como `X` para representar la matriz de pesos.
* `b` es el término de sesgo que se usa para ajustar ligeramente los pesos y las entradas.
* `y` es la salida (una manipulación de la entrada con la esperanza de descubrir patrones en ella).

Esta es una función lineal (probablemente hayas visto algo como $y = mx+b$ en secundaria o en otro lugar) y ¡puede usarse para trazar una línea recta!

Vamos a experimentar con una capa lineal.

Prueba cambiando los valores de `in_features` y `out_features` a continuación y observa qué sucede.

¿Notas algo relacionado con las formas?


In [None]:
# Como la capa lineal comienza con una matriz de pesos aleatoria, hagámosla reproducible 
torch.manual_seed(42)

# crea un objeto de tipo torch.nn.Linear con in_features=2 y out features=6
# in_features = coincide con la dimensión interna de la entrada
# out_features = describe el valor externo
linear = torch.nn.Linear(in_features=2, out_features=6)

print(linear)

# pasa el tensor_A al objeto linear y comprueba su forma de salida
output_linear = linear(tensor_A)

print(output_linear)
print(output_linear.shape)



Linear(in_features=2, out_features=6, bias=True)
tensor([[2.2368, 1.2292, 0.4714, 0.3864, 0.1309, 0.9838],
        [4.4919, 2.1970, 0.4469, 0.5285, 0.3401, 2.4777],
        [6.7469, 3.1648, 0.4224, 0.6705, 0.5493, 3.9716]],
       grad_fn=<AddmmBackward0>)
torch.Size([3, 6])


> **Pregunta:** ¿Qué sucede si cambias `in_features` de 2 a 3 en el código anterior? ¿Da un error? ¿Cómo podrías cambiar la forma de la entrada (`x`) para adaptarte al error? Pista: ¿qué tuvimos que hacer con `tensor_B` anteriormente?


- Salta un error porque tensor_A tiene la forma (3, 2), cuando se espera entradas con 3 columnas.
- Para solucionarlo, se adapta la forma de la entrada con un nuevo tensor con 3 columnas

In [389]:
torch.manual_seed(42)

tensor_A = torch.tensor([[1, 2],
                         [3, 4],
                         [5, 6]], dtype=torch.float32)

linear_error = torch.nn.Linear(in_features=3, out_features=6)

# ERROR. El tensor_A tiene solo 2 columnas
# salida = linear_error(tensor_A)


# Para solucionarlo, se crea un tensor con forma (3, 3)
tensor_modificado = torch.tensor([[1, 2, 3],
                                  [4, 5, 6],
                                  [7, 8, 9]], dtype=torch.float32)

linear = torch.nn.Linear(in_features=3, out_features=6)
salida = linear(tensor_modificado)

print(salida)
print(salida.shape)

tensor([[-1.2342, -1.4334,  1.2115,  0.5391,  1.5456, -0.2382],
        [-3.8890, -4.0221,  2.6416,  1.3352,  3.4043, -0.7888],
        [-6.5438, -6.6107,  4.0717,  2.1314,  5.2630, -1.3394]],
       grad_fn=<AddmmBackward0>)
torch.Size([3, 6])


Si nunca lo has hecho antes, la multiplicación de matrices puede ser un tema confuso al principio.

Pero después de experimentarlo algunas veces e incluso explorar algunas redes neuronales, notarás que está en todas partes.

Recuerda, la multiplicación de matrices es todo lo que necesitas.

![la multiplicación de matrices es todo lo que necesitas](https://substackcdn.com/image/fetch/w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fbucketeer-e05bbc84-baa3-437e-9518-adb32be77984.s3.amazonaws.com%2Fpublic%2Fimages%2Fbbec318e-38cc-4018-a425-dd5766405001_888x499.jpeg)

*Cuando comienzas a profundizar en las capas de redes neuronales y a construir las tuyas propias, encontrarás multiplicaciones de matrices en todas partes. **Fuente:** https://marksaroufim.substack.com/p/working-class-deep-learner*


### Encontrar el mínimo, máximo, media, suma, etc. (agregación)

Ahora que hemos visto algunas formas de manipular tensores, vamos a repasar algunas maneras de agregarlos (pasar de más valores a menos valores).

Primero crearemos un tensor y luego encontraremos el máximo, mínimo, media y suma de este.


In [719]:
# Crear un tensor con la función arange
tensor = torch.arange(start=0, end=10, dtype=torch.float32)

Hagamos alguna operación de agregación:

In [720]:
# muestra el máximo, mínimo, media y suma
print(tensor)
print(tensor.max())
print(tensor.min())
print(tensor.mean())
print(tensor.sum())

tensor([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])
tensor(9.)
tensor(0.)
tensor(4.5000)
tensor(45.)


> **Nota:** Es posible que algunos métodos como `torch.mean()` requieran que los tensores estén en `torch.float32` (el más común) u otro tipo de dato específico, de lo contrario, la operación fallará.

También puedes realizar lo mismo que lo anterior utilizando métodos de `torch`.


In [None]:
# repite la celda anterior, pero con las funciones de torch
print(tensor)
print(torch.max(tensor))
print(torch.min(tensor))
print(torch.mean(tensor))
print(torch.sum(tensor))

tensor(9.)
tensor(0.)
tensor(4.5000)
tensor(45.)


### Mínimo/Máximo Posicional

También puedes encontrar el índice de un tensor donde ocurre el valor máximo o mínimo utilizando [`torch.argmax()`](https://pytorch.org/docs/stable/generated/torch.argmax.html) y [`torch.argmin()`](https://pytorch.org/docs/stable/generated/torch.argmin.html), respectivamente.

Esto es útil en caso de que solo quieras la posición donde se encuentra el valor más alto (o más bajo) y no el valor en sí mismo (veremos esto en una sección posterior cuando utilicemos la [función de activación softmax](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html)).


In [780]:
tensor = torch.arange(10, 100, 10)

# extrae la posición del máximo y del mínimo
pos_max = torch.argmax(tensor)
print(pos_max)

pos_min = torch.argmin(tensor)
print(pos_min)

tensor(8)
tensor(0)


### Cambiar el tipo de dato de un tensor

Como se mencionó, un problema común en las operaciones de deep learning es que los tensores estén en diferentes tipos de datos.

Si un tensor está en `torch.float64` y otro en `torch.float32`, podrías encontrarte con algunos errores.

Pero hay una solución.

Puedes cambiar el tipo de dato de los tensores utilizando [`torch.Tensor.type(dtype=None)`](https://pytorch.org/docs/stable/generated/torch.Tensor.type.html), donde el parámetro `dtype` es el tipo de dato que deseas usar.

Primero, crearemos un tensor y verificaremos su tipo de dato (el tipo por defecto es `torch.float32`).


In [781]:
# Crear un tensor y comprobar su tipo
tensor = torch.arange(10., 100., 10.)
tensor.dtype

torch.float32

Ahora creamos otro tensor con tipo `torch.float16`.



In [None]:
# crear un tensor float16
tensor_float16 = tensor.type(torch.float16)

print(tensor_float16)
print(tensor_float16.dtype)


tensor([10., 20., 30., 40., 50., 60., 70., 80., 90.], dtype=torch.float16)
torch.float16


También podríamos crear uno de 8 bits

In [None]:
# Crear un tensor int8
tensor_int8 = tensor.type(torch.int8)

print(tensor_int8)
print(tensor_int8.dtype)

> **Nota:** Los diferentes tipos de datos pueden ser confusos al principio. Pero piensa en ello de esta manera: cuanto menor es el número (por ejemplo, 32, 16, 8), menos precisa es la forma en que un ordenador almacena el valor. Y con una menor cantidad de almacenamiento, generalmente se obtienen cálculos más rápidos y modelos más pequeños en general. Las redes neuronales basadas en dispositivos móviles a menudo operan con enteros de 8 bits, que son más pequeños y rápidos de ejecutar, pero menos precisos que sus equivalentes en `float32`. Para más información sobre esto, te recomiendo leer acerca de la [precisión en informática](https://en.wikipedia.org/wiki/Precision_(computer_science)).

> **Ejercicio:** Hasta ahora hemos cubierto bastantes métodos de tensores, pero hay muchos más en la [documentación de `torch.Tensor`](https://pytorch.org/docs/stable/tensors.html). Te recomiendo dedicar 10 minutos a explorarla y observar cualquier método que te llame la atención. Haz clic en ellos y luego escribe el código correspondiente para ver qué sucede.


### Cambiar la forma, apilar, comprimir y expandir tensores

A menudo, querrás cambiar la forma o las dimensiones de tus tensores sin modificar los valores que contienen.

Para ello, algunos métodos populares son:

| Método | Descripción en una línea |
| ----- | ----- |
| [`torch.reshape(input, shape)`](https://pytorch.org/docs/stable/generated/torch.reshape.html#torch.reshape) | Cambia la forma de `input` a `shape` (si es compatible). También puedes usar `torch.Tensor.reshape()`. |
| [`Tensor.view(shape)`](https://pytorch.org/docs/stable/generated/torch.Tensor.view.html) | Devuelve una vista del tensor original con una forma diferente (`shape`) pero comparte los mismos datos que el tensor original. |
| [`torch.stack(tensors, dim=0)`](https://pytorch.org/docs/1.9.1/generated/torch.stack.html) | Concatena una secuencia de `tensors` a lo largo de una nueva dimensión (`dim`). Todos los `tensors` deben tener el mismo tamaño. |
| [`torch.squeeze(input)`](https://pytorch.org/docs/stable/generated/torch.squeeze.html) | Comprime `input` eliminando todas las dimensiones con valor `1`. |
| [`torch.unsqueeze(input, dim)`](https://pytorch.org/docs/1.9.1/generated/torch.unsqueeze.html) | Devuelve `input` con un valor de dimensión `1` añadido en `dim`. |
| [`torch.permute(input, dims)`](https://pytorch.org/docs/stable/generated/torch.permute.html) | Devuelve una *vista* del tensor `input` original con sus dimensiones permutadas (reordenadas) según `dims`. |

¿Por qué usar estos métodos?

Porque los modelos de deep learning (redes neuronales) se basan en la manipulación de tensores de diversas maneras. Y debido a las reglas de la multiplicación de matrices, si las formas de los tensores no coinciden, tendrás errores. Estos métodos te ayudan a asegurarte de que los elementos correctos de tus tensores interactúen con los elementos correctos de otros tensores.

¡Probémoslos!

Primero, crearemos un tensor.


In [979]:
# Crear tensor
import torch
x = torch.arange(1., 8.)
x, x.shape

(tensor([1., 2., 3., 4., 5., 6., 7.]), torch.Size([7]))

Añadamos una dimensión `torch.reshape()`. 

In [980]:
# Añade al tensor una dimensión extra con reshape
x_reshape = x.reshape(1, 7)

print(x_reshape)
print(x_reshape.shape)

tensor([[1., 2., 3., 4., 5., 6., 7.]])
torch.Size([1, 7])


También se puede cambiar _la vista_ con `torch.view()`.

In [981]:
# Cambiar la vista "view" (mantiene los datos originales pero cambia la vista)
# https://stackoverflow.com/a/54507446/7900723

#pruébalo
z = x.view(1, 7)
print(z)
print(z.shape)


tensor([[1., 2., 3., 4., 5., 6., 7.]])
torch.Size([1, 7])


Recuerda que cambiar la vista de un tensor con `torch.view()` solo crea una nueva vista del *mismo* tensor.

Por lo tanto, cambiar la vista también modifica el tensor original.


In [982]:
# Cambiando z, se cambia x: Prueba a cambiar un elemento
z[0, 0] = 999.
print(z)
print(x)

tensor([[999.,   2.,   3.,   4.,   5.,   6.,   7.]])
tensor([999.,   2.,   3.,   4.,   5.,   6.,   7.])


Si quisiéramos apilar nuestro nuevo tensor sobre sí mismo cinco veces, podríamos hacerlo con `torch.stack()`.


In [983]:
# Prueba a apilar tensores uno encima de otro
x_stacked = torch

¿Qué tal eliminar todas las dimensiones de tamaño 1 de un tensor?

Para hacerlo, puedes usar `torch.squeeze()` (*comprimir* el tensor para que solo tenga dimensiones mayores a 1).


In [984]:
# muestra el contenido y la forma del tensor x_reshaped
print(x_reshape)
print(x_reshape.shape)

# Elimina las dimensiones adicionales de x_reshaped
x_squeezed = torch.squeeze(x_reshape)

print(x_squeezed)
print(x_squeezed.shape)

tensor([[999.,   2.,   3.,   4.,   5.,   6.,   7.]])
torch.Size([1, 7])
tensor([999.,   2.,   3.,   4.,   5.,   6.,   7.])
torch.Size([7])


Y para hacer lo inverso de `torch.squeeze()`, puedes usar `torch.unsqueeze()` para agregar una dimensión con valor 1 en un índice específico.


In [1004]:
# Agrega una dimensión adicional con unsqueeze
x_unsqueezed = torch.unsqueeze(x, dim=0)

print(x_unsqueezed)
print(x_unsqueezed.shape)


tensor([[[[1, 2, 3],
          [4, 5, 6],
          [7, 8, 9]]]])
torch.Size([1, 1, 3, 3])


También puedes reorganizar el orden de los ejes de un tensor con `torch.permute(input, dims)`, donde el `input` se convierte en una *vista* con las nuevas `dims`.


In [1023]:
# Crea un tensor con una forma específica
x_original = torch.rand(size=(224, 224, 3))

# Permuta el tensor original para reorganizar el orden de los ejes
x_permutado = x_original.permute(2, 0, 1)

print(x_permutado.shape)

torch.Size([3, 224, 224])


> **Nota**: Como `permute` devuelve una *vista* (comparte los mismos datos que el tensor original), los valores en el tensor permutado serán los mismos que en el tensor original, y si cambias los valores en la vista, también cambiarán los valores del tensor original.


## Indexación (selección de datos de tensores)

A veces querrás seleccionar datos específicos de los tensores (por ejemplo, solo la primera columna o la segunda fila).

Para hacerlo, puedes usar la indexación.

Si alguna vez has hecho indexación en listas de Python o arrays de NumPy, la indexación en PyTorch con tensores es muy similar.


In [1041]:
import torch
x = torch.arange(1, 10).reshape(1, 3, 3)
x, x.shape

(tensor([[[1, 2, 3],
          [4, 5, 6],
          [7, 8, 9]]]),
 torch.Size([1, 3, 3]))

La indexación de valores sigue el orden de dimensión exterior -> dimensión interior (observa los corchetes).


In [1042]:
# indexa cada una de las dimensiones
print("x[0]:\n", x[0])
print("x[0][0]:", x[0][0])
print("x[0][0][0]:", x[0][0][0])


x[0]:
 tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])
x[0][0]: tensor([1, 2, 3])
x[0][0][0]: tensor(1)


También puedes usar `:` para especificar "todos los valores en esta dimensión" y luego usar una coma (`,`) para añadir otra dimensión.


In [1073]:
# Dame todos los valores de la dimensión 0 y el índice 0 de la dimensión 1
print("x[:, 0]:\n", x[:, 0])

x[:, 0]:
 tensor([[1, 2, 3]])


In [1074]:
# Dame todos los valores de las dimensiones 0 y 1,  y el índice 1 de la dimensión 2
print("x[:, :, 1]:\n", x[:, :, 1])


x[:, :, 1]:
 tensor([[2, 5, 8]])


In [None]:
# Todos los valores de la dimensión 0, pero sólo el índice 1 de las dimensiones 1 y 2
print("x[:, 1, 1]:\n", x[:, 1, 1])



x[:, 1, 1]:
 tensor([5])


## Tensores de PyTorch y NumPy

Dado que NumPy es una biblioteca popular para cálculos numéricos en Python, PyTorch tiene funcionalidades para interactuar con ella de manera eficiente.

Los dos métodos principales que necesitarás para convertir entre NumPy y PyTorch (y viceversa) son:
* [`torch.from_numpy(ndarray)`](https://pytorch.org/docs/stable/generated/torch.from_numpy.html): Convierte un array de NumPy en un tensor de PyTorch.
* [`torch.Tensor.numpy()`](https://pytorch.org/docs/stable/generated/torch.Tensor.numpy.html): Convierte un tensor de PyTorch en un array de NumPy.

¡Probémoslos!


In [1076]:
# NumPy array a tensor
import torch
import numpy as np
array = np.arange(1.0, 8.0)
tensor = torch.from_numpy(array)
array, tensor

(array([1., 2., 3., 4., 5., 6., 7.]),
 tensor([1., 2., 3., 4., 5., 6., 7.], dtype=torch.float64))

> **Nota:** Por defecto, los arrays de NumPy se crean con el tipo de dato `float64`, y si los conviertes a un tensor de PyTorch, conservarán el mismo tipo de dato (como en el ejemplo anterior).  
>
> Sin embargo, muchas operaciones en PyTorch usan por defecto `float32`.  
> 
> Por lo tanto, si deseas convertir un array de NumPy (`float64`) -> tensor de PyTorch (`float64`) -> tensor de PyTorch (`float32`), puedes usar: `tensor = torch.from_numpy(array).type(torch.float32)`.

Como reasignamos `tensor` en el ejemplo anterior, si cambias el tensor, el array original permanecerá igual.


In [1077]:
# Cambiar el array, mantener el tensor
array = array + 1
array, tensor

(array([2., 3., 4., 5., 6., 7., 8.]),
 tensor([1., 2., 3., 4., 5., 6., 7.], dtype=torch.float64))

Y si quieres obtener un array de numpy de un tensor tienes que llamar a `tensor.numpy()`.

In [1078]:
# Tensor a NumPy array
tensor = torch.ones(7) # tensor de unos con dtype=float32
numpy_tensor = tensor.numpy() # será de tipo float32
tensor, numpy_tensor

(tensor([1., 1., 1., 1., 1., 1., 1.]),
 array([1., 1., 1., 1., 1., 1., 1.], dtype=float32))

## Reproducibilidad (tratando de quitar lo aleatorio de lo aleatorio)

A medida que aprendas más sobre redes neuronales y machine learning, empezarás a descubrir lo importante que es la aleatoriedad.

Bueno, en realidad es pseudorandomness (pseudoaleatoriedad). Porque, al fin y al cabo, una computadora es fundamentalmente determinista (cada paso es predecible), por lo que la "aleatoriedad" que crean es una simulación de aleatoriedad (aunque esto también es objeto de debate, pero como no soy científico informático, te dejo investigar más por tu cuenta).

¿Y cómo se relaciona esto con las redes neuronales y el deep learning?

Hemos mencionado que las redes neuronales comienzan con números aleatorios para describir patrones en los datos (estos números son descripciones pobres) y tratan de mejorar esos números aleatorios mediante operaciones con tensores (y algunas otras cosas que aún no hemos discutido) para describir mejor los patrones en los datos.

En resumen:

``empezar con números aleatorios -> operaciones con tensores -> intentar mejorarlos (una y otra vez)``

Aunque la aleatoriedad es útil y poderosa, a veces querrás que haya un poco menos de aleatoriedad.

¿Por qué?

Para poder realizar experimentos reproducibles.

Por ejemplo, creas un algoritmo capaz de alcanzar cierto nivel de rendimiento.

Y luego tu amigo lo prueba para verificar que no estás loco.

¿Cómo podría hacerlo?

Ahí es donde entra en juego la **reproducibilidad**.

En otras palabras, ¿puedes obtener los mismos (o muy similares) resultados en tu computadora ejecutando el mismo código que obtengo en la mía?

Veamos un breve ejemplo de reproducibilidad en PyTorch.

Comenzaremos creando dos tensores aleatorios. Dado que son aleatorios, esperarías que sean diferentes, ¿verdad?


In [1079]:
import torch

# dos tensores aleatorios
random_tensor_A = torch.rand(3, 4)
random_tensor_B = torch.rand(3, 4)

print(f"Tensor A:\n{random_tensor_A}\n")
print(f"Tensor B:\n{random_tensor_B}\n")
print(f"A == B? ")
random_tensor_A == random_tensor_B

Tensor A:
tensor([[0.8694, 0.5677, 0.7411, 0.4294],
        [0.8854, 0.5739, 0.2666, 0.6274],
        [0.2696, 0.4414, 0.2969, 0.8317]])

Tensor B:
tensor([[0.1053, 0.2695, 0.3588, 0.1994],
        [0.5472, 0.0062, 0.9516, 0.0753],
        [0.8860, 0.5832, 0.3376, 0.8090]])

A == B? 


tensor([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]])

Tal como podrías haber esperado, los tensores resultan con valores diferentes.

Pero, ¿y si quisieras crear dos tensores aleatorios con los *mismos* valores?

Es decir, los tensores seguirían conteniendo valores aleatorios, pero serían del mismo tipo o "sabor".

Ahí es donde entra [`torch.manual_seed(seed)`](https://pytorch.org/docs/stable/generated/torch.manual_seed.html), donde `seed` es un número entero (como `42`, aunque podría ser cualquier número) que define el "sabor" de la aleatoriedad.

Probémoslo creando algunos tensores aleatorios con el mismo "sabor".


In [1080]:
import torch
import random

# Establecer la semilla aleatoria
RANDOM_SEED = 42  # prueba cambiando este valor y observa qué sucede con los números a continuación
torch.manual_seed(seed=RANDOM_SEED) 
random_tensor_C = torch.rand(3, 4)

# Es necesario reiniciar la semilla cada vez que se llama a rand()
# Sin esto, tensor_D sería diferente de tensor_C
torch.random.manual_seed(seed=RANDOM_SEED)  # prueba comentando esta línea y observa qué sucede
random_tensor_D = torch.rand(3, 4)

print(f"Tensor C:\n{random_tensor_C}\n")
print(f"Tensor D:\n{random_tensor_D}\n")
print(f"¿Es el Tensor C igual al Tensor D? (en algún elemento)")
random_tensor_C == random_tensor_D


Tensor C:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

Tensor D:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

¿Es el Tensor C igual al Tensor D? (en algún elemento)


tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

¡Genial!

Parece que configurar la semilla funcionó.

> **Recurso:** Lo que acabamos de cubrir es solo la superficie de la reproducibilidad en PyTorch. Para más información sobre reproducibilidad en general y semillas aleatorias, te recomiendo consultar:
> * [La documentación de reproducibilidad de PyTorch](https://pytorch.org/docs/stable/notes/randomness.html) (un buen ejercicio sería leer esta sección durante 10 minutos; incluso si no lo entiendes completamente ahora, es importante estar al tanto).
> * [La página de Wikipedia sobre semillas aleatorias](https://en.wikipedia.org/wiki/Random_seed) (ofrece una buena visión general sobre las semillas aleatorias y la pseudorandomness en general).


## Ejecutando tensores en GPUs (y realizando cálculos más rápidos)

Los algoritmos de deep learning requieren muchas operaciones numéricas.

Por defecto, estas operaciones se realizan en una CPU (unidad de procesamiento central).

Sin embargo, existe otro tipo de hardware común llamado GPU (unidad de procesamiento gráfico), que a menudo es mucho más rápido para realizar los tipos específicos de operaciones que necesitan las redes neuronales (multiplicaciones de matrices) en comparación con las CPUs.

Es posible que tu computadora tenga una.

Si es así, deberías tratar de usarla siempre que puedas para entrenar redes neuronales, ya que probablemente acelerará el tiempo de entrenamiento de manera significativa.

Hay algunas formas de, primero, obtener acceso a una GPU y, segundo, hacer que PyTorch use la GPU.

> **Nota:** Cuando me refiero a "GPU" en este curso, estoy hablando de una [GPU Nvidia con CUDA](https://developer.nvidia.com/cuda-gpus) habilitada (CUDA es una plataforma y API de computación que permite usar las GPUs para cálculos de propósito general, no solo gráficos), a menos que se especifique lo contrario.


### 1. Obtener una GPU


| **Método** | **Dificultad de configuración** | **Ventajas** | **Desventajas** | **Cómo configurarlo** |
| ----- | ----- | ----- | ----- | ----- |
| Google Colab | Fácil | Gratis, casi sin configuración requerida, puedes compartir tu trabajo fácilmente con un enlace | No guarda los datos generados, capacidad de cálculo limitada, sujeta a desconexiones | [Sigue la guía de Google Colab](https://colab.research.google.com/notebooks/gpu.ipynb) |
| Usa tu propia GPU | Media | Ejecuta todo localmente en tu máquina | Las GPUs no son gratis, requieren un costo inicial | Sigue las [guías de instalación de PyTorch](https://pytorch.org/get-started/locally/) |
| Computación en la nube (AWS, GCP, Azure) | Media-Difícil | Costo inicial bajo, acceso a recursos casi infinitos | Puede ser caro si se usa continuamente, toma tiempo configurarlo correctamente | Sigue las [guías de instalación de PyTorch](https://pytorch.org/get-started/cloud-partners/) |

Hay más opciones para usar GPUs, pero las tres anteriores son suficientes por ahora.

Personalmente, utilizo una combinación de Google Colab y mi computadora personal para experimentos a pequeña escala (y para crear este curso) y recurro a recursos en la nube cuando necesito más potencia de cálculo.

> **Recurso:** Si estás buscando comprar tu propia GPU pero no estás seguro de cuál elegir, [Tim Dettmers tiene una excelente guía](https://timdettmers.com/2020/09/07/which-gpu-for-deep-learning/).

Para comprobar si tienes acceso a una GPU Nvidia, puedes ejecutar `!nvidia-smi`, donde el `!` (también llamado "bang") significa "ejecutar esto en la línea de comandos".


In [1081]:
!nvidia-smi

Wed May  7 21:06:07 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 566.03                 Driver Version: 566.03         CUDA Version: 12.7     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA GeForce GTX 1650 ...  WDDM  |   00000000:01:00.0 Off |                  N/A |
| N/A   43C    P0             12W /   35W |       0MiB /   4096MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

Si no tienes acceso a una GPU Nvidia, lo anterior mostrará algo como:


```
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
```

y si tienes una GPU, te saldrá algo como esto: 

```
Thu Nov 28 16:11:27 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA RTX A3000 12GB La...    Off |   00000000:01:00.0 Off |                  Off |
| N/A   41C    P8              9W /   55W |       8MiB /  12288MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A      2670      G   /usr/lib/xorg/Xorg                              4MiB |
+-----------------------------------------------------------------------------------------+
```



### 2. Ejecutando PyTorch en la GPU:

Una vez que tengas una GPU lista para usar, el siguiente paso es hacer que PyTorch la utilice para almacenar datos (tensores) y realizar cálculos (operaciones en tensores).

Para ello, puedes usar el paquete [`torch.cuda`](https://pytorch.org/docs/stable/cuda.html).

En lugar de hablar sobre ello, ¡probémoslo!

Puedes comprobar si PyTorch tiene acceso a una GPU utilizando [`torch.cuda.is_available()`](https://pytorch.org/docs/stable/generated/torch.cuda.is_available.html#torch.cuda.is_available).


In [1082]:
# Comprobar si hay una GPU disponible
import torch
torch.cuda.is_available()


False

Si lo anterior muestra `True`, significa que PyTorch puede ver y usar la GPU. Si muestra `False`, no puede detectar la GPU y, en ese caso, tendrás que revisar los pasos de instalación.

Ahora, supongamos que quieres configurar tu código para que se ejecute en la CPU *o* en la GPU si está disponible.

De esta manera, si tú o alguien más decide ejecutar tu código, funcionará independientemente del dispositivo de cálculo que estén usando.

Vamos a crear una variable `device` para almacenar el tipo de dispositivo disponible.


In [1083]:
device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cpu'

Si el resultado anterior es `"cuda"`, significa que podemos configurar todo nuestro código de PyTorch para usar el dispositivo CUDA disponible (una GPU). Y si el resultado es `"cpu"`, nuestro código de PyTorch se ejecutará en la CPU.

> **Nota:** En PyTorch, es una buena práctica escribir [**código agnóstico al dispositivo**](https://pytorch.org/docs/master/notes/cuda.html#device-agnostic-code). Esto significa que el código podrá ejecutarse en la CPU (siempre disponible) o en la GPU (si está disponible).

Si quieres realizar cálculos más rápidos, puedes usar una GPU, pero si quieres hacer cálculos *mucho* más rápidos, puedes usar múltiples GPUs.

Puedes contar el número de GPUs a las que PyTorch tiene acceso utilizando [`torch.cuda.device_count()`](https://pytorch.org/docs/stable/generated/torch.cuda.device_count.html#torch.cuda.device_count).


In [1084]:
# Contar número de dispositivos
torch.cuda.device_count()

0

### 3. Enviando tensores (y modelos) a la GPU

Puedes colocar tensores (y modelos, lo veremos más adelante) en un dispositivo específico llamando a [`to(device)`](https://pytorch.org/docs/stable/generated/torch.Tensor.to.html) sobre ellos, donde `device` es el dispositivo de destino al que deseas mover el tensor (o modelo).

¿Por qué hacerlo?

Las GPUs ofrecen una capacidad de cálculo numérico mucho más rápida que las CPUs y, si no hay una GPU disponible, gracias a nuestro **código agnóstico al dispositivo** (ver arriba), se ejecutará en la CPU.

> **Nota:** Colocar un tensor en la GPU usando `to(device)` (por ejemplo, `some_tensor.to(device)`) devuelve una copia de ese tensor. Es decir, el mismo tensor existirá tanto en la CPU como en la GPU. Para sobrescribir el tensor, debes reasignarlo:
>
> `some_tensor = some_tensor.to(device)`

Vamos a intentar crear un tensor y colocarlo en la GPU (si está disponible).


In [1085]:
# Crear tensor (por defecto en CPU)
tensor = torch.tensor([1, 2, 3])
print(tensor, tensor.device)

# Mover a la GPU
tensor_on_gpu = tensor.to(device)
tensor_on_gpu

tensor([1, 2, 3]) cpu


tensor([1, 2, 3])

Si tienes GPU obtendrás algo así:

```
tensor([1, 2, 3]) cpu
tensor([1, 2, 3], device='cuda:0')
```

Comprueba que el segundo tensor tiene `device='cuda:0'`, esto significa que está almacenado en la GPU número 0 `'cuda:0'`.



### 4. Moviendo tensores de vuelta a la CPU

¿Qué pasa si queremos mover el tensor de vuelta a la CPU?

Por ejemplo, querrás hacer esto si deseas interactuar con tus tensores usando NumPy (NumPy no utiliza la GPU).

Vamos a intentar usar el método [`torch.Tensor.numpy()`](https://pytorch.org/docs/stable/generated/torch.Tensor.numpy.html) en nuestro `tensor_on_gpu`.


In [1086]:
# Si el tensor está en la GPU, no puedo transformarlo a numpy (dará error)
tensor_on_gpu.numpy()

array([1, 2, 3], dtype=int64)

En su lugar, para devolver un tensor a la CPU y hacerlo usable con NumPy, podemos usar [`Tensor.cpu()`](https://pytorch.org/docs/stable/generated/torch.Tensor.cpu.html).

Esto copia el tensor a la memoria de la CPU, haciéndolo utilizable con CPUs.


In [1087]:
# Copia el tensor a la cpu primero:
tensor_back_on_cpu = tensor_on_gpu.cpu().numpy()
tensor_back_on_cpu

array([1, 2, 3], dtype=int64)