# Intro

[PyTorch](https://pytorch.org/) is a very powerful machine learning framework. Central to PyTorch are [tensors](https://pytorch.org/docs/stable/tensors.html), a generalization of matrices to higher ranks. One intuitive example of a tensor is an image with three color channels: A 3-channel (red, green, blue) image which is 64 pixels wide and 64 pixels tall is a $3\times64\times64$ tensor. You can access the PyTorch framework by writing `import torch` near the top of your code, along with all of your other import statements.

This guide will help introduce you to the functionality of PyTorch, but don't worry too much about memorizing it: the assignments will link to relevant documentation where necessary.

# Intro

[PyTorch](https://pytorch.org/) es un marco de aprendizaje automático muy potente. En PyTorch son fundamentales los [tensores](https://pytorch.org/docs/stable/tensors.html), una generalización de las matrices a rangos superiores. Un ejemplo intuitivo de un tensor es una imagen con tres canales de color: Una imagen de 3 canales (rojo, verde, azul) que tiene 64 píxeles de ancho y 64 píxeles de alto es un tensor de $3\times64\times64$. Puedes acceder al framework PyTorch escribiendo `import torch` cerca de la parte superior de tu código, junto con todas tus otras declaraciones de importación.

Esta guía te ayudará a introducirte en la funcionalidad de PyTorch, pero no te preocupes demasiado por memorizarla: las asignaciones enlazarán con la documentación relevante cuando sea necesario.

Traducción realizada con la versión gratuita del traductor www.DeepL.com/Translator

In [2]:
import torch

# Why PyTorch?

One important question worth asking is, why is PyTorch being used for this course? There is a great breakdown by [the Gradient](https://thegradient.pub/state-of-ml-frameworks-2019-pytorch-dominates-research-tensorflow-dominates-industry/) looking at the state of machine learning frameworks today. In part, as highlighted by the article, PyTorch is generally more pythonic than alternative frameworks, easier to debug, and is the most-used language in machine learning research by a large and growing margin. While PyTorch's primary alternative, Tensorflow, has attempted to integrate many of PyTorch's features, Tensorflow's implementations come with some inherent limitations highlighted in the article.

Notably, while PyTorch's industry usage has grown, Tensorflow is still (for now) a slight favorite in industry. In practice, the features that make PyTorch attractive for research also make it attractive for education, and the general trend of machine learning research and practice to PyTorch makes it the more proactive choice. 

# ¿Por qué PyTorch?

Una pregunta importante que vale la pena hacer es, ¿por qué se utiliza PyTorch para este curso? Hay un gran desglose por [el Gradiente](https://thegradient.pub/state-of-ml-frameworks-2019-pytorch-dominates-research-tensorflow-dominates-industry/) mirando el estado de los marcos de aprendizaje de la máquina hoy en día. En parte, como se destaca en el artículo, PyTorch es generalmente más pitónico que los marcos alternativos, más fácil de depurar, y es el lenguaje más utilizado en la investigación de aprendizaje automático por un margen grande y creciente. Mientras que la principal alternativa de PyTorch, Tensorflow, ha intentado integrar muchas de las características de PyTorch, las implementaciones de Tensorflow vienen con algunas limitaciones inherentes destacadas en el artículo.

En particular, mientras que el uso de PyTorch en la industria ha crecido, Tensorflow sigue siendo (por ahora) un ligero favorito en la industria. En la práctica, las características que hacen que PyTorch sea atractivo para la investigación también lo hacen para la educación, y la tendencia general de la investigación y la práctica del aprendizaje automático hacia PyTorch hace que sea la opción más proactiva. 

 # Propiedades de los tensores
Una forma de crear tensores a partir de una lista o un array es utilizar `torch.Tensor`. Se utilizará para crear ejemplos en este cuaderno, pero nunca necesitarás usarlo en el curso - de hecho, si te encuentras necesitándolo, probablemente no sea la respuesta correcta. 

In [7]:
example_tensor = torch.Tensor(
    [
     [[1, 2], [3, 4]], 
     [[5, 6], [7, 8]], 
     [[9, 0], [1, 2]]
    ]
)

Puedes ver el tensor en el cuaderno simplemente imprimiéndolo (aunque algunos tensores más grandes se cortarán)

In [8]:
example_tensor

tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]],

        [[9., 0.],
         [1., 2.]]])

## Propiedades del tensor: Dispositivo

Una propiedad importante es el dispositivo del tensor - a lo largo de este cuaderno te ceñirás a los tensores que están en la CPU. Sin embargo, a lo largo del curso también utilizarás tensores en la GPU (es decir, una tarjeta gráfica que se te proporcionará para que la utilices en el curso). Para ver el dispositivo del tensor, todo lo que necesitas escribir es `example_tensor.device`. Para mover un tensor a un nuevo dispositivo, puedes escribir `nuevo_tensor = example_tensor.to(device)` donde dispositivo será `cpu` o `cuda`.

In [9]:
example_tensor.device

device(type='cpu')

## Tensor Properties: Shape

Y puedes obtener el número de elementos en cada dimensión imprimiendo la forma del tensor, usando `ejemplo_tensor.shape`, algo con lo que probablemente estés familiarizado si has usado numpy. Por ejemplo, este tensor es un tensor $3\times2\times2$, ya que tiene 3 elementos, cada uno de los cuales es $2\times2$. 

In [10]:
example_tensor.shape

torch.Size([3, 2, 2])

También se puede obtener el tamaño de una dimensión particular $n$ utilizando `ejemplo_tensor.forma[n]` o, de forma equivalente, `ejemplo_tensor.tamaño(n)`.

In [11]:
print("shape[0] =", example_tensor.shape[0])
print("size(1) =",  example_tensor.size(1))

shape[0] = 3
size(1) = 2


Por último, a veces es útil obtener el número de dimensiones (rango) o el número de elementos, lo que puede hacerse de la siguiente manera

In [14]:
print("Rank =", len(example_tensor.shape))
print("Number of elements =", example_tensor.numel())

Rank = 3
Number of elements = 12


# Indexing Tensors

Como con numpy, puedes acceder a elementos específicos o subconjuntos de elementos de un tensor. Para acceder al elemento $n$-ésimo, puedes simplemente escribir `example_tensor[n]` - como con Python en general, estas dimensiones están indexadas a 0. 

In [16]:
example_tensor[1]

tensor([[5., 6.],
        [7., 8.]])

Además, si se quiere acceder a la dimensión $j$-ésima del ejemplo $i$-ésimo, se puede escribir `ejemplo_tensor[i, j]`.

In [17]:
example_tensor[1, 1, 0]

tensor(7.)

Ten en cuenta que si quieres obtener un valor escalar en Python a partir de un tensor, puedes utilizar `ejemplo_escalar.item()`.

In [10]:
example_scalar = example_tensor[1, 1, 0]
example_scalar.item()

7.0

Además, puedes indexar en el elemento ith de una columna utilizando `x[:, i]`. Por ejemplo, si quieres el elemento superior izquierdo de cada elemento en `ejemplo_tensor`, que es el elemento `0, 0` de cada matriz, puedes escribir:

In [11]:
example_tensor[:, 0, 0]

tensor([1., 5., 9.])

# Initializing Tensors

Hay muchas formas de crear nuevos tensores en PyTorch, pero en este curso, las más importantes son: 

[`torch.ones_like`](https://pytorch.org/docs/master/generated/torch.ones_like.html): crea un tensor de todos los ones con la misma forma y dispositivo que `example_tensor`.

In [12]:
torch.ones_like(example_tensor)

tensor([[[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]]])

[`torch.zeros_like`](https://pytorch.org/docs/master/generated/torch.zeros_like.html): crea un tensor de todos los ceros con la misma forma y dispositivo que `example_tensor`.

In [13]:
torch.zeros_like(example_tensor)

tensor([[[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]]])

[`torch.randn_like`](https://pytorch.org/docs/stable/generated/torch.randn_like.html): crea un tensor con cada elemento muestreado a partir de una [distribución normal (o gaussiana)](https://en.wikipedia.org/wiki/Normal_distribution) con la misma forma y dispositivo que `example_tensor`.


In [14]:
torch.randn_like(example_tensor)

tensor([[[-0.3675,  0.2242],
         [-0.3378, -1.0944]],

        [[ 1.5371,  0.7701],
         [-0.1490, -0.0928]],

        [[ 0.3270,  0.4642],
         [ 0.1494,  0.1283]]])

A veces (aunque menos a menudo de lo que esperas), puedes necesitar inicializar un tensor conociendo sólo la forma y el dispositivo, sin un tensor de referencia para `ones_like` o `randn_like`. En este caso, puede crear un tensor de $2x2$ de la siguiente manera:

In [15]:
torch.randn(2, 2, device='cpu') # Alternatively, for a GPU tensor, you'd use device='cuda'

tensor([[ 0.2235, -1.8912],
        [-1.2873,  0.7405]])

# Basic Functions

Hay una serie de funciones básicas que debes conocer para usar PyTorch - si estás familiarizado con numpy, todas las funciones de uso común existen en PyTorch, normalmente con el mismo nombre. Puedes realizar una multiplicación / división por un escalar $c$ escribiendo simplemente `c * ejemplo_tensor`, y una suma / resta por un escalar escribiendo `ejemplo_tensor + c`.

Ten en cuenta que la mayoría de las operaciones no son in-place en PyTorch, lo que significa que no cambian los datos de la variable original (Sin embargo, puedes reasignar el mismo nombre de la variable a los datos cambiados si lo deseas, como `ejemplo_tensor = ejemplo_tensor + 1`)

In [18]:
(example_tensor - 5) * 2

tensor([[[ -8.,  -6.],
         [ -4.,  -2.]],

        [[  0.,   2.],
         [  4.,   6.]],

        [[  8., -10.],
         [ -8.,  -6.]]])

Puede calcular la media o la desviación estándar de un tensor utilizando [`ejemplo_tensor.mean()`](https://pytorch.org/docs/stable/generated/torch.mean.html) o [`ejemplo_tensor.std()`](https://pytorch.org/docs/stable/generated/torch.std.html). 

In [19]:
print("Mean:", example_tensor.mean())
print("Stdev:", example_tensor.std())

Mean: tensor(4.)
Stdev: tensor(2.9848)


También puede querer encontrar la media o la desviación estándar a lo largo de una dimensión concreta. Para ello, basta con pasar a la función el número correspondiente a esa dimensión. Por ejemplo, si quieres obtener la media de la matriz de $2\times2$ del `tensor_de_ejemplo` de $3\times2\times2$ puedes escribir:

In [20]:
example_tensor.mean(0)

# Equivalently, you could also write:
# example_tensor.mean(dim=0)
# example_tensor.mean(axis=0)
# torch.mean(example_tensor, 0)
# torch.mean(example_tensor, dim=0)
# torch.mean(example_tensor, axis=0)

tensor([[5.0000, 2.6667],
        [3.6667, 4.6667]])

PyTorch tiene muchas otras funciones poderosas, pero estas deberían ser todas las funciones de PyTorch que necesitas para este curso fuera de su módulo de redes neuronales (`torch.nn`).

In [25]:
display(example_tensor)
example_tensor.mean(1)

tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]],

        [[9., 0.],
         [1., 2.]]])

tensor([[2., 3.],
        [6., 7.],
        [5., 1.]])

# PyTorch Neural Network Module (`torch.nn`)

PyTorch tiene un montón de clases poderosas en su módulo `torch.nn` (Normalmente, importado como simplemente `nn`). Estas clases permiten crear una nueva función que transforma un tensor de manera específica, a menudo conservando la información cuando se llama varias veces.

In [19]:
import torch.nn as nn

## `nn.Linear`

Para crear una capa lineal, hay que pasarle el número de dimensiones de entrada y el número de dimensiones de salida. El objeto lineal inicializado como `nn.Linear(10, 2)` tomará una matriz de $n\times10$ y devolverá una matriz de $n\times2$, donde todos los elementos de $n$ han tenido la misma transformación lineal realizada. Por ejemplo, se puede inicializar una capa lineal que realice la operación $Ax + b$, donde $A$ y $b$ se inicializan aleatoriamente al generar el objeto [`nn.Linear()`](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html). 

In [20]:
linear = nn.Linear(10, 2)
example_input = torch.randn(3, 10)
example_output = linear(example_input)
example_output

tensor([[ 0.2900, -0.5352],
        [ 0.4298,  0.4173],
        [ 0.4861, -0.3332]], grad_fn=<AddmmBackward>)

## `nn.ReLU`

[`nn.ReLU()`](https://pytorch.org/docs/stable/generated/torch.nn.ReLU.html) creará un objeto que, al recibir un tensor, realizará una función de activación ReLU. Esto se revisará más adelante en la conferencia, pero en esencia, una no linealidad ReLU establece todos los números negativos en un tensor a cero. En general, las redes neuronales más simples se componen de series de transformaciones lineales, cada una de ellas seguida de funciones de activación.

In [21]:
relu = nn.ReLU()
relu_output = relu(example_output)
relu_output

tensor([[0.2900, 0.0000],
        [0.4298, 0.4173],
        [0.4861, 0.0000]], grad_fn=<ReluBackward0>)

## `nn.BatchNorm1d`

[`nn.BatchNorm1d`](https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm1d.html) es una técnica de normalización que reescalará un lote de $n$ entradas para tener una media y desviación estándar consistente entre lotes.  

Como indica el `1d` en su nombre, esto es para situaciones en las que se espera un conjunto de entradas, donde cada una de ellas es una lista plana de números. En otras palabras, cada entrada es un vector, no una matriz o un tensor de mayor dimensión. Para un conjunto de imágenes, cada una de las cuales es un tensor de mayor dimensión, se utilizaría [`nn.BatchNorm2d`](https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html), que se discute más adelante en esta página.

`nn.BatchNorm1d` toma como argumento el número de dimensiones de entrada de cada objeto del lote (el tamaño de cada vector de ejemplo).

In [22]:
batchnorm = nn.BatchNorm1d(2)
batchnorm_output = batchnorm(relu_output)
batchnorm_output

tensor([[-1.3570, -0.7070],
        [ 0.3368,  1.4140],
        [ 1.0202, -0.7070]], grad_fn=<NativeBatchNormBackward>)

## `nn.Sequential`

[`nn.Sequential`](https://pytorch.org/docs/stable/generated/torch.nn.Sequential.html) crea una única operación que realiza una secuencia de operaciones. Por ejemplo, puede escribir una capa de red neuronal con una normalización por lotes como

In [23]:
mlp_layer = nn.Sequential(
    nn.Linear(5, 2),
    nn.BatchNorm1d(2),
    nn.ReLU()
)

test_example = torch.randn(5,5) + 1
print("input: ")
print(test_example)
print("output: ")
print(mlp_layer(test_example))

input: 
tensor([[ 1.7690,  0.2864,  0.7925,  2.2849,  1.5226],
        [ 0.1877,  0.1367, -0.2833,  2.0905,  0.0454],
        [ 0.7825,  2.2969,  1.2144,  0.2526,  2.5709],
        [-0.4878,  1.9587,  1.6849,  0.5284,  1.9027],
        [ 0.5384,  1.1787,  0.4961, -1.6326,  1.4192]])
output: 
tensor([[0.0000, 1.1865],
        [1.5208, 0.0000],
        [0.0000, 1.1601],
        [0.0000, 0.0000],
        [0.7246, 0.0000]], grad_fn=<ReluBackward0>)


# Optimization

Uno de los aspectos más importantes de cualquier marco de aprendizaje automático es su biblioteca de diferenciación automática. 

## Optimizers

Para crear un optimizador en PyTorch, necesitarás usar el módulo `torch.optim`, a menudo importado como `optim`. [`optim.Adam`](https://pytorch.org/docs/stable/optim.html#torch.optim.Adam) corresponde al optimizador Adam. Para crear un objeto optimizador, tendrás que pasarle los parámetros a optimizar y la tasa de aprendizaje, `lr`, así como cualquier otro parámetro específico del optimizador.

Para todos los objetos `nn`, puede acceder a sus parámetros como una lista utilizando su método `parameters()`, como sigue:

In [24]:
import torch.optim as optim
adam_opt = optim.Adam(mlp_layer.parameters(), lr=1e-1)

## Training Loop

Un paso de entrenamiento (básico) en PyTorch consta de cuatro partes básicas:


1.   Poner todos los gradientes a cero usando `opt.zero_grad()`.
2.   Calcular la pérdida, `loss`.
3.   Calcular los gradientes con respecto a la pérdida usando `loss.backward()`.
4.   Actualizar los parámetros que se están optimizando utilizando `opt.step()`.

Esto podría parecerse al siguiente código (y te darás cuenta de que si lo ejecutas varias veces, la pérdida baja):


In [25]:
train_example = torch.randn(100,5) + 1
adam_opt.zero_grad()

# We'll use a simple loss function of mean distance from 1
# torch.abs takes the absolute value of a tensor
cur_loss = torch.abs(1 - mlp_layer(train_example)).mean()

cur_loss.backward()
adam_opt.step()
print(cur_loss)

tensor(0.7719, grad_fn=<MeanBackward0>)


## `requires_grad_()`

También puedes decirle a PyTorch que necesita calcular el gradiente con respecto a un tensor que hayas creado diciendo `ejemplo_tensor.requires_grad_()`, que lo cambiará en el lugar. Esto significa que incluso si PyTorch no almacenaría normalmente un grad para ese tensor en particular, lo hará para ese tensor especificado. 

## `with torch.no_grad():`

PyTorch suele calcular los gradientes a medida que avanza en un conjunto de operaciones sobre tensores. Esto a menudo puede ocupar cálculos y memoria innecesarios, especialmente si está realizando una evaluación. Sin embargo, puede envolver un trozo de código con `with torch.no_grad()` para evitar que se calculen los gradientes en un trozo de código. 


## `detach():`

A veces, se quiere calcular y utilizar el valor de un tensor sin calcular sus gradientes. Por ejemplo, si tienes dos modelos, A y B, y quieres optimizar directamente los parámetros de A con respecto a la salida de B, sin calcular los gradientes a través de B, entonces podrías alimentar la salida separada de B a A. Hay muchas razones por las que podrías querer hacer esto, incluyendo la eficiencia o las dependencias cíclicas (es decir, A depende de B depende de A).

# New `nn` Classes

También puede crear nuevas clases que extiendan el módulo `nn`. Para estas clases, todos los atributos de la clase, como en `self.layer` o `self.param` serán tratados automáticamente como parámetros si son ellos mismos objetos `nn` o si son tensores envueltos en `nn.Parameter` que se inicializan con la clase. 

La función `__init__` define lo que ocurrirá cuando se cree el objeto. La primera línea de la función init de una clase, por ejemplo, `WellNamedClass`, tiene que ser `super(WellNamedClass, self).__init__()`. 

La función `forward` define lo que se ejecuta si se crea ese objeto `model` y se le pasa un tensor `x`, como en `model(x)`. Si eliges la firma de la función, `(self, x)`, entonces cada llamada de la función forward, obtiene dos piezas de información: `self`, que es una referencia al objeto con la que puedes acceder a todos sus parámetros, y `x`, que es el tensor actual para el que te gustaría devolver `y`.

Una clase podría tener el siguiente aspecto:

In [26]:
class ExampleModule(nn.Module):
    def __init__(self, input_dims, output_dims):
        super(ExampleModule, self).__init__()
        self.linear = nn.Linear(input_dims, output_dims)
        self.exponent = nn.Parameter(torch.tensor(1.))

    def forward(self, x):
        x = self.linear(x)

        # This is the notation for element-wise exponentiation, 
        # which matches python in general
        x = x ** self.exponent 
        
        return x

Y puede ver sus parámetros de la siguiente manera

In [27]:
example_model = ExampleModule(10, 2)
list(example_model.parameters())

[Parameter containing:
 tensor(1., requires_grad=True),
 Parameter containing:
 tensor([[ 0.2789,  0.2618, -0.0678,  0.2766,  0.1436,  0.0917, -0.1669, -0.1887,
           0.0913, -0.1998],
         [-0.1757,  0.0361,  0.1140,  0.2152, -0.1200,  0.1712,  0.0944, -0.0447,
           0.1548,  0.2383]], requires_grad=True),
 Parameter containing:
 tensor([ 0.1881, -0.0834], requires_grad=True)]

Y también puedes imprimir sus nombres, de la siguiente manera:

In [28]:
list(example_model.named_parameters())

[('exponent',
  Parameter containing:
  tensor(1., requires_grad=True)),
 ('linear.weight',
  Parameter containing:
  tensor([[ 0.2789,  0.2618, -0.0678,  0.2766,  0.1436,  0.0917, -0.1669, -0.1887,
            0.0913, -0.1998],
          [-0.1757,  0.0361,  0.1140,  0.2152, -0.1200,  0.1712,  0.0944, -0.0447,
            0.1548,  0.2383]], requires_grad=True)),
 ('linear.bias',
  Parameter containing:
  tensor([ 0.1881, -0.0834], requires_grad=True))]

Y aquí hay un ejemplo de la clase en acción:

In [29]:
input = torch.randn(2, 10)
example_model(input)

tensor([[-0.0567,  0.4562],
        [ 0.3780,  0.3452]], grad_fn=<PowBackward1>)

# 2D Operations

No los necesitarás para la primera lección, y la teoría detrás de cada uno de ellos se revisará más en conferencias posteriores, pero aquí hay una referencia rápida: 


* Convoluciones 2D: [`nn.Conv2d`](https://pytorch.org/docs/master/generated/torch.nn.Conv2d.html) requiere el número de canales de entrada y salida, así como el tamaño del núcleo.
* Convoluciones 2D transpuestas (también conocidas como deconvoluciones): [`nn.ConvTranspose2d`](https://pytorch.org/docs/master/generated/torch.nn.ConvTranspose2d.html) también requiere el número de canales de entrada y salida, así como el tamaño del kernel
* Normalización 2D por lotes: [`nn.BatchNorm2d`](https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html) requiere el número de dimensiones de entrada
* Redimensionamiento de imágenes: [`nn.Upsample`](https://pytorch.org/docs/master/generated/torch.nn.Upsample.html) requiere el tamaño final o un factor de escala. Alternativamente, [`nn.functional.interpolate`](https://pytorch.org/docs/stable/nn.functional.html#torch.nn.functional.interpolate) toma los mismos argumentos.



