<a href="https://colab.research.google.com/github/AlanLopez1017/deep-learning-v2-pytorch/blob/master/PyTorch_preliminares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive._mount('/content/drive')

Mounted at /content/drive


In [None]:
import os
os.chdir('./drive/MyDrive/Python/PyTorch')

In [None]:
pwd

'/content/drive/MyDrive/Python/PyTorch'

In [2]:
pip install d2l

Collecting d2l
  Downloading d2l-0.17.1-py3-none-any.whl (82 kB)
[K     |████████████████████████████████| 82 kB 613 kB/s 
[?25hCollecting numpy==1.18.5
  Downloading numpy-1.18.5-cp37-cp37m-manylinux1_x86_64.whl (20.1 MB)
[K     |████████████████████████████████| 20.1 MB 1.4 MB/s 
[?25hCollecting pandas==1.2.2
  Downloading pandas-1.2.2-cp37-cp37m-manylinux1_x86_64.whl (9.9 MB)
[K     |████████████████████████████████| 9.9 MB 56.1 MB/s 
Collecting matplotlib==3.3.3
  Downloading matplotlib-3.3.3-cp37-cp37m-manylinux1_x86_64.whl (11.6 MB)
[K     |████████████████████████████████| 11.6 MB 46.4 MB/s 
[?25hCollecting requests==2.25.1
  Downloading requests-2.25.1-py2.py3-none-any.whl (61 kB)
[K     |████████████████████████████████| 61 kB 8.8 MB/s 
Installing collected packages: numpy, requests, pandas, matplotlib, d2l
  Attempting uninstall: numpy
    Found existing installation: numpy 1.19.5
    Uninstalling numpy-1.19.5:
      Successfully uninstalled numpy-1.19.5
  Attempting 

# Manipulación de datos
Es importante saber como almacenar y manipular datos. Hay dos aspectos relevantes que tenemos que hacer con ellos:
* Adquisición
* Procesamiento cuando se encuentren en la computadora

Para adquirir datos es necesario saber almacenarlos, es por eso que una matriz n-dimensional o también llamado tensor nos será de ayuda.

## Inicio
Para comenzar se debe importar la librería Torch:


In [None]:
import torch

Un tensor representa un arreglo de valores númericos, siendo probablemente multidimensional. De acuerdo a su número de ejes se denomina de las siguientes formas:
- 1 eje: vector
- 2 ejes: Matrix
- k > 2 ejes: $k^{th}$ tensor de orden 

PyTorch presenta ya funciones para la creación de nuevos tensores con ciertos valores.

Ejemplo:
Con arange(n) se puede crear un vector de valores uniformes, que empiece en 0 (lo incluye) y termine en n (no lo incluye).

Por defecto, el tamaño del intervalo es 1. Los nuevos tensores se almacenan en la memoria principal y se designan para el cálculo basado en la CPU.


In [None]:
x = torch.arange(12,dtype = torch.float32)
x

tensor([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

Podemos conocer la forma de un tensor, es decir, la longitud a través de cada eje, mediante la propiedad _shape_.



In [None]:
x.shape

torch.Size([12])

Si lo que queremos es conocer el número total de elementos de un tensor, o visto de otra forma, el producto de los elementos de la forma, cuando se trata de un vector, tiene un sólo elemento en la forma como se pudo observar, y en este caso, es igual a su tamaño (total de elementos del tensor):


In [None]:
x.numel()

12

Si deseamos cambiar la forma de un tensor sin modificar el número de elementos ni sus valores, podemos usar la función _reshape_.

El vector x con forma (12,) que se ha utilizado se puede transformar en una matriz con forma (3,4). Este nuevo vector tendría los mismos valores pero organizados en 3 filas y 4 columnas. La forma cambió, no obstante, los elementos no:

In [None]:
X = x.reshape(3,4)
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

Los tensores pueden calcular de forma automática una dimensión a partir de las demás. En el ejemplo anterior, si la matriz objetivo tenía forma (altura, ancho), y sabiendo cualquiera de esos valores, ya sea, la altura o el ancho, la no conocida se obtiene implícitamente.

Para que un tensor realice esto, se remplaza un -1 en la dimensión que queremos que se infiera automáticamente.

Para lo que se ha realizado con el vector x, se pudo haber hecho de dos formas:

* x.reshape(3,4) lo cambiamos por -> x.reshape(-1,4)
* x.reshape(3,4) lo cambiamos por -> x.reshape(3,-1)

**Tensores inicializados con cero**

Para obtener tensores inicializadas con ceros, se realiza mediante la propiedad _zeros_. El siguiente ejemplo es un tensor con forma (2,3,4):



In [None]:
torch.zeros((2,3,4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

**Tensores inicializados con unos**

Para obtener tensores inicializadas con unos, se realiza mediante la propiedad _ones_.

In [None]:
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

**Tensores inicializados con valores aleatorios**

Un ejemplo de uso de estos tensores es cuando se crean matrices que funcionan como parámetros de una red neuronal, ya que, normalmente sus valores se inicializan con valores aleatorios.

El siguiente tensor tiene una forma (5,4) y cada elemento se extrajo aleatoriamente de una distribución gausiana estándar (normal) con una media de 0 y desviación estándar de 1. Para esto, se utiliza la propiedad _randn_.


In [None]:
torch.randn(5,4)

tensor([[ 0.2204, -0.8333,  0.1837,  1.2486],
        [-0.5009,  0.1174,  0.7050,  0.7321],
        [-1.4421, -1.2758, -1.2015,  0.7555],
        [-1.6072,  0.7757, -0.0648,  0.8688],
        [-1.4232, -1.9594, -1.8735, -0.6077]])

**Tensores con valores específicos**

Se pueden especificar valores exactos a cada elemento del tensor dando una lista de Python o bien una lista de listas, que contengan valores numéricos.



In [None]:
torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

## Operaciones 
Las operaciones elementales aplican una operación escalar estándar a cada elemento de un array.

El operador escalar unitario (toma una entrada) se denota como $f : \mathbb R \to \mathbb R$, esto nos dice que la función mapea desde un número real a otro.

El operador escalar binario (toma dos entradas reales, y da una entrada) y se denota como $f : \mathbb R, \mathbb R \to \mathbb R$.

Ahora bien, si tenemos dos vectores **u** y **v** de la misma forma, y se tiene un operador binario, podemos producir un vector **c** = F(**u**,**v**), estableciendo $c_i ← f(u_i,v_i)$ para toda $i$, donde $c_i, u_i$ y $v_i$ son los i-ésimos elementos de los vectores.

Los operadores aritméticos estándar (suma, resta, multiplicación, división y exponenciación) son operaciones elementales para cualquier tensor de forma idéntica y arbitraria.

### Operaciones


In [None]:
x = torch.tensor([1.0,2,4,8])
y = torch.tensor([2,2,2,2])
print(x+y) # suma
print(x-y) # resta
print(x*y) # multiplicación
print(x/y) # división
print(x**y) # exponenciación

tensor([ 3.,  4.,  6., 10.])
tensor([-1.,  0.,  2.,  6.])
tensor([ 2.,  4.,  8., 16.])
tensor([0.5000, 1.0000, 2.0000, 4.0000])
tensor([ 1.,  4., 16., 64.])


Otra operación es la de exponenciación de la forma $e^x$:


In [None]:
torch.exp(x)

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

Además de operaciones elementales, se pueden realizar operaciones de álgebra lineal, como productos punto y multiplicación de matrices.

**Concatenar**

Los tensores se pueden concatenar, apilándolos de extremo a extremo para formar un tensor más grande. Se debe proporcionar una lista de tensores y establecer a lo largo de qué eje se quiere concatenar.

Ejemplo: Concatenar dos matrices de forma (3,4), si se realiza a lo largo de las filas, la matriz resultante tiene una forma de (6,4) que es la suma de las filas de ambas matrices (3+3). Esto se realiza de la siguiente forma:

In [None]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0) # concatenar a lo largo de las filas


tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [ 2.,  1.,  4.,  3.],
        [ 1.,  2.,  3.,  4.],
        [ 4.,  3.,  2.,  1.]])

Se observa que se coloca dim = 0, que representa el primer elemento de la forma que son las filas.

Ahora, para hacer la concatenación a lo largo de las columnas, con nuestro ejemplo nos daría una matriz de forma (3,8), que es la suma de las columnas de ambas matrices (4+4), y se coloca el parámetro dim = 1, haciendo referencia al segundo elemento de la forma que son las columnas:


In [None]:
torch.cat((X, Y), dim=1) # concatenar a lo largo de las columnas

tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
        [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
        [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]])

**Tensor binario mediante sentencias lógicas**

Si tomamos a X y Y utilizados previamente, y realizamos X == Y para cada posición y resulta que son iguales en ésta, el tensor tendrá un valor de 1, o bien, True, en caso contrario tomara el valor de 0, o bien False.

In [None]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

**Suma de todos los elemento del tensor**

La suma de todos los elementos da como resultado un tensor de un solo elemento:

In [None]:
X.sum()

tensor(66.)

## Mecanismos de broadcasting
Bajo ciertas condiciones, incluso cuando las formas difieren, se pueden realizar operaciones elementales llamando un mecanismo de broadcasting.

Primero se amplían una o ambas matrices copiando los elementos de forma correcta, tal que tras esta transformación los dos tensores tengan la misma forma. Posterior, se realizan las operaciones elementales.

En la mayoría de los casos se "difune" a lo largo de un eje en donde un arreglo tiene inicialmente longitud de 1, esto se muestra:


In [None]:
a = torch.arange(3).reshape(3,1)
b = torch.arange(2).reshape(1,2)
a,b

(tensor([[0],
         [1],
         [2]]), tensor([[0, 1]]))

La forma de a es (3,1) y la forma de b es (1,2), de modo que no coinciden si queremos sumarlas. 

Para poder sumarlas, se difunden las entradas de ambas matrices en una de forma (3,2). Para a, se replican las columnas, resultado en $a = [[0,0],[1,1],[2,2]]$ y para b, se replican las filas, resultado en $b = [[0,1],[0,1],[0,1]]$. De esta forma, es sencillo obsevar entonces que la suma de a con b, da lo siguiente:

In [None]:
a+b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

## Indexación y slicing
Así como en un arreglo en Python, se puede acceder a los elementos de un tensor por índice, teniendo el primer elemento un índice 0. Así como en las listas, el último elemento se puede acceder a él mediante el -1, y así para las demás posiciones.
[1:3] selecciona el segundo y tercer elemento, el elemento de la posición 4 no se incluye.


In [None]:
X[-1], X[1:3]

(tensor([ 8.,  9., 10., 11.]), tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

Se puede escribir elementos en una matriz mediante los índices:


In [None]:
X[1,2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

Si queremos asignar a varios elementos el mismo valor, se indexan los que se desean, tal como en un array.
Por ejemplo: [0:2,:] accede a la primera y segunda fila, y con : nos indica que toma todas las columnas. 


In [None]:
X[0:2, :] = 12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

## Guardar la memoria
Cuando ejecutamos operaciones puede ocurrir que se asigne nueva memoria a los resultados, aún cuando se asignen a la propia variable.

Por ejemplo, si se realiza la operaciones Y = X+Y, lo que ocurre es que ya no se referencía el tensor al que apuntaba Y, sino que ahora se apunta Y a la memoria recién asignada. Esto se observa a continuación, con la función __id()__ de Python, nos da la dirección exacta del objeto referenciado en memoria.
Si se ejecuta Y = Y+X, nos arrojará que id(Y) ahora apunta a una dirección diferente,  debido a que primero se evalúa Y+X, asignando nueva memoria para el resultado y luego hace que Y apunte a esta nueva dirección en memoria.
Es por esto que el siguiente código da False.


In [None]:
before = id(Y)
Y = Y + X
id(Y) == before

False

Esto puede ser indeseable por dos razones. Primero, porque no se quiere estar asignando memoria innecesaria cada vez, sino que es deseable que se realicen las actualizaciones en el mismo lugar. Segundo, porque al tener cientos de megabytes de parámetros en ciertos proyectos, podríamos apuntar a los mismos parámetros desde múltiples variables.

No obstante, realizar operaciones en el mismo lugar es sencillo. Podemos asignar el resultado de una operación a una matriz previamente asignada con la notación slice, por ejemplo: Y[:] = <expresión>. 
Para realizar esto, primero creamos una matriz nueva Z con la misma forma que Y, utilizando la función __zeros_like__ para asignar un bloque de 0 entradas.


In [None]:
Z = torch.zeros_like(Y)
print(Z)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])
id(Z): 140154347304144
id(Z): 140154347304144


Ahora bien, si el valor de X no se utiliza más adelante, tambien se puede utilizar lo siguiente; X[:] = X+Y, o, X+=Y para reducir la sobrecarga de memoria de la operación. En el código siguiente se observa que funciona correctamente.

In [None]:
before = id(X)
X += Y
id(X) == before

True

## Conversión a otros objetos de Python
**Convertir a un tensor NumPy**

El tensor de torch y el array de Numpy compartirán ubicaciones de memoria subyacentes, y el cambio de uno a través de una operación in-place también cambiará el otro.

In [None]:
A = X.numpy()
B = torch.from_numpy(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

Para convertir un tensor de tamaño 1 en un escalar de python, podemos usar la función __item__ o funciones incorporadas en Python como float o int.


In [None]:
a = torch.tensor([3.5])
a,a.item(),float(a),int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

# Preprocesamiento de datos
El paqueta pandas es una de las herramientas populares de análisis de datos en Python. Pandas puede trabajar con tensores.
Para aplicar el aprendizaje profundo a la resolución de problemas, se comienza con un preprocesamiento de datos en bruto, en vez de aquellos datos bien preparados en el formato de tensor. Por esto, con pandas se hace el preprocesamiento para de ahí convertirlos en el formato tensor.

## Lectura del conjunto de datos
Se comenzará creando un conjunto de datos artificial que se almacena en un archivo csv: ./data/house_tiny.csv.

Se escribira el conjunto de datos fila por fila en un archivo csv:

In [None]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
  f.write('NumRooms,Alley,Price\n')  # Nombre de las columnas
  f.write('NA,Pave,127500\n')  # Cada fila representa un ejemplo de datos
  f.write('2,NA,106000\n')
  f.write('4,NA,178100\n')
  f.write('NA,NA,140000\n')

Para cargar el conjunto de datos en bruto desde el archivo csv que se creó, se importa el paquete pandas y se utiliza su función _read_csv_.

El conjunto de datos tiene 4 filas y 3 columnas, en donde cada fila describe el número de habitaciones ("NumRooms"), el tipo de callejón ("Alley") y el precio ("Price") de una casa, tal como se observó en el código anterior.


In [None]:
!pip install pandas # instalación de pandas



In [None]:
import pandas as pd
data = pd.read_csv(data_file)

print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


## Tratamiento de datos faltantes
Los valores NaN que se observan, son valores perdidos. Para tratar a estos datos, los métodos típicos son la imputación y la eliminación, donde la imputación sustituye los valores que faltan por otros sustituidos, y la eliminación ignora los valores que faltan.

Considerando la imputación, tenemos:
Mediante la indexación basada en la localización de enteros (iloc), dividimos los datos en entradas y salidas, siendo las entradas las dos primeras columnas y la salida la última columna. Para los valores que faltan, se sustituye en NaN por el valor medio de su columna correspondiente. Esto se realiza de la siguiente forma:


In [None]:
inputs,outputs = data.iloc[:,0:2], data.iloc[:,2]
inputs = inputs.fillna(inputs.mean()) # sustituye NaN por valor medio de la columna
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


Para los valores categóricos o discretos en las entradas, consideraremos NaN como una categoría. De este modo, Alley está contituido de Pave y NaN, con esto, pandas puede convertir automáticamente esta columna en dos columnas, una con el nombre "Alley_Pave" y la otra con "Alley_nan". Una fila cuya tipo de callejón sea "Pave" establecerá los valores de "Alley_Pave" y "Alley_nan" a 1, y 0. Una fila con tipo de callejon ausente, establecerá los valores 0 y 1. Esto se puede apreciar en el siguiente código:


In [None]:
inputs = pd.get_dummies(inputs,dummy_na = True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


## Conversión al formato Tensor
Como todas las entradas y salidas son numéricas, se puede convertir al formato Tensor. Cuando estén en dicho formato, ya pueden ser manipulados con las funciones de los tensores.

X: Entradas
y: Salidas

In [None]:
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X,y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

# Algebra lineal

## Escalares
Valores que constan de una sola cantidad numérica.

Si queremos convertir grados Fahrenheit a Celsius, se usa la siguiente expresión: $c = \frac{5}{9}(f-32)$, donde $\frac{5}{9}$  y 32 son escalares. Las letras $c$ y $f$ representan valores escalares desconocidos.

Las variables se denotan por letras en minúsculas en este apartado. $\mathbb R$ denota el espacio de todos los escalares de valor real.

$x \in \mathbb R$ es una forma de decir que $x$ es un escalar de valor real.

Un escalar es representado por un tensor con un solo elemento.

A continuación, se muestran 2 escalares y se realizan operaciones aritméticas.

In [None]:
import torch
x = torch.tensor(3.0)
y = torch.tensor(2.0)
print(x+y) # suma
print(x*y) # multiplicación
print(x/y) # división
print(x**y) # exponenciación

tensor(5.)
tensor(6.)
tensor(1.5000)
tensor(9.)


## Vectores
Se puede pensar un vector como una simple lista de valores escalares. Estos serán llamados elementos (entradas o componentes) del vector.

En la notación matemática, se suele denotar a los vectores con letras minúsculas y en negrita: **x**,**y** y **z**.

Los vectores son tensores unidimensionales, de longitudes arbitrarias:

In [None]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

Podemos referirnos al i-ésimo elemento de **x** mediante $x_i$, siendo $x_i$ un escalar.
En la literatura, por defecto a los vectores se consideran como vectores columnas.

\begin{equation}
x =\begin{pmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n 
\end{pmatrix}
\end{equation}


donde $x_1,...,x_n$ son elementos del vector, y accedemos a cada elemento mediante indexación en el tensor:


In [None]:
x[3] # elemento 4 del vector

tensor(3)

## **Longitud, dimensionalidad y forma**
Un vector es un arreglo de números. Cada vector tiene una longitud.

En notación matemática, si queremos decir que un vector **x** consiste de $n$ escalares de valor real, se puede expresar como **x** $\in \mathbb R^n$.

La longitud del vector se llama comúnmente como la dimensión del vector.

Podemos saber la longitud de un tensor mediante la función _len_.


In [None]:
len(x) # longitud o dimensión de x

4

Cuando un tensor representa un vector, se puede obtener su longitud al obtener su atributo de forma con _.shape_. La forma es una tupla que enlista la longitud a lo largo de cada eje del tensor, y al hablar de un vector, nos arroja su longitud:


In [None]:
x.shape

torch.Size([4])

## Matrices
Las matrices generalizan vectores de orden 1 a orden 2.
Se denotan típicamente con letras mayúsculas: **X**, **Y** y **Z**.
En código se representan como tensores con 2 ejes.

En notación matemática, se usa **A** $\in \mathbb R^{m \times n}$ para expresar que la matriz **A** consiste de $m$ filas y de $n$ columnas de escalares de valor real.

Se puede ver como una tabla donde cada elemento $a_{ij}$ pertenece a la i-ésima fila y j-ésima columna.

\begin{equation}
A =\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n}\\
a_{21} & a_{22} & \cdots & a_{2n}\\
\vdots & \vdots & \ddots & \vdots\\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{pmatrix}
\end{equation}

Si $m = n$ se dice que la matriz es cuadrada.

Para crear una matriz tenemos que especificar la forma con dos componentes, tal y como se muestra:


In [None]:
A = torch.arange(20).reshape(5,4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

Podemos acceder al elemento $a_{ij}$ de la matriz A, especificando los índices de las filas (i) y columnas (j), tal como $[\textbf{A}]_{i,j}$ 

**Transpuesta de una matriz**

La transpuesta de una matriz es cuando se intercambian filas por columnas de la matriz y se denota por $\textbf{A}^{T}$, y si tenemos que $\textbf{B} = \textbf{A}^{T}$, entonces $b_{ij} = a_{ji}$, para cualquier $i$ y $j$.

\begin{equation}
A ^T=\begin{pmatrix}
a_{11} & a_{21} & \cdots & a_{m1}\\
a_{12} & a_{22} & \cdots & a_{m2}\\
\vdots & \vdots & \ddots & \vdots\\
a_{1n} & a_{2n} & \cdots & a_{mn}
\end{pmatrix}
\end{equation}

In [None]:
A.T # transpuesta de una matriz

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

**Matriz simétrica**

Una matriz es simétrica si es igual a su transpuesta.
$\textbf{A} = \textbf{A}^{T}$


In [None]:
B = torch.tensor([[1,2,3],[2,0,4],[3,4,5]]) # B es una matriz simétrica

In [None]:
B == B.T # se iguala con su transpuesta y debe dar todos verdaderos

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

## Tensores
Los tensores nos dan una forma genérica de describir a los arreglos n-dimensionales con un número arbitrario de ejes.

Los vectores son tensores de primer orden, las matrices son tensores de segundo orden. Los tensores se denotan por letras mayusculas y un tipo de letras especial, y su mecanismo de indexación es similar al de matrices.

Cuando se trabaja con imágenes los tensores tienen una gran importancia, ya que éstas llegan como arreglos n-dimensionales con 3 ejes correspondientes a la altura, anchura y un eje de canal para apilar los canales de color (rojo, verde y azul). 

Ejemplo de tensor:


In [None]:
X = torch.arange(24).reshape(2,3,4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

## Propiedades básicas aritmética tensorial
Dados dos tensores de la misma forma, el resultado de cualquier operación elemental binaria será un tensor con la misma forma, por ejemplo, si se suman dos matrices de la misma forma, se realiza una suma elemental sobre estas dos matrices.


In [None]:
A = torch.arange(20,dtype=torch.float32).reshape(5,4)
B = A.clone() # asigna una copia de A a B asignando nueva memoria
A,A+B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]), tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

La multiplicación elemental de dos matrices de denomina producto Hadamard (en notación matemática $\odot$).

Si tenemos una matriz $\textbf{B} \in \mathbb R^{m\times n}$, con los elementos de filas $i$ y columnas $j$ como $b_{ij}$. El producto Hadamard de matrices $\textbf{A}$ y $\textbf{B}$, se encuentra definida como:

\begin{equation}
A \odot B = \begin{pmatrix}
a_{11}b_{11} & a_{12}b_{12} & \cdots & a_{1n}b_{1n}\\
a_{21}b_{21} & a_{22}b_{22} & \cdots & a_{2n}b_{2n}\\
\vdots & \vdots & \ddots & \vdots\\
a_{m1}b_{m1} & a_{m2}b_{m2} & \cdots & a_{mn}b_{mn}
\end{pmatrix}
\end{equation}

In [None]:
A*B # producto Hadamard

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

Multiplicar o sumar un tensor por un escalar, tampoco cambia la forma del tensor. Cada elemento del tensor será sumado o multiplicado por el escalar.

En el siguiente código se suma un 2 al tensor X y también se multiplica por 2 al tensor X.

In [None]:
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]), torch.Size([2, 3, 4]))

## Reducción
Una operación útil que se puede realizar con tensores es calcular la suma de sus elementos. En código basta con llamar a la función para calcular la suma:


In [None]:
x = torch.arange(4,dtype = torch.float32)
x,x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

Podemos expresar sumas sobre los elementos de tensores de forma arbitrarria.
Por ejemplo, la suma de los elementos de una matriz $\textbf{A}$ de $m \times n$ se puede escribir como:

$\sum_{i = 1}^{m}\sum_{j = 1}^{n}a_{ij}$


In [None]:
A.shape, A.sum()
A

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])

Por defecto, la suma reduce un tensor a lo largo de todos sus ejes a un escalar, no obstante, podemos especificiar los ejes a lo largo de los cuales se reduce el tensor mediante la suma.

Si usamos las matrices como ejemplo, y reducimos la dimensión de la fila (eje 0) sumando los elementos de todas las filas, especificamos eje = 0 al llamar a la función.

Al realizar esto, se sumaría la primer columna y se colocaría el resultado en el primer elemento del eje 0, para la segunda columna es lo mismo, colocándose el resultado en el segundo elemento del eje 0. Esto se puede ver a continuación:


In [None]:
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40., 45., 50., 55.]), torch.Size([4]))

En cambio, si se coloca como parámetro al eje 1, se hace la suma por filas (se suman los elementos de la fila 1, de la fila 2, así sucesivamente), es decir, sumando los elementos de las columnas.

Con el ejemplo que se ha utilizado resulta lo siguiente:


In [None]:
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

Si reducimos la matriz a lo largo de las filas y columnas es equivalente a sumar todos los elementos de la matriz:


In [None]:
A.sum(axis=[0, 1]) # esto es igual a A.sum()

tensor(190.)

Una cantidad relacionada es la media o promedio. Esto se obtiene dividiendo la suma entre el número total de elementos. Mediante código resulta:

In [None]:
A.mean(), A.sum() / A.numel() # se puede realizar de ambas formas

(tensor(9.5000), tensor(9.5000))

La media también puede reducir el tensor a lo largo de los ejes especificados, como ocurría con la suma:


In [None]:
A.mean(axis=0), A.sum(axis=0) / A.shape[0] # se puede hacer de ambas formas

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

### **Suma sin reducción**
A veces se puede mantener el número de ejes sin cambios cuando se llama a la función suma o media, mediante el parámetro _keepdims = True_.


In [None]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

Como la sum_A sigue conservando sus dos ejes después de sumar cada fila, se puede dividir A entre la sum_A mediante difusión:


In [None]:
A/sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

Si queremos calcular la suma acumulativa de elementos de A a lo largo de algún eje, podemos llamar a la función _cumsum_, es decir, se conserva la forma de la matriz pero en los ejes se va poniendo la suma en base a si es con respecto a las filas o a las columnas. Esto se observa en lo siguiente:


In [None]:
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

## Productos puntos
Dados dos vectores $\textbf{x}$ y $\textbf{y} \in \mathbb R^d$, su producto punto denotado por $\textbf{x}^T\textbf{y}$ ó $⟨\textbf{x},\textbf{y}⟩$, es una suma sobre los productos de los elementos en la misma posición, es decir, se multiplica el elemento 1 de un vector con el elemento 1 del otro, y así con todos los elementos y finalmente se hace la suma; en notación matemática es:
$\textbf{x}^T\textbf{y} = \sum_{i=1}^d x_iy_i$:


In [None]:
x = torch.arange(4, dtype=torch.float32) # vector x
y = torch.ones(4,dtype = torch.float32) # vector y
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

El producto punto se puede expresar mediante la multiplicación po elementos y luego la suma, en lugar de usar _dot_:


In [None]:
torch.sum(x * y)

tensor(6.)

El producto punto expresa una media ponderada. 

Si tenemos dos vectores normalizados (su magnitud es la unidad), el producto punto entre ellos expresan el coseno del ángulo entre ellos.

## Productos Matriz-Vector
Una matriz $\textbf{A}$ en términos de sus vectores fila se visualiza como


\begin{equation}
\textbf{A}   = \begin{pmatrix}
\textbf{a}_1^T\\
\textbf{a}_2^T \\
\vdots \\
\textbf{a}_m^T\end{pmatrix}
\end{equation}

donde cada $\textbf{a}_1^T \in \mathbb R^n$ es un vector fila que representa la i-ésima fila de la matriz $\textbf{A}$.

El producto matriz-vector $\textbf{A}\textbf{x}$ es un simple vector columna de longitud $m$, cuyo i-ésimo elemento es el producto punto $\textbf{a}_1^T\textbf{x}$:

\begin{equation}
\textbf{Ax}  = \begin{pmatrix}
\textbf{a}_1^T\textbf{x}\\
\textbf{a}_2^T\textbf{x} \\
\vdots \\
\textbf{a}_m^T\textbf{x}\end{pmatrix}
\end{equation}

Podemos pensar a la multiplicación por una matriz $\textbf{A}$ como una transformación que proyecta vectores de $\mathbb R^n$ a $\mathbb R^m$.


Para expresar los productos matriz-vector con tensores se utiliza la función _mv_. La dimensión de la columna de la matriz $\textbf{A}$ (longitud a lo largo del eje 1), tiene que ser igual a la dimensión del vector $\textbf{x}$:



In [None]:
A.shape, x.shape, torch.mv(A, x) 

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

## Multiplicación Matriz-Matriz
Se tiene a las dos matrices $\textbf{A} \in \mathbb R^{n \times k}$ y $\textbf{B} \in \mathbb R^{k \times m}$, definidas como:

\begin{equation}
\textbf{A} = \begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1k}\\
a_{21} & a_{22} & \cdots & a_{2k}\\
\vdots & \vdots & \ddots & \vdots\\
a_{n1} & a_{n2} & \cdots & a_{nk}
\end{pmatrix}
\end{equation}

\begin{equation}
\textbf{B} = \begin{pmatrix}
b_{11} & b_{12} & \cdots & b_{1m}\\
b_{21} & b_{22} & \cdots & b_{2m}\\
\vdots & \vdots & \ddots & \vdots\\
b_{k1} & b_{k2} & \cdots & b_{nm}
\end{pmatrix}
\end{equation}

Denotamos como $\textbf{a}_i^T \in \mathbb R^k$ al vector fila que representa la i-ésima fila de la matriz $\textbf{A}$ y $\textbf{b}_j^T \in \mathbb R^k$ al vector columna de la j-ésima columna de la matriz $\textbf{B}$. 

Para producir el producto matricial $\textbf{C} = \textbf{AB}$, se piensan a las matrices $\textbf{A}$ y $\textbf{B}$ en términos de vectores fila, y columna, respectivamente:

\begin{equation}
\textbf{A}  = \begin{pmatrix}
\textbf{a}_1^T\\
\textbf{a}_2^T \\
\vdots \\
\textbf{a}_n^T\end{pmatrix}
\end{equation}


\begin{equation}
\textbf{B}  = \begin{pmatrix}
\textbf{b}_1 & \textbf{b}_2 & \cdots & \textbf{b}_m\\
\end{pmatrix}
\end{equation}

La matriz resultante $\textbf{C} \int \mathbb R^{n \times m}$ se produce calculando cada elemento $c_{ij}$ mediante el producto punto $\textbf{a}_i^T\textbf{b}_j$


\begin{equation}
\textbf{C}  = \textbf{AB} = \begin{pmatrix}
\textbf{a}_1^T\\
\textbf{a}_2^T \\
\vdots \\
\textbf{a}_n^T\end{pmatrix}\begin{pmatrix}
\textbf{b}_1 & \textbf{b}_2 & \cdots & \textbf{b}_m\\
\end{pmatrix} = \begin{pmatrix}
\textbf{a}_1^T\textbf{b}_1 & \textbf{a}_1^T\textbf{b}_2 & \cdots & \textbf{a}_1^T\textbf{b}_m\\
\textbf{a}_2^T\textbf{b}_1 & \textbf{a}_2^T\textbf{b}_2 & \cdots & \textbf{a}_2^T\textbf{b}_m\\
\vdots & \vdots & \ddots & \vdots\\
\textbf{a}_n^T\textbf{b}_1 & \textbf{a}_n^T\textbf{b}_2 & \cdots & \textbf{a}_n^T\textbf{b}_m
\end{pmatrix}
\end{equation}


En esta multiplicación, si la primera matriz tiene dimensión ($n,k$) y la segunda tiene dimensión ($k,m$), vemos que la primer matriz debe tener las mismas columnas que filas la segunda matriz. El resultado tendrá una dimensión igual a los extremos de las dos matrices multiplicadas, es decir, ($n,m$).

En código se utiliza la función _mm_. 

In [None]:
B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

## Norma
La norma nos indica el tamaño de un vector, siendo aquí referente a la magnitud de los componentes y no a su dimensionalidad.

Una norma vectorial es una función $f$ que mapea un vector a un escalar satisfaciendo diversas propiedades.

**Propiedades**\
Dado cualquier vector $\textbf{x}$:

* Si se escalan todos los elementos del vector por un factor constante $\alpha$, la norma también se escala por el valor absoluto del mismo factor constante:

$f(\alpha\textbf{x}) = |\alpha|f(\textbf{x})$

* Desigualdad del triangulo:

$f(\textbf{x}+\textbf{y}) \leq f(\textbf{x}) + f(\textbf{y})$

* La norma debe no debe ser negativa:

$f(\textbf{x}) \geq 0$

* La norma más pequeña se obtiene sólo si el vector consiste de puros ceros:

$\forall_i ,[\textbf{x}_i]$ = 0 $↔ f(\textbf{x}) = 0$


La distancia euclidea es una norma, es la norma **$L_2$**:

La norma **$L_2$** de $\textbf{x}$ es la raíz cuadrada de la suma de los cuadrados de los elementos del vector:

$∥\textbf{x}∥_2 = \sqrt{\sum_{i = 1}^n x_i^2}$

La norma **$L_2$** se puede calcular en código mediante:


In [None]:
u = torch.tensor([3.0, -4.0])
torch.norm(u) # norma L2 del vector u

tensor(5.)

La norma **$L_1$** también es frecuente, y se expresa como la suma de los valores absolutos de los elementos del vector:

$∥\textbf{x}∥_1 = \sum_{i = 1}^n |x_i|$

Para calcular esta norma mediante código, se compone la función de valor absoluto con la suma de los elementos:



In [None]:
torch.abs(u).sum() # norma L1 del vector u


tensor(7.)

Estas dos normas, son casos especiales de la norma **$L_p$** más general:

$∥\textbf{x}∥_p = (\sum_{i = 1}^n |x_i|^p)^{\frac{1}{p}}$

Para el caso de matrices y similar a la norma **$L_2$**, la norma Frobenius de una matriz $\textbf{X} \in \mathbb R^{m \times n}$ es la raíz cuadrada de la suma de los cuadrados de los elementos de la matriz:

$∥\textbf{X}∥_F = \sqrt{\sum_{i = 1}^m\sum_{j = 1}^n x_{ij}^2}$

Esta norma satisface las propiedades de las normas vectoriales.

Se calcula en código mediante:



In [None]:
torch.norm(torch.ones((4,9)))

tensor(6.)

# Cálculo
Las aplicaciones más críticas del cálculo diferencial son los problemas de optimización.

En el aprendizaje profundo, se entrenan modelos actualizándolos para que mejoren conforme se ven más datos, mejorar hace referencia a minimizar una función de pérdida.

Lo que importa es producir un modelo que funcione bien con datos que nunca hemos visto, pero ajustando el modelo a los datos que realmente vemos.

El ajuste de modelos se puede dividir en dos aspectos clave:

i) Optimización: proceso de ajuste de nuestros modelos a datos observados.

ii) Generalización: principios matemáticos y conocimiento de profesionales que orientan sobre cómo producir modelos cuya validez se extiende más allá del conjunto exacto de ejemplos de datos utilizados para entrenarlos.

## Diferenciación y derivadas

En el aprendizaje automático, se eligen funciones de pérdida que son diferenciables respecto a parámetros del modelo, esto nos dice que podemos saber la rapidez con que aumentaría o disminuiría la pérdida si aumentáramos o disminuyéramos ese parámetros en una cantidad infinitesimal.

Supongamos una función $f: \mathbb R \to \mathbb R$, cuya entrada y salida son escalares. La derivada de $f$ se define como:

$f'(x) = \lim_{h \to 0} \frac{f(x+h)-f(x)}{h}$

si el límite existe.

Si $f'(a)$ existe, $f$ es diferenciable en $a$. Así mismo, si $f$ es diferenciable en cada número de un intervalo, entonces $f$ es diferenciable en este intervalo. La derivada la podemos interpretar como la tasa de cambio instantánea de $f(x)$ con respecto a $x$.


Ejemplo:

Tenemos la función $u = f(x) = 3x^2-4x$



In [None]:
%matplotlib inline
import numpy as np
from IPython import display
#from d2l import torch as d2l

def f(x):
  return 3*x**2-4*x

Conforme h se acerca a 0, y estableciendo $x = 1$, la derivada va teniendo un valor igual a 2, esto se muestra a continuación:

In [None]:
def numerical_lim(f,x,h):
  return (f(x+h)-f(x))/h # derivada de f

h = 0.1

for i in range(5):
  print(f"h = {h:.5f}, limite = {numerical_lim(f,1,h):.5f}")
  h *= 0.1

h = 0.10000, limite = 2.30000
h = 0.01000, limite = 2.03000
h = 0.00100, limite = 2.00300
h = 0.00010, limite = 2.00030
h = 0.00001, limite = 2.00003


**Expresiones equivalentes para la derivada**

$f'(x) = y' = \frac{dy}{dx} = \frac{df}{dx} = \frac{d}{dx}f(x) = Df(x) = D_xf(x)$

los simbolos $\frac{d}{dx}$ y $D$ son operadores de diferenciación.

**Reglas para diferenciar funciones comunes:**

* $DC = 0$ ($C$ es una constante)
* $Dx^n = nx^{n-1}$ ($n$ cualquier número real)
* $De^x = e^x$
* $D$ln$(x)$ = $\frac{1}{x}$

**Reglas de derivación**

$f$ y $g$ son funciones diferenciables y $C$ es una constante:


* $\frac{d}{dx}[Cf(x)] = C\frac{d}{dx}f(x)$
* Regla de la suma

$\frac{d}{dx}[f(x)+g(x)] = \frac{d}{dx}f(x)+\frac{d}{dx}g(x)$

* Regla del producto

$\frac{d}{dx}[f(x)g(x)] = f(x)\frac{d}{dx}[g(x)]+g(x)\frac{d}{dx}[f(x)]$

* Regla del cociente

$\frac{d}{dx}[\frac{f(x)}{g(x)}] = \frac{g(x)\frac{d}{dx}[f(x)]-f(x)\frac{d}{dx}[g(x)]}{[g(x)]^2}$

Para visualizar la interpretación de las derivadas, se utilzará la librería matplotlib. Además, funciones como _use_svg_display_ especifica que el paquete matplotlib produzca las figuras svg para obtener imágenes más nítidas.

Tenemos primero la siguiente función:




In [None]:
def use_svg_display():  
    """Usa el formato svg para desplegar un gráfico en Jupyter."""
    display.set_matplotlib_formats('svg')

Ahora se define la función set_figsize para especificar los tamaños de las figuras.

In [None]:
def set_figsize(figsize=(3.5, 2.5)):  
    """Set the figure size for matplotlib."""
    use_svg_display()
    d2l.plt.rcParams['figure.figsize'] = figsize

La siguiente función set_axes establece las propiedades de los ejes de las figuras producidas por matplotlib.


In [None]:
def set_axes(axes, xlabel, ylabel, xlim, ylim, xscale, yscale, legend):
    """Configura los ejes para matplotlib"""
    axes.set_xlabel(xlabel)
    axes.set_ylabel(ylabel)
    axes.set_xscale(xscale)
    axes.set_yscale(yscale)
    axes.set_xlim(xlim)
    axes.set_ylim(ylim)
    if legend:
        axes.legend(legend)
    axes.grid()

La siguiente función plot grafica múltiples curvas:


In [None]:
def plot(X, Y=None, xlabel=None, ylabel=None, legend=None, xlim=None,
         ylim=None, xscale='linear', yscale='linear',
         fmts=('-', 'm--', 'g-.', 'r:'), figsize=(3.5, 2.5), axes=None):
    """Grafica puntos de datos."""
    if legend is None:
        legend = []

    set_figsize(figsize)
    axes = axes if axes else d2l.plt.gca()

    # Regresa True si X (tensor o lista) tiene 1 eje
    def has_one_axis(X):
        return (hasattr(X, "ndim") and X.ndim == 1 or isinstance(X, list)
                and not hasattr(X[0], "__len__"))

    if has_one_axis(X):
        X = [X]
    if Y is None:
        X, Y = [[]] * len(X), X
    elif has_one_axis(Y):
        Y = [Y]
    if len(X) != len(Y):
        X = X * len(Y)
    axes.cla()
    for x, y, fmt in zip(X, Y, fmts):
        if len(x):
            axes.plot(x, y, fmt)
        else:
            axes.plot(y, fmt)
    set_axes(axes, xlabel, ylabel, xlim, ylim, xscale, yscale, legend)

Podemos graficar la función $y = 2x-3$ en el punto $x = 1$.

In [None]:
x = np.arange(0, 3, 0.1)
plot(x, [f(x), 2 * x - 3], 'x', 'f(x)', legend=['f(x)', 'Tangent line (x=1)'])

NameError: ignored

## Derivadas parciales
 En el aprendizaje profundo, las funciones suelen depender de muchas variables, es por eso que son de importancia las derivadas parciales, en donde se derivan funciones multivariables respecto a variables específicas.

 Sea $y = f(x_1,x_2,...,x_n)$ una función con $n$ variables. La derivada parcial de $y$ respecto a el i-ésimo parámetro $x_i$ es:

 $\frac{\partial y}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1,...,x_{i-1},x_i+h,x_{i+1},...,x_n)-f(x_1,...,x_i,...,x_n)}{h}$

 Para calcular $\frac{\partial y}{\partial x_i}$ simplemente podemos tratar a $x_1,...,x_{i-1},x_{i+1},...,x_n$ como constantes, y calcular la derivada de $y$ con respecto a $x_i$.

 ## Gradientes
 Podemos concatenar las derivadas parciales de una función multivariable con respecto a todas sus variables para obtener el vector gradiente de la función.

 Supongamos que la entrada de la función $f : \mathbb R^n \to \mathbb R$ es un vector $n-$dimensional $\textbf{x} = [x_1,x_2,...,x_n]$ y la salida es un escalar. El gradiente de la función $f(\textbf{x})$ con respecto a $\textbf{x}$ es un vector de $n$ derivadas parciales:

 $\nabla_xf(\textbf{x}) = [\frac{\partial f(\textbf{x})}{\partial x_1},\frac{\partial f(\textbf{x})}{\partial x_2},...,\frac{\partial f(\textbf{x})}{\partial x_n}]^T$


**Reglas utilizadas al diferenciar funciones multivariadas**

* $\forall \textbf{A} \in \mathbb R^{m \times n}, \nabla_x \textbf{Ax} = \textbf{A}^T$
*  $\forall \textbf{A} \in \mathbb R^{n \times m}, \nabla_x \textbf{x}^T\textbf{A} = \textbf{A}$
*  $\forall \textbf{A} \in \mathbb R^{n \times n}, \nabla_x \textbf{x}^T\textbf{A}\textbf{x} = (\textbf{A}+\textbf{A}^T)\textbf{x}$
* $\nabla_x∥\textbf{x}∥^2 = \nabla_x \textbf{x}^T\textbf{x} = 2\textbf{x}$


## Regla de la cadena
La regla de la cadena permite diferencias funciones compuestas.

Consideremos funciones de una variable. Supongamos que las funciones $y = f(u)$ y $u = g(x)$ son ambas diferenciables, entonces la regla de la cadena establece que

$\frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx}$

Funciones multivariables. Supongamos que la funcipon diferenciable $y$ tiene variables $u_1,u_2,...,u_m$, donde cada función diferenciable $u_i$ tiene variables $x_1,x_2,...,x_n$. Por tanto, $y$ es una función de $x_1,x_2,...,x_n$. La regla de la cadena resulta:

$\frac{dy}{dx_i} = \frac{dy}{du_1}\frac{du_1}{dx_i}+\frac{dy}{du_2}\frac{du_2}{dx_i}+...+\frac{dy}{du_m}\frac{du_m}{dx_i}$

para cualquier $i = 1,2,...,n$. 


## Diferenciación automática
La diferenciación es crucial en casi todos los algoritmos de optimización del aprendizaje profundo.

Basándonos en nuestro modelo diseñado, el sistema construye un gráfico computacional, rastreando qué datos se combinan a través de qué operaciones para producir la salida.
La diferenciación automática permite al sistema retropropagar posteriormente los gradientes. Con retropropagar nos referimos a recorrer el gráfico computacional, rellenando las derivadas pariales con respecto a cada parámetro.

#### Un ejemplo sencillo

Supongamos que queremos diferenciar la función $ y = 2\textbf{x}^T\textbf{x}$ con respecto al vector columna $\textbf{x}$. Para esto, se crea la variable $\textbf{x}$ y se le asigna un valor inicial:



In [None]:
import torch
x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

Antes de calcular el gradiente, se necesita un lugar para almacenarlo. Se debe tomar en cuenta que no se debe asignar nueva memoria cada vez que se tome una derivada respecto a un parámetro, ya que, probablemente se actualice millones de veces. 

In [None]:
x.requires_grad_(True) # esto es lo mismo a poner x = torch.arange(4.0,requires_grad = True)
x.grad # el valor por defecto es None

In [None]:
y = 2*torch.dot(x,x) # funcion y 
y

tensor(28., grad_fn=<MulBackward0>)

El vector x tiene longitud 4, y al hacer producto punto con él mismo, se obtiene un escalar que se asigna a y. El gradiente de $y$ respecto a cada componente de $\textbf{x}$ se puede obtener llamando a la función de retropropagación, y luego imprimimos el gradiente:


In [None]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

El gradiente de $y = 2\textbf{x}^T\textbf{x}$ con respecto a $\textbf{x}$ debería ser $4\textbf{x}$. Para verificar comparamos el gradiente obtenido con el valor que debe ser y comprobamos si la operación fue correcta:


In [None]:
x.grad == 4*x

tensor([True, True, True, True])

Calculando otra función de $x$, tenemos lo siguiente.
El gradiente se acumula, entonces se debe limpiar previamente:

In [None]:
x.grad.zero_() # limpiar gradiente
y = x.sum() # funcion que es la suma de los elementos del vector x
y.backward() # retropropagación
x.grad # imprime gradiente

tensor([1., 1., 1., 1.])

## Retropropagación de variables no escalares
La interpretación de la diferenciación de un vector $\textbf{y}$ (que no es ecalar) con respecto a un vector $\textbf{x}$ es una matriz. Para vectores de mayor orden y dimensión, el resultado podría ser un tensor de alto orden.

En estos ejemplos no se pretende calcular la matriz de diferenciación, sino la suma de las derivadas parciales calculadas indivialmente para cada ejemplo en el lote.

Llamar a la función _backward_ en una función no escalar requiere pasar un argumento "gradient" que especifica el gradiente de la función diferenciada con respecto a "self". En este ejemplo, simplemente queremos sumar las derivadas parciales, por lo que pasar un gradiente de puros unos es adecuado:


In [None]:
x.grad.zero_()
y = x*x

y.sum().backward() # esto es igual a y.backward(torch.ones(len(x)))
x.grad

tensor([0., 2., 4., 6.])

## Cálculo de desprendimiento

Digamos que tenemos a una función $\textbf{y}$ como una función de $\textbf{x}$, y una función $\textbf{z}$ como función de $\textbf{y}$ y de $\textbf{x}$. Si quisiéramos calcular el gradiente de $\textbf{z}$ con respecto a $\textbf{x}$, y tratar a $\textbf{y}$ como una constante.

Entonces podemos separar $\textbf{y}$ para devolver una nueva variable $\textbf{u}$ que tiene el mismo valor de $\textbf{y}$ pero que descarta cualquier información sobre cómo se calculó y en el gráfico computacional, es decir, el gradiente no fluirá hacia atrás a través de $\textbf{u}$ hasta $\textbf{x}$. De este modo, la siguiente función de retropropagación calcula la derivada parcial de $\textbf{z} = \textbf{u}*\textbf{x}$ con respecto a $\textbf{x}$, tratando a $\textbf{u}$ como una constante, en lugar de hacer la derivada parcial de $\textbf{z} = \textbf{x}*\textbf{x}*\textbf{x}$ con respecto a $\textbf{x}$.

Esto se muestra a continuación:


In [None]:
x.grad.zero_()
y = x * x
u = y.detach()
z = u * x

z.sum().backward()
x.grad == u

tensor([True, True, True, True])

## Cálculo del gradiente del flujo de control en Python
En el siguiente código, el número de iteraciones del bucle while y la evaluación de la sentencia if depende del valor de la entrada a.



In [None]:
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c
    

Calculando el gradiente:


In [None]:
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

En la función $f$ definida previamente es lineal a trozos en su entrada $a$, es decir, para cualquier $a$ existe algún escalar constante $k$ tal que, $f(a) = k*a$, donde el valor de $k$ depende de la entrada $a$. En consecuencia $d/a$ nos permite verificar que el gradiente es correcto.


In [None]:
a.grad == d / a

tensor(True)

# Probabilidad
## Teoría básica de la probabilidad

Si lanzamos un dado y queremos saber cuál es la probabilidad de ver un 1 en lugar de otro dígito. Si el dado es justo, los seis resultados $\{1,...,6\}$ tienen la misma probabilidad de ocurrir. Decimos entonces que el 1 puede salir con una probabilidad de $\frac{1}{6}$.

Un enfoque natural para cada valor es tomar el recuento individual para un valor y dividirlo por el número total de lanzamientos, dándonos una estimación de la probabilidad de un evento determinado.

Importamos lo siguiente:


In [None]:
%matplotlib inline
import torch
from torch.distributions import multinomial
from d2l import torch as d2l

ModuleNotFoundError: ignored

En estadística se llama muestreo al proceso de extraer ejemplos de las distribuciones de probabilidad. La distribución que asigna probabilidades a un número de opciones discretas se llama distribución multinomial.

Para extraer una muestra, se pasa un vector de probabilidades. La salida es un vector de la misma longitud: su valor en el índice $i$ es el número de veces que el resultado de la muestra corresponde a $i$.



In [None]:
fair_probs = torch.ones([6]) / 6
multinomial.Multinomial(1, fair_probs).sample()

tensor([0., 0., 0., 0., 1., 0.])

Si se ejecuta el código anterior varias veces, se obtendrán valores aleatorios. La función utilizada soporta la extracción de múltiples muestras a la vez, devoldiendo un array de muestras independientes.

In [None]:
multinomial.Multinomial(10, fair_probs).sample()


tensor([2., 1., 1., 2., 4., 0.])

El código anterior ya no solo simula la tirada de un dado una vez, sino que la simula para 10 tiradas, y podemos ver cuantas veces salió cada número. En concreto, calculamos la frecuencia relativa como estimación de la probabilidad real.

Para 1000 tiradas:


In [None]:
counts = multinomial.Multinomial(1000, fair_probs).sample()
counts / 1000  # frecuencia relativa como estimación

tensor([0.1670, 0.1820, 0.1710, 0.1600, 0.1640, 0.1560])

Las probabilidades obtenidas parecen bastante buenas, debido a que la probabilidad real antes mencionada es de $\frac{1}{6} ≈ 0.167$.

Podemos visualizar cómo estas probabilidades convergen con el tiempo hacia la probabilidad real.

Realizando 500 grupos de experimentos en los que cada grupo extrae 10 muestras:


In [None]:
counts = multinomial.Multinomial(10, fair_probs).sample((500,))
cum_counts = counts.cumsum(dim=0)
estimates = cum_counts / cum_counts.sum(dim=1, keepdims=True)

d2l.set_figsize((6, 4.5))
for i in range(6):
    d2l.plt.plot(estimates[:, i].numpy(),
                 label=("P(die=" + str(i + 1) + ")"))
d2l.plt.axhline(y=0.167, color='black', linestyle='dashed')
d2l.plt.gca().set_xlabel('Groups of experiments')
d2l.plt.gca().set_ylabel('Estimated probability')
d2l.plt.legend();

Cada curva corresponde a uno de los seis valores del dado. La línea negra discontinua da la verdadera probabilidad subyacente. A medida que se obtienen más datos realizando más experimentos, las 6 curvas convergen hacia la verdadera probabilidad.


# Documentación
## Cómo encontrar todas las funciones y clases de un módulo

Para saber qué funciones y clases se pueden llamar en un módulo, se utiliza la función dir.
Por ejemplo, con el módulo para generar números aleatorios:

In [None]:
import torch

print(dir(torch.distributions))

['AbsTransform', 'AffineTransform', 'Bernoulli', 'Beta', 'Binomial', 'CatTransform', 'Categorical', 'Cauchy', 'Chi2', 'ComposeTransform', 'ContinuousBernoulli', 'CorrCholeskyTransform', 'Dirichlet', 'Distribution', 'ExpTransform', 'Exponential', 'ExponentialFamily', 'FisherSnedecor', 'Gamma', 'Geometric', 'Gumbel', 'HalfCauchy', 'HalfNormal', 'Independent', 'IndependentTransform', 'Kumaraswamy', 'LKJCholesky', 'Laplace', 'LogNormal', 'LogisticNormal', 'LowRankMultivariateNormal', 'LowerCholeskyTransform', 'MixtureSameFamily', 'Multinomial', 'MultivariateNormal', 'NegativeBinomial', 'Normal', 'OneHotCategorical', 'OneHotCategoricalStraightThrough', 'Pareto', 'Poisson', 'PowerTransform', 'RelaxedBernoulli', 'RelaxedOneHotCategorical', 'ReshapeTransform', 'SigmoidTransform', 'SoftmaxTransform', 'StackTransform', 'StickBreakingTransform', 'StudentT', 'TanhTransform', 'Transform', 'TransformedDistribution', 'Uniform', 'VonMises', 'Weibull', '__all__', '__builtins__', '__cached__', '__doc__'

De forma general, se pueden ignorar las funciones que empiezan y terminan con _ (son objetos especiales en Python) o las funciones que empizan solo con _ (son normalmente funciones internas).

#### Encontrar el uso de funciones y clases específicas

Para obtener instrucciones más específicas sobre cómo utilizar una determinada función o clase, podemos invocar a la función de ayuda.

Ejemplo: función ones de los tensores.



In [None]:
help(torch.ones)

Help on built-in function ones:

ones(...)
    ones(*size, *, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False) -> Tensor
    
    Returns a tensor filled with the scalar value `1`, with the shape defined
    by the variable argument :attr:`size`.
    
    Args:
        size (int...): a sequence of integers defining the shape of the output tensor.
            Can be a variable number of arguments or a collection like a list or tuple.
    
    Keyword arguments:
        out (Tensor, optional): the output tensor.
        dtype (:class:`torch.dtype`, optional): the desired data type of returned tensor.
            Default: if ``None``, uses a global default (see :func:`torch.set_default_tensor_type`).
        layout (:class:`torch.layout`, optional): the desired layout of returned Tensor.
            Default: ``torch.strided``.
        device (:class:`torch.device`, optional): the desired device of returned tensor.
            Default: if ``None``, uses the cur

A partir de su documentación, podemos ver que la función ones crea un nuevo tensor con la forma especificada y establece todos los elementos con el valor de 1.

In [None]:
torch.ones(4)

tensor([1., 1., 1., 1.])

En Jupyter Notebook, podemos utilizar el signo "?" para mostrar el documento en otra ventana. Por ejemplo, list? creará un contenido casi idéntico a help(list), mostrándolo en una nueva ventana del navegador. Además, si se utilizan dos signos "??", también se mostrará el código Python que implementa la función.

# Referencia
Dive into Deep Learning. Recuperado de: http://www.d2l.ai/index.html