# Álgebra lineal

In [1]:
import torch

La notación convencional de un **vector** es con una variable minúscula y en negritas. Por ejemplo, el vector $x \in \mathbb{R}^{n \times 1}$. Para referirmos a una de sus filas (elementos, ejemplos, dimensiones), utilizamos la variable en itálicas y el superíndice: $x^{(3)}$. La notación en Python es muy similar, salvo por la indexación en 0:

In [13]:
x = torch.zeros(4)
x

tensor([0., 0., 0., 0.])

In [78]:
x[2] = 1
x

tensor([0., 0., 1., 0.])

In [24]:
f'El vector tiene una dimensión: {x.shape}'

'El vector tiene una dimensión: torch.Size([4])'

Una **matriz**, por otro lado, se denota con una letra mayúscula y negritas. Por ejemplo, la matriz (o tensor) $A \in \mathbb{R}^{n \times m}$. En este caso, cada columna (dimensión, feature) utilizaremos el subíndice: $x_{3}$; y cada elemento de la matriz indicará la fila y columna en la que se ubica: $x^{(2)}_{3}$, aunque también se puede utilizar alternativamente $x^{2 \times 3}$. En Python también funciona similar, salvo por la indexación.

Pongamos como ejemplo $A \in \mathbb{R}^{3 \times 3}$

In [38]:
A = torch.zeros((3, 2))
A

tensor([[0., 0.],
        [0., 0.],
        [0., 0.]])

Cambiemos el valor de $A^{(3)}_{2}$, cuyos índices programáticos son un número menor dada la indexación en cero:

In [39]:
# Primero fila, luego columna
A[2][1] = 1
A

tensor([[0., 0.],
        [0., 0.],
        [0., 1.]])

In [55]:
# También es válido:
A[2, 1] = 2
A

tensor([[0., 0.],
        [0., 0.],
        [0., 2.]])

In [56]:
f'La matriz tiene dos dimensiones: {A.shape}', A.size(dim=0), A.size(dim=1)

('La matriz tiene dos dimensiones: torch.Size([3, 2])', 3, 2)

Sin embargo, esto puede ser confuso cuando por ejemplo hacemos operaciones a través de una dimensión (o eje, o *axis*). Por ejemplo, si sumáramos a través de la dimensión 0, esperaríamos que se sumen los números por cada fila:

In [58]:
A, A.sum(0, keepdim=True)

(tensor([[0., 0.],
         [0., 0.],
         [0., 2.]]), tensor([[0., 2.]]))

Pero el resultado indica que se sumaron las columnas. Inversamente pasa lo mismo:

In [52]:
A.sum(1, keepdim=True)

tensor([[0.],
        [0.],
        [2.]])

En realidad, lo que sucede es que colapsamos el eje seleccionado y luego sumamos los valores, es decir, que la dimensión que seleccionamos para la sumatoria cambia su tamaño a 1. Esta aparente rareza tiene más sentido cuando hablamos de **tensores**, es decir, de matrices con más de dos dimensiones. Por ejemplo: 

In [71]:
B = torch.zeros((4,3,2))
B

tensor([[[0., 0.],
         [0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.],
         [0., 0.]]])

In [72]:
B[1][2][1] = 1
B

tensor([[[0., 0.],
         [0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.],
         [0., 1.]],

        [[0., 0.],
         [0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.],
         [0., 0.]]])

En la sumatoria a través de la dimensión 0, «colapsamos» cada bloque con los demás y los sumamos:

In [73]:
B.sum(0, keepdim=True), B.sum(0, keepdim=True).shape

(tensor([[[0., 0.],
          [0., 0.],
          [0., 1.]]]), torch.Size([1, 3, 2]))

En la sumatoria a través de la dimensión 1, colapsamos todas las filas de cada bloque y las sumamos:

In [74]:
B.sum(1, keepdim=True), B.sum(1, keepdim=True).shape

(tensor([[[0., 0.]],
 
         [[0., 1.]],
 
         [[0., 0.]],
 
         [[0., 0.]]]), torch.Size([4, 1, 2]))

En la sumatoria a través de la dimensión 2, colapsamos todas las columnas y las sumamos:

In [75]:
B.sum(2, keepdim=True), B.sum(2, keepdim=True).shape

(tensor([[[0.],
          [0.],
          [0.]],
 
         [[0.],
          [0.],
          [1.]],
 
         [[0.],
          [0.],
          [0.]],
 
         [[0.],
          [0.],
          [0.]]]), torch.Size([4, 3, 1]))

In [76]:
# Las dimensiones de nuestro tensor B son:
B.shape, B.size(dim=0), B.size(dim=1), B.size(dim=2)

(torch.Size([4, 3, 2]), 4, 3, 2)

# Cálculo

**Derivada, gradiente**:

$
f^{\prime}(x)=\lim _{h \rightarrow 0} \frac{f(x+h)-f(x)}{h}
$

Otra fórmula luce así:
$
\frac{\partial f(x, y)}{\partial x}=\frac{f(x+h, y)-f(x, y)}{h}
$

Esta última se lee: la derivada de $f$ con respecto a $x$.