# Backpropagation - Layers - AffineLayer

Análisis y desarrollo de una capa de una red neuronal artificial que realiza una transformación afín.

## 1. Transformación Afín

La salida $Y$ de una capa que realiza una transformación afín es igual al producto de los pesos $W$ por las entradas $X$ más los sesgos $B$.

- $ Y = WX + B $

## 2. Parámetros

Parámetros necesarios para crear la capa:

- $ n $: Número de neuronas de entrada.

- $ m $: Número de neuronas de salida.

Parámetros inicializados y actualizados durante el entrenamiento:

- $ W $: Pesos.

- $ B $: Sesgos.

## 3. Forward Pass

Valores de entrada:

- $ X $: Entrada.

Valores de salida:

- $ Y $: Salida.

### 3.1. Salida

Los valores de salida se obtienen multiplicando los pesos por la entrada y sumándole los sesgos.

#### 3.1.1. Escalar

El caso más sencillo ocurre cuando entrada, peso y sesgo son valores escalares.

- $ y = wx + b$

Dimensiones:

- $ w \in \mathbb{R} $

- $ x \in \mathbb{R} $

- $ b \in \mathbb{R} $

- $ y \in \mathbb{R} $

#### 3.1.2. Vectorial

Cuando las entradas son vectores, se representan como vectores columna, con tantas filas como neuronas de entrada tiene la capa.

- $ X = \begin{bmatrix}
x_{1}
\\ x_{2}
\\ \vdots
\\ x_{n}
\end{bmatrix} $

Y la salida es un vector columna, con tantas filas como neuronas de salida tiene la capa.

- $ Y = W X + B = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
x_{1}
\\ x_{2}
\\ \vdots
\\ x_{n}
\end{bmatrix} + \begin{bmatrix}
b_1
\\ b_2
\\ \vdots
\\ b_m
\end{bmatrix} = \begin{bmatrix}
y_{1}
\\ y_{2}
\\ \vdots
\\ y_{m}
\end{bmatrix} $

Dimensiones:

- $ W \in \mathbb{R}^{m \times n} $

- $ X \in \mathbb{R}^{n \times 1} $

- $ B \in \mathbb{R}^{m \times 1} $

- $ Y \in \mathbb{R}^{m \times 1} $

#### 3.1.3. Matricial

Cuando se procesan _batches_, o _mini-batches_, la entrada es una matriz con $N$ entradas que se evaluan simultáneamente. En esta matriz, cada columna representa una entrada diferente.

- $X = \begin{bmatrix}
x_{1,1} & x_{1,2} & \ldots & x_{1,N}
\\ x_{2,1} & x_{2,2} & \ldots & x_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ x_{n,1} & x_{n,2} & \ldots & x_{n,N}
\end{bmatrix} $

Y cada columna en la matriz de salida corresponde al resultado de evaluar la columna correspondiente en la matriz de entrada.

- $ Y = W X + B = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
x_{1,1} & x_{1,2} & \ldots & x_{1,N}
\\ x_{2,1} & x_{2,2} & \ldots & x_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ x_{n,1} & x_{n,2} & \ldots & x_{n,N}
\end{bmatrix} + \begin{bmatrix}
b_1 & b_1 & \ldots & b_1
\\ b_2 & b_2 & \ldots & b_2
\\ \vdots & \vdots & \ddots & \vdots
\\ b_m & b_m & \ldots & b_m
\end{bmatrix} = \begin{bmatrix}
y_{1,1} & y_{1,2} & \ldots & y_{1,N}
\\ y_{2,1} & y_{2,2} & \ldots & y_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ y_{m,1} & y_{m,2} & \ldots & y_{m,N}
\end{bmatrix} $

La matriz de sesgos resulta un tanto artificial, ya que en cada columna se repite el mismo vector de sesgos una y otra vez. Pero es algo que resulta necesario para que la expresión sea correcta desde un punto de vista matemático.

Dimensiones:

- $ W \in \mathbb{R}^{m \times n} $

- $ X \in \mathbb{R}^{n \times N} $

- $ B \in \mathbb{R}^{m \times N} $

- $ Y \in \mathbb{R}^{m \times N} $

## 4. Backward Pass

Valores de entrada:

- $ \cfrac{\partial L}{\partial Y} $: Derivada parcial de la pérdida respecto a la salida de la capa.

Valores de salida:

- $ \cfrac{\partial L}{\partial X} $: Derivada parcial de la pérdida respecto a la entrada de la capa.

- $ \cfrac{\partial L}{\partial W} $: Derivada parcial de la pérdida respecto a los pesos de la capa.

- $ \cfrac{\partial L}{\partial B} $: Derivada parcial de la pérdida respecto a los sesgos de la capa.

Siempre teniendo en cuenta que al trabajar con vectores y matrices se utilizan gradientes en vez de derivadas.

- $ \nabla_X{L} $: Gradiente de la pérdida respecto a la entrada de la capa.

- $ \nabla_W{L} $: Gradiente de la pérdida respecto a los pesos de la capa.

- $ \nabla_B{L} $: Gradiente de la pérdida respecto a los sesgos de la capa.

### 4.1. Gradiente de la Pérdida Respecto a la Entrada

El primer resultado a calcular por el _backward pass_ es la derivada parcial de la pérdida respecto a la entrada de la capa.

- $ \cfrac{\partial L}{\partial X} $

Derivada que puede calcularse aplicando la regla de la cadena.

- $ \cfrac{\partial L}{\partial X} = \cfrac{\partial L}{\partial Y} \cfrac{\partial Y}{\partial X} $

#### 4.1.1. Escalar

El caso más sencillo ocurre cuando entrada, peso y sesgo son valores escalares.

- $ y = wx + b$

En este caso debe ser claro que la derivada parcial de la salida $y$ respecto a la entrada $x$ es igual al peso $w$. Es decir, cuando se incrementa la entrada en una unidad se incrementa la salida de manera proporcional al peso por el que se encuentra multiplicada la entrada.

- $ \cfrac{\partial y}{\partial x} = w $

Sustituyendo en la regla de la cadena se encuentra la derivada parcial buscada.

- $ \cfrac{\partial L}{\partial x} = \cfrac{\partial L}{\partial y} \cfrac{\partial y}{\partial x} = \cfrac{\partial L}{\partial y} w $

Dimensiones:

- $ w \in \mathbb{R} $

- $ x \in \mathbb{R} $

- $ b \in \mathbb{R} $

- $ y \in \mathbb{R} $

#### 4.1.2. Vectorial

Cuando la entrada es un vector, el gradiente de la pérdida respecto a la salida (valor de entrada) es un vector.

- $ \nabla_Y{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_1}
\\ \cfrac{\partial L}{\partial y_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial y_m}
\end{bmatrix} $

Y el gradiente de la pérdida respecto a la entrada (valor a calcular) es también un vector.

- $ \nabla_X{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial x_1}
\\ \cfrac{\partial L}{\partial x_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial x_n}
\end{bmatrix} $

Donde cada elemento del vector puede calcularse de manera individual utilizando la regla de la cadena para varias variables.

- $ \cfrac{\partial L}{\partial x_i} = \displaystyle\sum_{p=1}^{m} \cfrac{\partial L}{\partial y_p} \cfrac{\partial y_p}{\partial x_i} \quad \bf{(1)} $

Recordando cómo se calcula la salida cuando las entradas son vectores.

- $ Y = \begin{bmatrix}
y_1
\\ y_2
\\ \vdots
\\ y_m
\end{bmatrix} = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
x_{1}
\\ x_{2}
\\ \vdots
\\ x_{n}
\end{bmatrix} + \begin{bmatrix}
b_1
\\ b_2
\\ \vdots
\\ b_m
\end{bmatrix} $

Y desarrollando cada elemento, puede entenderse como afecta cada entrada en el cálculo de cada salida.

- $ Y = \begin{bmatrix}
w_{1,1} x_1 + w_{1,2} x_2 + \ldots + w_{1,n} x_n + b_1
\\ w_{2,1} x_1 + w_{2,2} x_2 + \ldots + w_{2,n} x_n + b_2
\\ \vdots
\\ w_{m,1} x_1 + w_{m,2} x_2 + \ldots + w_{m,n} x_n + b_m
\end{bmatrix} $

Debe ser claro que cuando se incrementa una entrada en una unidad se incrementan las salidas de manera proporcional al peso por el que se encuentra multiplicada dicha entrada. Es decir, que la derivada parcial de una salida con respecto a una entrada es igual al peso por el que se encuentra multiplicada dicha entrada. De forma que puede calcularse una derivada parcial por cada una de las $m$ salidas con respecto a cada una de las $n$ entradas. Derivadas parciales que pueden reunirse en una matriz, llamada matriz jacobiana.

- $ \cfrac{\partial Y}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_1}{\partial x_1} & \cfrac{\partial y_1}{\partial x_2} & \ldots & \cfrac{\partial y_1}{\partial x_n}
\\ \cfrac{\partial y_2}{\partial x_1} & \cfrac{\partial y_2}{\partial x_2} & \ldots & \cfrac{\partial y_2}{\partial x_n}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_m}{\partial x_1} & \cfrac{\partial y_m}{\partial x_2} & \ldots & \cfrac{\partial y_m}{\partial x_n}
\end{bmatrix} = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} = W $

Analizando los valores de la matriz, se observa un patrón donde el primer subíndice de los pesos coincide con el subíndice de la salida ($p$), y el segundo subíndice de los pesos coincide con el subíndice de la entrada ($i$).

- $ \begin{bmatrix}
\cfrac{\partial y_{\color{red}{1}}}{\partial x_{\color{blue}{1}}} & \cfrac{\partial y_{\color{red}{1}}}{\partial x_{\color{blue}{2}}} & \ldots & \cfrac{\partial y_{\color{red}{1}}}{\partial x_{\color{blue}{n}}}
\\ \cfrac{\partial y_{\color{red}{2}}}{\partial x_{\color{blue}{1}}} & \cfrac{\partial y_{\color{red}{2}}}{\partial x_{\color{blue}{2}}} & \ldots & \cfrac{\partial y_{\color{red}{2}}}{\partial x_{\color{blue}{n}}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{\color{red}{m}}}{\partial x_{\color{blue}{1}}} & \cfrac{\partial y_{\color{red}{m}}}{\partial x_{\color{blue}{2}}} & \ldots & \cfrac{\partial y_{\color{red}{m}}}{\partial x_{\color{blue}{n}}}
\end{bmatrix} = \begin{bmatrix}
w_{{\color{red}{1}},{\color{blue}{1}}} & w_{{\color{red}{1}},{\color{blue}{2}}} & \ldots & w_{{\color{red}{1}},{\color{blue}{n}}}
\\ w_{{\color{red}{2}},{\color{blue}{1}}} & w_{{\color{red}{2}},{\color{blue}{2}}} & \ldots & w_{{\color{red}{2}},{\color{blue}{n}}}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{{\color{red}{m}},{\color{blue}{1}}} & w_{{\color{red}{m}},{\color{blue}{2}}} & \ldots & w_{{\color{red}{m}},{\color{blue}{n}}}
\end{bmatrix} $

Es decir, una salida $y_p$ se ve afectada por una entrada $x_i$ en una cuantía igual al valor del peso $w_{p,i}$ por el que se encuentra multiplicada.

- $ \cfrac{\partial y_p}{\partial x_i} = w_{p,i} $

Sustituyendo en la expresión de cálculo de los elementos del gradiente buscado $\bf{(1)}$.

- $ \cfrac{\partial L}{\partial x_i} = \displaystyle\sum_{p=1}^{m} \cfrac{\partial L}{\partial y_p} \cfrac{\partial y_p}{\partial x_i} = \displaystyle\sum_{p=1}^{m} \cfrac{\partial L}{\partial y_p} w_{p,i} = \cfrac{\partial L}{\partial y_1} w_{1,i} + \cfrac{\partial L}{\partial y_2} w_{2,i} + \ldots + \cfrac{\partial L}{\partial y_m} w_{m,i} $

Se pueden desarrollar todos sus elementos.

- $ \nabla_X{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial x_1}
\\ \cfrac{\partial L}{\partial x_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial x_n}
\end{bmatrix} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_1} w_{1,1} + \cfrac{\partial L}{\partial y_2} w_{2,1} + \ldots + \cfrac{\partial L}{\partial y_m} w_{m,1}
\\ \cfrac{\partial L}{\partial y_1} w_{1,2} + \cfrac{\partial L}{\partial y_2} w_{2,2} + \ldots + \cfrac{\partial L}{\partial y_m} w_{m,2}
\\ \vdots
\\ \cfrac{\partial L}{\partial y_1} w_{1,n} + \cfrac{\partial L}{\partial y_2} w_{2,n} + \ldots + \cfrac{\partial L}{\partial y_m} w_{m,n}
\end{bmatrix} $

Y simplificar atendiendo a la forma de los sumandos.

- $ \nabla_X{L} = \begin{bmatrix}
w_{1,1} & w_{2,1} & \ldots & w_{m,1}
\\ w_{1,2} & w_{2,2} & \ldots & w_{m,2}
\\ \vdots
\\ w_{1,n} & w_{2,n} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
\cfrac{\partial L}{\partial y_1}
\\ \cfrac{\partial L}{\partial y_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial y_m}
\end{bmatrix} = W^T \nabla_Y{L} $

De forma que el gradiente de la pérdida respecto a la entrada de la capa $\nabla_X{L}$ se puede calcular como el producto de la traspuesta de la matriz de pesos de la capa $W^T$ por el gradiente de la pérdida respecto a la salida de la capa $\nabla_Y{L}$.

- $ \nabla_X{L} = W^T \nabla_Y{L} $

Dimensiones:

- $ W^T \in \mathbb{R}^{n \times m} $

- $ \nabla_Y{L} \in \mathbb{R}^{m \times 1} $

- $ \nabla_X{L} \in \mathbb{R}^{n \times 1} $

#### 4.1.3. Matricial

Cuando se evalúa un _batch_ de $N$ entradas, el gradiente de la pérdida respecto a la salida (valor de entrada) es una matriz.

- $ \nabla_Y{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} & \cfrac{\partial L}{\partial y_{1,2}} & \ldots & \cfrac{\partial L}{\partial y_{1,N}}
\\ \cfrac{\partial L}{\partial y_{2,1}} & \cfrac{\partial L}{\partial y_{2,2}} & \ldots & \cfrac{\partial L}{\partial y_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_{m,1}} & \cfrac{\partial L}{\partial y_{m,2}} & \ldots & \cfrac{\partial L}{\partial y_{m,N}}
\end{bmatrix} $

Y el gradiente de la pérdida respecto a la entrada (valor a calcular) es también una matriz.

- $ \nabla_X{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial x_{1,1}} & \cfrac{\partial L}{\partial x_{1,2}} & \ldots & \cfrac{\partial L}{\partial x_{1,N}}
\\ \cfrac{\partial L}{\partial x_{2,1}} & \cfrac{\partial L}{\partial x_{2,2}} & \ldots & \cfrac{\partial L}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial x_{n,1}} & \cfrac{\partial L}{\partial x_{n,2}} & \ldots & \cfrac{\partial L}{\partial x_{n,N}}
\end{bmatrix} $

Donde cada elemento de la matriz puede calcularse de manera individual utilizando la regla de la cadena para varias variables.

- $ \cfrac{\partial L}{\partial x_{i,j}} = \displaystyle\sum_{p=1}^{m} \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial x_{i,j}} \quad \bf(1) $

Recordando como se calcula la salida cuando la entrada es un _batch_ de vectores.

- $ Y = \begin{bmatrix}
y_{1,1} & y_{1,2} & \ldots & y_{1,N}
\\ y_{2,1} & y_{2,2} & \ldots & y_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ y_{m,1} & y_{m,2} & \ldots & y_{m,N}
\end{bmatrix} = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
x_{1,1} & x_{1,2} & \ldots & x_{1,N}
\\ x_{2,1} & x_{2,2} & \ldots & x_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ x_{n,1} & x_{n,2} & \ldots & x_{n,N}
\end{bmatrix} + \begin{bmatrix}
b_1 & b_1 & \ldots & b_1
\\ b_2 & b_2 & \ldots & b_2
\\ \vdots & \vdots & \ddots & \vdots
\\ b_m & b_m & \ldots & b_m
\end{bmatrix} $

Y desarrollando cada elemento, puede entenderse como afecta cada entrada en el cálculo de cada salida.

- $ Y = \begin{bmatrix}
w_{1,1} x_{1,1} + w_{1,2} x_{2,1} + \ldots + w_{1,n} x_{n,1} + b_1 & w_{1,1} x_{1,2} + w_{1,2} x_{2,2} + \ldots + w_{1,n} x_{n,2} + b_1 & \ldots & w_{1,1} x_{1,N} + w_{1,2} x_{2,N} + \ldots + w_{1,n} x_{n,N} + b_1
\\ w_{2,1} x_{1,1} + w_{2,2} x_{2,1} + \ldots + w_{2,n} x_{n,1} + b_2 & w_{2,1} x_{1,2} + w_{2,2} x_{2,2} + \ldots + w_{2,n} x_{n,2} + b_2 & \ldots & w_{2,1} x_{1,N} + w_{2,2} x_{2,N} + \ldots + w_{2,n} x_{n,N} + b_2
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} x_{1,1} + w_{m,2} x_{2,1} + \ldots + w_{m,n} x_{n,1} + b_m & w_{m,1} x_{1,2} + w_{m,2} x_{2,2} + \ldots + w_{m,n} x_{n,2} + b_m & \ldots & w_{m,1} x_{1,N} + w_{m,2} x_{2,N} + \ldots + w_{m,n} x_{n,N} + b_m
\end{bmatrix} $

Debe ser claro que cuando se incrementa una entrada en una unidad se incrementan las salidas de manera proporcional al peso por el que se encuentra multiplicada dicha entrada. Es decir, que la derivada parcial de una salida con respecto a una entrada es igual al peso por el que se encuentra multiplicada dicha entrada. No obstante, calcular todas las derivadas parciales requiere construir un tensor para cada una de las $m \times N$ salidas con respecto a cada una de las $n \times N$ entradas, lo que puede ser computacionalmente ineficiente.

- $ \cfrac{\partial Y}{\partial X} \in \mathbb{R}^{m \times N \times n \times N} $

Abusando quizás un poco de la notación, se pueden examinar algunas de estas derivadas parciales.

- $ \cfrac{\partial y_{1,1}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{1,1}}{\partial x_{1,1}} & \cfrac{\partial y_{1,1}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{1,1}}{\partial x_{2,1}} & \cfrac{\partial y_{1,1}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,1}}{\partial x_{n,1}} & \cfrac{\partial y_{1,1}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{n,N}}
\end{bmatrix}
\qquad
\cfrac{\partial y_{1,2}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{1,2}}{\partial x_{1,1}} & \cfrac{\partial y_{1,2}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{1,2}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{1,2}}{\partial x_{2,1}} & \cfrac{\partial y_{1,2}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{1,2}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,2}}{\partial x_{n,1}} & \cfrac{\partial y_{1,2}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{1,2}}{\partial x_{n,N}}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{1,N}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{1,N}}{\partial x_{1,1}} & \cfrac{\partial y_{1,N}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{1,N}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{1,N}}{\partial x_{2,1}} & \cfrac{\partial y_{1,N}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{1,N}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,N}}{\partial x_{n,1}} & \cfrac{\partial y_{1,N}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{1,N}}{\partial x_{n,N}}
\end{bmatrix} $

- $ \cfrac{\partial y_{2,1}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{2,1}}{\partial x_{1,1}} & \cfrac{\partial y_{2,1}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{2,1}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{2,1}}{\partial x_{2,1}} & \cfrac{\partial y_{2,1}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{2,1}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{2,1}}{\partial x_{n,1}} & \cfrac{\partial y_{2,1}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{2,1}}{\partial x_{n,N}}
\end{bmatrix}
\qquad
\cfrac{\partial y_{2,2}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{2,2}}{\partial x_{1,1}} & \cfrac{\partial y_{2,2}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{2,2}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{2,2}}{\partial x_{2,1}} & \cfrac{\partial y_{2,2}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{2,2}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{2,2}}{\partial x_{n,1}} & \cfrac{\partial y_{2,2}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{2,2}}{\partial x_{n,N}}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{2,N}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{2,N}}{\partial x_{1,1}} & \cfrac{\partial y_{2,N}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{2,N}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{2,N}}{\partial x_{2,1}} & \cfrac{\partial y_{2,N}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{2,N}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{2,N}}{\partial x_{n,1}} & \cfrac{\partial y_{2,N}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{2,N}}{\partial x_{n,N}}
\end{bmatrix} $

$ \qquad \vdots $

- $ \cfrac{\partial y_{m,1}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{m,1}}{\partial x_{1,1}} & \cfrac{\partial y_{m,1}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{m,1}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{m,1}}{\partial x_{2,1}} & \cfrac{\partial y_{m,1}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{m,1}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{m,1}}{\partial x_{n,1}} & \cfrac{\partial y_{m,1}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{m,1}}{\partial x_{n,N}}
\end{bmatrix} 
\qquad
\cfrac{\partial y_{m,2}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{m,2}}{\partial x_{1,1}} & \cfrac{\partial y_{m,2}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{m,2}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{m,2}}{\partial x_{2,1}} & \cfrac{\partial y_{m,2}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{m,2}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{m,2}}{\partial x_{n,1}} & \cfrac{\partial y_{m,2}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{m,2}}{\partial x_{n,N}}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{m,N}}{\partial X} = \begin{bmatrix}
\cfrac{\partial y_{m,N}}{\partial x_{1,1}} & \cfrac{\partial y_{m,N}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{m,N}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{m,N}}{\partial x_{2,1}} & \cfrac{\partial y_{m,N}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{m,N}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{m,N}}{\partial x_{n,1}} & \cfrac{\partial y_{m,N}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{m,N}}{\partial x_{n,N}}
\end{bmatrix} $

Desarrollando los elementos, se observan dos patrones.

- $ \cfrac{\partial y_{1,1}}{\partial X} = \begin{bmatrix}
w_{1,1} & 0 & \ldots & 0
\\ w_{1,2} & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{1,n} & 0 & \ldots & 0
\end{bmatrix}
\qquad \cfrac{\partial y_{1,2}}{\partial X} = \begin{bmatrix}
0 & w_{1,1} & \ldots & 0
\\ 0 & w_{1,2} & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & w_{1,n} & \ldots & 0
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{1,N}}{\partial X} = \begin{bmatrix}
0 & 0 & \ldots & w_{1,1}
\\ 0 & 0 & \ldots & w_{1,2}
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & w_{1,n}
\end{bmatrix} $

- $ \cfrac{\partial y_{2,1}}{\partial X} = \begin{bmatrix}
w_{2,1} & 0 & \ldots & 0
\\ w_{2,2} & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{2,n} & 0 & \ldots & 0
\end{bmatrix}
\qquad \cfrac{\partial y_{2,2}}{\partial X} = \begin{bmatrix}
0 & w_{2,1} & \ldots & 0
\\ 0 & w_{2,2} & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & w_{2,n} & \ldots & 0
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{2,N}}{\partial X} = \begin{bmatrix}
0 & 0 & \ldots & w_{2,1}
\\ 0 & 0 & \ldots & w_{2,2}
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & w_{2,n}
\end{bmatrix} $

$ \qquad \vdots $

- $ \cfrac{\partial y_{m,1}}{\partial X} = \begin{bmatrix}
w_{m,1} & 0 & \ldots & 0
\\ w_{m,2} & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,n} & 0 & \ldots & 0
\end{bmatrix}
\qquad \cfrac{\partial y_{m,2}}{\partial X} = \begin{bmatrix}
0 & w_{m,1} & \ldots & 0
\\ 0 & w_{m,2} & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & w_{m,n} & \ldots & 0
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{m,N}}{\partial X} = \begin{bmatrix}
0 & 0 & \ldots & w_{m,1}
\\ 0 & 0 & \ldots & w_{m,2}
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & w_{m,n}
\end{bmatrix} $

El primer patrón se observa columna a columna, donde los únicos elementos distintos de cero se encuentran en las columnas donde el segundo subíndice de las salidas ($q$) coincide con el segundo subíndice de las entradas ($j$). Ejemplo:

- $ \begin{bmatrix}
\cfrac{\partial y_{1,{\color{magenta}{1}}}}{\partial x_{1,{\color{magenta}{1}}}} & \cfrac{\partial y_{1,1}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{1,{\color{magenta}{1}}}}{\partial x_{2,{\color{magenta}{1}}}} & \cfrac{\partial y_{1,1}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,{\color{magenta}{1}}}}{\partial x_{n,{\color{magenta}{1}}}} & \cfrac{\partial y_{1,1}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{n,N}}
\end{bmatrix} = \begin{bmatrix}
\color{magenta}{w_{1,1}} & 0 & \ldots & 0
\\ \color{magenta}{w_{1,2}} & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ \color{magenta}{w_{1,n}} & 0 & \ldots & 0
\end{bmatrix} $

Y el segundo patrón se observa en las columnas con valores distintos de cero, donde el primer subíndice de los pesos coincide con el primer subíndice de la salida ($p$), y el segundo subíndice de los pesos coincide con el primer subíndice de la entrada ($i$). Ejemplo:

- $ \begin{bmatrix}
\cfrac{\partial y_{{\color{red}{1}},1}}{\partial x_{{\color{blue}{1}},1}} & \cfrac{\partial y_{1,1}}{\partial x_{1,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{1,N}}
\\ \cfrac{\partial y_{{\color{red}{1}},1}}{\partial x_{{\color{blue}{2}},1}} & \cfrac{\partial y_{1,1}}{\partial x_{2,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{{\color{red}{1}},1}}{\partial x_{{\color{blue}{n}},1}} & \cfrac{\partial y_{1,1}}{\partial x_{n,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial x_{n,N}}
\end{bmatrix} = \begin{bmatrix}
w_{{\color{red}{1}},{\color{blue}{1}}} & 0 & \ldots & 0
\\ w_{{\color{red}{1}},{\color{blue}{2}}} & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{{\color{red}{1}},{\color{blue}{n}}} & 0 & \ldots & 0
\end{bmatrix} $

Es decir, una salida $y_{p,q}$ se ve afectada por una entrada $x_{i,j}$ en una cuantía igual al valor del peso $w_{p,i}$ por el que se encuentra multiplicada.

- $ \cfrac{\partial y_{p,q}}{\partial x_{i,j}} = \begin{cases} w_{p,i} & \text{si } q = j \\ 0 & \text{en caso contrario} \end{cases} $

Sustituyendo en la expresión de cálculo de los elementos del gradiente buscado $\bf(1)$.

- $ \cfrac{\partial L}{\partial x_{i,j}} = \displaystyle\sum_{p=1}^{m} \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial x_{i,j}} $

- $ \cfrac{\partial L}{\partial x_{i,j}} = \displaystyle\sum_{p=1}^{m} \left( \cfrac{\partial L}{\partial y_{p,1}} \cfrac{\partial y_{p,1}}{\partial x_{i,j}} + \cfrac{\partial L}{\partial y_{p,2}} \cfrac{\partial y_{p,2}}{\partial x_{i,j}} + \ldots + \cfrac{\partial L}{\partial y_{p,j}} \cfrac{\partial y_{p,j}}{\partial x_{i,j}} + \ldots + \cfrac{\partial L}{\partial y_{p,N}} \cfrac{\partial y_{p,N}}{\partial x_{i,j}} \right) $

- $ \cfrac{\partial L}{\partial x_{i,j}} = \displaystyle\sum_{p=1}^{m} \left( \cfrac{\partial L}{\partial y_{p,1}} 0 + \cfrac{\partial L}{\partial y_{p,2}} 0 + \ldots + \cfrac{\partial L}{\partial y_{p,j}} w_{p,i} + \ldots + \cfrac{\partial L}{\partial y_{p,N}} 0 \right) $

- $ \cfrac{\partial L}{\partial x_{i,j}} = \displaystyle\sum_{p=1}^{m} \cfrac{\partial L}{\partial y_{p,j}} w_{p,i} $

- $ \cfrac{\partial L}{\partial x_{i,j}} = \cfrac{\partial L}{\partial y_{1,j}} w_{1,i} + \cfrac{\partial L}{\partial y_{2,j}} w_{2,i} +
\ldots + \cfrac{\partial L}{\partial y_{m,j}} w_{m,i} $

Se pueden desarrollar todos los elementos del gradiente evitando el cálculo de los valores que son igual a cero y no aportan nada al resultado.

- $ \nabla_X{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} w_{1,1} + \cfrac{\partial L}{\partial y_{2,1}} w_{2,1} + \ldots + \cfrac{\partial L}{\partial y_{m,1}} w_{m,1}
& \cfrac{\partial L}{\partial y_{1,2}} w_{1,1} + \cfrac{\partial L}{\partial y_{2,2}} w_{2,1} + \ldots + \cfrac{\partial L}{\partial y_{m,2}} w_{m,1}
& \ldots & \cfrac{\partial L}{\partial y_{1,N}} w_{1,1} + \cfrac{\partial L}{\partial y_{2,N}} w_{2,1} + \ldots + \cfrac{\partial L}{\partial y_{m,N}} w_{m,1}
\\ \cfrac{\partial L}{\partial y_{1,1}} w_{1,2} + \cfrac{\partial L}{\partial y_{2,1}} w_{2,2} + \ldots + \cfrac{\partial L}{\partial y_{m,1}} w_{m,2}
& \cfrac{\partial L}{\partial y_{1,2}} w_{1,2} + \cfrac{\partial L}{\partial y_{2,2}} w_{2,2} + \ldots + \cfrac{\partial L}{\partial y_{m,2}} w_{m,2}
& \ldots & \cfrac{\partial L}{\partial y_{1,N}} w_{1,2} + \cfrac{\partial L}{\partial y_{2,N}} w_{2,2} + \ldots + \cfrac{\partial L}{\partial y_{m,N}} w_{m,2}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_{1,1}} w_{1,n} + \cfrac{\partial L}{\partial y_{2,1}} w_{2,n} + \ldots + \cfrac{\partial L}{\partial y_{m,1}} w_{m,n}
& \cfrac{\partial L}{\partial y_{1,2}} w_{1,n} + \cfrac{\partial L}{\partial y_{2,2}} w_{2,n} + \ldots + \cfrac{\partial L}{\partial y_{m,2}} w_{m,n}
& \ldots & \cfrac{\partial L}{\partial y_{1,N}} w_{1,n} + \cfrac{\partial L}{\partial y_{2,N}} w_{2,n} + \ldots + \cfrac{\partial L}{\partial y_{m,N}} w_{m,n}
\end{bmatrix} $

Expresión que puede simplificarse atendiendo a la forma de los sumandos.

- $ \nabla_X{L} = \begin{bmatrix}
w_{1,1} & w_{2,1} & \ldots & w_{m,1}
\\ w_{1,2} & w_{2,2} & \ldots & w_{m,2}
\\ \vdots
\\ w_{1,n} & w_{2,n} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} & \cfrac{\partial L}{\partial y_{1,2}} & \ldots & \cfrac{\partial L}{\partial y_{1,N}}
\\ \cfrac{\partial L}{\partial y_{2,1}} & \cfrac{\partial L}{\partial y_{2,2}} & \ldots & \cfrac{\partial L}{\partial y_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_{m,1}} & \cfrac{\partial L}{\partial y_{m,2}} & \ldots & \cfrac{\partial L}{\partial y_{m,N}}
\end{bmatrix} = W^T \nabla_Y{L} $

De forma que el gradiente de la pérdida respecto a la entrada de la capa $\nabla_X{L}$ se puede calcular como el producto de la traspuesta de la matriz de pesos de la capa $W^T$ por el gradiente de la pérdida respecto a la salida de la capa $\nabla_Y{L}$.

- $ \nabla_X{L} = W^T \nabla_Y{L} $

Dimensiones:

- $ W^T \in \mathbb{R}^{n \times m} $

- $ \nabla_Y{L} \in \mathbb{R}^{m \times N} $

- $ \nabla_X{L} \in \mathbb{R}^{n \times N} $

### 4.2. Gradiente de la Pérdida Respecto a los Pesos

El segundo resultado a calcular por el _backward pass_ es la derivada de la pérdida respecto a los pesos de la capa.

- $ \cfrac{\partial L}{\partial W} $

La derivada a calcular puede encontrarse aplicando la regla de la cadena.

- $ \cfrac{\partial L}{\partial W} = \cfrac{\partial L}{\partial Y} \cfrac{\partial Y}{\partial W} $

#### 4.2.1. Escalar

El caso más sencillo ocurre cuando entrada, peso y sesgo son valores escalares.

- $ y = wx + b$

En este caso debe ser claro que la derivada parcial de la salida $y$ respecto al peso $w$ es igual a la entrada $x$. Es decir, cuando se incrementa el peso en una unidad se incrementa la salida de manera proporcional a la entrada por la que se encuentra multiplicado el peso.

- $ \cfrac{\partial y}{\partial w} = x $

Sustituyendo en la regla de la cadena se encuentra la derivada parcial de la pérdida respecto al peso.

- $ \cfrac{\partial L}{\partial w} = \cfrac{\partial L}{\partial y} \cfrac{\partial y}{\partial w} = \cfrac{\partial L}{\partial y} x $

Dimensiones:

- $ w \in \mathbb{R} $

- $ x \in \mathbb{R} $

- $ b \in \mathbb{R} $

- $ y \in \mathbb{R} $

#### 4.2.2. Vectorial

Cuando la entrada es un vector, el gradiente de la pérdida respecto a la salida (valor de entrada) es un vector.

- $ \nabla_Y{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_1}
\\ \cfrac{\partial L}{\partial y_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial y_m}
\end{bmatrix} $

Y el gradiente de la pérdida respecto a los pesos (valor a calcular) es una matriz.

- $ \nabla_W{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial w_{1,1}} & \cfrac{\partial L}{\partial w_{1,2}} & \ldots & \cfrac{\partial L}{\partial w_{1,n}}
\\ \cfrac{\partial L}{\partial w_{2,1}} & \cfrac{\partial L}{\partial w_{2,2}} & \ldots & \cfrac{\partial L}{\partial w_{2,n}}
\\ \vdots
\\ \cfrac{\partial L}{\partial w_{m,1}} & \cfrac{\partial L}{\partial w_{m,2}} & \ldots & \cfrac{\partial L}{\partial w_{m,n}}
\end{bmatrix} $

Donde cada elemento de la matriz puede calcularse de manera individual utilizando la regla de la cadena para varias variables.

- $ \cfrac{\partial L}{\partial w_{i,j}} = \displaystyle\sum_{p=1}^{m} \cfrac{\partial L}{\partial y_p} \cfrac{\partial y_p}{\partial w_{i,j}} \quad \bf{(1)} $

Recordando cómo se calcula la salida cuando las entradas son vectores.

- $ Y = \begin{bmatrix}
y_1
\\ y_2
\\ \vdots
\\ y_m
\end{bmatrix} = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
x_{1}
\\ x_{2}
\\ \vdots
\\ x_{n}
\end{bmatrix} + \begin{bmatrix}
b_1
\\ b_2
\\ \vdots
\\ b_m
\end{bmatrix} $

Y desarrollando cada elemento, puede entenderse como afecta cada peso en el cálculo de cada salida.

- $ Y = \begin{bmatrix}
w_{1,1} x_1 + w_{1,2} x_2 + \ldots + w_{1,n} x_n + b_1
\\ w_{2,1} x_1 + w_{2,2} x_2 + \ldots + w_{2,n} x_n + b_2
\\ \vdots
\\ w_{m,1} x_1 + w_{m,2} x_2 + \ldots + w_{m,n} x_n + b_m
\end{bmatrix} $

Debe ser claro que cuando se incrementa un peso en una unidad se incrementan las salidas donde interviene dicho peso de manera proporcional a la entrada por la que se encuentra multiplicado el peso. Es decir, que la derivada parcial de una salida con respecto al peso es igual a la entrada por la que se encuentra multiplicado dicho peso. No obstante, calcular todas las derivadas parciales requiere construir un tensor para cada una de las $m$ salidas con respecto a cada uno de los $m \times n$ pesos, lo que puede ser computacionalmente ineficiente.

- $ \cfrac{\partial Y}{\partial W} \in \mathbb{R}^{m \times m \times n} $

Abusando quizás un poco de la notación, se pueden examinar algunas de estas derivadas parciales.

- $ \cfrac{\partial y_1}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_1}{\partial w_{1,1}} & \cfrac{\partial y_1}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_1}{\partial w_{1,n}}
\\ \cfrac{\partial y_1}{\partial w_{2,1}} & \cfrac{\partial y_1}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_1}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_1}{\partial w_{m,1}} & \cfrac{\partial y_1}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_1}{\partial w_{m,n}}
\end{bmatrix} $

- $ \cfrac{\partial y_2}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_2}{\partial w_{1,1}} & \cfrac{\partial y_2}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_2}{\partial w_{1,n}}
\\ \cfrac{\partial y_2}{\partial w_{2,1}} & \cfrac{\partial y_2}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_2}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_2}{\partial w_{m,1}} & \cfrac{\partial y_2}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_2}{\partial w_{m,n}}
\end{bmatrix} $

$ \qquad \vdots $

- $ \cfrac{\partial y_m}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_m}{\partial w_{1,1}} & \cfrac{\partial y_m}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_m}{\partial w_{1,n}}
\\ \cfrac{\partial y_m}{\partial w_{2,1}} & \cfrac{\partial y_m}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_m}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_m}{\partial w_{m,1}} & \cfrac{\partial y_m}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_m}{\partial w_{m,n}}
\end{bmatrix} $

Desarrollando los elementos, se observan dos patrones.

- $ \cfrac{\partial y_1}{\partial W} = \begin{bmatrix}
x_1 & x_2 & \ldots & x_n
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix} $

- $ \cfrac{\partial y_2}{\partial W} = \begin{bmatrix}
0 & 0 & \ldots & 0
\\ x_1 & x_2 & \ldots & x_n
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix} $

$ \qquad \vdots $

- $ \cfrac{\partial y_m}{\partial W} = \begin{bmatrix}
0 & 0 & \ldots & 0
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ x_1 & x_2 & \ldots & x_n
\end{bmatrix} $

El primer patrón se observa fila a fila, donde los únicos elementos distintos de cero se encuentran en las filas donde el primer subíndice de las salidas ($p$) coincide con el índice de los pesos ($i$). Ejemplo:

- $ \begin{bmatrix}
\cfrac{\partial y_{\color{magenta}{1}}}{\partial w_{{\color{magenta}{1}},1}} & \cfrac{\partial y_{\color{magenta}{1}}}{\partial w_{{\color{magenta}{1}},2}} & \ldots & \cfrac{\partial y_{\color{magenta}{1}}}{\partial w_{{\color{magenta}{1}},n}}
\\ \cfrac{\partial y_1}{\partial w_{2,1}} & \cfrac{\partial y_1}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_1}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_1}{\partial w_{m,1}} & \cfrac{\partial y_1}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_1}{\partial w_{m,n}}
\end{bmatrix} = \begin{bmatrix}
{\color{magenta}{x_1}} & {\color{magenta}{x_2}} & \ldots & {\color{magenta}{x_n}}
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix} $

Y el segundo patrón se observa en las filas con valores distintos de cero, donde el subíndice de las entradas coincide con el segundo subíndice de los pesos ($j$). Ejemplo:

- $ \begin{bmatrix}
\cfrac{\partial y_1}{\partial w_{1,{\color{red}{1}}}} & \cfrac{\partial y_1}{\partial w_{1,{\color{red}{2}}}} & \ldots & \cfrac{\partial y_1}{\partial w_{1,{\color{red}{n}}}}
\\ \cfrac{\partial y_1}{\partial w_{2,1}} & \cfrac{\partial y_1}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_1}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_1}{\partial w_{m,1}} & \cfrac{\partial y_1}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_1}{\partial w_{m,n}}
\end{bmatrix} = \begin{bmatrix}
x_{\color{red}{1}} & x_{\color{red}{2}} & \ldots & x_{\color{red}{n}}
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix} $

Es decir, una salida $y_p$ se ve afectada por un peso $w_{i,j}$ en una cuantía igual al valor de la entrada $x_j$ por el que se encuentra multiplicado.

- $ \cfrac{\partial y_p}{\partial w_{i,j}} = \begin{cases} x_j & \text{si } p = i \\ 0 & \text{en caso contrario} \end{cases} $

Sustituyendo ambos patrones en la expresión de cálculo de los elementos del gradiente buscado $\bf{(1)}$.

- $ \cfrac{\partial L}{\partial w_{i,j}} = \displaystyle\sum_{p=1}^{m} \cfrac{\partial L}{\partial y_p} \cfrac{\partial y_p}{\partial w_{i,j}} $

- $ \cfrac{\partial L}{\partial w_{i,j}} = \cfrac{\partial L}{\partial y_1} \cfrac{\partial y_1}{\partial w_{i,j}} + \cfrac{\partial L}{\partial y_2} \cfrac{\partial y_2}{\partial w_{i,j}} + \ldots + \cfrac{\partial L}{\partial y_i} \cfrac{\partial y_i}{\partial w_{i,j}} + \ldots + \cfrac{\partial L}{\partial y_m} \cfrac{\partial y_m}{\partial w_{i,j}} $

- $ \cfrac{\partial L}{\partial w_{i,j}} = \cfrac{\partial L}{\partial y_1} 0 + \cfrac{\partial L}{\partial y_2} 0 + \ldots + \cfrac{\partial L}{\partial y_i} x_j + \ldots + \cfrac{\partial L}{\partial y_m} 0 $

- $ \cfrac{\partial L}{\partial w_{i,j}} = \cfrac{\partial L}{\partial y_i} x_j $

Se pueden desarrollar todos los elementos del gradiente evitando el cálculo de los valores que son igual a cero y no aportan nada al resultado.

- $ \nabla_W{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial w_{1,1}} & \cfrac{\partial L}{\partial w_{1,2}} & \ldots & \cfrac{\partial L}{\partial w_{1,n}}
\\ \cfrac{\partial L}{\partial w_{2,1}} & \cfrac{\partial L}{\partial w_{2,2}} & \ldots & \cfrac{\partial L}{\partial w_{2,n}}
\\ \vdots
\\ \cfrac{\partial L}{\partial w_{m,1}} & \cfrac{\partial L}{\partial w_{m,2}} & \ldots & \cfrac{\partial L}{\partial w_{m,n}}
\end{bmatrix} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_1} x_1 & \cfrac{\partial L}{\partial y_1} x_2 & \ldots & \cfrac{\partial L}{\partial y_1} x_n
\\ \cfrac{\partial L}{\partial y_2} x_1 & \cfrac{\partial L}{\partial y_2} x_2 & \ldots & \cfrac{\partial L}{\partial y_2} x_n
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_m} x_1 & \cfrac{\partial L}{\partial y_m} x_2 & \ldots & \cfrac{\partial L}{\partial y_m} x_n
\end{bmatrix} $

Expresión que puede simplificarse atendiendo a la forma de los productos.

$ \nabla_W{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_1}
\\ \cfrac{\partial L}{\partial y_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial y_m}
\end{bmatrix} \begin{bmatrix}
x_1 & x_2 & \ldots & x_n
\end{bmatrix} = \nabla_Y{L} X^T $

De forma que el gradiente de la pérdida respecto a los pesos de la capa $\nabla_W{L}$ se puede calcular como el producto del gradiente de la pérdida respecto a la salida de la capa $\nabla_Y{L}$ por la traspuesta de la entrada de la capa $X^T$.

- $ \nabla_W{L} = \nabla_Y{L} X^T $

Dimensiones:

- $ \nabla_Y{L} \in \mathbb{R}^{m \times 1} $

- $ X^T \in \mathbb{R}^{1 \times n} $

- $ \nabla_W{L} \in \mathbb{R}^{m \times n} $

#### 4.2.3. Matricial

Cuando se evalúa un _batch_ de $N$ entradas el gradiente de la pérdida respecto a la salida (parámetro de entrada) es una matriz.

- $ \nabla_Y{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} & \cfrac{\partial L}{\partial y_{1,2}} & \ldots & \cfrac{\partial L}{\partial y_{1,N}}
\\ \cfrac{\partial L}{\partial y_{2,1}} & \cfrac{\partial L}{\partial y_{2,2}} & \ldots & \cfrac{\partial L}{\partial y_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_{m,1}} & \cfrac{\partial L}{\partial y_{m,2}} & \ldots & \cfrac{\partial L}{\partial y_{m,N}}
\end{bmatrix} $

Y el gradiente de la pérdida respecto a los pesos (valor a calcular) es también una matriz.

- $ \nabla_W{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial w_{1,1}} & \cfrac{\partial L}{\partial w_{1,2}} & \ldots & \cfrac{\partial L}{\partial w_{1,n}}
\\ \cfrac{\partial L}{\partial w_{2,1}} & \cfrac{\partial L}{\partial w_{2,2}} & \ldots & \cfrac{\partial L}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial w_{m,1}} & \cfrac{\partial L}{\partial w_{m,2}} & \ldots & \cfrac{\partial L}{\partial w_{m,n}}
\end{bmatrix} $

Donde cada elemento de la matriz puede calcularse de manera individual utilizando la regla de la cadena para varias variables.

- $ \cfrac{\partial L}{\partial w_{i,j}} = \displaystyle\sum_{p=1}^{m} \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial w_{i,j}} \quad \bf{(1)} $

Recordando como se calcula la salida cuando la entrada es un _batch_ de vectores.

- $ Y = \begin{bmatrix}
y_{1,1} & y_{1,2} & \ldots & y_{1,N}
\\ y_{2,1} & y_{2,2} & \ldots & y_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ y_{m,1} & y_{m,2} & \ldots & y_{m,N}
\end{bmatrix} = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
x_{1,1} & x_{1,2} & \ldots & x_{1,N}
\\ x_{2,1} & x_{2,2} & \ldots & x_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ x_{n,1} & x_{n,2} & \ldots & x_{n,N}
\end{bmatrix} + \begin{bmatrix}
b_1 & b_1 & \ldots & b_1
\\ b_2 & b_2 & \ldots & b_2
\\ \vdots & \vdots & \ddots & \vdots
\\ b_m & b_m & \ldots & b_m
\end{bmatrix} $

Y desarrollando cada elemento, puede entenderse como afecta cada peso en el cálculo de cada salida.

- $ Y = \begin{bmatrix}
w_{1,1} x_{1,1} + w_{1,2} x_{2,1} + \ldots + w_{1,n} x_{n,1} + b_1 & w_{1,1} x_{1,2} + w_{1,2} x_{2,2} + \ldots + w_{1,n} x_{n,2} + b_1 & \ldots & w_{1,1} x_{1,N} + w_{1,2} x_{2,N} + \ldots + w_{1,n} x_{n,N} + b_1
\\ w_{2,1} x_{1,1} + w_{2,2} x_{2,1} + \ldots + w_{2,n} x_{n,1} + b_2 & w_{2,1} x_{1,2} + w_{2,2} x_{2,2} + \ldots + w_{2,n} x_{n,2} + b_2 & \ldots & w_{2,1} x_{1,N} + w_{2,2} x_{2,N} + \ldots + w_{2,n} x_{n,N} + b_2
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} x_{1,1} + w_{m,2} x_{2,1} + \ldots + w_{m,n} x_{n,1} + b_m & w_{m,1} x_{1,2} + w_{m,2} x_{2,2} + \ldots + w_{m,n} x_{n,2} + b_m & \ldots & w_{m,1} x_{1,N} + w_{m,2} x_{2,N} + \ldots + w_{m,n} x_{n,N} + b_m
\end{bmatrix} $

Debe ser claro que cuando se incrementa un peso en una unidad se incrementan las salidas donde interviene dicho peso de manera proporcional a la entrada por la que se encuentra multiplicado el peso. Es decir, que la derivada parcial de una salida con respecto al peso es igual a la entrada por la que se encuentra multiplicado dicho peso. No obstante, calcular todas las derivadas parciales requiere construir un tensor para cada una de las $m \times N$ salidas con respecto a cada uno de los $m \times n$ pesos, lo que puede ser computacionalmente ineficiente.

- $ \cfrac{\partial Y}{\partial W} \in \mathbb{R}^{m \times N \times m \times n} $

Abusando quizás un poco de la notación, se pueden examinar algunas de estas derivadas parciales.

- $ \cfrac{\partial y_{1,1}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{1,1}}{\partial w_{1,1}} & \cfrac{\partial y_{1,1}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{1,1}}{\partial w_{2,1}} & \cfrac{\partial y_{1,1}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,1}}{\partial w_{m,1}} & \cfrac{\partial y_{1,1}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial w_{m,n}}
\end{bmatrix}
\qquad
\cfrac{\partial y_{1,2}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{1,2}}{\partial w_{1,1}} & \cfrac{\partial y_{1,2}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{1,2}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{1,2}}{\partial w_{2,1}} & \cfrac{\partial y_{1,2}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{1,2}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,2}}{\partial w_{m,1}} & \cfrac{\partial y_{1,2}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{1,2}}{\partial w_{m,n}}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{1,N}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{1,N}}{\partial w_{1,1}} & \cfrac{\partial y_{1,N}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{1,N}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{1,N}}{\partial w_{2,1}} & \cfrac{\partial y_{1,N}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{1,N}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,N}}{\partial w_{m,1}} & \cfrac{\partial y_{1,N}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{1,N}}{\partial w_{m,n}}
\end{bmatrix} $

- $ \cfrac{\partial y_{2,1}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{2,1}}{\partial w_{1,1}} & \cfrac{\partial y_{2,1}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{2,1}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{2,1}}{\partial w_{2,1}} & \cfrac{\partial y_{2,1}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{2,1}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{2,1}}{\partial w_{m,1}} & \cfrac{\partial y_{2,1}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{2,1}}{\partial w_{m,n}}
\end{bmatrix}
\qquad
\cfrac{\partial y_{2,2}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{2,2}}{\partial w_{1,1}} & \cfrac{\partial y_{2,2}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{2,2}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{2,2}}{\partial w_{2,1}} & \cfrac{\partial y_{2,2}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{2,2}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{2,2}}{\partial w_{m,1}} & \cfrac{\partial y_{2,2}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{2,2}}{\partial w_{m,n}}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{2,N}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{2,N}}{\partial w_{1,1}} & \cfrac{\partial y_{2,N}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{2,N}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{2,N}}{\partial w_{2,1}} & \cfrac{\partial y_{2,N}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{2,N}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{2,N}}{\partial w_{m,1}} & \cfrac{\partial y_{2,N}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{2,N}}{\partial w_{m,n}}
\end{bmatrix} $

$ \qquad \vdots $

- $ \cfrac{\partial y_{m,1}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{m,1}}{\partial w_{1,1}} & \cfrac{\partial y_{m,1}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{m,1}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{m,1}}{\partial w_{2,1}} & \cfrac{\partial y_{m,1}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{m,1}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{m,1}}{\partial w_{m,1}} & \cfrac{\partial y_{m,1}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{m,1}}{\partial w_{m,n}}
\end{bmatrix} 
\qquad
\cfrac{\partial y_{m,2}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{m,2}}{\partial w_{1,1}} & \cfrac{\partial y_{m,2}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{m,2}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{m,2}}{\partial w_{2,1}} & \cfrac{\partial y_{m,2}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{m,2}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{m,2}}{\partial w_{m,1}} & \cfrac{\partial y_{m,2}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{m,2}}{\partial w_{m,n}}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{m,N}}{\partial W} = \begin{bmatrix}
\cfrac{\partial y_{m,N}}{\partial w_{1,1}} & \cfrac{\partial y_{m,N}}{\partial w_{1,2}} & \ldots & \cfrac{\partial y_{m,N}}{\partial w_{1,n}}
\\ \cfrac{\partial y_{m,N}}{\partial w_{2,1}} & \cfrac{\partial y_{m,N}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{m,N}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{m,N}}{\partial w_{m,1}} & \cfrac{\partial y_{m,N}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{m,N}}{\partial w_{m,n}}
\end{bmatrix} $

Desarrollando los elementos, se observan dos patrones.

- $ \cfrac{\partial y_{1,1}}{\partial W} = \begin{bmatrix}
x_{1,1} & x_{2,1} & \ldots & x_{n,1}
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix}
\qquad \cfrac{\partial y_{1,2}}{\partial W} = \begin{bmatrix}
x_{1,2} & x_{2,2} & \ldots & x_{n,2}
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{1,N}}{\partial W} = \begin{bmatrix}
x_{1,N} & x_{2,N} & \ldots & x_{n,N}
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix} $

- $ \cfrac{\partial y_{2,1}}{\partial W} = \begin{bmatrix}
0 & 0 & \ldots & 0
\\ x_{1,1} & x_{2,1} & \ldots & x_{n,1}
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix}
\qquad \cfrac{\partial y_{2,2}}{\partial W} = \begin{bmatrix}
0 & 0 & \ldots & 0
\\ x_{1,2} & x_{2,2} & \ldots & x_{n,2}
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{2,N}}{\partial W} = \begin{bmatrix}
0 & 0 & \ldots & 0
\\ x_{1,N} & x_{2,N} & \ldots & x_{n,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix} $

$ \qquad \vdots $

- $ \cfrac{\partial y_{m,1}}{\partial W} = \begin{bmatrix}
0 & 0 & \ldots & 0
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ x_{1,1} & x_{2,1} & \ldots & x_{n,1}
\end{bmatrix}
\qquad \cfrac{\partial y_{m,2}}{\partial W} = \begin{bmatrix}
0 & 0 & \ldots & 0
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ x_{1,2} & x_{2,2} & \ldots & x_{n,2}
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{m,N}}{\partial W} = \begin{bmatrix}
0 & 0 & \ldots & 0
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ x_{1,N} & x_{2,N} & \ldots & x_{n,N}
\end{bmatrix} $

El primer patrón se observa fila a fila, donde los únicos elementos distintos de cero se encuentran en las filas donde el primer subíndice de las salidas ($p$) coincide con el primer subíndice de los pesos ($i$). Ejemplo:

- $ \begin{bmatrix}
\cfrac{\partial y_{{\color{magenta}{1}},1}}{\partial w_{{\color{magenta}{1}},1}} & \cfrac{\partial y_{{\color{magenta}{1}},1}}{\partial w_{{\color{magenta}{1}},2}} & \ldots & \cfrac{\partial y_{{\color{magenta}{1}},1}}{\partial w_{{\color{magenta}{1}},n}}
\\ \cfrac{\partial y_{1,1}}{\partial w_{2,1}} & \cfrac{\partial y_{1,1}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,1}}{\partial w_{m,1}} & \cfrac{\partial y_{1,1}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial w_{m,n}}
\end{bmatrix} = \begin{bmatrix}
\color{magenta}{x_{1,1}} & \color{magenta}{x_{2,1}} & \ldots & \color{magenta}{x_{n,1}}
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix} $

Y el segundo patrón se observa en las filas con valores distintos de cero, donde el primer subindice de las entradas coincide con el segundo subíndice de los pesos ($j$), y el segundo subíndice de las entradas coincide con el segundo subíndice de las salidas ($q$). Ejemplo:

- $ \begin{bmatrix}
\cfrac{\partial y_{1,{\color{blue}{1}}}}{\partial w_{1,{\color{red}{1}}}} & \cfrac{\partial y_{1,{\color{blue}{1}}}}{\partial w_{1,{\color{red}{2}}}} & \ldots & \cfrac{\partial y_{1,{\color{blue}{1}}}}{\partial w_{1,{\color{red}{n}}}}
\\ \cfrac{\partial y_{1,1}}{\partial w_{2,1}} & \cfrac{\partial y_{1,1}}{\partial w_{2,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial w_{2,n}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_{1,1}}{\partial w_{m,1}} & \cfrac{\partial y_{1,1}}{\partial w_{m,2}} & \ldots & \cfrac{\partial y_{1,1}}{\partial w_{m,n}}
\end{bmatrix} = \begin{bmatrix}
x_{{\color{red}{1}},{\color{blue}{1}}} & x_{{\color{red}{2}},{\color{blue}{1}}} & \ldots & x_{{\color{red}{n}},{\color{blue}{1}}}
\\ 0 & 0 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 0
\end{bmatrix} $

Es decir, una salida $y_{p,q}$ se ve afectada por un peso $w_{i,j}$ en una cuantía igual al valor de la entrada $x_{j,q}$ por el que se encuentra multiplicado.

- $ \cfrac{\partial y_{p,q}}{\partial w_{i,j}} = \begin{cases} x_{j,q} & \text{si } p = i \\ 0 & \text{en caso contrario} \end{cases} $

Sustituyendo ambos patrones en la expresión de cálculo de los elementos del gradiente buscado $\bf{(1)}$.

- $ \cfrac{\partial L}{\partial w_{i,j}} = \displaystyle\sum_{p=1}^{m} \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial w_{i,j}} $

- $ \cfrac{\partial L}{\partial w_{i,j}} = \displaystyle\sum_{p=1}^{m} \left( \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial w_{i,j}} \right) $

- $ \cfrac{\partial L}{\partial w_{i,j}} = \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{i,q}} \cfrac{\partial y_{i,q}}{\partial w_{i,j}} + \displaystyle\sum_{\substack{p=1 \\ p \ne i}}^{m} \left( \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial w_{i,j}} \right) $

- $ \cfrac{\partial L}{\partial w_{i,j}} = \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{i,q}} \cfrac{\partial y_{i,q}}{\partial w_{i,j}} + 0 $
 
- $ \cfrac{\partial L}{\partial w_{i,j}} = \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{i,q}} x_{j,q} $

- $ \cfrac{\partial L}{\partial w_{i,j}} = \cfrac{\partial L}{\partial y_{i,1}} x_{j,1} + \cfrac{\partial L}{\partial y_{i,2}} x_{j,2} + \ldots + \cfrac{\partial L}{\partial y_{i,N}} x_{j,N} $

Se pueden desarrollar todos los elementos del gradiente evitando el cálculo de los valores que son igual a cero y no aportan nada al resultado.

- $ \nabla_W{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} x_{1,1} + \cfrac{\partial L}{\partial y_{1,2}} x_{1,2} + \ldots + \cfrac{\partial L}{\partial y_{1,N}} x_{1,N}
& \cfrac{\partial L}{\partial y_{1,1}} x_{2,1} + \cfrac{\partial L}{\partial y_{1,2}} x_{2,2} + \ldots + \cfrac{\partial L}{\partial y_{1,N}} x_{2,N}
& \ldots & \cfrac{\partial L}{\partial y_{1,1}} x_{n,1} + \cfrac{\partial L}{\partial y_{1,2}} x_{n,2} + \ldots + \cfrac{\partial L}{\partial y_{1,N}} x_{n,N}
\\ \cfrac{\partial L}{\partial y_{2,1}} x_{1,1} + \cfrac{\partial L}{\partial y_{2,2}} x_{1,2} + \ldots + \cfrac{\partial L}{\partial y_{2,N}} x_{1,N}
& \cfrac{\partial L}{\partial y_{2,1}} x_{2,1} + \cfrac{\partial L}{\partial y_{2,2}} x_{2,2} + \ldots + \cfrac{\partial L}{\partial y_{2,N}} x_{2,N}
& \ldots & \cfrac{\partial L}{\partial y_{2,1}} x_{n,1} + \cfrac{\partial L}{\partial y_{2,2}} x_{n,2} + \ldots + \cfrac{\partial L}{\partial y_{2,N}} x_{n,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_{m,1}} x_{1,1} + \cfrac{\partial L}{\partial y_{m,2}} x_{1,2} + \ldots + \cfrac{\partial L}{\partial y_{m,N}} x_{1,N}
& \cfrac{\partial L}{\partial y_{m,1}} x_{2,1} + \cfrac{\partial L}{\partial y_{m,2}} w_{2,2} + \ldots + \cfrac{\partial L}{\partial y_{m,N}} x_{2,N}
& \ldots & \cfrac{\partial L}{\partial y_{m,1}} x_{n,1} + \cfrac{\partial L}{\partial y_{m,2}} x_{n,2} + \ldots + \cfrac{\partial L}{\partial y_{m,N}} x_{n,N}
\end{bmatrix} $

Expresión que puede simplificarse atendiendo a la forma de los sumandos.

- $ \nabla_W{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} & \cfrac{\partial L}{\partial y_{1,2}} & \ldots & \cfrac{\partial L}{\partial y_{1,N}}
\\ \cfrac{\partial L}{\partial y_{2,1}} & \cfrac{\partial L}{\partial y_{2,2}} & \ldots & \cfrac{\partial L}{\partial y_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_{m,1}} & \cfrac{\partial L}{\partial y_{m,2}} & \ldots & \cfrac{\partial L}{\partial y_{m,N}}
\end{bmatrix} \begin{bmatrix}
x_{1,1} & x_{2,1} & \ldots & x_{n,1}
\\ x_{1,2} & x_{2,2} & \ldots & x_{n,2}
\\ \vdots
\\ x_{1,N} & x_{2,N} & \ldots & x_{n,N}
\end{bmatrix} = \nabla_Y{L} X^T $

De forma que el gradiente de la pérdida respecto a los pesos de la capa $\nabla_W{L}$ se puede calcular como el producto del gradiente de la pérdida respecto a la salida de la capa $\nabla_Y{L}$ por la traspuesta de la entrada a la capa $X^T$.

- $ \nabla_W{L} = \nabla_Y{L} X^T $

Dimensiones:

- $ \nabla_Y{L} \in \mathbb{R}^{m \times N} $

- $ X^T \in \mathbb{R}^{N \times n} $

- $ \nabla_W{L} \in \mathbb{R}^{m \times n} $

### 4.3. Gradiente de la Pérdida Respecto a los Sesgos

El tercer resultado a calcular por el _backward pass_ es la derivada de la pérdida respecto a los sesgos de la capa.

- $ \cfrac{\partial L}{\partial B} $

La derivada a calcular puede encontrarse aplicando la regla de la cadena.

- $ \cfrac{\partial L}{\partial B} = \cfrac{\partial L}{\partial Y} \cfrac{\partial Y}{\partial B} $

#### 4.3.1. Escalar

El caso más sencillo ocurre cuando entrada, peso y sesgo son valores escalares.

- $ y = wx + b$

En este caso debe ser claro que la derivada parcial de la salida $y$ respecto al sesgo $b$ es igual $1$. Es decir, cuando se incrementa el sesgo en una unidad se incrementa la salida en una unidad.

- $ \cfrac{\partial y}{\partial b} = 1 $

Sustituyendo en la regla de la cadena se encuentra la derivada parcial de la pérdida respecto al sesgo.

- $ \cfrac{\partial L}{\partial b} = \cfrac{\partial L}{\partial y} \cfrac{\partial y}{\partial b} = \cfrac{\partial L}{\partial y} $

Dimensiones:

- $ w \in \mathbb{R} $

- $ x \in \mathbb{R} $

- $ b \in \mathbb{R} $

- $ y \in \mathbb{R} $

#### 4.3.2. Vectorial

Cuando la entrada es un vector, el gradiente de la pérdida respecto a la salida (valor de entrada) es un vector.

- $ \nabla_Y{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_1}
\\ \cfrac{\partial L}{\partial y_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial y_m}
\end{bmatrix} $

Y el gradiente de la pérdida respecto a los pesos (valor a calcular) es también un vector.

- $ \nabla_B{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial b_1}
\\ \cfrac{\partial L}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial b_m}
\end{bmatrix} $

Donde cada elemento del vector puede calcularse de manera individual utilizando la regla de la cadena para varias variables.

- $ \cfrac{\partial L}{\partial b_i} = \displaystyle\sum_{p=1}^{m} \cfrac{\partial L}{\partial y_p} \cfrac{\partial y_p}{\partial b_i} \quad \bf{(1)} $

Recordando cómo se calcula la salida cuando las entradas son vectores.

- $ Y = \begin{bmatrix}
y_1
\\ y_2
\\ \vdots
\\ y_m
\end{bmatrix} = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
x_{1}
\\ x_{2}
\\ \vdots
\\ x_{n}
\end{bmatrix} + \begin{bmatrix}
b_1
\\ b_2
\\ \vdots
\\ b_m
\end{bmatrix} $

Y desarrollando cada elemento, puede entenderse como afecta cada sesgo en el cálculo de cada salida.

- $ Y = \begin{bmatrix}
w_{1,1} x_1 + w_{1,2} x_2 + \ldots + w_{1,n} x_n + b_1
\\ w_{2,1} x_1 + w_{2,2} x_2 + \ldots + w_{2,n} x_n + b_2
\\ \vdots
\\ w_{m,1} x_1 + w_{m,2} x_2 + \ldots + w_{m,n} x_n + b_m
\end{bmatrix} $

Debe ser claro que cuando se incrementa un sesgo en una unidad se incrementa la salida donde interviene dicho sesgo en una unidad. Es decir, que la derivada parcial de la salida con respecto al sesgo es igual a $1$. De forma que puede calcularse una derivada parcial por cada una de las $m$ salidas con respecto a cada una de los $m$ sesgos. Derivadas parciales que pueden reunirse en una matriz, llamada matriz jacobiana.

- $ \cfrac{\partial Y}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_1}{\partial b_1} & \cfrac{\partial y_1}{\partial b_2} & \ldots & \cfrac{\partial y_1}{\partial b_m}
\\ \cfrac{\partial y_2}{\partial b_1} & \cfrac{\partial y_2}{\partial b_2} & \ldots & \cfrac{\partial y_2}{\partial b_m}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_m}{\partial b_1} & \cfrac{\partial y_m}{\partial b_2} & \ldots & \cfrac{\partial y_m}{\partial b_m}
\end{bmatrix} = \begin{bmatrix}
1 & 0 & \ldots & 0
\\ 0 & 1 & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & 1
\end{bmatrix} = I $

Analizando los valores de la matriz, se observa un patrón en la posición de los elementos que son distintos de cero, donde el subíndice de las salidas ($p$) coincide con el subíndice de los sesgos ($i$). Ejemplo:

- $ \begin{bmatrix}
\cfrac{\partial y_{\color{magenta}{1}}}{\partial b_{\color{magenta}{1}}} & \cfrac{\partial y_1}{\partial b_2} & \ldots & \cfrac{\partial y_1}{\partial b_m}
\\ \cfrac{\partial y_2}{\partial b_1} & \cfrac{\partial y_{\color{magenta}{2}}}{\partial b_{\color{magenta}{2}}} & \ldots & \cfrac{\partial y_2}{\partial b_m}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial y_m}{\partial b_1} & \cfrac{\partial y_m}{\partial b_2} & \ldots & \cfrac{\partial y_{\color{magenta}{m}}}{\partial b_{\color{magenta}{m}}}
\end{bmatrix} = \begin{bmatrix}
\color{magenta}{1} & 0 & \ldots & 0
\\ 0 & \color{magenta}{1} & \ldots & 0
\\ \vdots & \vdots & \ddots & \vdots
\\ 0 & 0 & \ldots & \color{magenta}{1}
\end{bmatrix} $

Es decir, una salida $y_p$ se ve afectada por un sesgo $b_i$ en una cuantía igual a 1.

- $ \cfrac{\partial y_p}{\partial b_i} = \begin{cases} 1 & \text{si } p = i \\ 0 & \text{en caso contrario} \end{cases} $

Sustituyendo en la expresión de cálculo de los elementos del gradiente buscado $\bf{(1)}$.

- $ \cfrac{\partial L}{\partial b_i} = \displaystyle\sum_{p=1}^{m} \cfrac{\partial L}{\partial y_p} \cfrac{\partial y_p}{\partial b_i} $

- $ \cfrac{\partial L}{\partial b_i} = \cfrac{\partial L}{\partial y_1} \cfrac{\partial y_1}{\partial b_i} + \cfrac{\partial L}{\partial y_2} \cfrac{\partial y_2}{\partial b_i} + \ldots + \cfrac{\partial L}{\partial y_i} \cfrac{\partial y_i}{\partial b_i} + \ldots + \cfrac{\partial L}{\partial y_m} \cfrac{\partial y_m}{\partial b_i} $

- $ \cfrac{\partial L}{\partial b_i} = \cfrac{\partial L}{\partial y_1} 0 + \cfrac{\partial L}{\partial y_2} 0 + \ldots + \cfrac{\partial L}{\partial y_i} 1 + \ldots + \cfrac{\partial L}{\partial y_m} 0 $

- $ \cfrac{\partial L}{\partial b_i} = \cfrac{\partial L}{\partial y_i} $

Se pueden desarrollar todos los elementos del gradiente evitando el cálculo de los valores que son igual a cero y no aportan nada al resultado.

- $ \nabla_B{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial b_1}
\\ \cfrac{\partial L}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial b_m}
\end{bmatrix} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_1}
\\ \cfrac{\partial L}{\partial y_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial y_m}
\end{bmatrix} = \nabla_Y{L} $

De forma que el gradiente de la pérdida respecto a los sesgos de la capa $\nabla_B{L}$ es igual al gradiente de la pérdida respecto a la salida de la capa $\nabla_Y{L}$.

- $ \nabla_B{L} = \nabla_Y{L} $

Dimensiones:

- $ \nabla_Y{L} \in \mathbb{R}^{m \times 1} $

- $ \nabla_B{L} \in \mathbb{R}^{m \times 1} $

#### 4.3.3. Matricial

Cuando se evalúa un _batch_ de $N$ entradas, el gradiente de la pérdida respecto a la salida (valor de entrada) es una matriz.

- $ \nabla_Y{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} & \cfrac{\partial L}{\partial y_{1,2}} & \ldots & \cfrac{\partial L}{\partial y_{1,N}}
\\ \cfrac{\partial L}{\partial y_{2,1}} & \cfrac{\partial L}{\partial y_{2,2}} & \ldots & \cfrac{\partial L}{\partial y_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_{m,1}} & \cfrac{\partial L}{\partial y_{m,2}} & \ldots & \cfrac{\partial L}{\partial y_{m,N}}
\end{bmatrix} $

Y el gradiente de la pérdida respecto a los pesos (valor a calcular) es un vector.

- $ \nabla_B{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial b_1}
\\ \cfrac{\partial L}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial b_m}
\end{bmatrix} $

Donde cada elemento del vector puede calcularse de manera individual utilizando la regla de la cadena para varias variables.

- $ \cfrac{\partial L}{\partial b_i} = \displaystyle\sum_{p=1}^{m} \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial b_i} \quad \bf{(1)} $

Recordando como se calcula la salida cuando la entrada es un _batch_ de vectores.

- $ Y = \begin{bmatrix}
y_{1,1} & y_{1,2} & \ldots & y_{1,N}
\\ y_{2,1} & y_{2,2} & \ldots & y_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ y_{m,1} & y_{m,2} & \ldots & y_{m,N}
\end{bmatrix} = \begin{bmatrix}
w_{1,1} & w_{1,2} & \ldots & w_{1,n}
\\ w_{2,1} & w_{2,2} & \ldots & w_{2,n}
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} & w_{m,2} & \ldots & w_{m,n}
\end{bmatrix} \begin{bmatrix}
x_{1,1} & x_{1,2} & \ldots & x_{1,N}
\\ x_{2,1} & x_{2,2} & \ldots & x_{2,N}
\\ \vdots & \vdots & \ddots & \vdots
\\ x_{n,1} & x_{n,2} & \ldots & x_{n,N}
\end{bmatrix} + \begin{bmatrix}
b_1 & b_1 & \ldots & b_1
\\ b_2 & b_2 & \ldots & b_2
\\ \vdots & \vdots & \ddots & \vdots
\\ b_m & b_m & \ldots & b_m
\end{bmatrix} $

Y desarrollando cada elemento, puede entenderse como afecta cada sesgo en el cálculo de cada salida.

- $ Y = \begin{bmatrix}
w_{1,1} x_{1,1} + w_{1,2} x_{2,1} + \ldots + w_{1,n} x_{n,1} + b_1 & w_{1,1} x_{1,2} + w_{1,2} x_{2,2} + \ldots + w_{1,n} x_{n,2} + b_1 & \ldots & w_{1,1} x_{1,N} + w_{1,2} x_{2,N} + \ldots + w_{1,n} x_{n,N} + b_1
\\ w_{2,1} x_{1,1} + w_{2,2} x_{2,1} + \ldots + w_{2,n} x_{n,1} + b_2 & w_{2,1} x_{1,2} + w_{2,2} x_{2,2} + \ldots + w_{2,n} x_{n,2} + b_2 & \ldots & w_{2,1} x_{1,N} + w_{2,2} x_{2,N} + \ldots + w_{2,n} x_{n,N} + b_2
\\ \vdots & \vdots & \ddots & \vdots
\\ w_{m,1} x_{1,1} + w_{m,2} x_{2,1} + \ldots + w_{m,n} x_{n,1} + b_m & w_{m,1} x_{1,2} + w_{m,2} x_{2,2} + \ldots + w_{m,n} x_{n,2} + b_m & \ldots & w_{m,1} x_{1,N} + w_{m,2} x_{2,N} + \ldots + w_{m,n} x_{n,N} + b_m
\end{bmatrix} $

Debe ser claro que cuando se incrementa un sesgo en una unidad se incrementan las salidas donde interviene dicho sesgo en una unidad. Es decir, que la derivada parcial de una salida con respecto al sesgo es igual a $1$. No obstante, calcular todas las derivadas parciales requiere construir un tensor para cada una de las $m \times N$ salidas con respecto a cada uno de los $m$ sesgos, lo que puede ser computacionalmente ineficiente.

- $ \cfrac{\partial Y}{\partial B} \in \mathbb{R}^{m \times N \times m} $

Abusando quizás un poco de la notación, se pueden examinar algunas de estas derivadas parciales.

- $ \cfrac{\partial y_{1,1}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{1,1}}{\partial b_1}
\\ \cfrac{\partial y_{1,1}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{1,1}}{\partial b_m}
\end{bmatrix}
\qquad
\cfrac{\partial y_{1,2}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{1,2}}{\partial b_1}
\\ \cfrac{\partial y_{1,2}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{1,2}}{\partial b_m}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{1,N}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{1,N}}{\partial b_1}
\\ \cfrac{\partial y_{1,N}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{1,N}}{\partial b_m}
\end{bmatrix} $

- $ \cfrac{\partial y_{2,1}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{2,1}}{\partial b_1}
\\ \cfrac{\partial y_{2,1}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{2,1}}{\partial b_m}
\end{bmatrix}
\qquad
\cfrac{\partial y_{2,2}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{2,2}}{\partial b_1}
\\ \cfrac{\partial y_{2,2}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{2,2}}{\partial b_m}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{2,N}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{2,N}}{\partial b_1}
\\ \cfrac{\partial y_{2,N}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{2,N}}{\partial b_m}
\end{bmatrix} $

$ \qquad \vdots $

- $ \cfrac{\partial y_{m,1}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{m,1}}{\partial b_1}
\\ \cfrac{\partial y_{m,1}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{m,1}}{\partial b_m}
\end{bmatrix}
\qquad
\cfrac{\partial y_{m,2}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{m,2}}{\partial b_1}
\\ \cfrac{\partial y_{m,2}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{m,2}}{\partial b_m}
\end{bmatrix}
\qquad \ldots \qquad
\cfrac{\partial y_{m,N}}{\partial B} = \begin{bmatrix}
\cfrac{\partial y_{m,N}}{\partial b_1}
\\ \cfrac{\partial y_{m,N}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{m,N}}{\partial b_m}
\end{bmatrix} $

Desarrollando los elementos, se observa un patrón.

- $ \cfrac{\partial y_{1,1}}{\partial B} = \begin{bmatrix}
1
\\ 0
\\ \vdots
\\ 0
\end{bmatrix}
\qquad \cfrac{\partial y_{1,2}}{\partial B} = \begin{bmatrix}
1
\\ 0
\\ \vdots
\\ 0
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{1,N}}{\partial B} = \begin{bmatrix}
1
\\ 0
\\ \vdots
\\ 0
\end{bmatrix} $

- $ \cfrac{\partial y_{2,1}}{\partial B} = \begin{bmatrix}
0
\\ 1
\\ \vdots
\\ 0
\end{bmatrix}
\qquad \cfrac{\partial y_{2,2}}{\partial B} = \begin{bmatrix}
0
\\ 1
\\ \vdots
\\ 0
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{2,N}}{\partial B} = \begin{bmatrix}
0
\\ 1
\\ \vdots
\\ 0
\end{bmatrix} $

$ \qquad \vdots $

- $ \cfrac{\partial y_{m,1}}{\partial B} = \begin{bmatrix}
0
\\ 0
\\ \vdots
\\ 1
\end{bmatrix}
\qquad \cfrac{\partial y_{m,2}}{\partial B} = \begin{bmatrix}
0
\\ 0
\\ \vdots
\\ 1
\end{bmatrix}
\qquad \ldots
\qquad \cfrac{\partial y_{m,N}}{\partial B} = \begin{bmatrix}
0
\\ 0
\\ \vdots
\\ 1
\end{bmatrix} $

El patrón se observa fila a fila, donde los únicos elementos distintos de cero se encuentran en las filas donde el subíndice de las salidas ($p$) coincide con el primer subíndice de los sesgos ($i$). Ejemplo:

- $ \begin{bmatrix}
\cfrac{\partial y_{{\color{magenta}{1}},1}}{\partial b_{\color{magenta}{1}}}
\\ \cfrac{\partial y_{1,1}}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial y_{1,1}}{\partial b_m}
\end{bmatrix} = \begin{bmatrix}
{\color{magenta}{1}}
\\ 0
\\ \vdots
\\ 0
\end{bmatrix} $

Es decir, una salida $y_{p,q}$ se ve afectada por un sesgo $b_i$ en una cuantía igual a 1.

- $ \cfrac{\partial y_{p,q}}{\partial b_i} = \begin{cases} 1 & \text{si } p = i \\ 0 & \text{en caso contrario} \end{cases} $

Sustituyendo en la expresión de cálculo de los elementos del gradiente buscado $\bf{(1)}$.

- $ \cfrac{\partial L}{\partial b_i} = \displaystyle\sum_{p=1}^{m} \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial b_i} $

- $ \cfrac{\partial L}{\partial b_i} = \displaystyle\sum_{p=1}^{m} \left( \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial b_i} \right) $

- $ \cfrac{\partial L}{\partial b_i} = \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{i,q}} \cfrac{\partial y_{i,q}}{\partial b_i} + \displaystyle\sum_{\substack{p=1 \\ p \ne i}}^{m} \left( \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{p,q}} \cfrac{\partial y_{p,q}}{\partial b_i} \right) $

- $ \cfrac{\partial L}{\partial b_i} = \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{i,q}} 1 + 0 $

- $ \cfrac{\partial L}{\partial b_i} = \displaystyle\sum_{q=1}^{N} \cfrac{\partial L}{\partial y_{i,q}} $

- $ \cfrac{\partial L}{\partial b_i}= \cfrac{\partial L}{\partial y_{i,1}} + \cfrac{\partial L}{\partial y_{i,2}} + \ldots + \cfrac{\partial L}{\partial y_{i,N}} $

Se pueden desarrollar todos los elementos del gradiente evitando el cálculo de los valores que son igual a cero y no aportan nada al resultado.

- $ \nabla_B{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial b_1}
\\ \cfrac{\partial L}{\partial b_2}
\\ \vdots
\\ \cfrac{\partial L}{\partial b_m}
\end{bmatrix} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} + \cfrac{\partial L}{\partial y_{1,2}} + \ldots + \cfrac{\partial L}{\partial y_{1,N}}
\\ \cfrac{\partial L}{\partial y_{2,1}} + \cfrac{\partial L}{\partial y_{2,2}} + \ldots + \cfrac{\partial L}{\partial y_{2,N}}
\\ \vdots
\\ \cfrac{\partial L}{\partial y_{m,1}} + \cfrac{\partial L}{\partial y_{m,2}} + \ldots + \cfrac{\partial L}{\partial y_{m,N}}
\end{bmatrix} $

De forma que el gradiente de la pérdida respecto a los sesgos de la capa $\nabla_B{L}$ es igual a la suma, fila a fila, de los elementos del gradiente de la pérdida respecto a la salida de la capa $\nabla_Y{L}$.

- $ \nabla_B{L} = \begin{bmatrix}
\cfrac{\partial L}{\partial y_{1,1}} & \cfrac{\partial L}{\partial y_{1,2}} & \ldots & \cfrac{\partial L}{\partial y_{1,N}}
\\ \cfrac{\partial L}{\partial y_{2,1}} & \cfrac{\partial L}{\partial y_{2,2}} & \ldots & \cfrac{\partial L}{\partial y_{2,N}}
\\ \vdots & \vdots & \ddots & \vdots
\\ \cfrac{\partial L}{\partial y_{m,1}} & \cfrac{\partial L}{\partial y_{m,2}} & \ldots & \cfrac{\partial L}{\partial y_{m,N}}
\end{bmatrix} \begin{bmatrix}
1
\\ 1 
\\ \vdots
\\ 1 \end{bmatrix} = \nabla_Y{L} \mathbf{1} $

Dimensiones:

- $ \nabla_Y{L} \in \mathbb{R}^{m \times N} $

- $ \mathbf{1} \in \mathbb{R}^{N \times 1} $

- $ \nabla_B{L} \in \mathbb{R}^{m \times 1} $

## 5. Código Fuente

A continuación se desarrolla una capa de una red neuronal que implementa una transformación afín.

El desarrollo se realiza a bajo nivel, evitando el uso de _frameworks_ y librerías externas en la medida de lo posible, lo que en la práctica no es útil ni necesario, pero que resulta interesante como ejercicio para afianzar conceptos.

In [None]:
import numpy as np

### 5.1. AffineLayer

La capa es una implementación directa de las expresiones matemáticas correspondientes para poder evaluar una o varias entradas a un mismo tiempo.

- $ Y = W X + B $

- $ \nabla_X{L} = W^T \nabla_Y{L} $

- $ \nabla_W{L} = \nabla_Y{L} X^T $

- $ \nabla_B{L} = \nabla_Y{L} \mathbf{1} $

En el _forward pass_ hay que destacar que no es necesario construir la matriz de sesgos repitiendo los mismos valores una y otra vez. La librería numérica _numpy_ es capaz de realizar operaciones entre matrices y vectores aunque no tengan el tamaño esperado aplicando una técnica denominada _broadcasting_.

Por su parte, en el _backward pass_, la suma de los valores de los sesgos se realiza fila a fila gracias al atributo ```axis``` de _numpy_, que permite especificar sobre cual dimensión hay que realizar la operación.

In [None]:
class AffineLayer():

    def __init__(self, n, m):
        self.n = n
        self.m = m

    def forward(self, x, params):
        w = params['w']
        b = params['b']

        y = w @ x + b

        params['x'] = x

        return y

    def backward(self, dy, params):
        x = params['x']
        w = params['w']

        dx = w.T @ dy
        dw = dy @ x.T
        db = np.sum(dy, axis=1, keepdims=True)

        params['dw'] = dw
        params['db'] = db

        return dx

## 6. Pruebas

### 6.1. AffineLayer

La capa debe realizar los cálculos y retornar los valores con las dimensiones esperadas.

In [None]:
def test_affine_layer():
    layer = AffineLayer(n=3, m=2)

    params = {}
    params['w'] = np.array([[11, 12, 13], [14, 15, 16]])
    params['b'] = np.array([[21], [22]])

    '''
    Forward Pass
    '''

    x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

    y = layer.forward(x, params)

    assert params['w'].shape == (2, 3)
    assert params['x'].shape == (3, 3)
    assert params['b'].shape == (2, 1)
    assert y.shape == (2, 3)

    assert np.allclose(
        y,
        np.array([
            [11 * 1 + 12 * 4 + 13 * 7 + 21, 11 * 2 + 12 * 5 + 13 * 8 + 21, 11 * 3 + 12 * 6 + 13 * 9 + 21],
            [14 * 1 + 15 * 4 + 16 * 7 + 22, 14 * 2 + 15 * 5 + 16 * 8 + 22, 14 * 3 + 15 * 6 + 16 * 9 + 22]
        ])
    )

    '''
    Backward Pass
    '''

    dy = np.array([[31, 32, 33], [34, 35, 36]])

    dx = layer.backward(dy, params)

    assert dx.shape == (3, 3)
    assert params['dw'].shape == (2, 3)
    assert params['db'].shape == (2, 1)
    
    assert np.allclose(
        dx,
        np.array([
            [11 * 31 + 14 * 34, 11 * 32 + 14 * 35, 11 * 33 + 14 * 36],
            [12 * 31 + 15 * 34, 12 * 32 + 15 * 35, 12 * 33 + 15 * 36],
            [13 * 31 + 16 * 34, 13 * 32 + 16 * 35, 13 * 33 + 16 * 36]
        ])
    )

    assert np.allclose(
        params['dw'],
        np.array([
            [31 * 1 + 32 * 2 + 33 * 3, 31 * 4 + 32 * 5 + 33 * 6, 31 * 7 + 32 * 8 + 33 * 9],
            [34 * 1 + 35 * 2 + 36 * 3, 34 * 4 + 35 * 5 + 36 * 6, 34 * 7 + 35 * 8 + 36 * 9]
        ])
    )

    assert np.allclose(
        params['db'],
        np.array([
            [31 + 32 + 33],
            [34 + 35 + 36]
        ])
    )

test_affine_layer()