![imagenes](logo.png)

# Modelo matemático

Vayamos ahora a las matemáticas que trabajan en una red neuronal.

## Capa de entrada

Supongamos que llega un cliente potencial al antro y se forma en la fila. El cliente tiene ciertas características: edad, peso, estatura, vestimenta, actitud, hora de llegada, etc. En ese momento **nadie juzga ni aprueba nada**. El cliente solamente está formado.

En una red neuronal, esta fila es la capa de entrada. Las neuronas que la conforman se encargan únicamente de recabar la información del cliente formado. Esta información es un número. De esta manera, en una neurona entra la edad; en otra neurona entra el peso; en otra neurona entra la estatura; en otra neurona entra la vestimenta; etc.

Así, si la capa de entrada tiene $n$ neuronas, entonces esta espera recibir $n$ números; llamemos $x_1$, $x_2$,..., $x_n$ a estos valores y denotemos por $x$ a $$\boldsymbol{x}=(x_1,x_2,...,x_n)$$

## Capas medias

### Primera capa 

El cliente llega a una primera revisión formada por $n_1$ porteros. Cada uno de ellos realizará un juicio sobre el cliente basado en sus características $\boldsymbol{x}$. Aquí hay que tenerlo claro: se trata de un primer filtro formado por un conjunto de porteros. Cada uno de estos porteros es una neurona, y el conjunto de ellos forman la primera capa intermedia.

Cada portero observará el valor de los $x_i$; y cada uno le da una cierta importancia a cada valor. Por ejemplo, un portero puede considerar que es más importante la edad que la hora de llegada; otro portero puede considerar que es más importante la actitud que la edad.

Así, el portero $j$ de esta primera capa intermedia asigna ciertas importancias a cada característica: 

- $w_{1,1}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_1$
- $w_{1,2}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_2$ 
- $w_{1,3}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_3$
- ...
- $w_{1,n}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_n$

Y la forma en que este portero valora al cliente es $$z_{1}^{(j)}=w_{1,1}^{(j)}x_1+w_{1,2}^{(j)}x_2+w_{1,3}^{(j)}x_3+...+w_{1,n}^{(j)}x_n+b_1^{(j)}$$

En la ecuación anterior, $b_1^{(j)}$ es el **sesgo** del portero $j$ de la capa 1. Este número representa un "umbral de la personalidad del portero". Se trata del nivel de exigencia de dicho portero, independientemente de la persona que llegue. Hay porteros naturalmente estrictos y hay porteros naturalmente flexibles. Antes de ver a nadie, ya traen una inclinación: si $b_1^{(j)}$ es grande, significa que el portero es muy exigente. En caso contrario, el portero es muy permisivo.

De esta manera, $$z_{1}^{(j)}=w_{1,1}^{(j)}x_1+w_{1,2}^{(j)}x_2+w_{1,3}^{(j)}x_3+...+w_{1,n}^{(j)}x_n+b_1^{(j)}$$ significa "Tomo lo que veo de la persona, ponderado por mis criterios, y además parto de una postura inicial".

Por simplicidad, denotemos lo anterior como $$z_{1}^{(j)}=\boldsymbol{w}_{1}^{(j)}\cdot x+b_{1}^{(j)}$$

De alguna manera, $z_{1}^{(j)}$ es **lo que piensa el portero del cliente**. Pero ahora recordemos que hay $n_1$ porteros en esta primera capa intermedia. Por lo tanto hay $n_1$ juicios: $z_{1}^{(1)}$, $z_{1}^{(2)}$,..., $z_{1}^{(n_1)}$. Estos son solo pensamientos de los porteros. 



Por lo tanto, como tenemos $n_1$ ecuaciones lineales, podemos definir la matriz $W_1$ como 

$$W_1=\left(\begin{matrix}w_{1,1}^{(1)}&w_{1,2}^{(1)}&w_{1,3}^{(1)}&\dots&w_{1,n}^{(1)}\\
w_{1,1}^{(2)}&w_{1,2}^{(2)}&w_{1,3}^{(2)}&\dots&w_{1,n}^{(2)}\\
\vdots&\vdots&\vdots&\vdots&\vdots\\
w_{1,1}^{(n_1)}&w_{1,2}^{(n_1)}&w_{1,3}^{(n_1)}&\dots&w_{1,n}^{(n_1)}\\\end{matrix}\right)$$

y si $\boldsymbol{b}_1=(b_1^{(1)},b_1^{(2)},...,b_{1}^{(n_1)})$ son los sesgos de cada portero de esta primera capa, entonces todos los pensamientos de esta primera capa intermedia son $$\boldsymbol{z}_1=W_1\boldsymbol{x}+\boldsymbol{b}_1$$

A continuación, cada uno de estos porteros enviará su valoración a los porteros del siguiente filtro (es decir, la segunda capa). Esa valoración no es el pensamiento como tal. Digamos que el gerente ha dado una regla para toda esta primera capa: dependiendo de tu valoración (es decir, $z_1^{(j)}$) **aplicarás una fórmula y el resultado se lo pasarás a la segunda capa**.

Matemáticamente, esto significa que los porteros de la primera capa no pasan sus pensamientos, sino el resultado de aplicar una fórmula a sus pensamientos. Si denotamos por $f_1$ a dicha fórmula (el 1 es porque se trata de la fórmula de la primera capa intermedia) y $a_1^{(j)}$ es el resultado de aplicar la fórmula $f_1$ al pensamiento del portero $j$ de la capa 1, entonces $$a_1^{(j)}=f_1(z_1^{(j)})$$

Por lo tanto obtenemos $n_1$ resultados (uno por cada portero de la primera capa). Si denotamos por $\boldsymbol{a}_1$ estos resultados, entonces $$\boldsymbol{a}_1=f_1(\boldsymbol{z}_1)=f_1(W_1\boldsymbol{x}+\boldsymbol{b}_1)$$

Esta es la información que fluirá desde la capa 1 hacia la capa 2. **Este proceso se repetirá entre todas las capas intermedias.**

## Otras capas intermedias

Dicho lo anterior, conservando la notación, el proceso se vuelve iterativo. Digamos que tenemos las capas $r$ y $r+1$, cada una $n_r$ y $n_{r+1}$ neuronas, respectivamente.

La capa $r$ ha generado entonces los $n_r$ pensamientos $\boldsymbol{z}_r=(z_r^{(1)},z_r^{(2)},...,z_r^{(n_r)})$. Se aplica una fórmula $f_r$ a cada uno de esos pensamientos y se obtienen $n_r$ resultados $\boldsymbol{a}_r=(a_r^{(1)},a_r^{(2)},...,a_r^{(n_r)})$. Estos $n_r$ resultados son enviados a las $n_{r+1}$ neuronas de la siguiente capa. 

Cada una estas neuronas tiene sus propias "importancias" (pesos) para cada uno de los $n_r$ resultados que recibe: la neurona $j$ de la capa $n_{r+1}$ tiene pesos $\boldsymbol{w}_{r+1}^{(j)}=(w_{r+1,1}^{(j)},w_{r+1,2}^{(j)},...,w_{r+1,n_r}^{(j)})$ y forma su propio pensamiento $z_{r+1}^{(j)}$ como $$z_{r+1}^{(j)}=w_{r+1,1}^{(j)}a_r^{(1)}+w_{r+1,2}^{(j)}a_r^{(2)}+...+w_{r+1,n_r}^{(j)}a_r^{(n_r)}+b_{r+1}^{(j)}=\boldsymbol{w}_{r+1}^{(j)}\cdot\boldsymbol{a}_r+b_{r+1}^{(j)}$$

Si los pesos de toda la capa son $$W_{r+1}=\left(\begin{matrix}w_{r+1,1}^{(1)}&w_{r+1,2}^{(1)}&\dots&w_{r+1,n_r}^{(1)}\\
w_{r+1,1}^{(2)}&w_{r+1,2}^{(2)}&\dots&w_{r+1,n_r}^{(2)}\\
\vdots&\vdots&\vdots&\vdots\\
w_{r+1,1}^{(n_{r+1})}&w_{r+1,2}^{(n_{r+1})}&\dots&w_{r+1,n_r}^{(n_{r+1})}\end{matrix}\right)$$

y los sesgos de cada neurona de esa capa son $\boldsymbol{b}_{r+1}=(b_{r+1}^{(1)},b_{r+1}^{(2)},...,b_{r+1}^{(n_{r+1})})$ entonces los pensamientos en la capa $r+1$ son $$\boldsymbol{z}_{r+1}=W_{r+1}\boldsymbol{a}_r+\boldsymbol{b}_{r+1}$$ y, tomando como **fórmula de activación** a $f_{r+1}$ entonces   $$\boldsymbol{a}_{r+1}=f_{r+1}(\boldsymbol{z}_{r+1})$$

De esta manera **el Flujo de información** se puede resumir así: 
Entrada → Pesos y sesgo → Juicio crudo z → Activación a → Entrada para siguiente capa

## Capa de salida

Supongamos que la última capa intermedia es la capa es $R$ y tiene $n_R$ neuronas. Esta capa ya produjo su vector de activaciones $\boldsymbol{a}_{R}=(a_R^{(1)},a_R^{(2)},...,a_R^{(n_R)})$. Este vector contiene toda la información procesada del cliente: no son ya características originales, sino criterios abstractos aprendidos por la red. Ese vector entra completo a la capa de salida.

Digamos que la capa de salida tiene $n_{out}$ neuronas. Cada una representa una posible decisión final:
- $n_{out}=1$ cuando el problema es de clasificación binaria.
- $n_{out}=k$ cuando el problema es de clasificación múltiple en $k$ categorías.
- $n_{out}$ puede ser 1 o más cuando se trata de un problema de regresión.

Cada neurona de salida funciona igual que las anteriores: forma un pensamiento lineal a partir de $\boldsymbol{a}_R$.

La neurona $j$ de la capa de salida tiene sus pesos $\boldsymbol{w}_{out}^{(j)}$ y calcula su propio pensamiento crudo $$z_{out}^{(j)}=\boldsymbol{w}_{out}^{(j)}\cdot\boldsymbol{a}_R+b_{out}^{(j)}$$

Como hay $n_{out}$ neuronas en la capa de salida, entonces tenemos $n_{out}$ pensamientos crudos $\boldsymbol{z}_{out}=(z_{out}^{(1)},z_{out}^{(2)},...,z_{out}^{(n_{out})})$ y tomando $W_{out}$ como la matriz de pesos (recuerda que la primer fila son las importancias de la primer neurona de la capa de salida; la segunda fila son las importancias de la segunda neurona de la capa de salida; etc) y $\boldsymbol{b}_{out}$ como los sesgos, entonces $$\boldsymbol{z}_{out}=W_{out}\boldsymbol{a}_R+\boldsymbol{b}_{out}$$

Ahora ocurre algo importante: el gerente va a tomar una decisión. Esto lo hará basado en la fórmula con la que transforma los pensamientos crudos de la capa de salida en pensamientos procesados: $$\boldsymbol{\hat{y}}=\boldsymbol{a}_{out}=f_{out}(\boldsymbol{z}_{out})$$

Este resultado $\boldsymbol{\hat{y}}$ es lo que finalmente la red neuronal entrega.

Notemos que si vemos todo el flujo desde la llegada del cliente a la fila hasta el resultado final, tenemos:

$$\boldsymbol{\hat{y}}=f_{out}(W_{out}\boldsymbol{a}_R+\boldsymbol{b}_R)=f_{out}(W_{out}f_R(W_{R-1}\boldsymbol{a}_{R-1}+\boldsymbol{b}_{R-1})+\boldsymbol{b}_R)=...=f_{out}(W_{out}f_R(W_R...f_1(W_1\boldsymbol{x}+\boldsymbol{b}_1)...+\boldsymbol{b}_R)+\boldsymbol{b}_{out})$$

## Ejemplo.

Supongamos una arquitectura 3-2-3-4. Es decir, tres neuronas de entrada, 2 capas intermedias con 2 y 3 neuronas cada una, y 4 neuronas de capa final. Primero veamos cuántos parámetros vamos a requerir:

- Como hay tres neuronas en la capa inicial, entonces cada una de las dos neuronas de la capa 1 (la primer capa intermedia) debe tener tres importancias. Además cada una tiene su propio sesgo. Esto son $3\cdot2+2=8$ 

- Como hay dos neuronas en la capa 1, entonces cada una de las tres neuronas de la capa 2 (la segunda capa intermedia) debe tener dos importancias. Además cada una tiene su propio sesgo. Esto son $2\cdot3+3=9$ 

- Como hay tres neuronas en la capa 2, entonces cada una de las cuatro neuronas de la capa final debe tener dos importancias. Además cada una tiene su propio sesgo. Esto son $3\cdot4+4=16$ 

Por lo tanto hay $8+9+16=33$ parámetros. De hecho, en general hay $$\sum_{k=0}^Rn_{k+1}(n_k+1)$$ parámetros donde $n_0$ es el total de neuronas de la capa de entrada, $n_1,n_2,...,n_R$ son el total de neuronas de cada capa intermedia y $n_{R+1}$ es el total de neuronas en la capa de salida, por lo que en nuestro ejemplo tenemos $2(3+1)+3(2+1)+4(3+1)=8+9+16=33$ parámetros.





Digamos que la CAPA 1 (Oculta 1) tiene estos 8 parámetros
  - $\boldsymbol{w}_{1}^{(1)}=(0.5, -0.2, 0.8)$ y sesgo $b_1^{(1)}=0.1$
  - $\boldsymbol{w}_{1}^{(2)}=(-0.3, 0.7, 0.4)$ y sesgo $b_1^{(2)}=-0.5$

Por lo tanto $W_1=\left(\begin{matrix}0.5&-0.2&0.8\\-0.3&0.7&0.4\end{matrix}\right)$ y $\boldsymbol{b}_1=(0.1,-0.5)$. Digamos que el gerente de la red neuronal le dice a los porteros de esta capa que la fórmula de transformación de pensamientos crudos es $f_1(t)=t^2$

CAPA 2 (Oculta 2): 9 parámetros
  - $\boldsymbol{w}_{2}^{(1)}=(0.9, -0.6)$ y sesgo $b_2^{(1)}=0.2$
  - $\boldsymbol{w}_{2}^{(2)}=(-0.1, 0.3)$ y sesgo $b_2^{(2)}=-0.4$
  - $\boldsymbol{w}_{2}^{(3)}=(0.5, -0.8)$ y sesgo $b_2^{(3)}=-0.3$

Por lo tanto $W_2=\left(\begin{matrix}0.9&-0.6\\-0.1&0.3\\0.5&-0.8\end{matrix}\right)$ y $\boldsymbol{b}_2=(0.2,-0.4,-0.3)$. Digamos que el gerente de la red neuronal le dice a los porteros de esta capa que la fórmula de transformación de pensamientos crudos es $f_2(t)=\cos(t)$
  
CAPA de Salida - 16 parámetros:
  - $\boldsymbol{w}_{out}^{(1)}=(0.7, -0.4, 0.1)$ y sesgo $b_{out}^{(1)}=0$
  - $\boldsymbol{w}_{out}^{(2)}=(-0.2, 0.5, -0.6)$ y sesgo $b_{out}^{(2)}=0.3$
  - $\boldsymbol{w}_{out}^{(3)}=(0.4, 0.8, -0.9)$ y sesgo $b_{out}^{(3)}=-0.1$
  - $\boldsymbol{w}_{out}^{(4)}=(-0.5, 0.2, 0.6)$ y sesgo $b_{out}^{(4)}=0.7$  

Por lo tanto $W_{out}=\left(\begin{matrix}0.7&-0.4&0.1\\-0.2&0.5&-0.6\\0.4&0.8&-0.9\\-0.5&0.2&0.6\\\end{matrix}\right)$ y $\boldsymbol{b}_{out}=(0,0.3,-0.1,0.7)$. Digamos que el gerente de la red neuronal le dice a los porteros de esta capa que la fórmula de transformación de pensamientos crudos es $f_{out}(t)=100t$
  

Con todo esto, ya tenemos una red neuronal completamente construida. Pensemos que llega un cliente $\boldsymbol{x}$ con características $\boldsymbol{x}=(2,1,5)$. ¿Cuál será el resultado de aplicarle la red neuronal? Como la capa de salida tiene 4 neuronas, esperamos 4 valores finales.

- **Pensamiento crudo y procesado de la capa 1**

$$\boldsymbol{z}_1=W_1\boldsymbol{x}+\boldsymbol{b}_1=\left(\begin{matrix}0.5&-0.2&0.8\\-0.3&0.7&0.4\end{matrix}\right)\left(\begin{matrix}2\\1\\5\end{matrix}\right)+\left(\begin{matrix}0.1\\-0.5\end{matrix}\right)=\left(\begin{matrix}4.9\\1.6\end{matrix}\right)$$

$$\boldsymbol{a}_1=f_1(\boldsymbol{z}_1)=\left(\begin{matrix}4.9^2\\1.6^2\end{matrix}\right)=\left(\begin{matrix}24.01\\2.56\end{matrix}\right)$$

- **Pensamiento crudo y procesado de la capa 2**

$$\boldsymbol{z}_2=W_2\boldsymbol{a}_1+\boldsymbol{b}_2=\left(\begin{matrix}0.9&-0.6\\-0.1&0.3\\0.5&-0.8\end{matrix}\right)\left(\begin{matrix}24.01\\2.56\end{matrix}\right)+\left(\begin{matrix}0.2\\-0.4\\-0.3\end{matrix}\right)=\left(\begin{matrix}20.273\\-2.033\\9.657\end{matrix}\right)$$

$$\boldsymbol{a}_2=f_2(\boldsymbol{z}_2)=\left(\begin{matrix}\cos(20.273)\\\cos(-2.033)\\\cos(9.657)\end{matrix}\right)=\left(\begin{matrix}0.148\\-0.448\\-0.973\end{matrix}\right)$$

- **Pensamiento crudo y procesado de la capa final**

$$\boldsymbol{z}_{out}=W_{out}\boldsymbol{a}_2+\boldsymbol{b}_{out}=\left(\begin{matrix}0.7&-0.4&0.1\\-0.2&0.5&-0.6\\0.4&0.8&-0.9\\-0.5&0.2&0.6\\\end{matrix}\right)\left(\begin{matrix}0.148\\-0.448\\-0.973\end{matrix}\right)+\left(\begin{matrix}0\\0.3\\-0.1\\0.7\end{matrix}\right)=\left(\begin{matrix}0.186\\0.630\\0.477\\-0.047\end{matrix}\right)$$ $$\boldsymbol{\hat{y}}=\boldsymbol{a}_{out}=f_{out}(\boldsymbol{z}_{out})=\left(\begin{matrix}100*0.186\\100*0.630\\100*0.477\\100*-0.047\end{matrix}\right)=\left(\begin{matrix}18.6\\63\\47.7\\-4.7\end{matrix}\right)$$

## Backpropagation

Hasta ahora hemos descrito cómo fluye la información hacia adelante: el cliente entra, su información pasa por etapas (las capas) donde se toman juicios intermedios y finalmente el gerente da una decisión. Pero una red neuronal no es interesante solo por decidir, sino por aprender a decidir mejor con el tiempo. Supongamos que el gerente toma una decisión final sobre el cliente, como dejarlo entrar, no dejarlo entrar, o asignarle cierto valor numérico (por ejemplo, cuánto gastará).

Sin embargo, existe una decisión correcta esperada. Tal vez el cliente sí debía entrar, o no, o gastar más o menos. Esa información llega después. Aquí aparece una pregunta clave: ¿Qué tan buena fue la decisión que tomó la red?

### Función de pérdida

Para responder eso, el gerente compara lo que la red decidió, $\boldsymbol{\hat{y}}$, con lo que debía haber pasado, $\boldsymbol{y}$. A partir de esta comparación se define una función de pérdida, que denotaremos por $\mathcal{L}$. Esto es $$\mathcal{L}(\boldsymbol{y},\boldsymbol{\hat{y}})$$

Este número mide qué tan mala fue la decisión. Si es grande, la red se equivocó mucho; si es pequeño, la red lo hizo bien.

### ¿Quién tuvo la culpa del error?

Aquí viene la idea central del backpropagation. La decisión final fue incorrecta, pero ¿fue culpa del último portero?, ¿de alguno intermedio?, ¿de un portero muy al inicio que exageró la importancia de la estatura?, ¿de un sesgo demasiado estricto?

La red necesita repartir la **responsabilidad del error** entre todos los pesos y todos los sesgos de todas las capas. Matemáticamente, pérdida $\mathcal{L}$ depende de $\boldsymbol{\hat{y}}$, la cual depende de $\boldsymbol{a}_R$ (la última capa intermedia), la cual depende de $\boldsymbol{a}_{R-1}$ (la penúltima capa intermedia) y así sucesivamente.

Es decir, 

$$\mathcal{L}=\mathcal{L}(\boldsymbol{y},\textcolor{red}{\boldsymbol{\hat{y}}})=\mathcal{L}(\boldsymbol{y},\textcolor{red}{f_{out}(W_{out}f_R(W_R...f_1(W_1\boldsymbol{x}+\boldsymbol{b}_1)...+\boldsymbol{b}_R)+\boldsymbol{b}_{out})})$$

Ahora se usa la regla de la cadena para responder "si cambio un poco este peso o este sesgo, ¿cuánto cambia el error final?"

Para cada peso $w_{i,s}^{(j)}$ y cada sesgo $b_{i}^{(j)}$, se calculan $$\frac{\partial\mathcal{L}}{\partial w_{i,s}^{(j)}}\quad\mbox{ y }\quad\frac{\partial\mathcal{L}}{\partial b_{i}^{(j)}}$$

Puntualmente, esto representa "¿cuánto es que la importancia $s$ de la neurona $j$ de la capa $i$ y su sesgo afectan al resultado final?". Si el valor absoluto de la derivada es grande, estos parámetros influyen mucho en el error. Si es pequeña, su inluencia es baja.

## Ajuste de pesos

Una vez calculadas estas responsabilidades, cada peso y sesgo se ajusta ligeramente:

$$w_{i,s}^{(j)}\leftarrow w_{i,s}^{(j)}-\eta\frac{\partial\mathcal{L}}{\partial w_{i,s}^{(j)}}\quad\mbox{ y }b_{i}^{(j)}\leftarrow b_{i}^{(j)}-\eta\frac{\partial\mathcal{L}}{\partial b_{i}^{(j)}}$$

donde $\eta>0$ es la **tasa de aprendizaje** (qué tanto le dice el gerente a la neurona que debe mejorar).

Así, si un portero exageró un criterio, se le baja un poco; si ignoró algo importante, se le sube un poco; los porteros estrictos pueden volverse más flexibles y viceversa. Este proceso se repite con muchos clientes, y poco a poco la red afina sus criterios, aprende patrones, y mejora sus decisiones.



## Ejemplo

Teníamos $\boldsymbol{x}=(2,1,5)$ y nos produjo $\boldsymbol{\hat{y}}=(18.6,63,47.7,-4.7)$. Supongamos que por alguna razón sabemos que para esta $\boldsymbol{x}$ se debió tener $\boldsymbol{y}=(20,60,40,0)$.

Digamos que el error cometido lo medimos como $$\mathcal{L}(\boldsymbol{y},\boldsymbol{\hat{y}})=\frac{1}{2}((y_1-\hat{y}_1)^2+(y_2-\hat{y}_2)^2+(y_3-\hat{y}_3)^2+(y_4-\hat{y}_4)^2)$$

Tomemos como tasa de aprendizaje $\eta=0.001$.

Para esta pérdida, $$\frac{\partial\mathcal{L}}{\partial \hat{y}_i}=\hat{y}_i-y_i$$


Vemamos cómo actualizar los pesos y el sesgo de la segunda neurona de la capa de salida. Para esto, como la última capa intermedia tiene 3 neuronas, entonces para $s=1,2,3$ se debe calcular
$$\frac{\partial\mathcal{L}}{\partial w_{out,s}^{(2)}}\quad\mbox{ y }\quad\frac{\partial\mathcal{L}}{\partial b_{out}^{(2)}}$$

Por una parte, por la Regla de la Cadena
$$\frac{\partial\mathcal{L}}{\partial w_{out,s}^{(2)}}=\textcolor{red}{\frac{\partial\mathcal{L}}{\partial z_{out}^{(2)}}}\,\textcolor{blue}{\frac{\partial z_{out}^{(2)}}{\partial w_{out,s}^{(2)}}}=\textcolor{red}{\frac{\partial\mathcal{L}}{\partial \hat{y}_2}\,\frac{\partial \hat{y}_2}{\partial z_{out}^{(2)}}}\,\textcolor{blue}{\frac{\partial z_{out}^{(2)}}{\partial w_{out,s}^{(2)}}}\quad\mbox{ y }\quad\frac{\partial\mathcal{L}}{\partial b_{out}^{(2)}}=\textcolor{red}{\frac{\partial\mathcal{L}}{\partial z_{out}^{(2)}}}\,\textcolor{darkgreen}{\frac{\partial{z_{out}^{(2)}}}{\partial b_{out}^{(2)}}}$$

Por otra parte, $$\frac{\partial\mathcal{L}}{\partial \hat{y}_2}=\hat{y}_2-y_2=63-60=3$$

Como $\hat{y}_2=a_{out}^{(2)}=f_{out}(z_{out}^{(2)})=100z_{out}^{(2)}$, entonces $$\frac{\partial\hat{y}_2}{\partial z_{out}^{(2)}}=100$$

Con esto, $$\textcolor{red}{\frac{\partial\mathcal{L}}{\partial z_{out}^{(2)}}}=3\cdot100=300$$

Ahora, por definición, $$z_{out}^{(2)}=w_{out,1}^{(2)}a_2^{(1)}+w_{out,2}^{(2)}a_2^{(2)}+w_{out,3}^{(2)}a_2^{(3)}+b_{out}^{(2)}$$

Entonces $$\textcolor{blue}{\frac{\partial z_{out}^{(2)}}{\partial w_{out,s}^{(2)}}=a_2^{(s)}}\quad\mbox{ y }\quad\textcolor{darkgreen}{\frac{\partial z_{out}^{(2)}}{\partial b_{out}^{(2)}}=1}$$ 

Conluimos que $$\frac{\partial\mathcal{L}}{\partial w_{out,s}^{(2)}}=3\cdot100\cdot a_2^{(s)}=\left\{\begin{array}{l}300*0.148=44.4\mbox{ para }s=1\\300*-0.448=-134.4\mbox{ para }s=2\\300\cdot-0.973=-291.9\mbox{ para }s=3\end{array}\right.\quad\mbox{ y }\quad\frac{\partial\mathcal{L}}{\partial b_{out}^{(2)}}=300\cdot1=300$$

Luego, los nuevos parámetros de neurona 2 de la capa de salida son 

$$w_{out,1}^{(2)}=-0.2-0.001*44.4=-0.2444$$
$$w_{out,2}^{(2)}=0.5-0.001*-134.4=0.6344$$
$$w_{out,3}^{(2)}=-0.6-0.001*-291.9=-0.3081$$
$$b_{out}^{(2)}=0.3-0.001*300=0$$

De hecho, la nueva matriz de pesos y nuevos sesgos de la capa de salida son
$$
\mbox{nuevo }W_{out} = 
\begin{pmatrix}
0.720720 & -0.462720 & -0.036220 \\
-0.244400 & 0.634400 & -0.308100 \\
0.286040 & 1.144960 & -0.150790 \\
-0.430440 & -0.010560 & 0.142690
\end{pmatrix}
\quad\mbox{ y nuevo }\boldsymbol{b}_{out}=\begin{pmatrix}
0.140 \\ 
0.000 \\ 
-0.870 \\ 
1.170\end{pmatrix}$$

Ahora, veamos qué pasa con la primera neurona de la capa 2 (la última capa intermedia). La función de activación de esta capa es

$$
f_2(t)=\cos(t)
$$

Como la capa anterior a esta tiene dos neuronas, entonces queremos calcular dos derivadas respecto a los dos pesos y la derivada respecto del sesgo: para $s=1,2$

$$
\frac{\partial \mathcal L}{\partial w_{2,s}^{(1)}}
\qquad \text{y} \qquad
\frac{\partial \mathcal L}{\partial b_2^{(1)}}
$$

Los parámetros $w_{2,s}^{(1)}$ y $b_2^{(1)}$ no influyen directamente en la pérdida. Su efecto se propaga a través del siguiente camino:

$$
(w_{2,s}^{(1)},\, b_2^{(1)})
\longrightarrow
z_2^{(1)}
\longrightarrow
a_2^{(1)}
\longrightarrow
z_{out}^{(j)} \quad j=1,2,3,4
\longrightarrow
\hat y_j
\longrightarrow
\mathcal L
$$


De esta manera:

$$\frac{\partial \mathcal L}{\partial w_{2,s}^{(1)}}=
\frac{\partial \mathcal L}{\partial z_{out}^{(1)}}\,\frac{\partial \mathcal z_{out}^{(1)}}{\partial w_{2,s}^{(1)}}+
\frac{\partial \mathcal L}{\partial z_{out}^{(2)}}\,\frac{\partial \mathcal z_{out}^{(2)}}{\partial w_{2,s}^{(1)}}+
\frac{\partial \mathcal L}{\partial z_{out}^{(3)}}\,\frac{\partial \mathcal z_{out}^{(3)}}{\partial w_{2,s}^{(1)}}+
\frac{\partial \mathcal L}{\partial z_{out}^{(4)}}\,\frac{\partial \mathcal z_{out}^{(4)}}{\partial w_{2,s}^{(1)}}$$

$$\frac{\partial \mathcal L}{\partial b_{2}^{(1)}}=
\frac{\partial \mathcal L}{\partial z_{out}^{(1)}}\,\frac{\partial \mathcal z_{out}^{(1)}}{\partial b_{2}^{(1)}}+
\frac{\partial \mathcal L}{\partial z_{out}^{(2)}}\,\frac{\partial \mathcal z_{out}^{(2)}}{\partial b_{2}^{(1)}}+
\frac{\partial \mathcal L}{\partial z_{out}^{(3)}}\,\frac{\partial \mathcal z_{out}^{(3)}}{\partial b_{2}^{(1)}}+
\frac{\partial \mathcal L}{\partial z_{out}^{(4)}}\,\frac{\partial \mathcal z_{out}^{(4)}}{\partial b_{2}^{(1)}}$$

Recordemos que $$\mathcal{L}=\frac{1}{2}((y_1-\hat{y}_1)^2+(y_2-\hat{y}_2)^2+(y_3-\hat{y}_3)^2+(y_4-\hat{y}_4)^2)$$

Como $\hat{y}_j=f_{out}(z_{out}^{(j)})=100z_{out}^{(j)}$ para $j=1,2,3,4$, entonces $$\frac{\partial \mathcal L}{\partial z_{out}^{(j)}}=\frac{\partial \mathcal{L}}{\partial\hat{y}_j}\,\frac{\partial \hat{y}_j}{\partial z_{out}^{(j)}}=100(\hat{y}_j-y_j)$$

Los parámetros $w_{2,s}^{(1)}$ y $b_{2}^{(1)}$ no aparecen explícitamente en $z_{out}^{(j)}$, sino a través de la activación $a_2^{(1)}$.

$$\frac{\partial z_{out}^{(j)}}{\partial w_{2,s}^{(1)}}=
\frac{\partial z_{out}^{(j)}}{\partial a_2^{(1)}}
\frac{\partial a_2^{(1)}}{\partial w_{2,s}^{(1)}}\quad\mbox{ y }\quad
\frac{\partial z_{out}^{(j)}}{\partial b_{2}^{(1)}}=
\frac{\partial z_{out}^{(j)}}{\partial a_2^{(1)}}
\frac{\partial a_2^{(1)}}{\partial b_{2}^{(1)}}
$$

Como $$z_{out}^{(j)}=w_{out,1}^{(j)}a_2^{(1)}+w_{out,2}^{(j)}a_2^{(2)}+w_{out,3}^{(j)}a_2^{(3)}+b_{out}^{(j)}$$ entonces $$\frac{\partial z_{out}^{(j)}}{\partial a_2^{(1)}}=w_{out,1}^{(j)}$$

Como $a_2^{(1)}=f_2(z_2^{(1)})=\cos(z_2^{(1)})=\cos(w_{2,1}^{(1)}a_1^{(1)}+w_{2,2}^{(1)}a_1^{(2)}+b_2^{(1)})$ entonces $$\frac{\partial a_2^{(1)}}{\partial w_{2,s}^{(1)}}=-a_1^{(s)}\sin(z_2^{(1)})\quad\mbox{ y }\frac{\partial a_2^{(1)}}{\partial b_{2}^{(1)}}=-\sin(z_2^{(1)})$$



Con esto en mente

$$
\begin{eqnarray*}
\frac{\partial \mathcal L}{\partial w_{2,s}^{(1)}}&=&
100(\hat{y}_1-y_1)w_{out,1}^{(1)}(-a_1^{(s)}\sin(z_2^{(1)}))+
100(\hat{y}_2-y_2)w_{out,1}^{(2)}(-a_1^{(s)}\sin(z_2^{(1)}))+
100(\hat{y}_3-y_3)w_{out,1}^{(3)}(-a_1^{(s)}\sin(z_2^{(1)}))+
100(\hat{y}_4-y_4)w_{out,1}^{(4)}(-a_1^{(s)}\sin(z_2^{(1)}))\\
&=&-100a_1^{(s)}\sin(z_2^{(1)})\left(w_{out,1}^{(1)}(\hat{y}_1-y_1)+w_{out,1}^{(2)}(\hat{y}_2-y_2)+w_{out,1}^{(3)}(\hat{y}_3-y_3)+w_{out,1}^{(4)}(\hat{y}_4-y_4)\right)\\
\\
\frac{\partial \mathcal L}{\partial b_{2}^{(1)}}&=& 100(\hat{y}_1-y_1)w_{out,1}^{(1)}(-\sin(z_2^{(1)}))+ 100(\hat{y}_2-y_2)w_{out,1}^{(2)}(-\sin(z_2^{(1)}))+ 100(\hat{y}_3-y_3)w_{out,1}^{(3)}(-\sin(z_2^{(1)}))+ 100(\hat{y}_4-y_4)w_{out,1}^{(4)}(-\sin(z_2^{(1)}))\\ &=&-100\sin(z_2^{(1)})\left( w_{out,1}^{(1)}(\hat{y}_1-y_1)+ w_{out,1}^{(2)}(\hat{y}_2-y_2)+ w_{out,1}^{(3)}(\hat{y}_3-y_3)+ w_{out,1}^{(4)}(\hat{y}_4-y_4) \right) 
\end{eqnarray*}
$$



Finalmente, con  $\hat{y} = (18.6,\ 63,\ 47.7,\ -4.7)$ y $y = (20,\ 60,\ 40,\ 0)$ se tiene
$$
\hat{y} - y = (-1.4,\ 3,\ 7.7,\ -4.7),
$$

Además 
$$z_2^{(1)}=20.273\quad\mbox{ y }\quad a_1^{(1)}=24.01,\,a_1^{(2)}=2.56$$

y la primera columna de $W_{\text{out}}$ es $(0.7,\ -0.2,\ 0.4,\ -0.5)$. Entonces

$$
\begin{eqnarray*}
\frac{\partial \mathcal L}{\partial w_{2,1}^{(1)}}&=&-100*24.01*0.989\left(0.7(-1.4)+(-0.2)3+0.4(7.7)+(-0.5)(-4.7)\right)\\
&=&-2374.589*3.85\\
&=&-9142.16765\\
\frac{\partial \mathcal L}{\partial w_{2,2}^{(1)}}&=&-100*2.56*0.989\left(0.7(-1.4)+(-0.2)3+0.4(7.7)+(-0.5)(-4.7)\right)\\
&=&-253.184*3.85\\
&=&-974.7584\\
\frac{\partial \mathcal L}{\partial b_{2}^{(1)}}&=&-100*0.989\left(0.7(-1.4)+(-0.2)3+0.4(7.7)+(-0.5)(-4.7)\right)\\
&=&-9.89*3.85\\
&=&-380.765
\end{eqnarray*}
$$


Concluimos que las nuevas actualizaciones son 
$$
\begin{array}{ccccc}
w_{2,1}^{(1)}&=&0.9-0.001\cdot-9142.167&=&10.042\\
w_{2,2}^{(1)}&=&-0.6-0.001\cdot-974.758&=&0.3747\\
b_{2}^{(1)}&=&0.2-0.001\cdot-380.765&=&0.5807\\
\end{array}
$$

De hecho, después de hacer **todas** las actualizaciones, la red neuronal se transforma en

1) Nuevos pesos y sesgos de la capa 1

$$
W_{1, \text{nuevo}} = 
\begin{pmatrix}
10.903335 & 5.001667 & 26.808337 \\
-4.384645 & -1.342322 & -9.811612
\end{pmatrix}, \quad b_{1, \text{nuevo}} = 
\begin{pmatrix}
5.301667 \\
-2.542322
\end{pmatrix}.
$$

2) Nuevos pesos y sesgos de la capa 2

$$
W_{2, \text{nuevo}} = 
\begin{pmatrix}
9.626123 & 0.330399 \\
-16.265773 & -1.423631 \\
7.047994 & -0.101838
\end{pmatrix}, \quad b_{2, \text{nuevo}} = 
\begin{pmatrix}
0.563437 \\
-1.073293 \\
-0.027281
\end{pmatrix}.
$$

3) Nuevos pesos y sesgos de la capa de salida

$$
W_{\text{out, nuevo}} =
\begin{pmatrix}
0.723746 & -0.472121 & -0.057392 \\
-0.246351 & 0.640776 & -0.292777 \\
0.285727 & 1.147071 & -0.142570 \\
-0.431746 & -0.007303 & 0.147593
\end{pmatrix}, \quad b_{\text{out, nuevo}} = 
\begin{pmatrix}
0.161734 \\
-0.015697 \\
-0.878322 \\
1.164886
\end{pmatrix}.
$$

## Más de un cliente

Hasta este momento hemos trabajado con un único cliente en la fila. ¿Cómo es el aprendizaje de la red neuronal cuando se reciben varios clientes?

Tomemos una red con $n_0$ neuronas en la capa inicial.

Supongamos que tenemos $n$ clientes. Cada cliente se puede ver como una pareja de información: los datos y la realidad. Es decir, tenemos los clientes $(\boldsymbol{x}^{(1)},\boldsymbol{y}^{(1)})$, $(\boldsymbol{x}^{(2)},\boldsymbol{y}^{(2)})$, $(\boldsymbol{x}^{(3)},\boldsymbol{y}^{(3)})$,..., $(\boldsymbol{x}^{(n)},\boldsymbol{y}^{(n)})$. Como la red tiene tres neuronas en la capa de origen, entonces $\boldsymbol{x}^{(k)}=(x_1^{(k)},x_2^{(k)},...,x_{n_0}^{(k)})$.



Supongamos que la red neuronal tiene inicialmente matrices de pesos $W_1$, $W_2$,...,$W_R$, $W_{out}$ y vectores de sesgo $\boldsymbol{b}_1$, $\boldsymbol{b}_2$,...,$\boldsymbol{b}_R$, $\boldsymbol{b}_{out}$ y hace las predicciones $\boldsymbol{\hat{y}}^{(1)}$, $\boldsymbol{\hat{y}}^{(2)}$,...,$\boldsymbol{\hat{y}}^{(n)}$. 

Por lo tanto tenemos **$n$ errores**:

$\mathcal{L}^{(1)}=\mathcal{L}(\boldsymbol{y}^{(1)},\boldsymbol{\hat{y}}^{(1)})$ error cometido con el primer cliente

$\mathcal{L}^{(2)}=\mathcal{L}(\boldsymbol{y}^{(2)},\boldsymbol{\hat{y}}^{(2)})$ error cometido con el segundo cliente

...

$\mathcal{L}^{(n)}=\mathcal{L}(\boldsymbol{y}^{(n)},\boldsymbol{\hat{y}}^{(n)})$ error cometido con el $n$-ésimo cliente

Definimos el **error promedio de la red** como el promedio de los errores:

$$\mathcal{L}_{prom}=\frac{\mathcal{L}^{(1)}+\mathcal{L}^{(2)}+...+\mathcal{L}^{(n)}}{n}$$ y se busca minimizar este número.

Recordemos que el proceso consiste en actualizar pesos y sesgos de las neuronas. En este caso, **las actualizaciones se hacen hasta que todos los clientes hallan pasado por la red**. Es decir, hasta que se han calculado todos los $\boldsymbol{\hat{y}}^{(k)}$.


Existen tres métodos clásicos para minimizar el error promedio. La diferencia entre ellos **NO** está en las derivadas, sino en cuántos gradientes promedias antes de actualizar.

### Batch gradiente descendente

En este caso, la actualización se hace de la siguiente manera:
$$w_{i,s}^{(j)}\leftarrow w_{i,s}^{(j)}-\eta\frac{\partial \mathcal{L}_{prom}}{\partial w_{i,s}^{(j)}}\quad\mbox{ y }\quad b_{i}^{(j)}\leftarrow b_{i}^{(j)}-\eta\frac{\partial \mathcal{L}_{prom}}{\partial b_{i}^{(j)}}$$

Matemáticamente es el método más limpio. Observa que se utilizan **todos los $n$ clientes**, pues aparecen implícitamente en la definición de $\mathcal{L}_{prom}$. Es un método estable, pero suele ser caro y lento.

### SGD Gradiente descendente estocástico

En este caso, se elige al azar un índice $k\in\{1,2,...,n\}$ y la actualización es
$$w_{i,s}^{(j)}\leftarrow w_{i,s}^{(j)}-\eta\frac{\partial \mathcal{L}^{(k)}}{\partial w_{i,s}^{(j)}}\quad\mbox{ y }\quad b_{i}^{(j)}\leftarrow b_{i}^{(j)}-\eta\frac{\partial \mathcal{L}^{(k)}}{\partial b_{i}^{(j)}}$$

Por lo tanto usas un solo cliente al azar. Es un método útilmente ruidoso y muy barato. Su problema es que no garantiza disminuir la pérdida promedio en cada paso.

### Minibatch estándar

Tomas al azar un subconjunto de clientes $B\subset\{1,2,...,n\}$ y la actualización es
$$w_{i,s}^{(j)}\leftarrow w_{i,s}^{(j)}-\eta\frac{1}{|B|}\sum_{k\in B}\frac{\partial \mathcal{L}^{(k)}}{\partial w_{i,s}^{(j)}}\quad\mbox{ y }\quad b_{i}^{(j)}\leftarrow b_{i}^{(j)}-\eta\frac{1}{|B|}\sum_{k\in B}\frac{\partial \mathcal{L}^{(k)}}{\partial b_{i}^{(j)}}$$

Es un método estable, eficiente y el que se usa en la práctica. Y se suele tomar $|B|\in\{16,32,64,128,256\}$, aunque 32 y 64 son los más comunes.

## Ejemplo

Supongamos una arquitectura 3-4-1 con los siguientes parámetros:

- **Capa 1.** Cuatro neuronas

matriz de pesos $
W_1 =
\begin{pmatrix}
 0.2 & -0.1 &  0 \\
-0.3 &  0.1 &  0.2 \\
 0   &  0.2 & -0.2 \\
 0.1 &  0   &  0.3
\end{pmatrix}$ y sesgos $b_1 =
\begin{pmatrix}
 0 \\
 0.1 \\
-0.1 \\
 0.05
\end{pmatrix}
$ con función de activación $f_1(t)=\tanh(t)$

- **Capa 2 (capa de salida).** Una neurona

Matriz de pesos $
W_{out} =
\begin{pmatrix}
 0.1 & -0.2 & 0   &  0.3 
\end{pmatrix}$ y sesgos $b_{out} =
\begin{pmatrix}
 0.05
\end{pmatrix}
$ con función de activación $f_{out}(t)=t$

Tomemos $\eta=0.1$ y función de pérdida $$\mathcal{L}(\boldsymbol{y},\boldsymbol{\hat{y}})=\frac{(y_1-\hat{y}_1)^2}{2}$$

En este caso, cada cliente tiene tres datos de características, pues la capa inicial tiene tres neuronas, y su vector real de resultado solo es un número (porque la capa de salida solo tiene una neurona). Digamos que hay 4 clientes en la fila:

$$
(\boldsymbol{x}^{(1)}, \boldsymbol{y}^{(1)}) = ((1, 0, 1), 0.5), \qquad
(\boldsymbol{x}^{(2)}, \boldsymbol{y}^{(2)}) = ((0, 1, 1), 0),
$$
$$
(\boldsymbol{x}^{(3)}, \boldsymbol{y}^{(3)}) = ((1, 1, 0), 0.4), \qquad
(\boldsymbol{x}^{(4)}, \boldsymbol{y}^{(4)}) = ((-1, 1, 0.5), -0.3).
$$

Veamos el camino para llegar a $\boldsymbol{\hat{y}}^{(3)}$. Es decir, la predicción de la red para el tercer cliente.

$$\boldsymbol{z}_1=W_1\boldsymbol{x}^{(3)}+\boldsymbol{b}_1=
\begin{pmatrix}
 0.2 & -0.1 &  0 \\
-0.3 &  0.1 &  0.2 \\
 0   &  0.2 & -0.2 \\
 0.1 &  0   &  0.3
\end{pmatrix}
\begin{pmatrix}1\\1\\0\end{pmatrix}+
\begin{pmatrix}
 0 \\
 0.1 \\
-0.1 \\
 0.05
\end{pmatrix}=
\begin{pmatrix}
 0.1 \\
 -0.1 \\
0.1 \\
 0.15
\end{pmatrix}
$$

$$\boldsymbol{a}_1=f_1(\boldsymbol{z}_1)=\tanh(\boldsymbol{z}_1)=\begin{pmatrix}
 0.0996679946 \\
 -0.0996679946 \\
0.0996679946 \\
 0.1488850334
\end{pmatrix}$$

$$\boldsymbol{z}_{out}=W_{out}\boldsymbol{a}_1+\boldsymbol{b}_{out}=\begin{pmatrix}
 0.1 & -0.2 & 0   &  0.3 
\end{pmatrix}
\begin{pmatrix}
 0.0996679946 \\
 -0.0996679946 \\
0.0996679946 \\
 0.1488850334
\end{pmatrix}+\begin{pmatrix}
 0.05
\end{pmatrix}=0.1245659084$$

$$\boldsymbol{\hat{y}}^{(3)}=\boldsymbol{a}_{out}=f_{out}(\boldsymbol{z}_{out})=\boldsymbol{z}_{out}=0.1245659084$$

Por lo tanto $$\mathcal{L}^{(3)}=\mathcal{L}(\boldsymbol{y}^{(3)},\boldsymbol{\hat{y}}^{(3)})=\frac{(0.4-0.1245659084)^2}{2}=0.03793196939$$

De hecho, si hacemos el proceso para cada uno de los cuatro clientes obtenemos

| cliente | $y^{(i)}$ | $\hat{y}^{(i)}$ |
|-----|-----------|-----------------|
| 1   | 0.5       | 0.1963072336    |
| 2   | 0         | 0.06495607139   |
| 3   | 0.4       | 0.1245659085    |
| 4   | -0.3      | -0.05664077626  |

y pérdidas 
$$\mathcal{L}^{(1)}=0.04611464818$$
$$\mathcal{L}^{(2)}=0.002109645605$$
$$\mathcal{L}^{(3)}=0.03793196939$$
$$\mathcal{L}^{(4)}=0.02961185589$$

Por lo tanto $$\mathcal{L}_{prom}=\frac{0.04611464818+0.002109645605+0.03793196939+0.02961185589}{4}=0.02894202977$$

Ahora hagamos las actualizaciones con cada uno de los tres métodos comentados arriba.

Primero, notemos que hay 21 parámetros, que inicialmente son 16 números $w_{i,s}^{(j)}$ y 5 números $b_i^{(j)}$. 

Cada vez que ingresamos un cliente $k$ a la red se hace la propagación hacia adelante; se obtiene $\mathcal{L}^{(k)}$ y en la retropropagación se calcula $$\frac{\partial {\cal L}^{(k)}}{\partial w_{i,s}^{(j)}}\quad\mbox{ y }\quad\frac{\partial {\cal L}^{(k)}}{\partial b_{i}^{(j)}}$$

Es decir, 21 derivadas. Como hay 4 clientes, entonces se calcularán 84 derivadas.

Estas son:

**Cliente 1**

    - Capa 1

        - Neurona 1
$$
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,1}^{(1)}}=-0.0291861802129,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,2}^{(1)}}=0,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,3}^{(1)}}=-0.0291861802129,\quad
\frac{\partial \mathcal L^{(1)}}{\partial b_{1}^{(1)}}=-0.0291861802129
$$

        - Neurona 2
$$
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,1}^{(2)}}=0.0607385532805,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,2}^{(2)}}=0,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,3}^{(2)}}=0.0607385532805,\quad
\frac{\partial \mathcal L^{(1)}}{\partial b_{1}^{(2)}}=0.0607385532805
$$

        - Neurona 3

$$
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,1}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,2}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,3}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(1)}}{\partial b_{1}^{(3)}}=0
$$

        - Neurona 4

$$
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,1}^{(4)}}=-0.0186338238498,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,2}^{(4)}}=0,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{1,3}^{(4)}}=-0.0186338238498,\quad
\frac{\partial \mathcal L^{(1)}}{\partial b_{1}^{(4)}}=-0.0186338238498
$$

    - Capa 2 (capa de salida)

        - Neurona 1

$$
\frac{\partial \mathcal L^{(1)}}{\partial w_{out,1}^{(1)}}=0.0908323914476,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{out,2}^{(1)}}=0.0710228754759,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{out,3}^{(1)}}=0.0884695331634,\quad
\frac{\partial \mathcal L^{(1)}}{\partial w_{out,4}^{(1)}}=-0.128127676047,\quad
\frac{\partial \mathcal L^{(1)}}{\partial b_{out}^{(1)}}=-0.303692766403
$$

---

**Cliente 2**

    - Capa 1

          - Neurona 1

$$
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,1}^{(1)}}=0,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,2}^{(1)}}=0.00224514853531,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,3}^{(1)}}=0.00224514853531,\quad
\frac{\partial \mathcal L^{(2)}}{\partial b_{1}^{(1)}}=0.00224514853531
$$

        - Neurona 2

$$
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,1}^{(2)}}=0,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,2}^{(2)}}=-0.0111157868148,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,3}^{(2)}}=-0.0111157868148,\quad
\frac{\partial \mathcal L^{(2)}}{\partial b_{1}^{(2)}}=-0.0111157868148
$$

        - Neurona 3

$$
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,1}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,2}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,3}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(2)}}{\partial b_{1}^{(3)}}=0
$$

        - Neurona 4

$$
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,1}^{(4)}}=0,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,2}^{(4)}}=0.00663486051116,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{1,3}^{(4)}}=0.00663486051116,\quad
\frac{\partial \mathcal L^{(2)}}{\partial b_{1}^{(4)}}=0.00663486051116
$$

    - Capa 2 (capa final)

        - Neurona 1

$$
\frac{\partial \mathcal L^{(2)}}{\partial w_{out,1}^{(1)}}=0.0108627420084,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{out,2}^{(1)}}=0.0246808747211,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{out,3}^{(1)}}=-0.00649258498951,\quad
\frac{\partial \mathcal L^{(2)}}{\partial w_{out,4}^{(1)}}=0.0180999896883,\quad
\frac{\partial \mathcal L^{(2)}}{\partial b_{out}^{(1)}}=0.0649560713874
$$

---

**Cliente 3**

    - Capa 1

        - Neurona 1
$$
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,1}^{(1)}}=0.00158583420316,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,2}^{(1)}}=0.00158583420316,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,3}^{(1)}}=0,\quad
\frac{\partial \mathcal L^{(3)}}{\partial b_{1}^{(1)}}=0.00158583420316
$$

        - Neurona 2    

$$
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,1}^{(2)}}=0.0545396018694,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,2}^{(2)}}=0.0545396018694,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,3}^{(2)}}=0,\quad
\frac{\partial \mathcal L^{(3)}}{\partial b_{1}^{(2)}}=0.0545396018694
$$

        - Neurona 3

$$
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,1}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,2}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,3}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(3)}}{\partial b_{1}^{(3)}}=0
$$

        - Neurona 4

$$
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,1}^{(4)}}=-0.0119949414528,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,2}^{(4)}}=-0.0119949414528,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{1,3}^{(4)}}=0,\quad
\frac{\partial \mathcal L^{(3)}}{\partial b_{1}^{(4)}}=-0.0119949414528
$$

    - Capa 2

        - Neurona 1

$$
\frac{\partial \mathcal L^{(3)}}{\partial w_{out,1}^{(1)}}=-0.00280102359729,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{out,2}^{(1)}}=-0.0274583404496,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{out,3}^{(1)}}=-0.0136358820646,\quad
\frac{\partial \mathcal L^{(3)}}{\partial w_{out,4}^{(1)}}=-0.0209537313689,\quad
\frac{\partial \mathcal L^{(3)}}{\partial b_{out}^{(1)}}=-0.275434091526
$$

---

**Cliente 4**

    - Capa 1

        - Neurona 1

$$
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,1}^{(1)}}=-0.0513125608429,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,2}^{(1)}}=0.0513125608429,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,3}^{(1)}}=0.0256562804214,\quad
\frac{\partial \mathcal L^{(4)}}{\partial b_{1}^{(1)}}=-0.0513125608429
$$

        - Neurona 2

$$
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,1}^{(2)}}=0.0346338023897,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,2}^{(2)}}=-0.0346338023897,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,3}^{(2)}}=-0.0173169011949,\quad
\frac{\partial \mathcal L^{(4)}}{\partial b_{1}^{(2)}}=-0.0346338023897
$$

        - Neurona 3

$$
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,1}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,2}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,3}^{(3)}}=0,\quad
\frac{\partial \mathcal L^{(4)}}{\partial b_{1}^{(3)}}=0
$$

        - Neurona 4

$$
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,1}^{(4)}}=-0.0284171191225,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,2}^{(4)}}=0.0284171191225,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{1,3}^{(4)}}=0.0142085595612,\quad
\frac{\partial \mathcal L^{(4)}}{\partial b_{1}^{(4)}}=-0.0284171191225
$$

    - Capa 2

        - Neurona 1
$$
\frac{\partial \mathcal L^{(4)}}{\partial w_{out,1}^{(1)}}=-0.0375110369997,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{out,2}^{(1)}}=-0.116418487119,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{out,3}^{(1)}}=-0.0344155331836,\quad
\frac{\partial \mathcal L^{(4)}}{\partial w_{out,4}^{(1)}}=0.00895048735605,\quad
\frac{\partial \mathcal L^{(4)}}{\partial b_{out}^{(1)}}=0.243359223743
$$


**Batch gradiente descendente**

Para cada neurona de la red, debemos calcular $$\frac{\partial\mathcal{L}_{prom}}{\partial w_{i,s}^{(j)}}\quad\mbox{ y }\quad\frac{\partial\mathcal{L}_{prom}}{\partial b_{i}^{(j)}}$$

Como $\mathcal{L}_{prom}=\frac{\mathcal{L}^{(1)}+\mathcal{L}^{(2)}+\mathcal{L}^{(3)}+\mathcal{L}^{(4)}}{4}$ se tiene

$$\frac{\partial {\cal L}_{\text{prom}}}{\partial w_{i,s}^{(j)}}=\frac{1}{4}\sum_{k=1}^{4}\frac{\partial {\cal L}^{(k)}}{\partial w_{i,s}^{(j)}},\qquad\frac{\partial {\cal L}_{\text{prom}}}{\partial b_{i}^{(j)}}=\frac{1}{4}\sum_{k=1}^{4}\frac{\partial {\cal L}^{(k)}}{\partial b_{i}^{(j)}}.$$

Por ejemplo, para la neurona 2 de la capa 1 se tiene:

- Derivadas de los pesos
$$\frac{\partial \mathcal{L}_{prom}}{\partial w_{1,1}^{(2)}} = \frac{0.0607385532805 + 0 + 0.0545396018694 + 0.0346338023897}{4} = 0.0374779893849$$

$$\frac{\partial \mathcal{L}_{prom}}{\partial w_{1,2}^{(2)}} = \frac{0 - 0.0111157868148 + 0.0545396018694 - 0.0346338023897}{4} = 0.002197503166225$$

$$\frac{\partial \mathcal{L}_{prom}}{\partial w_{1,3}^{(2)}} = \frac{0.0607385532805 - 0.0111157868148 + 0 - 0.0173169011949}{4} = 0.0080764663177$$

- Derivada del sesgo
  
$$\frac{\partial \mathcal{L}_{prom}}{\partial b_{1}^{(2)}} = \frac{0.0607385532805 - 0.0111157868148 + 0.0545396018694 - 0.0346338023897}{4} = 0.01738214148635$$

Como $\eta=0.1$ entonces las actualizaciones para esta neurona son

$$w^{(2)}_{1,1}\gets w^{(2)}_{1,1}-\eta\frac{\partial\mathcal{L}_{prom}}{\partial w^{(2)}_{1,1}}=-0.3-0.1(0.0374779893849)=-0.30374779893849$$

$$w^{(2)}_{1,2}\gets w^{(2)}_{1,2}-\eta\frac{\partial\mathcal{L}_{prom}}{\partial w^{(2)}_{1,2}}=0.1-0.1(0.002197503166225)=0.0997802496833775$$

$$w^{(2)}_{1,3}\gets w^{(2)}_{1,3}-\eta\frac{\partial\mathcal{L}_{prom}}{\partial w^{(2)}_{1,3}}=0.2-0.1(0.0080764663177)=0.19919235336823$$

$$b^{(2)}_1\gets b^{(2)}_1-\eta\frac{\partial\mathcal{L}_{prom}}{\partial b^{(2)}_1}=0.1-0.1(0.01738214148635)=0.098261785851365$$

De hecho, utilizando batch gradiente descendente, las nuevas matrices de pesos y vectores de sesgos son

**Capa 1**

$$W^{\text{nuevo}}_1 = \begin{pmatrix} 0.20196816708 & -0.10003579957 & 0.000290493688 \\ -0.303747798939 & 0.099780249683 & 0.199192353368 \\ 0 & 0.2 & -0.2 \\ 0.105699296525 & -0.000219146557 & 0.300536689173 \end{pmatrix}\quad\mbox{ y }b^{\text{nuevo}}_1 = \begin{pmatrix} 0.000693854935 \\ 0.098261785851 \\ -0.1 \\ 0.051653122148 \end{pmatrix}$$

**Capa de salida**
$$W^{\text{nuevo}}_{out} = (0.104119026829 \quad -0.20457069803 \quad -0.001363588206 \quad 0.303075773259)\quad\mbox{ y }b^{\text{nuevo}}_{out} = 0.05677028907$$

**Gradiente estocástico**

Ahora primero seleccionamos un cliente al azar. Digamos al 1. Las derivadas de este cliente son las que se utilizarán para actualizar toda la red. Por ejemplo, para la neurona 2 de la capa 1 se usa

- Derivada de los pesos
$$\frac{\partial\mathcal{L}^{(1)}}{\partial w_{1,1}^{(2)}}=0.0607385532805,\quad\frac{\partial\mathcal{L}^{(1)}}{\partial w_{1,2}^{(2)}}=0,\quad\frac{\partial\mathcal{L}^{(1)}}{\partial w_{1,3}^{(2)}}=0.0607385532805$$

- Derivada del sesgo
$$\frac{\partial\mathcal{L}^{(1)}}{\partial b_{1}^{(2)}}=0.0607385532805$$

Como $\eta=0.1$ entonces las actualizaciones para esta neurona son

$$
w_{1,1}^{(2)} \leftarrow w_{1,1}^{(2)} - \eta \frac{\partial \mathcal{L}^{(1)}}{\partial w_{1,1}^{(2)}}
= -0.3 - 0.1(0.0607385532805) = -0.30607385532805
$$

$$
w_{1,2}^{(2)} \leftarrow w_{1,2}^{(2)} - \eta \frac{\partial \mathcal{L}^{(1)}}{\partial w_{1,2}^{(2)}}
= 0.1 - 0.1(0) = 0.1
$$

$$
w_{1,3}^{(2)} \leftarrow w_{1,3}^{(2)} - \eta \frac{\partial \mathcal{L}^{(1)}}{\partial w_{1,3}^{(2)}}
= 0.2 - 0.1(0.0607385532805) = 0.19392614467195
$$

$$
b_1^{(2)} \leftarrow b_1^{(2)} - \eta \frac{\partial \mathcal{L}^{(1)}}{\partial b_1^{(2)}}
= 0.1 - 0.1(0.0607385532805) = 0.09392614467195
$$

De hecho, utilizando gradiente estocástico (con el cliente $k=1$), las nuevas matrices de pesos y vectores de sesgos son

**Capa 1**
$$
W_1^{\text{nuevo}} =
\begin{pmatrix}
 0.20291861802129 & -0.1 & 0.00291861802129 \\
-0.30607385532805 &  0.1 & 0.19392614467195 \\
 0                &  0.2 & -0.2 \\
 0.10186338238498 &  0   & 0.30186338238498
\end{pmatrix},
\qquad
b_1^{\text{nuevo}} =
\begin{pmatrix}
 0.00291861802129 \\
 0.09392614467195 \\
-0.1 \\
 0.05186338238498
\end{pmatrix}
$$

**Capa 2**

$$
W_{\text{out}}^{\text{nuevo}} =
\begin{pmatrix}
 0.09091676085524 & -0.20710228754759 & -0.00884695331634 & 0.3128127676047
\end{pmatrix},
\qquad
b_{\text{out}}^{\text{nuevo}} = 0.0803692766403
$$


**Minibatch gradiente descendente**

En minibatch, en lugar de usar todos los clientes (batch) o uno solo (estocástico), elegimos un subconjunto $B$ de clientes y actualizamos con el promedio de sus derivadas.

Tomemos el minibatch $B=\{1,3\}$ (primer y tercer clientes) y definamos la pérdida del minibatch como $$\mathcal{L}_B=\frac{\mathcal{L}^{(1)}+\mathcal{L}^{(3)}}{2}$$

Entonces, para cada neurona de la red, debemos calcular $$\frac{\partial\mathcal{L}_B}{\partial w_{i,s}^{(j)}}\quad\mbox{ y }\quad\frac{\partial\mathcal{L}_B}{\partial b_{i}^{(j)}}$$

Y como $\mathcal{L}_B = \frac{\mathcal{L}^{(1)} + \mathcal{L}^{(3)}}{2}$ se tiene $$
\frac{\partial \mathcal{L}_B}{\partial w_{i,s}^{(j)}}
= \frac{1}{2}\left(
\frac{\partial \mathcal{L}^{(1)}}{\partial w_{i,s}^{(j)}}+\frac{\partial \mathcal{L}^{(3)}}{\partial w_{i,s}^{(j)}}\right),
\qquad
\frac{\partial \mathcal{L}_B}{\partial b_i^{(j)}}
= \frac{1}{2}\left(
\frac{\partial \mathcal{L}^{(1)}}{\partial b_i^{(j)}}+\frac{\partial \mathcal{L}^{(3)}}{\partial b_i^{(j)}}\right)
$$

Por ejemplo, para la neurona 2 de la capa 1 se tiene

- Derivada de los pesos
$$
\frac{\partial \mathcal{L}_B}{\partial w_{1,1}^{(2)}}
=
\frac{0.0607385532805 + 0.0545396018694}{2}
=
0.05763907757495
$$
$$
\frac{\partial \mathcal{L}_B}{\partial w_{1,2}^{(2)}}
=
\frac{0 + 0.0545396018694}{2}
=
0.0272698009347
$$
$$
\frac{\partial \mathcal{L}_B}{\partial w_{1,3}^{(2)}}
=
\frac{0.0607385532805 + 0}{2}
=
0.03036927664025
$$

- Derivada del sesgo
$$
\frac{\partial \mathcal{L}_B}{\partial b_1^{(2)}}
=
\frac{0.0607385532805 + 0.0545396018694}{2}
=
0.05763907757495
$$

Como $\eta=0.1$ entonces las actualizaciones para esta neurona son

$$w^{(2)}_{1,1}\gets w^{(2)}_{1,1}-\eta\frac{\partial\mathcal{L}_B}{\partial w^{(2)}_{1,1}}=-0.3-0.1(0.05763907757495)=-0.305763907757495$$

$$w^{(2)}_{1,2}\gets w^{(2)}_{1,2}-\eta\frac{\partial\mathcal{L}_B}{\partial w^{(2)}_{1,2}}=0.1-0.1(0.0272698009347)=0.09727301990653$$

$$w^{(2)}_{1,3}\gets w^{(2)}_{1,3}-\eta\frac{\partial\mathcal{L}_B}{\partial w^{(2)}_{1,3}}=0.2-0.1(0.03036927664025)=0.196963072335975$$

$$b^{(2)}_1\gets b^{(2)}_1-\eta\frac{\partial\mathcal{L}_B}{\partial b^{(2)}_1}=0.1-0.1(0.05763907757495)=0.094236092242505$$

De hecho, utilizando minibatch gradiente descendente con $B={1,3}$, las nuevas matrices de pesos y vectores de sesgos son

**Capa 1**

$$
W_1^{\text{nuevo}} =
\begin{pmatrix}
 0.201380017300487 & -0.100079291710158 & 0.00145309010645 \\
-0.305763907757495 &  0.09727301990653  & 0.196963072335975 \\
 0                 &  0.2               & -0.2 \\
 0.10153143826513  &  0.00059974707264  & 0.30093169119249
\end{pmatrix},
\qquad
b_1^{\text{nuevo}} =
\begin{pmatrix}
 0.001380017300487 \\
 0.094236092242505 \\
-0.1 \\
 0.05153143826513
\end{pmatrix}
$$

**Capa de salida**

$$
W_{\text{out}}^{\text{nuevo}} =
\begin{pmatrix}
 0.0955984316074845 & -0.202178226751315 & -0.00374168255494 & 0.307454070370795
\end{pmatrix},
\qquad
b_{\text{out}}^{\text{nuevo}} = 0.07895634289645
$$


**Batch GD (usando $W_1^{\text{nuevo}},b_1^{\text{nuevo}},W_{out}^{\text{nuevo}},b_{out}^{\text{nuevo}}$ del batch)**

Cliente 1: $\hat y^{(1)}=0.209127001022271,\quad \mathcal L^{(1)}=0.042303550767149$

Cliente 2: $\hat y^{(2)}=0.07186143124441,\quad \mathcal L^{(2)}=0.002582032650248$

Cliente 3: $\hat y^{(3)}=0.136061655831731,\quad \mathcal L^{(3)}=0.034831724761144$

Cliente 4: $\hat y^{(4)}=-0.054730934552725,\quad \mathcal L^{(4)}=0.03007845723269$

Pérdida promedio: 0.02744894135280775

---

**SGD (un paso con el cliente $k=1$, usando tus $W_1^{\text{nuevo}},b_1^{\text{nuevo}},W_{out}^{\text{nuevo}},b_{out}^{\text{nuevo}}$ del estocástico)**

Cliente 1: $\hat y^{(1)}=0.238837650431852,\quad \mathcal L^{(1)}=0.034102886415978$

Cliente 2: $\hat y^{(2)}=0.10244462079014,\quad \mathcal L^{(2)}=0.005247450164418$

Cliente 3: $\hat y^{(3)}=0.159915731730028,\quad \mathcal L^{(3)}=0.028820227935364$

Cliente 4: $\hat y^{(4)}=-0.025304424342302,\quad \mathcal L^{(4)}=0.037728829642957$

Pérdida promedio: 0.02744894135280775

---

**Minibatch GD (con $B={1,3}$, usando tus $W_1^{\text{nuevo}},b_1^{\text{nuevo}},W_{out}^{\text{nuevo}},b_{out}^{\text{nuevo}}$ del minibatch)**

Cliente 1: $\hat y^{(1)}=0.232969303173548,\quad \mathcal L^{(1)}=0.03565269652381$

Cliente 2: $\hat y^{(2)}=0.099502271761945,\quad \mathcal L^{(2)}=0.004950351042894$

Cliente 3: $\hat y^{(3)}=0.158240850698111,\quad \mathcal L^{(3)}=0.029223743135587$

Cliente 4: $\hat y^{(4)}=-0.025835679416952,\quad \mathcal L^{(4)}=0.037583037340382$

Pérdida promedio: 0.02647484853967925

## La intimidad de los tres métodos de actualización

Ya hemos dicho que las actualizaciones se hacen hasta que pasan todos los clientes por la red. Ahora, independientemente de las cuándo se actualicen los pesos, una **época** es el intervalo en el que cada dato de la fila se usa una vez para aprender.

Veamos el proceso de forma general. Digamos que hay $p$ parámetros en la red; $n$ clientes en la fila y elegimos un batch de tamaño $m$. Por lo general, $n=m*q+r$, con $r\in\{0,1,...,m-1\}$.

- **Época 1**: Se reordena la fila de clientes;
    - **Minibatch 1**
        - Se toman los clientes del 1 al $m$;  
        - Se calculan las $m$ predicciones;
        - Se calculan las $m$ funciones de pérdida;
        - Usando solo esos $m$ clientes, se calculan las $p$ derivadas parciales.
        - Se actualizan los $p$ parámetros promediando las derivadas respectivas.

    - **Minibatch 2**:
        - Se toman los clientes del $m+1$ al $2m$;
        - Se calculan las $m$ predicciones;
        - Se calculan las $m$ funciones de pérdida;
        - Usando solo esos $m$ clientes, se calculan las $p$ derivadas parciales.
        - Se actualizan los $p$ parámetros promediando las derivadas respectivas. 

    ...


    - **Minibatch $q$**:
        - Se toman los clientes del $(q-1)m+1$ al $qm$;
        - Se calculan las $m$ predicciones;
        - Se calculan las $m$ funciones de pérdida;
        - Usando solo esos $m$ clientes, se calculan las $p$ derivadas parciales.
        - Se actualizan los $p$ parámetros promediando las derivadas respectivas.
    

    - **Minibatch r (si $r\neq 0$)**, también llamado **minibatch parcial**.
        - Se toman los clientes del $qm+1$ al $qm+r=n$;
        - Se calculan las $r$ predicciones;
        - Se calculan las $r$ funciones de pérdida;
        - Usando solo esos $r$ clientes, se calculan las $p$ derivadas parciales.
        - Se actualizan los $p$ parámetros promediando las derivadas respectivas.

---

- **Época 2**: Se reordena la fila de clientes y se sigue exactamente el mismo recorrido que describimos para la época 1.   

---

En el caso en que $m=n$ estamos en el batch gradiente descendente; en el caso en que $m=1$ estamos en el gradiente estocástico.

Esto termina toda la arquitectura de la red.