![imagenes](logo.png)

# Modelo matemático

Vayamos ahora a las matemáticas que trabajan en una red neuronal.

## Capa de entrada

Supongamos que llega un cliente potencial al antro y se forma en la fila. El cliente tiene ciertas características: edad, peso, estatura, vestimenta, actitud, hora de llegada, etc. En ese momento **nadie juzga ni aprueba nada**. El cliente solamente está formado.

En una red neuronal, esta fila es la capa de entrada. Las neuronas que la conforman se encargan únicamente de recabar la información del cliente formado. Esta información es un número. De esta manera, en una neurona entra la edad; en otra neurona entra el peso; en otra neurona entra la estatura; en otra neurona entra la vestimenta; etc.

Así, si la capa de entrada tiene $n$ neuronas, entonces esta espera recibir $n$ números; llamemos $x_1$, $x_2$,..., $x_n$ a estos valores y denotemos por $x$ a $$\boldsymbol{x}=(x_1,x_2,...,x_n)$$

## Capas medias

### Primera capa 

El cliente llega a una primera revisión formada por $n_1$ porteros. Cada uno de ellos realizará un juicio sobre el cliente basado en sus características $\boldsymbol{x}$. Aquí hay que tenerlo claro: se trata de un primer filtro formado por un conjunto de porteros. Cada uno de estos porteros es una neurona, y el conjunto de ellos forman la primera capa intermedia.

Cada portero observará el valor de los $x_i$; y cada uno le da una cierta importancia a cada valor. Por ejemplo, un portero puede considerar que es más importante la edad que la hora de llegada; otro portero puede considerar que es más importante la actitud que la edad.

Así, el portero $j$ de esta primera capa intermedia asigna ciertas importancias a cada característica: 

- $w_{1,1}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_1$
- $w_{1,2}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_2$ 
- $w_{1,3}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_3$
- ...
- $w_{1,n}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_n$

Y la forma en que este portero valora al cliente es $$z_{1}^{(j)}=w_{1,1}^{(j)}x_1+w_{1,2}^{(j)}x_2+w_{1,3}^{(j)}x_3+...+w_{1,n}^{(j)}x_n+b_1^{(j)}$$

En la ecuación anterior, $b_1^{(j)}$ es el **sesgo** del portero $j$ de la capa 1. Este número representa un "umbral de la personalidad del portero". Se trata del nivel de exigencia de dicho portero, independientemente de la persona que llegue. Hay porteros naturalmente estrictos y hay porteros naturalmente flexibles. Antes de ver a nadie, ya traen una inclinación: si $b_1^{(j)}$ es grande, significa que el portero es muy exigente. En caso contrario, el portero es muy permisivo.

De esta manera, $$z_{1}^{(j)}=w_{1,1}^{(j)}x_1+w_{1,2}^{(j)}x_2+w_{1,3}^{(j)}x_3+...+w_{1,n}^{(j)}x_n+b_1^{(j)}$$ significa "Tomo lo que veo de la persona, ponderado por mis criterios, y además parto de una postura inicial".

Por simplicidad, denotemos lo anterior como $$z_{1}^{(j)}=\boldsymbol{w}_{1}^{(j)}\cdot x+b_{1}^{(j)}$$

De alguna manera, $z_{1}^{(j)}$ es **lo que piensa el portero del cliente**. Pero ahora recordemos que hay $n_1$ porteros en esta primera capa intermedia. Por lo tanto hay $n_1$ juicios: $z_{1}^{(1)}$, $z_{1}^{(2)}$,..., $z_{1}^{(n_1)}$. Estos son solo pensamientos de los porteros. 



Por lo tanto, como tenemos $n_1$ ecuaciones lineales, podemos definir la matriz $W_1$ como 

$$W_1=\left(\begin{matrix}w_{1,1}^{(1)}&w_{1,2}^{(1)}&w_{1,3}^{(1)}&\dots&w_{1,n}^{(1)}\\
w_{1,1}^{(2)}&w_{1,2}^{(2)}&w_{1,3}^{(2)}&\dots&w_{1,n}^{(2)}\\
\vdots&\vdots&\vdots&\vdots&\vdots\\
w_{1,1}^{(n_1)}&w_{1,2}^{(n_1)}&w_{1,3}^{(n_1)}&\dots&w_{1,n}^{(n_1)}\\\end{matrix}\right)$$

y si $\boldsymbol{b}_1=(b_1^{(1)},b_1^{(2)},...,b_{1}^{(n_1)})$ son los sesgos de cada portero de esta primera capa, entonces todos los pensamientos de esta primera capa intermedia son $$\boldsymbol{z}_1=W_1\boldsymbol{x}+\boldsymbol{b}_1$$

A continuación, cada uno de estos porteros enviará su valoración a los porteros del siguiente filtro (es decir, la segunda capa). Esa valoración no es el pensamiento como tal. Digamos que el gerente ha dado una regla para toda esta primera capa: dependiendo de tu valoración (es decir, $z_1^{(j)}$) **aplicarás una fórmula y el resultado se lo pasarás a la segunda capa**.

Matemáticamente, esto significa que los porteros de la primera capa no pasan sus pensamientos, sino el resultado de aplicar una fórmula a sus pensamientos. Si denotamos por $f_1$ a dicha fórmula (el 1 es porque se trata de la fórmula de la primera capa intermedia) y $a_1^{(j)}$ es el resultado de aplicar la fórmula $f_1$ al pensamiento del portero $j$ de la capa 1, entonces $$a_1^{(j)}=f_1(z_1^{(j)})$$

Por lo tanto obtenemos $n_1$ resultados (uno por cada portero de la primera capa). Si denotamos por $\boldsymbol{a}_1$ estos resultados, entonces $$\boldsymbol{a}_1=f_1(\boldsymbol{z}_1)=f_1(W_1\boldsymbol{x}+\boldsymbol{b}_1)$$

Esta es la información que fluirá desde la capa 1 hacia la capa 2. **Este proceso se repetirá entre todas las capas intermedias.**

## Otras capas intermedias

Dicho lo anterior, conservando la notación, el proceso se vuelve iterativo. Digamos que tenemos las capas $r$ y $r+1$, cada una $n_r$ y $n_{r+1}$ neuronas, respectivamente.

La capa $r$ ha generado entonces los $n_r$ pensamientos $\boldsymbol{z}_r=(z_r^{(1)},z_r^{(2)},...,z_r^{(n_r)})$. Se aplica una fórmula $f_r$ a cada uno de esos pensamientos y se obtienen $n_r$ resultados $\boldsymbol{a}_r=(a_r^{(1)},a_r^{(2)},...,a_r^{(n_r)})$. Estos $n_r$ resultados son enviados a las $n_{r+1}$ neuronas de la siguiente capa. 

Cada una estas neuronas tiene sus propias "importancias" (pesos) para cada uno de los $n_r$ resultados que recibe: la neurona $j$ de la capa $n_{r+1}$ tiene pesos $\boldsymbol{w}_{r+1}^{(j)}=(w_{r+1,1}^{(j)},w_{r+1,2}^{(j)},...,w_{r+1,n_r}^{(j)})$ y forma su propio pensamiento $z_{r+1}^{(j)}$ como $$z_{r+1}^{(j)}=w_{r+1,1}^{(j)}a_r^{(1)}+w_{r+1,2}^{(j)}a_r^{(2)}+...+w_{r+1,n_r}^{(j)}a_r^{(n_r)}+b_{r+1}^{(j)}=\boldsymbol{w}_{r+1}^{(j)}\cdot\boldsymbol{a}_r+b_{r+1}^{(j)}$$

Si los pesos de toda la capa son $$W_{r+1}=\left(\begin{matrix}w_{r+1,1}^{(1)}&w_{r+1,2}^{(1)}&\dots&w_{r+1,n_r}^{(1)}\\
w_{r+1,1}^{(2)}&w_{r+1,2}^{(2)}&\dots&w_{r+1,n_r}^{(2)}\\
\vdots&\vdots&\vdots&\vdots\\
w_{r+1,1}^{(n_{r+1})}&w_{r+1,2}^{(n_{r+1})}&\dots&w_{r+1,n_r}^{(n_{r+1})}\end{matrix}\right)$$

y los sesgos de cada neurona de esa capa son $\boldsymbol{b}_{r+1}=(b_{r+1}^{(1)},b_{r+1}^{(2)},...,b_{r+1}^{(n_{r+1})})$ entonces los pensamientos en la capa $r+1$ son $$\boldsymbol{z}_{r+1}=W_{r+1}\boldsymbol{a}_r+\boldsymbol{b}_{r+1}$$ y, tomando como **fórmula de activación** a $f_{r+1}$ entonces   $$\boldsymbol{a}_{r+1}=f_{r+1}(\boldsymbol{z}_{r+1})$$

De esta manera **el Flujo de información** se puede resumir así: 
Entrada → Pesos y sesgo → Juicio crudo z → Activación a → Entrada para siguiente capa

## Capa de salida

Supongamos que la última capa intermedia es la capa es $R$ y tiene $n_R$ neuronas. Esta capa ya produjo su vector de activaciones $\boldsymbol{a}_{R}=(a_R^{(1)},a_R^{(2)},...,a_R^{(n_R)})$. Este vector contiene toda la información procesada del cliente: no son ya características originales, sino criterios abstractos aprendidos por la red. Ese vector entra completo a la capa de salida.

Digamos que la capa de salida tiene $n_{out}$ neuronas. Cada una representa una posible decisión final:
- $n_{out}=1$ cuando el problema es de clasificación binaria.
- $n_{out}=1$ cuando el problema es de clasificación múltiple.
- $n_{out}$ puede ser 1 o más cuando se trata de un problema de regresión.

Cada neurona de salida funciona igual que las anteriores: forma un pensamiento lineal a partir de $\boldsymbol{a}_R$.

La neurona $j$ de la capa de salida tiene sus pesos $\boldsymbol{w}_{out}^{(j)}$ y calcula su propio pensamiento crudo $$z_{out}^{(j)}=\boldsymbol{w}_{out}^{(j)}\cdot\boldsymbol{a}_R+b_{out}^{(j)}$$

Como hay $n_{out}$ neuronas en la capa de salida, entonces tenemos $n_{out}$ pensamientos crudos $\boldsymbol{z}_{out}=(z_{out}^{(1)},z_{out}^{(2)},...,z_{out}^{(n_{out})})$ y tomando $W_{out}$ como la matriz de pesos (recuerda que la primer fila son las importancias de la primer neurona de la capa de salida; la segunda fila son las importancias de la segunda neurona de la capa de salida; etc) y $\boldsymbol{b}_{out}$ como los sesgos, entonces $$\boldsymbol{z}_{out}=W_{out}\boldsymbol{a}_R+\boldsymbol{b}_{out}$$

Ahora ocurre algo importante: el gerente va a tomar una decisión. Esto lo hará basado en la fórmula con la que transforma los pensamientos crudos de la capa de salida en pensamientos procesados: $$\boldsymbol{y}=\boldsymbol{a}_{out}=f_{out}(\boldsymbol{z}_{out})$$

Este resultado $\boldsymbol{y}$ es lo que finalmente la red neuronal entrega.

Notemos que si vemos todo el flujo desde la llegada del cliente a la fila hasta el resultado final, tenemos:

$$\boldsymbol{y}=f_{out}(W_{out}\boldsymbol{a}_R+\boldsymbol{b}_R)=f_{out}(W_{out}f_R(W_{R-1}\boldsymbol{a}_{R-1}+\boldsymbol{b}_{R-1})+\boldsymbol{b}_R)=...=f_{out}(W_{out}f_R(W_R...f_1(W_1\boldsymbol{x}+\boldsymbol{b}_1)...+\boldsymbol{b}_R)+\boldsymbol{b}_{out})$$

## Ejemplo.

Supongamos una arquitectura 3-2-3-4. Es decir, tres neuronas de entrada, 2 capas intermedias con 2 y 3 neuronas cada una, y 4 neuronas de capa final. Primero veamos cuántos parámetros vamos a requerir:

- Como hay tres neuronas en la capa inicial, entonces cada una de las dos neuronas de la capa 1 (la primer capa intermedia) debe tener tres importancias. Además cada una tiene su propio sesgo. Esto son $3\cdot2+2=8$ 

- Como hay dos neuronas en la capa 1, entonces cada una de las tres neuronas de la capa 2 (la segunda capa intermedia) debe tener dos importancias. Además cada una tiene su propio sesgo. Esto son $2\cdot3+3=9$ 

- Como hay tres neuronas en la capa 2, entonces cada una de las cuatro neuronas de la capa final debe tener dos importancias. Además cada una tiene su propio sesgo. Esto son $3\cdot4+4=16$ 

Por lo tanto hay $8+9+16=33$ parámetros. De hecho, en general hay $$\sum_{k=0}^Rn_{k+1}(n_k+1)$$ parámetros donde $n_0$ es el total de neuronas de la capa de entrada, $n_1,n_2,...,n_R$ son el total de neuronas de cada capa intermedia y $n_{R+1}$ es el total de neuronas en la capa de salida, por lo que en nuestro ejemplo tenemos $2(3+1)+3(2+1)+4(3+1)=8+9+16=33$ parámetros.





Digamos que la CAPA 1 (Oculta 1) tiene estos 8 parámetros
  - $\boldsymbol{w}_{1}^{(1)}=(0.5, -0.2, 0.8)$ y sesgo $b_1^{(1)}=0.1$
  - $\boldsymbol{w}_{1}^{(2)}=(-0.3, 0.7, 0.4)$ y sesgo $b_1^{(2)}=-0.5$

Por lo tanto $W_1=\left(\begin{matrix}0.5&-0.2&0.8\\-0.3&0.7&0.4\end{matrix}\right)$ y $\boldsymbol{b}_1=(0.1,-0.5)$. Digamos que el gerente de la red neuronal le dice a los porteros de esta capa que la fórmula de transformación de pensamientos crudos es $f_1(t)=t^2$

CAPA 2 (Oculta 2): 9 parámetros
  - $\boldsymbol{w}_{2}^{(1)}=(0.9, -0.6)$ y sesgo $b_2^{(1)}=0.2$
  - $\boldsymbol{w}_{2}^{(2)}=(-0.1, 0.3)$ y sesgo $b_2^{(2)}=-0.4$
  - $\boldsymbol{w}_{2}^{(3)}=(0.5, -0.8)$ y sesgo $b_2^{(3)}=-0.3$

Por lo tanto $W_2=\left(\begin{matrix}0.9&-0.6\\-0.1&0.3\\0.5&-0.8\end{matrix}\right)$ y $\boldsymbol{b}_2=(0.2,-0.4,-0.3)$. Digamos que el gerente de la red neuronal le dice a los porteros de esta capa que la fórmula de transformación de pensamientos crudos es $f_2(t)=\cos(t)$
  
CAPA de Salida - 16 parámetros:
  - $\boldsymbol{w}_{out}^{(1)}=(0.7, -0.4, 0.1)$ y sesgo $b_{out}^{(1)}=0$
  - $\boldsymbol{w}_{out}^{(2)}=(-0.2, 0.5, -0.6)$ y sesgo $b_{out}^{(2)}=0.3$
  - $\boldsymbol{w}_{out}^{(3)}=(0.4, 0.8, -0.9)$ y sesgo $b_{out}^{(3)}=-0.1$
  - $\boldsymbol{w}_{out}^{(4)}=(-0.5, 0.2, 0.6)$ y sesgo $b_{out}^{(4)}=0.7$  

Por lo tanto $W_{out}=\left(\begin{matrix}0.7&-0.4&0.1\\-0.2&0.5&-0.6\\0.4&0.8&-0.9\\-0.5&0.2&0.6\\\end{matrix}\right)$ y $\boldsymbol{b}_{out}=(0,0.3,-0.1,0.7)$. Digamos que el gerente de la red neuronal le dice a los porteros de esta capa que la fórmula de transformación de pensamientos crudos es $f_{out}(t)=100t$
  

Con todo esto, ya tenemos una red neuronal completamente construida. Pensemos que llega un cliente $\boldsymbol{x}$ con características $\boldsymbol{x}=(2,1,5)$. ¿Cuál será el resultado de aplicarle la red neuronal? Como la capa de salida tiene 4 neuronas, esperamos 4 valores finales.

- **Pensamiento crudo y procesado de la capa 1**

$$\boldsymbol{z}_1=W_1\boldsymbol{x}+\boldsymbol{b}_1=\left(\begin{matrix}0.5&-0.2&0.8\\-0.3&0.7&0.4\end{matrix}\right)\left(\begin{matrix}2\\1\\5\end{matrix}\right)+\left(\begin{matrix}0.1\\-0.5\end{matrix}\right)=\left(\begin{matrix}4.9\\1.6\end{matrix}\right)$$

$$\boldsymbol{a}_1=f_1(\boldsymbol{z}_1)=\left(\begin{matrix}4.9^2\\1.6^2\end{matrix}\right)=\left(\begin{matrix}24.01\\2.56\end{matrix}\right)$$

- **Pensamiento crudo y procesado de la capa 2**

$$\boldsymbol{z}_2=W_2\boldsymbol{a}_1+\boldsymbol{b}_2=\left(\begin{matrix}0.9&-0.6\\-0.1&0.3\\0.5&-0.8\end{matrix}\right)\left(\begin{matrix}24.01\\2.56\end{matrix}\right)+\left(\begin{matrix}0.2\\-0.4\\-0.3\end{matrix}\right)=\left(\begin{matrix}20.273\\-2.033\\9.657\end{matrix}\right)$$

$$\boldsymbol{a}_2=f_2(\boldsymbol{z}_2)=\left(\begin{matrix}\cos(20.273)\\\cos(-2.033)\\\cos(9.657)\end{matrix}\right)=\left(\begin{matrix}0.148\\-0.448\\-0.973\end{matrix}\right)$$

- **Pensamiento crudo y procesado de la capa final**

$$\boldsymbol{z}_{out}=W_{out}\boldsymbol{a}_2+\boldsymbol{b}_{out}=\left(\begin{matrix}0.7&-0.4&0.1\\-0.2&0.5&-0.6\\0.4&0.8&-0.9\\-0.5&0.2&0.6\\\end{matrix}\right)\left(\begin{matrix}0.148\\-0.448\\-0.973\end{matrix}\right)+\left(\begin{matrix}0\\0.3\\-0.1\\0.7\end{matrix}\right)=\left(\begin{matrix}0.186\\0.630\\0.477\\-0.047\end{matrix}\right)$$ $$\boldsymbol{a}_{out}=f_{out}(\boldsymbol{z}_{out})=\left(\begin{matrix}100*0.186\\100*0.630\\100*0.477\\100*-0.047\end{matrix}\right)=\left(\begin{matrix}18.6\\63\\47.7\\-4.7\end{matrix}\right)$$