![imagenes](logo.png)

# Modelo matemático

Vayamos ahora a las matemáticas que trabajan en una red neuronal.

## Capa de entrada

Supongamos que llega un cliente potencial al antro y se forma en la fila. Él cliente tiene ciertas características: edad, peso, estatura, vestimenta, actitud, hora de llegada, etc. En ese momento **nadie juzga ni aprueba nada**. El cliente solamente está formado.

En una red neuronal, esta fila es la capa de entrada. Las neuronas que la conforman se encargan únicamente de recabar la información del cliente formado. Esta información es un número. De esta manera, en una neurona entra la edad; en otra neurona entra el peso; en otra neurona entra la estatura; en otra neurona entra la vestimenta; etc.

Así, si la capa de entrada tiene $n$ neuronas, entonces esta espera recibir $n$ números; llamemos $x_1$, $x_2$,..., $x_n$ a estos valores y denotemos por $x$ a $$\boldsymbol{x}=(x_1,x_2,...,x_n)$$

## Capas medias

### Primera capa 

El cliente llega a una primera revisión formada por $n_1$ porteros. Cada uno de ellos realizará un jucio sobre el cliente basado en sus características $\boldsymbol{x}$. Aquí hay que tenerlo claro: se trata de un primer filtro formado por un conjunto de porteros. Cada uno de estos porteros es una neurona, y el conjunto de ellos forman la primer capa intermedia.

Cada portero observará el valor de los $x_i$; y cada uno le da una cierta importancia a cada valor. Por ejemplo, un portero puede considerar que es más importante la edad que la hora de llegada; otro portero puede considerar que es más importante la actitud que la edad.

Así, el portero $j$ de esta primer capa intermedia asigna ciertas importancias a cada característica: 

- $w_{1,1}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_1$
- $w_{1,2}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_2$ 
- $w_{1,3}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_3$
- ...
- $w_{1,n}^{(j)}$ es la importancia que el portero $j$ de la capa 1 asigna al valor $x_n$

Y la forma en que este portero valora al cliente es $$z_{1}^{(j)}=w_{1,1}^{(j)}x_1+w_{1,2}^{(j)}x_2+w_{1,3}^{(j)}x_3+...+w_{1,n}^{(j)}x_n+b_1^{(j)}$$

En la ecuación anterior, $b_1^{(j)}$ es el **sesgo** del portero $j$ de la capa 1. Este número representa un "umbral de la personalidad del portero". Se trata del nivel de exigencia de dicho portero, independientemente de la persona que llegue. Hay porteros naturalmente estrictos y hay porteros naturalmente flexibles. Antes de ver a nadie, ya traen una inclinación: si $b_1^{(j)}$ es grande, significa que el portero es muy exigente. En caso contrario, el portero es muy permisivo.

De esta manera, $$z_{1}^{(j)}=w_{1,1}^{(j)}x_1+w_{1,2}^{(j)}x_2+w_{1,3}^{(j)}x_3+...+w_{1,n}^{(j)}x_n+b_1^{(j)}$$ significa "Tomo lo que veo de la persona, ponderado por mis criterios, y además parto de una postura inicial".

Por simplicidad, denotemos lo anterior como $$z_{1}^{(j)}=\boldsymbol{w}_{1}^{(j)}\cdot x+b_{1}^{(j)}$$

De alguna manera, $z_{1}^{j)}$ es **lo que piensa el portero del cliente**. Pero ahora recordemos que hay $n_1$ porteros en esta primera capa intermedia. Por lo tanto hay $n_1$ juicios: $z_{1}^{(1)}$, $z_{1}^{(2)}$,..., $z_{1}^{(n_1)}$. Estos son solo pensamientos de los porteros. 



Por lo tanto, como tenemos $n_1$ ecuaciones lineales, podemos definir la matriz $W_1$ como 

$$W_1=\left(\begin{matrix}w_{1,1}^{(1)}&w_{1,2}^{(1)}&w_{1,3}^{(1)}&\dots&w_{1,n}^{(1)}\\
w_{1,1}^{(2)}&w_{1,2}^{(2)}&w_{1,3}^{(2)}&\dots&w_{1,n}^{(2)}\\
\vdots&\vdots&\vdots&\vdots&\vdots\\
w_{1,1}^{(n_1)}&w_{1,2}^{(n_1)}&w_{1,3}^{(n_1)}&\dots&w_{1,n}^{(n_1)}\\\end{matrix}\right)$$

y si $\boldsymbol{b}_1=(b_1^{(1)},b_1^{(2)},...,b_{1}^{(n_1)})$ son los sesgos de cada portero de esta primer capa, entonces todos los pensamientos de esta primera capa intermedia son $$\boldsymbol{z}_1=W_1\boldsymbol{x}+\boldsymbol{b}_1$$

A continuación, cada uno de estos porteros enviará su valoración a los porteros del siguiente filtro (es decir, la segunda capa). Esa valoración no es el pensamiento como tal. Digamos que el gerente ha dado una regla para toda esta primer capa: dependiendo de tu valoración (es decir, $z_1^{(j)}$) **aplicarás una fórmula y el resultado se lo pasarás a la segunda capa**.

Matemáticamente, esto significa que los porteros de la primer capa no pasan sus pensamientos, sino el resultado de aplicar una fórmula a sus pensamientos. Si denotamos por $f_1$ a dicha fórmula (el 1 es porque se trata de la fórmula de la primer capa intermedia) y $a_1^{(j)}$ es el resultado de aplicar la fórmula $f_1$ al pensamiento del portero $j$ de la capa 1, entonces $$a_1^{(j)}=f_1(z_1^{(j)})$$

Por lo tanto obtenemos $n_1$ resultados (uno por cada portero de la primer capa). Si denotamos por $\boldsymbol{a}_1$ estos resultados, entonces $$\boldsymbol{a}_1=f_1(\boldsymbol{z}_1)=f_1(W_1\boldsymbol{x}+\boldsymbol{b}_1)$$

Esta es la información que fluirá desde la capa 1 hacia la capa 2. **Este proceso se repetirá entre todas las capas intermedias.**

## Otras capas intermedias

Dicho lo anterior, conservando la notación, el proceso se vuelve iterativo. Digamos que tenemos las capas $r$ y $r+1$, cada una $n_r$ y $n_{r+1}$ neuronas, respectivamente.

La capa $r$ ha generado entonces los $n_r$ pensamientos $\boldsymbol{z}_r=(z_r^{(1)},z_r^{(2)},...,z_r^{(n_r)})$. Se aplica una fórmula $f_r$ a cada uno de esos pensamientos y se obtienen $n_r$ resultados $\boldsymbol{a}_r=(a_r^{(1)},a_r^{(2)},...,a_r^{(n_r)})$. Estos $n_r$ resultados son enviados a las $n_{r+1}$ neuronas de la siguiente capa. 

Cada una estas neuronas tiene sus propias "importancias" (pesos) para cada uno de los $n_r$ resultados que recibe: la neurona $j$ de la capa $n_{r+1}$ tiene pesos $\boldsymbol{w}_{r+1}^{(j)}=(w_{r+1,1}^{(j)},w_{r+1,2}^{(j)},...,w_{r+1,n_r}^{(j)})$ y forma su propio pensamiento $z_{r+1}^{(j)}$ como $$z_{r+1}^{(j)}=w_{r+1,1}^{(j)}a_r^{(1)}+w_{r+1,2}^{(j)}a_r^{(2)}+...+w_{r+1,n_r}^{(j)}a_r^{(n_r)}+b_{r+1}^{(j)}=\boldsymbol{w}_{r+1}^{(j)}\cdot\boldsymbol{a}_r+b_{r+1}^{(j)}$$

Si los pesos de toda la capa son $$W_{r+1}=\left(\begin{matrix}w_{r+1,1}^{(1)}&w_{r+1,2}^{(1)}&\dots&w_{r+1,n_r}^{(1)}\\
w_{r+1,1}^{(2)}&w_{r+1,2}^{(2)}&\dots&w_{r+1,n_r}^{(2)}\\
\vdots&\vdots&\vdots&\vdots\\
w_{r+1,1}^{(n_{r+1})}&w_{r+1,2}^{(n_{r+1})}&\dots&w_{r+1,n_r}^{(n_{r+1})}\end{matrix}\right)$$

y los sesgos de cada neurona de esa capa son $\boldsymbol{b}_{r+1}=(b_{r+1}^{(1)},b_{r+1}^{(2)},...,b_{r+1}^{(n_{r+1})})$ entonces los pensamientos en la capa $r+1$ son $$\boldsymbol{z}_{r+1}=W_{r+1}\boldsymbol{a}_r+\boldsymbol{b}_{r+1}$$ y, tomando como **fórmula de activación** a $f_{r+1}$ entonces   $$\boldsymbol{a}_{r+1}=f_{r+1}(\boldsymbol{z}_{r+1})$$

De esta manera **el Flujo de información** se puede resumir así: 
Entrada → Pesos y sesgo → Juicio crudo z → Activación a → Entrada para siguiente capa