![imagenes](logo.png)

# Perceptrones multicapa (multilier perceptrons)

Estudiaremos la estructura más elemental de la red neuronal: los perceptrones multicapa. 

Supongamos que tenemos los datos de entrada $x_1,x_2,...,x_n$.

![imagenes](im08.png)

En el caso más simple de una clasificación binaria, un perceptrón tendrá la siguiente función de activación: 

$$f(x)=\left\{\begin{array}{cl}1&\mbox{si }w_1x_1+...+w_nx_n+b>0\\0&\mbox{en otro caso}\end{array}\right.$$

donde $x_1,...,x_n$ son los valores de entrada, $w_1,...,w_n$ son los pesos y $b$ es el sesgo.

Notemos que esta es muy parecido a la manera en que funcionan las [máquinas de soporte vectorial](https://github.com/scidatmath2020/Machine-Learning/blob/main/C12.01%20M%C3%A1quinas%20de%20soporte%20vectoria%20(teor%C3%ADa).ipynb).

## Aprendizaje del perceptrón

Como hemos visto, los únicos parámetros que tiene el perceptrón son los pesos de la sinapsis. El objetivo es encontrar aquellos pesos óptimos en el siguiente sentido:

Supongamos una tabla con $S$ observaciones (renglones), $D=\{(\boldsymbol{x_1},d_1),...,(\boldsymbol{x_S},d_S)\}$, donde $\boldsymbol{x_i}=(x_{i1},x_{i2},...,x_{in})$ son las $n$ columnas explicativas, y $d_j$ es la columna que queremos explicar (1 o 0).

Sea $x_{j0}=1$ para todo renglón $j$ (con esta condición no necesitamos $b$ en la función de activación). 

Si $w_i(t)$ es el peso $i$ de la sinapsis en el paso $t$, entonces el error máximo que queremos cometer es $$\gamma = \frac{1}{s}\sum_{j=1}^s|d_j-y_j(t)|$$ 

De esta manera, el algoritmo trabaja así:

1. Inicializamos el proceso de forma aleatoria; por ejemplo, tomando cada peso igual a 0 o a un número aleatorio.

2. Para cada renglón $j$ de la tabla $D$: 

    a) Calculamos la salida de la función de activación:
    $$y_j(t)=f(w(t)\bullet x_j)=f(w_0(t)x_{j0}+w_1(t)x_{j1}(t)+...+w_n(t)x_{jn}(t))$$
    
    b) Actualizamos los pesos sinápticos, para cada variable $i$ de la observación $j$:
    $$w_i(t+1)=w_i(t)+(d_j-y_j(t))x_{ji}$$
    
3. Evaluamos si hemos llegado a cumplir un criterio de convergencia. Si el error total es menor que el deseado, paramos. En caso contrario continuamos.

Recordemos ahora que el algoritmo de Máquina de soporte vectorial podía crear fronteras de decisión para separar datos no linealmente separables, ya que hacía una transformación de los datos para llevarlos a una dimensión más alta. Vamos a verlo brevemente [aquí](https://www.youtube.com/watch?v=OdlNM96sHio&ab_channel=udiprod)

El perceptrón clásico no puede crear fronteras de decisión no lineales. Por ello, en las redes neuronales existen una variedad de funciones de activación más avanzadas.



Finalmente, el perceptrón multicapa es una red neuronal formada por varias perceptrones: 
![imagenes](im09.png)
