## Modelos Multicapa

Son modelos de alta capacidad,esto quiere decir que son flexibles. Cuando entrenamos modelos de alta capacidad corremos el riesgo de sobreajustar.

### Perceptrón
Es un algoritmo para el aprendizaje supervisado de clasificadores binarios, su objetivo es encontrar un hiperplano capaz de separar correctamente un conjunto de datos que sean linealmente separables.

> Que dos grupos de observaciones sean linealmente separables significa que existe al menos un hiperplano (subespacio con una dimensión menor que el espacio que lo rodea) que permite separar perfectamente los dos grupos.

En un espacio de dos dimensiones, cada observación está definida por un vector $x$ y una variable respuesta que puede tomar dos valores (-1, +1), para clasificar las observaciones se busca una función $\sigma$ tal que:  

$$\sigma(x)=\left\lbrace\begin{array}{c}1~~si~x\geq0 \\ -1~~si~x<0  \end{array}\right.$$

Es decir, $$\sigma(x)= signo(x)$$

El algoritmo del perceptrón es un algoritmo iterativo, es decir, propone soluciones secuenciales hasta llegar a un punto de terminación (óptimo).   

$$w^{(1)},w^{(2)},w^{(3)},...,w^{(T)}$$

$$w^{(T)}\approx w^*$$

Iniciamos en $w^{(i)}=0$ y para cada iteración $t$

1. Buscamos elementos mal clasificados   

$$y^{(i)}\hat{y}^{(i)}=y^{(i)}\langle w^{(t)},x^{(i)}\rangle <0$$

donde $i=1,...,n$

2. Actualizamos   

$$w^{(t+1)}=w^{(t)} + \xi^{(i)}$$

Repetimos los dos pasos anteriores hasta que todas las observaciones estén bien clasificadas.

Este algoritmo puede tardar mucho de debido a:   

* *Margen de separción*. Distancia entre el hiperplano y los casos límites de cada clase. 


* *Concentración de los datos*.Dado que la actualización es en términos de sumas y restas de los vectores $x's$, con componentes de $x's$ muy grandes va a hacer cambios muy agresivos y si hay datos muy separados el algoritmo puede estacionarse y no terminar.   

El algoritmo de aprendizaje del perceptrón no termina si el conjunto de aprendizaje no se puede separar linealmente . Si los vectores no son linealmente separables, el aprendizaje nunca llegará a un punto en el que todos los vectores se clasifiquen correctamente.   

### Extensiones de modelos lineales

La linealidad asume un principio de monotonía, cualquier aumento en nuestra característica debe causar siempre un aumento en la salida de nuestro modelo (si el peso correspondiente es positivo), o siempre causar una disminución en la salida de nuestro modelo (si el peso correspondiente es negativo). 

Para romper el supueto de linealidad es necesario encadenar transformaciones lineales.

Pensemos que representamos los datos con una matriz $nxd$

$$X\in\mathbb{R}^{nxd}$$

tenemos una capa uculta con $m$ unidades ocultas denotada por

$$H\in\mathbb{R}^{nxm}$$

Dado que las capas oculta y de salida están completamente conectadas, calculamos las salidas de la siguiente manera:

$$\underbrace{H}_{nxm}=\underbrace{X}_{nxd}\underbrace{W^{(1)}}_{dxm}+\underbrace{b^{(1)}}_{mx1}$$

$$\underbrace{O}_{nxq}=\underbrace{H}_{nxm}\underbrace{W^{(2)}}_{mxq}+\underbrace{b^{(2)}}_{qx1}$$

$$=(XW^{(1)}+b^{(1)})W^{(2)}+b^{(2)}$$

$$=XW^{(1)}W^{(2)}+b^{(1)})W^{(2)}+b^{(2)}$$

$$=XW+b$$

Lo que nos lleva a una función lineal.

Necesitamos definir una función $H$ como una transformación lineal a la que será una función de activación no lineal σ. La contribución de $X$ a $O$ es no lineal por lo que rompe con la monotonía.

$$H=\sigma(XW^{(1)}+b^{(1)}),$$

$$O=HW^{(2)}+b^{(2)}$$

Encadenar transformaciones lineales nos permite hacer una composición de funciones que se tan compleja como queremos.

Queremos que todas las capas intermedias hagan una buena transformación de los datos para que al final la última capa sea una combinación lineal de los atributos ficticios que se construyeron en el intermedio. Así esperamos un buen aproximador.

### Teoremas de aproximación universal

Para ciertas elecciones de la función de activación, los modelos multicapa son aproximadores universales. Nos ayudan a entender los modelos multicapa con transformaciones no lineales como familias de funciones suficientemente fexibles para poder aproximar cualquier función.

### Funciones de activación

Son operadores diferenciables para transformar señales de entrada en salidas (emulan el paso de una señal), son entrenables por métodos de optimización numérica. Pueden ser usados como factores de decisión, deciden si una neurona debe activarse o no calculando la suma ponderada y agregando más sesgo con ella.

#### ReLU

ReLU proporciona una transformación no lineal muy simple.

$$ReLU(x)= máx(0,x)$$

$$\frac{\partial ReLU(x)}{\partial x}=\left\lbrace\begin{array}{c}0~~si~x\leq0 \\ 1~~si~x>0  \end{array}\right.$$
 
De manera informal, la función ReLU retiene solo elementos positivos y descarta todos los elementos negativos estableciendo las activaciones correspondientes en 0.

#### pReLU

Una variante de la función ReLU es ReLU parametrizada (pReLU). Esta variación agrega un término lineal a ReLU, por lo que parte de la información aún se transmite, incluso cuando el argumento es negativo.

$$pReLU(x)= máx(0,x)+ \alpha min(0,x)$$

$$\frac{\partial pReLU(x)}{\partial x}=\left\lbrace\begin{array}{c}\alpha~~si~x\leq0 \\ 1~~si~x>0  \end{array}\right.$$

#### Sigmoide

La función sigmoide transforma sus entradas que se encuentran en el dominio $\mathbb{R}$, en salidas que se encuentran en el intervalo (0, 1). Aplasta cualquier entrada en el rango (-inf, inf) a algún valor en el rango (0, 1):

$$\sigma(x)= \frac{1}{1+e^{-x}}$$

$$\frac{\partial \sigma(x)}{\partial x}=\frac{e^{-x}}{{(1+e^{-x})}^{2}}= \sigma(x)(1-\sigma(x))$$

La derivada de la función sigmoide alcanza un máximo de 0.25 y a medida que la entrada diverge de 0 en cualquier dirección, la derivada se acerca a 0.
