# Redes neuronales: Vale, ¿pero de dónde han salido?


Las redes neuronales están muy de moda ahora, pero para entenderlas de verdad, tenemos que ver su origen. Y su origen, por antiintuitivo que resulte dada su reciente popularidad,
está muy atrás, datando de los orígenes del mismísimo Machine Learning.

Es 1943. Aparece el primer modelo de neurona artificial, la **neurona McCulloch-Pitts (MCP)**, planteada simplemente como una puerta lógica que recibe estímulos eléctricos.
O se dispara o no; o 1 ó 0. Unos cuantos años más tarde, aparece el primer modelo en hacer uso de este concepto de neurona para aprender, en base a una entrada de "features",
los coeficientes que debía aprender el algoritmo para decidir si una neurona se activaba o no.

Este modelo es conocido como el **perceptrón**.

# El Perceptrón

## Definiciones

Tenemos un **vector** $X$ de features, que serán la entrada del algoritmo, y otro vector $W$ de **pesos**, uno por cada feature:

$$
X = \begin{bmatrix}
x_{1}\\
x_{2}\\
...\\
x_{n}
\end{bmatrix}
\ \ \ \ \ \ \ \ \ \ \ \ \ \ \
W = \begin{bmatrix}
w_{1}\\
w_{2}\\
...\\
w_{n}
\end{bmatrix}
$$

Sobre estos dos vectores aplicaremos una combinación lineal, a la que denominaremos **net input** ó $z$, que no es más que el **producto punto** de $X$ y $W$:

$$
z = x_{1}w_{1} + x_{2}w_{2} + ... + x_{n}w_{n}
$$

Dado este **net input** $z$, para un problema de clasificación binaria, donde solo queremos predecir si una variable es de clase 0 ó 1, definimos una **función de decisión**  $\sigma(z)$ muy sencilla:

$\sigma(z) = \begin{cases}
0 & \text{si } z \geq \theta  \\
1 & \text{en otro caso}
\end{cases}$

Es decir: si el **net input** entre los vectores $X$ y $W$ es mayor o igual que un determinado valor $\theta$ que escojamos, diremos que ese ejemplo es de clase 1. De lo contrario, será de
clase 0.

Para simplificar esta función de decisión, definiremos una **unidad de sesgo** o *bias* $b = -\theta$, y la añadiremos al net input, de tal manera que se nos quedará así:

$z = x_{1}w_{1} + x_{2}w_{2} + ... + x_{n}w_{n} + b$

Con esta nueva definición de $z$, podemos dejar la función de decisión $\sigma$ tal que así:

$\sigma(z) = \begin{cases}
0 & \text{si } z \geq 0  \\
1 & \text{en otro caso}
\end{cases}$

Todo esto está muy bien, pero hasta ahora solo hemos establecido definiciones. Los valores de $X$ nos son dados, pero ¿cómo podemos averiguar los valores de $W$ que consigan discriminar una clase de la otra?

Aquí entra el algoritmo del **perceptrón**.

## Algoritmo

En primera instancia, vamos a inicializar el vector $W$ a valores pequeños aleatorios, los que sean.

A continuación, a lo largo de $N$ iteraciones, a nuestro perceptrón le vamos a pasar un conjunto $T$ de vectores $X$ tal como los hemos definido anteriormente. Por cada vector $X$ de $T$ (es decir, por cada registro que tengamos para nuestro entrenamiento), vamos a computar a qué clase pertenecería según nuestro vector $W$. Dicha predicción puede ser correcta o errónea.

Aquí es donde sucede la magia. Nuestro perceptrón comparará la predicción con la realidad, y actualizará los pesos de $W$ de manera acorde. Concretamente, para cada elemento $w_{j}$ de $W$:

$w_{j} := w_{j} + \Delta{w} \\
b := b + \Delta{b}$,

donde $\Delta{w}$ y  $\Delta{b}$ se definen como:

$\Delta{w} = x_{j}\eta(\hat{y_{j}} - y_{j}) \\
\Delta{b} = \eta(\hat{y_{j}} - y_{j})$,

donde $y_{j}$ es el valor **real**, $\hat{y_{j}}$ es nuestro valor **predicho** para ese registro, y $\eta$ es el **learning rate**, que determina la velocidad a la que aprenderá nuestro algoritmo.

Es importante notar que no hemos definido el número $N$ de iteraciones que haremos sobre nuestro conjunto de vectores. Esta $N$ debe ser un número finito. Esto se debe a que este algoritmo no convergerá nunca a cero errores para conjuntos de datos no separables linealmente. Cada iteración de las $N$ que definamos se denominan **épocas**.

# Adaline

Este modelo es una mejora sobre el perceptrón, con una diferencia (o más bien añadido) fundamental: en vez de computar la actualización de los pesos en base a la predicción de cada registro, lo haremos en base a una **función de activación** y una **función de pérdida**.

La función de activación es la función que usaremos para alimentar a la función de pérdida, la cual comparará el valor real del registro que predecimos con la salida de la función de activación, y actualizará los pesos en consecuencia.

En el caso de Adaline, la función de activación se define como:

$\sigma(X) = X$

Es decir, es simplemente la identidad de la función de entrada. Por otro lado, la función de pérdida en este caso la podemos definir como el **error cuadrático medio** entre el registro real y la salida de la función de activación:

$L(w, b) = \frac{1}{2n} \sum_{i=1}^{n} (y^(i) - \sigma(X^{(i)}))^2$

Por lo tanto, las actualizaciones $\Delta w$ y $\Delta b$ se definen como:

$\Delta w = \eta \nabla_{w,b} L(w, b)$,

Donde $\nabla_{w,b} L(w, b)$ representa el **descenso de gradiente** de la función de pérdida.