# El perceptrón

Las redes neuronales artificiales (RNA) constituyen un paradigma de computación inspirado en las <a href="https://es.wikipedia.org/wiki/Neurona">neuronas</a> biológicas y su interconexión. Las neuronas bilógicas son células compuestas principalmente de tres partes: soma (cuerpo celular), dendritas (canales de entrada) y axón (canal de salida). Descrito de una forma muy simplificada, las neuronas transmiten información a través de procesos electroquímicos. Cuando una neurona recibe, a través de las denritas, una cantidad de estímulos mayor a un cierto umbral, ésta se despolariza excitando, a través del axón, a otras neuronas próximas conectadas a través de las sinapsis.

<img src="imgs/neurona.jpg" width="70%">


Inspirados por esta idea se concibió el modelo de <a href="https://es.wikipedia.org/wiki/Neurona_de_McCulloch-Pitts">neurona artificial</a>. Fundamentalmente, consiste en una unidad de cálculo que admite entradas $\vec{e}$ que suma de forma ponderada por unos pesos $\vec{w}$ y, si esta suma supera un cierto umbral $\theta$, genera un cierto valor de salida. A su vez, esta salida puede ser la entrada a una función no lineal $g(x)$ que generará el valor de salida final de la neurona. En este caso decimos que la neurona se activa.

<img src="imgs/model.svg" width="70%">

Una expresión común de la neurona artificial es la siguiente:

$$
f(\textbf{e}) = \begin{cases} \textrm{1, si} \sum_{i=1}^{n} {w_i  e_i} - \theta \geq 0 \\ \\ 0, \textrm{en caso contrario} \end{cases}
$$

Donde la función no lineal $g(x)$ tiene la forma "1 si $x\geq 0$ y $0$ si $x<0$". En este caso $x=\sum_{i=1}^{n} {w_i  e_i} - \theta$. Si estudiamos bien esta fórmula vemos que se trata de un discriminador lineal. 

Supongamos que tenemos un conjunto de puntos ${a,b,c,d,e}$ en un espacio $R^2$ tal como muestra la figura.

<img src="imgs/espacios.svg" width="50%">

Algunos de ellos ($a,b,c$) pertencen a una clase (clase 1) y los otros a otra (clase 2). Estas dos regiones están delimitadas por una recta. Nótese que la recta que separa ambas clases no es única, puede ser cualquiera que satisfaga la condición de separación de las clases. Por tanto, tenemos la función de una recta con la ecuación genérica:
$$
y = mx+b 
$$

Podemos concretar esta recta como la recta del ejemplo:
$$
 y = \frac{1}{2} x +1 
$$

Esta recta corresponde al conjunto de todos los puntos $(x,y)$ que satisfacen la ecuación. Por ejemplo, el punto $a(2,2)$. Vemos que los puntos $b$,$c$,$d$ y $e$ no satisfacen la ecuación. Sin embargo, los puntos $a$,$b$ y $c$ sí satisfarían la inecuación:

$$
	y \geq \frac{1}{2} x +1 
$$

Operando un poco sobre esta inecuación tendríamos:
$$
	-\frac{1}{2} x + y \geq 1 
$$

Y cambiando la nomenclatura. Es decir, cambiando $x$ por $e_{1}$ e $y$ por $e_{2}$ tenemos:
$$
	-\frac{1}{2} e_{1} + e_{2} \geq 1 
$$

Con lo cual obtenemos que $w_1 = -\frac{1}{2}$, $w_2 = 1$ y $\theta=1$, que es, justamente, la neurona que actuaría de discriminador lineal de nuestro ejemplo.

El verdadero potencial de la neuronal artificial no está en calcular a mano sus pesos y umbral sino en dejar que ella misma "aprenda" esos valores. Para ello en necesario contar con un conjunto de muestras de ambos clases e iniciar el proceso de aprendizaje.


## Aprendizaje

Para llevar a cabo el aprendizaje vamos a utilizar la función sigmoide como función de activación ya que ofrece una venjata importante: es derivable.

La función sigmoide tiene la siguiente forma: 

$$Sig(x)=\frac{ 1 }{1+{ e }^{ -x }}$$ 

Su derivada es:

$$Sig'(x)=\frac { 1 }{ (1+e^{ x })} -\frac { 1 }{ (1+e^{ x })^{ 2 }  } $$

$$Sig'(x)=\frac { 1 }{ (1+e^{ x }) } \left[ 1-\frac { 1 }{ (1+e^{ x }) }  \right] =\frac { 1 }{ (1+e^{ -x }) } \left[ 1-\frac { 1 }{ (1+e^{ -x }) }  \right] =Sig(x)\cdot \left[ 1-Sig(x) \right] $$



La función del perceptrón tendrá la forma, para un determinado $\vec{w}$

<img src="imgs/perceptron.svg" width="60%">

$$h_{\vec{w}}(\vec{e}) = Sig(\sum_{ i=0 }^{ n } w_i e_i)$$


donde $n$ es el número de componentes del vector $\vec{e}$. La salida de $h_{\vec{w}}$ estará ahora comprendida en el intervalo real $(0,1)$. Definimos el error $J$ en función de un conjunto de pesos $\vec{w}$ de la siguiente forma:

$$J(\vec{w}) = \sum _{ i=1 }^{ m } (h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)})^2$$

Donde $m$ es el número de muestras o cardinal del conjunto $E$. 

El nuevo conjunto de pesos $\vec{w}$ será actualizado de la siguiente forma

$$\vec{w}_{t+1}  := \vec{w}_t - \gamma  \frac{\partial{J(\vec{w})}}{\partial{\vec{w}}}$$

La constante $\gamma$ se define como "ritmo de aprendizaje". Su derivada parcial con respecto a cada componente de $\vec{w}$ será:

$$ 
\frac{\partial J(\vec{w})}{\partial w_j} = \frac{\partial}{\partial w_j}\sum_{ i=1 }^{ m }  (h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)})^2 =$$

$$
\sum_{ i=1 }^{ m }  2(h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \frac{\partial}{\partial w_j} (h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) =
$$

$$
\sum_{ i=1 }^{ m }  2(h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \frac{\partial}{\partial w_j} Sig(\textbf{e}^{(i)} \cdot \vec{w}) =
$$

$$
\sum_{ i=1 }^{ m }  2(h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \; Sig' (\textbf{e}^{(i)} \cdot \vec{w}) \frac{\partial}{\partial w_j} \textbf{e}^{(i)} \cdot \vec{w} =
$$

$$
\sum_{ i=1 }^{ m }  2(h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \; Sig' (\textbf{e}^{(i)} \cdot \vec{w}) \frac{\partial}{\partial w_j} \sum_{k=0}^n e^{(i)}_{k} w_k =
$$

$$
2 \sum_{ i=1 }^{ m }  (h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \; Sig' (\textbf{e}^{(i)} \cdot \vec{w}) e^{(i)}_{j} 
$$



In [2]:
import numpy as np

In [None]:
x_data = [[0, 0],
          [10, 0],
          [0, 10],
          [10, 10]]

y_data = [1, 1, 0, 0]

In [None]:
def sigmoid(x):
    return 1.0/(1.0 + np.exp(-x))


def sigmoid_derivate(o):
    return o * (1.0 - o)

In [1]:
def train(x_data, y_data):

    w0, w1, w2 = np.random.rand(3)
    lr = 0.1
    epochs = 10000

    print "Training..."

    for _ in xrange(epochs):
        
        w0_d = []
        w1_d = []
        w2_d = []
        
        for data, label in zip(x_data, y_data):

            o = sigmoid(w0*1.0 + w1*data[0] + w2*data[1])
            error = 2.*(o - label) * sigmoid_derivate(o)

            w0_d.append(error * 1.0)
            w1_d.append(error * data[0])
            w2_d.append(error * data[1])
            
        w0 = w0 - np.sum(w0_d) * lr
        w1 = w1 - np.sum(w1_d) * lr
        w2 = w2 - np.sum(w2_d) * lr
        
        
    for data, label in zip(x_data, y_data):
        print data, "->", label
        o = sigmoid(w0*1.0 + w1*data[0] + w2*data[1])
        print o
        print "-----------------------"


train(x_data, y_data)

Training...
[0, 0] -> 1
0.98366122091
-----------------------
[10, 0] -> 1
0.997805415877
-----------------------
[0, 10] -> 0
0.000294994115965
-----------------------
[10, 10] -> 0
0.00222352706624
-----------------------
