# Algoritmo de aprendizaje del perceptrón

Las redes neuronales artificiales (RNA) constituyen un paradigma de computación inspirado en las neuronas biológicas y su interconexión. Se incluyen dentro de los métodos de aprendizaje supervisado.

<img src="imgs/neurona.jpg" width="70%">

La función de clasificación tendrá la forma:

$$
f(\textbf{e}) = \sum_{i=1}^{n} {w_i  e_i} - \theta \geq 0
$$

Donde $\theta$ será un valor umbral y $\textbf{w}$ un conjunto de pesos, ambos a definir en el problema. En la figura \ref{fig_espacios} los puntos $a$, $b$ y $c$ pertenecen a la clase 1, mientras que los puntos $d$ y $e$ pertecen a la clase 2 con el perceptrón de la figura 

## Perceptrón

Se conoce como "Perceptrón" al modelo matemático de la neurona biológica cuya función es la de actuar como discriminador lineal en un espacio $R^n$. Esto significa que, dado un conjunto de puntos $E = \{ \textbf{e}^{(1)},  \textbf{e}^{(2)},  \cdots, \textbf{e}^{(m)}  \}$   en ese espacio, etiquetará cada punto como perteneciente a una clase u otra, siempre y cuando el conjunto $E$ sea linealmente separable.

## La función sigmoide

La función sigmoide es la que usaremos como función de activación de cada neurona. 

$$Sig(x)=\frac{ 1 }{1+{ e }^{ -x }}$$ 

Su derivada es:

$$Sig'(x)=\frac { 1 }{ (1+e^{ x })} -\frac { 1 }{ (1+e^{ x })^{ 2 }  } $$

$$Sig'(x)=\frac { 1 }{ (1+e^{ x }) } \left[ 1-\frac { 1 }{ (1+e^{ x }) }  \right] =\frac { 1 }{ (1+e^{ -x }) } \left[ 1-\frac { 1 }{ (1+e^{ -x }) }  \right] =Sig(x)\cdot \left[ 1-Sig(x) \right] $$

## Aprendizaje

La función del perceptrón tendrá la forma, para un determinado $\vec{w}$

<img src="imgs/perceptronlearning.svg" width="60%">

$$h_{\vec{w}}(\vec{e}) = Sig(\sum_{ i=0 }^{ n } w_i e_i)$$


donde $n$ es el número de componentes del vector $\vec{e}$. La salida de $h_{\vec{w}}$ estará ahora comprendida en el intervalo real $(0,1)$. Definimos el error $J$ en función de un conjunto de pesos $\vec{w}$ de la siguiente forma:

$$J(\vec{w}) = \sum _{ i=1 }^{ m } (h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)})^2$$

Donde $m$ es el número de muestras o cardinal del conjunto $E$. 

El nuevo conjunto de pesos $\vec{w}$ será actualizado de la siguiente forma

$$\vec{w}_{t+1}  := \vec{w}_t - \gamma  \frac{\partial{J(\vec{w})}}{\partial{\vec{w}}}$$

La constante $\gamma$ se define como "ritmo de aprendizaje". Su derivada parcial con respecto a cada componente de $\vec{w}$ será:

$$ 
\frac{\partial J(\vec{w})}{\partial w_j} = \frac{\partial}{\partial w_j}\sum_{ i=1 }^{ m }  (h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)})^2 $$

$$
\sum_{ i=1 }^{ m }  2(h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \frac{\partial}{\partial w_j} (h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)})
$$

$$
\sum_{ i=1 }^{ m }  2(h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \frac{\partial}{\partial w_j} Sig(\textbf{e}^{(i)} \cdot \vec{w})
$$

$$
\sum_{ i=1 }^{ m }  2(h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \; Sig' (\textbf{e}^{(i)} \cdot \vec{w}) \frac{\partial}{\partial w_j} \textbf{e}^{(i)} \cdot \vec{w}
$$

$$
\sum_{ i=1 }^{ m }  2(h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \; Sig' (\textbf{e}^{(i)} \cdot \vec{w}) \frac{\partial}{\partial w_j} \sum_{k=0}^n e^{(i)}_{k} w_k
$$

$$
2 \sum_{ i=1 }^{ m }  (h_{\vec{w}}(\textbf{e}^{(i)}) - l^{(i)}) \; Sig' (\textbf{e}^{(i)} \cdot \vec{w}) e^{(i)}_{j} 
$$


In [None]:
import numpy as np

In [None]:
x_data = [[0, 0],
          [10, 0],
          [0, 10],
          [10, 10]]

y_data = [1, 1, 0, 0]

In [None]:
def sigmoid(x):
    return 1.0/(1.0 + np.exp(-x))


def sigmoid_derivate(o):
    return o * (1.0 - o)

In [1]:
def train(x_data, y_data):

    w0, w1, w2 = np.random.rand(3)
    lr = 0.1
    epochs = 10000

    print "Training..."

    for _ in xrange(epochs):
        
        w0_d = []
        w1_d = []
        w2_d = []
        
        for data, label in zip(x_data, y_data):

            o = sigmoid(w0*1.0 + w1*data[0] + w2*data[1])
            error = 2.*(o - label) * sigmoid_derivate(o)

            w0_d.append(error * 1.0)
            w1_d.append(error * data[0])
            w2_d.append(error * data[1])
            
        w0 = w0 - np.sum(w0_d) * lr
        w1 = w1 - np.sum(w1_d) * lr
        w2 = w2 - np.sum(w2_d) * lr
        
        
    for data, label in zip(x_data, y_data):
        print data, "->", label
        o = sigmoid(w0*1.0 + w1*data[0] + w2*data[1])
        print o
        print "-----------------------"


train(x_data, y_data)

Training...
[0, 0] -> 1
0.98366122091
-----------------------
[10, 0] -> 1
0.997805415877
-----------------------
[0, 10] -> 0
0.000294994115965
-----------------------
[10, 10] -> 0
0.00222352706624
-----------------------
