# Algoritmo del Perceptrón

El algoritmo del perceptrón aprende los parámetros a partir de la iteración de una especie de gradiente descendiente.

In [1]:
import numpy as np

Consideremos la siguiente distribución de los datos. Estos datos son linealmente separables:

In [2]:
X = np.array([[1,0],[0,1],[0,0],[1,1]])
Y = np.array([1,0,0,1])

Para hacer sencillo el procesamiento, añadimos una columna más a los datos. Esta columna representa el bias y, por tanto, es siempre igual a 1.

In [3]:
m,n = X.shape   #dimensiones de los datos
X1 = np.append(X,np.ones((m,1)),axis=1)

Iniciamos los parámetros de forma aleatoria. En este caso, el vector de incio es $w = (1,1)^T$ y el bias es $b = 1$.

In [4]:
w = np.ones(n+1)

Ahora, definimos los hiperparámetros. Los hiperparámetros, en este caso son: (1) el rango de aprendizaje; y (2) el número máximo de iteraciones.

In [5]:
#Hiperparametros
l = 1         #Rango de aprendizaje
k = 1000      #Num. maximo de iteraciones

#Criterios
t = 1         #Iteracion inicial
stop = False  #Criterio de paro

Ahora podemos aplicar el algoritmo del perceptron con los hiperparámetros propuestos. En este caso, el algoritmo corre las predicciones de las clases de los datos a partir de los parámetros en ese estado: $$f(x) = \begin{cases} 1 & \text{ si } w\cdot x + b > 0 \\  0 & \text{ si } w\cdot x + b \leq 0 \end{cases}$$

Entonces, cada nuevo parámetro se calcula como: $$ w_i \leftarrow w_i - \eta (f(x^{(k)}) - y_k) x^{(k)}_i$$

En particular, se nota que lo hace por cada uno de los $N$ ejemplos. Entonces, en general, podemos ver que para todos los datos de entrenamiento, el proceso de actualización es:

$$w_i \leftarrow w_i - \eta \sum_{k=1}^N(f(x^{(k)}) - y_k) x^{(k)}_i$$

El algoritmo se detiene cuando alcanza un error igual a 0 o cuando se ha alcanzado el máximo número de iteraciones.

In [6]:
while  stop == False:
    pred = (np.dot(X1,w) > 0).astype(np.int)      #Funcion de prediccion
    err =  pred - Y              #Error 
    w -= l*((X1.T * err).T).sum(0) #Actualizacion de los parametros w
    
    print 'Estado', t, '\t prediccion', pred, '\t',
    print 'parametros', w
    t += 1
    if (pred - Y).sum(0) == 0 or t > k:   #Criterio de paro
        stop = True

Estado 1 	 prediccion [1 1 1 1] 	parametros [ 1.  0. -1.]
Estado 2 	 prediccion [0 0 0 0] 	parametros [ 3.  1.  1.]
Estado 3 	 prediccion [1 1 1 1] 	parametros [ 3.  0. -1.]
Estado 4 	 prediccion [1 0 0 1] 	parametros [ 3.  0. -1.]


La clasificación final es adecuada. El vector de parámetros es $w = (3, 0)^T$ y el bias es $b=-1$