# Perceptron

El perceptrón es la unidad básica de una neurona. 

Si bien hay muchos "tutoriales" en línea, no encontré ninguno que explicara paso a paso como funciona uno. 

Por eso hice este pequeño tutorial sobre como funciona internamente.

# Imports

In [1]:
import random
import numpy as np

# Modelo

Idea general del perceptrón:
* Es un algoritmo de aprendizaje supervisado para clasificación.
* Es la suma de las entradas x<sub>i</sub> ponderadas por pesos w<sub>i</sub>.
* Se ocupa una función de activación a la salida de la neurona, en este caso el escalón.

El entrenamiento consiste en:
* A partir de los datos de entrada $x_i$, calcular los pesos $w_i$.

Una vez entrenado:
* Clasifica datos nuevos.

![](images/perceptron.png)

Vamos a necesitar:
- Función que deseamos entrenar/clasificar
- Valores de entrenamiento
- Pesos al azar
- Función de activación
- Hyper Parámetros

## Función a entrenar: OR

| A | B | A or B |
|---|---|--------|
| 0 | 0 | 0      |
| 0 | 1 | 1      |
| 1 | 0 | 1      |
| 1 | 1 | 1      |

## Valores de entrenamiento

In [2]:
trainingData = [
    #([valores de entrada], salida esperada)
    ([0,0],0),
    ([0,1],1),
    ([1,0],1),
    ([1,1],1),
]

## Pesos iniciales
Un aspecto de considerar de nuestro problema es que tendremos 3 pesos:
* 2 entradas: $w_1$ de $A$ y $w_2$ de $B$ (`A` y `B` en la tabla) 
* 1 de bías: $w_0$

In [3]:
weights = [0, 0]
bias = 0
print("Weights:", weights)
print("Bias:", bias)

Weights: [0, 0]
Bias: 0


## Funcion de activación

In [4]:
def step(x):
    if x<0:
        return 0
    return 1

In [5]:
print(step(-1))
print(step(-0.1))
print(step(0))
print(step(0.1))
print(step(1))

0
0
1
1
1


## Hyper Parámetros

In [6]:
learningRate = 0.2

# Entrenamiento
El entrenamiento está dado en 4 pasos:
1. Empezar con valores al azar a los pesos $w(0)$ ($w_1$, $w_2$) y al bias $w_0$.
2. Para cada entrada $x_i$, encontrar un arreglo de pesos $w$, tal que $w(t) \cdot x_i + w_0 > 0$. Con $y_i$ la salida para la entrada $x_i$.
3. Actualizar los pesos para la siguiente iteración:
    - $w(t+1) = w(t) + \alpha(d_i - step(y_i))x_i$
    - $w_0(t+1) = w_0(t) + \alpha(d_i - step(y_i))$
4. Si el entrenamiento es offline (se entrenan con las mismas entradas), se repiten los pasos 2 y 3 hasta que se reduce el error lo suficiente.

Desde los datos de entrenamiento tenemos:
* $x_i$
* $d_i$

Para cada input, debemos calcular: 
* $y_i$

Con los $y_i$, calculamos los nuevos pesos $w_i$.

## Ejemplo manual

En esta sección se realizará el entrenamiento de forma manual. Se calculará paso a paso cada valor.

In [7]:
#Set de entrenamiento
trainingData = [
    #([valores de entrada], salida esperada)
    ([0,0],0),
    ([0,1],1),
    ([1,0],1),
    ([1,1],1),
]

#Hyper Parámetro
learningRate = 0.5

#Pesos
w = np.array([0, 0])

#Bias
b = 0

### Epoch 1; Iteración 1

Usaremos $x_0$ como valor de entrada.

**Entrada $x_i$ y salida esperada $d_i$**

In [8]:
i = 0
xi, di = trainingData[i]
print("xi:", xi, "di", di)

xi: [0, 0] di 0


**Calculo de $y_i$**

In [9]:
yi = xi[0] * w[0] + xi[1] * w[1] + b
print("yi:", yi)

yi: 0


**Calculo del error**

In [10]:
error = di - step(yi)
print("di-step(yi):", error)

di-step(yi): -1


**Reajuste de los pesos**

In [11]:
w = w + learningRate * error * np.array(xi)
print("new weigth:", w)

new weigth: [ 0.  0.]


**Reajuste del bias**

In [12]:
b = b + learningRate * error
print("new bias:", b)

new bias: -0.5


### Epoch 1; Iteración 2
Valor entrenamiento $x_1$

In [13]:
i = 1
xi, di = trainingData[i]
yi = xi[0] * w[0] + xi[1] * w[1] + b
error = di - step(yi)
w = w + learningRate * error * np.array(xi)
b = b + learningRate * error

print("xi:\t\t\t", xi)
print("di:\t\t\t", di)
print("yi:\t\t\t", yi)
print("di-step(yi):\t\t", error)
print("new weigth:\t\t", w)
print("new bias:\t\t", b)

xi:			 [0, 1]
di:			 1
yi:			 -0.5
di-step(yi):		 1
new weigth:		 [ 0.   0.5]
new bias:		 0.0


### Epoch 1; Iteración 3
Valor entrenamiento $x_2$

In [14]:
i = 2
xi, di = trainingData[i]
yi = xi[0] * w[0] + xi[1] * w[1] + b
error = di - step(yi)
w = w + learningRate * error * np.array(xi)
b = b + learningRate * error

print("xi:\t\t\t", xi)
print("di:\t\t\t", di)
print("yi:\t\t\t", yi)
print("di-step(yi):\t\t", error)
print("new weigth:\t\t", w)
print("new bias:\t\t", b)

xi:			 [1, 0]
di:			 1
yi:			 0.0
di-step(yi):		 0
new weigth:		 [ 0.   0.5]
new bias:		 0.0


### Epoch 1; Iteración 4
Valor entrenamiento $x_3$

In [15]:
i = 3
xi, di = trainingData[i]
yi = xi[0] * w[0] + xi[1] * w[1] + b
error = di - step(yi)
w = w + learningRate * error * np.array(xi)
b = b + learningRate * error

print("xi:\t\t\t", xi)
print("di:\t\t\t", di)
print("yi:\t\t\t", yi)
print("di-step(yi):\t\t", error)
print("new weigth:\t\t", w)
print("new bias:\t\t", b)

xi:			 [1, 1]
di:			 1
yi:			 0.5
di-step(yi):		 0
new weigth:		 [ 0.   0.5]
new bias:		 0.0


### Epoch 2;
Todos los valores de entrenamiento de nuevo.

In [16]:
for i in range(len(trainingData)):
    xi, di = trainingData[i]
    yi = xi[0] * w[0] + xi[1] * w[1] + b
    error = di - step(yi)
    w = w + learningRate * error * np.array(xi)
    b = b + learningRate * error

    print("xi:\t\t\t", xi)
    print("di:\t\t\t", di)
    print("yi:\t\t\t", yi)
    print("di-step(yi):\t\t", error)
    print("new weigth:\t\t", w)
    print("new bias:\t\t", b)
    print()

xi:			 [0, 0]
di:			 0
yi:			 0.0
di-step(yi):		 -1
new weigth:		 [ 0.   0.5]
new bias:		 -0.5

xi:			 [0, 1]
di:			 1
yi:			 0.0
di-step(yi):		 0
new weigth:		 [ 0.   0.5]
new bias:		 -0.5

xi:			 [1, 0]
di:			 1
yi:			 -0.5
di-step(yi):		 1
new weigth:		 [ 0.5  0.5]
new bias:		 0.0

xi:			 [1, 1]
di:			 1
yi:			 1.0
di-step(yi):		 0
new weigth:		 [ 0.5  0.5]
new bias:		 0.0



### Epoch 3;
Todos los valores de entrenamiento de nuevo. Esta vez, con print solo por la Epoch completa.

In [17]:
for i in range(len(trainingData)):
    xi, di = trainingData[i]
    yi = xi[0] * w[0] + xi[1] * w[1] + b
    error = di - step(yi)
    w = w + learningRate * error * np.array(xi)
    b = b + learningRate * error

    print("xi:\t\t\t", xi)
    print("di:\t\t\t", di)
    print("yi:\t\t\t", yi)
    print("di-step(yi):\t\t", error)
    print("new weigth:\t\t", w)
    print("new bias:\t\t", b)
    print()

xi:			 [0, 0]
di:			 0
yi:			 0.0
di-step(yi):		 -1
new weigth:		 [ 0.5  0.5]
new bias:		 -0.5

xi:			 [0, 1]
di:			 1
yi:			 0.0
di-step(yi):		 0
new weigth:		 [ 0.5  0.5]
new bias:		 -0.5

xi:			 [1, 0]
di:			 1
yi:			 0.0
di-step(yi):		 0
new weigth:		 [ 0.5  0.5]
new bias:		 -0.5

xi:			 [1, 1]
di:			 1
yi:			 0.5
di-step(yi):		 0
new weigth:		 [ 0.5  0.5]
new bias:		 -0.5



## Cuando detenerse?
Después de varias iteraciones, los pesos convergen a un valor del cual después no se modifican. En este caso, iteraremos hasta que no haya cambio entre estos valores.

In [18]:
while True:
    old_w = w
    old_b = b
    
    for i in range(len(trainingData)):
        xi, di = trainingData[i]
        yi = xi[0] * w[0] + xi[1] * w[1] + b
        error = di - step(yi)
        w = w + learningRate * error * np.array(xi)
        b = b + learningRate * error

        print("xi:\t\t\t", xi)
        print("di:\t\t\t", di)
        print("yi:\t\t\t", yi)
        print("di-step(yi):\t\t", error)
        print("new weigth:\t\t", w)
        print("new bias:\t\t", b)
        print()

    #Condición de detención:
    if((old_w == w).all() and old_b == b):
        print("Success!")
        break;

xi:			 [0, 0]
di:			 0
yi:			 -0.5
di-step(yi):		 0
new weigth:		 [ 0.5  0.5]
new bias:		 -0.5

xi:			 [0, 1]
di:			 1
yi:			 0.0
di-step(yi):		 0
new weigth:		 [ 0.5  0.5]
new bias:		 -0.5

xi:			 [1, 0]
di:			 1
yi:			 0.0
di-step(yi):		 0
new weigth:		 [ 0.5  0.5]
new bias:		 -0.5

xi:			 [1, 1]
di:			 1
yi:			 0.5
di-step(yi):		 0
new weigth:		 [ 0.5  0.5]
new bias:		 -0.5

Success!


# Clasificación

Pero qué significa que el Perceptrón se haya entrenado? Qué significa que se hayan encontrado los pesos?

Bueno, ahora probaremos con darle nuevos valores y veremos que nos entrega.

## Clasificar valores de entrenamiento:

In [19]:
test = [0, 0]
step(test[0] * w[0] + test[1] * w[1] + b)

0

In [20]:
test = [0, 1]
step(test[0] * w[0] + test[1] * w[1] + b)

1

In [21]:
test = [1, 0]
step(test[0] * w[0] + test[1] * w[1] + b)

1

In [22]:
test = [1, 1]
step(test[0] * w[0] + test[1] * w[1] + b)

1

## Clasificar valores al azar

In [23]:
test = [random.random(), random.random()]
yi = step(test[0] * w[0] + test[1] * w[1] + b)
print("Entrada:\t\t", test)
print("Predicción:\t\t", yi)

Entrada:		 [0.06427328680783195, 0.9082346890194956]
Predicción:		 0


In [24]:
test = [random.random(), random.random()]
yi = step(test[0] * w[0] + test[1] * w[1] + b)
print("Entrada:\t\t", test)
print("Predicción:\t\t", yi)

Entrada:		 [0.7434431643134166, 0.9939298597838985]
Predicción:		 1


In [25]:
test = [random.random(), random.random()]
yi = step(test[0] * w[0] + test[1] * w[1] + b)
print("Entrada:\t\t", test)
print("Predicción:\t\t", yi)

Entrada:		 [0.4017707991329431, 0.1312867115378612]
Predicción:		 0


In [26]:
test = [random.random(), random.random()]
yi = step(test[0] * w[0] + test[1] * w[1] + b)
print("Entrada:\t\t", test)
print("Predicción:\t\t", yi)

Entrada:		 [0.5344224605717982, 0.7058515681288217]
Predicción:		 1


Ahora vamos a visualizar lo que hace nuestro perceptrón.