# Perceptrón
El **perceptrón** es una unidad básica de inferencia en forma de discriminador lineal, a partir de lo cual se desarrolla un algoritmo capaz de generar un criterio para seleccionar un sub-grupo a partir de un grupo de componentes más grande.

La limitación de este algoritmo es que si dibujamos en un plot estos elementos, se deben poder separar con un hiperplano únicamente los elementos "deseados" discriminándolos (separándolos) de los "no deseados".

En el presente notebook vamos a contruir un perceptrón que nos permita discriminar algunas condiciones de interés, sobre los datos artificiales queque fueron recolectados en clase.

In [11]:
## Lectura de los datos de clase
X <- readRDS("X.rds")
head(X)

Edad,Estatura,Peso,Sexo,Mascotas,Digitos.Cedula
33,178,90,Masculino,2,96
26,160,67,Femenino,2,91
34,186,94,Masculino,2,59
26,186,83,Masculino,1,43
25,176,65,Masculino,3,97
30,175,82,Masculino,0,60


Dado que el rango de valores de los datos originales generalmente puede variar ampliamente, en algunos algoritmos de aprendizaje automático, las funciones objetivo no funcionarán correctamente sin la normalización. Por ejemplo, la mayoría de los clasificadores calculan la distancia entre dos puntos a través de la distancia euclidiana. Si una de las características tiene una amplia gama de valores, la distancia se regirá por esta característica particular. Por lo tanto, el rango de todas las características se debe normalizar de modo que cada característica contribuya de forma proporcional a la distancia final. En este caso particular realizamos un escalamiento de los valores al dividirlos entre 100.

In [12]:
X[,c(2:3)] <- X[,c(2,3)]/100

## Codificamos además la variable sexo como 1 si es masculino y o si es femenino. Por último añadimos una columna de unos.
X$G <- substr(X$Sexo, 1, 1)
X$g <- as.numeric(X$G=="M")
X$Uno <- 1
head(X)

Edad,Estatura,Peso,Sexo,Mascotas,Digitos.Cedula,G,g,Uno
33,1.78,0.9,Masculino,2,96,M,1,1
26,1.6,0.67,Femenino,2,91,F,0,1
34,1.86,0.94,Masculino,2,59,M,1,1
26,1.86,0.83,Masculino,1,43,M,1,1
25,1.76,0.65,Masculino,3,97,M,1,1
30,1.75,0.82,Masculino,0,60,M,1,1


El perceptrón usa una matriz para representar las redes neuronales y es un discriminador que traza su entrada x (un vector binario) a un único valor de salida $f(x)$ (un solo valor binario) a través de dicha matriz.



\begin{equation*}
f(x) = \begin{cases}1 & \text{si }w \cdot x > 0\\0 & \text{en otro caso}\end{cases}
\end{equation*}



Donde $w$ es un vector de pesos reales y $w\cdot x$ es el producto escalar (que computa una suma ponderada). El valor de $f(x)$ (0 o 1) se usa para clasificar $x$ como un caso positivo o un caso negativo, en el caso de un problema de clasificación binario. La suma ponderada de las entradas debe producir un valor mayor que 0 para cambiar la neurona de estado 0 a 1.

A continuación se define la función $f$ que evaluará las sumas de dicho producto escalar:

In [13]:
f <- function(x){
  if(x>0) return(1)
  return(0)
}

La gráfica a continuación identifica el sexo de cada persona a partir de su estatura y el peso.  Nótese que a priori es posible separar los dos grupos con una línea recta.

In [14]:
library(repr); options(repr.plot.width=5, repr.plot.height=5)
plot(X$Estatura, X$Peso, type = "n", xlab="Estatura", ylab="Peso",asp=1)
cols <- rep("blue",nrow(X))
cols[which(X$G=="M")] <- "black"
text(X$Estatura, X$Peso, X$G, col=cols)

ERROR: Error in file(con, "rb"): no se puede abrir la conexión


plot without title

## 1. Perceptrón simple
La intención ahora es separar mediante una línea (plano en 2D), las dos categorías. Para ello definimos el algoritmo de aprendizaje, el cual inicia con unos pesos iniciales definidos como el vecto de ceros, y a partir de los cuales evalúa la función $f$. Los pesos van siendo corregidos usando la regla de aprendizaje del **perceptrón simple**.  



In [15]:
perceptron <- function(x, y, num_pc=-1, iter=10000) {
     require(progress)
     # x: Matriz de datos
     # y: vector de etiquetas sobre x, a discriminar
     # iter: Número de iteraciónes. Por defecto iter=10000
     
     # num_pc: Siempre que x represente una tranformación de los datos originales a partir de componente principales,
     # el parámetro num_pc podrá ser usado para seleccionar el número de componentes principales a utilizar
     if (num_pc != -1){
          x <- x[, 1:num_pc]
     }
     
     
     # pesos iniciales
     w <- rep(0, dim(x)[2] + 1)
     # Vector de errores
     err <- rep(0, iter)
     a_vec <- rep(NA, iter)
     b_vec <- rep(NA, iter)
     
     # Bucle para completar todas las iteraciones
     pb <- progress_bar$new(total = length(1:iter))
     for (i in 1:iter) {
          # Selección aleatoria de individuos
          ind <- sample(1:nrow(X), size=1)
          # Función de paso
          z <- sum(w[1:length(w)] * c(as.numeric(x[ind, ]), 1) ) #+ w[1]
          ypred <- f(z)
          # Regla de aprendizaje del perceptrón simple
          w <- w + 1 * (y[ind] - ypred) * c(as.numeric(x[ind, ]), 1)
               
          # Grafica cada w
          a_vec[i] <- -w[3]/w[2] #intercepto
          b_vec[i] <- -w[1]/w[2] #pendiente pasando por el origen
               
          # Función que calcula el error de cada iteración
          if ((y[ind] - ypred) != 0.0) {
               err[i] <- err[i] + 1
               }
          pb$tick()
     }
     a_vec <- a_vec[!is.na(a_vec)]
     b_vec <- b_vec[!is.na(b_vec)]
     resultados <- list(errores = err, a = a_vec, b = b_vec)
     return(resultados)
}

Se realizan 10000 iteraciones del algoritmo, donde la última iteración representada por la línea negra, separa de manera óptima las dos clases.


In [17]:
perc_sexo <- perceptron(x=X[, 2:3], y=X$g, iter=10000)
#perc_sexo$errores
perc_sexo$a[1000]
perc_sexo$b[1000]

## Graficamos
plot(X$Estatura, X$Peso, type = "n", xlab="Estatura", ylab="Peso",asp=1)
cols <- rep("blue",nrow(X))
cols[which(X$G=="M")] <- "black"
text(X$Estatura, X$Peso, X$G, col=cols)

## Dibujamos las lineas de separación para algunas iteraciones
## (múltiplos de 100)
for(iter in 1:10000){
     if(iter%%100==0){
          #print(iter)
          abline(perc_sexo$a[iter], perc_sexo$b[iter], col="grey")
     }
}
## La línea de la última iteración en color negro
abline(perc_sexo$a[10000], perc_sexo$b[10000],col="black",lwd=2)

ERROR: Error in file(con, "rb"): no se puede abrir la conexión


plot without title

# 2. Perceptrón con bolsillo
El algoritmo anterior nos permitía hacer uso de una regla de aprendizaje para determinar una línea (plano) de separación. Sin embargo no considera la línea con el menor error entre todas las iteraciones consideradas, por lo que ahora ralizamos una pequeña modificación al algoritmo, la cual guarda en un objeto determinado (bolsillo), en cada iteración la solución con menor error de predicción, que irá siendo actualizada únicamente si se encuentra un vector de pesos $w$ con un error inferior al almacenado en el bolsillo.  Así, el objetivo de esta modificación es encontrar un vector de pesos que maximice el número de clasificaciones correctas.


In [1]:
## Perceptrón con bolsillo
perceptron_bolsillo <- function(x, y, num_pc=-1, iter=10000) {
     # x: Matriz de datos
     # y: vector de etiquetas sobre x, a discriminar
     # iter: Número de iteraciónes. Por defecto iter=10000
    
     # num_pc: Siempre que x represente una tranformación de los datos originales a partir de componente principales,
     # el parámetro num_pc podrá ser usado para seleccionar el número de componentes principales a utilizar
     if (num_pc != -1){
         x <- x[, 1:num_pc]
     }
    
     
     # pesos iniciales
     w <- rep(0, dim(x)[2] + 1)
     # Vector de errores
     err <- rep(0, iter)
     a_vec <- rep(0, iter)
     b_vec <- rep(NA, iter)
    
     # Bucle para completar todas las iteraciones
     for (i in 1:iter) {
          # Bucle que recorre todos los individuos
          for (j in 1:length(y)) {
               
               # Función de paso
               z <- sum(w[2:length(w)] * as.numeric(x[j, ])) + w[1]
               ypred <- f(z)
               # Regla de aprendizaje del perceptrón simple
               w <- w + 1 * (y[j] - ypred) * c(1, as.numeric(x[j, ]))
               
               # Función que calcula el error de cada iteración
               if ((y[j] - ypred) != 0.0) {
                    err[i] <- err[i] + 1
               }
          }
          
          # W bolsillo
          if(i == 1){
               w.bolsillo <- w
          } else{
               if(err[i] < err[i-1]){
                    w.bolsillo <- w
                   
                    # Grafica cada w bolsillo
                    a_vec[i] <- -w[3]/w[2] #intercepto
                    b_vec[i] <- -w[1]/w[2] #pendiente pasando por el origen
                    abline(a, b, col="grey")
                    
               }
          }
     }
     a_vec <- a_vec[!is.na(a_vec)]
     b_vec <- b_vec[!is.na(b_vec)]
     resultados <- list(w.bolsillo = w.bolsillo, errores = err, a = a_vec, b = b_vec)
     return(resultados)
}