Lectura: Perceptrones binarios --- 45:00 min
===

* Última modificación: Marzo 10, 2022

## Definición

Los perceptrones binarios son un tipo de neurona cuyas entradas y salidas son binarias {0, 1} y cuyos pesos suelen están restrigidos a ser números enteros por efectos de implementación. Estos modelos datan de la década de los años 60. Las conexiones son equivalentes a circuitos eléctricos con resistencias. El siguiente diagrama representa un perceptrón (izquierda) y su notación como una compuerta lógica (derecha).

![perceptron-binario-1](assets/PerceptronBinEnt-02.png)

Matemáticamente este modelo puede representarse como:

$$x_i \in \{0, 1\},  \qquad w_j \in Z,  \qquad v = w_0 + \sum_{i=1}^n w_i x_i, \qquad 
y = \text{step}(v) = S(v) = 
\begin{cases}      
      1, & \text{Si $v \ge 0$}\\
      0, & \text{Si $v \lt 0$}\\
\end{cases}$$


## Separabilidad lineal

Uno de los conceptos más importantes es el de separabilidad lineal. La función conmutable $f(x_1, ..., x_n)$ es linealmente separable si existe una función de umbral tal que:

$$y = f(x_1, ..., x_n) = \text{step} \left( w_0 + \sum_{i=1}^n w_i x_i \right) = \text{step}(\mathbf{\text{w}}^T \mathbf{\text{x}})$$

![assets/PerceptronBinEnt-04.png](assets/PerceptronBinEnt-04.png)

## Red de perceptrones binarios de dos capas

Se obtiene al agrupar los perceptrones binarios por capas secuenciales densas completamente conectadas. Debido a los algoritmos específicos de estimación de parámetros, estos modelos solo tienen una capa oculta de procesamiento.

![assets/PerceptronBinEnt-05.png](assets/PerceptronBinEnt-05.png)

## Diseño de un circuito de conmutación

Una red neuronal de perceptrones binarios puede usarse para representar circuitos lógicos. En este caso se desea obtener una red de perceptrones binarios que reproduzca la salida especificada. 

![images/PerceptronBinEnt-03.png](assets/PerceptronBinEnt-03.png)

A continuación se describe una metodología de especificación de perceptrones binarios (entradas y salidas binarias {0,1} y pesos enteros) a partir de la especificación de la función binaria que deben describir.

**Definición 1.---** $\mathbf{P}=\{0,1\}^n$ es el universo de cadenas binarias de longitud $n$. Un elemento de $\mathbf{p} \in \mathbf{P}$ es representado como $p_1 p_2 ... p_n$.

$\mathbf{p}, \mathbf{q}, \mathbf{r} \in \{0,1\}^n$.

Para $n=3$,  $\mathbf{P}=\{000,001,010,011,100,101,110,111\}$.

**Definición 2.---** El orden de $\mathbf{p}$, $|\mathbf{p}|$, es la cantidad de 1s que tiene la cadena. Por ejemplo, $|000|=0$ y $|101|=2$.

**Definición 3.---** El substractum se define como  $S_\mathbf{p}=\{\mathbf{q} \, | \, \mathbf{q} \cap  \mathbf{p}=\mathbf{q}\}$. Es decir, es el conjunto de todas las cadenas posibles que se obtienen al reemplazar en la cadena $\mathbf{p}$ los 1s por 0s. Por ejemplo:  

$S_{000}=\{000\}$,

$S_{001}=\{000,001\}$, 

$S_{010}=\{000,010\}$,

$S_{011}=\{000, 001, 010, 011\}$,

$S_{100}=\{000,100\}$,

$S_{101}=\{000,001,100,101\}$,

$S_{110}=\{000,010,100,   110\}$,

$S_{111}=\{000,001, 010,011,100,101,   110,111\}$.



**Definición 4.---** $F(.)$ es una función lógica booleana, definida como $F:\{0,1\}^n \to \{0,1\}$ donde la notación $F_\mathbf{p}$ representa $F(\mathbf{p})=F_\mathbf{p}$. Cualquier función lógica booleana $F$ puede ser representada por un perceptrón binario de dos capas cuya función matemática es:

$$F=\text{step}\left(\sum_{\mathbf{q} \in \mathbf{P}} w_\mathbf{q} * M_\mathbf{q} \right)$$

**Definición 5.---** Cálculo de $w_\mathbf{q}$. Los valores de $w_\mathbf{q}$ se pueden calcular como:

$$w_\mathbf{q} = \sum_{\mathbf{p} \in S_\mathbf{q}} (-1)^{|\mathbf{p}|} (-1)^{|\mathbf{q}|}F_\mathbf{p}$$

**Ejemplo**: Los pesos $w_\mathbf{q}$ para la función $F$ definida como $F_{000}=F_{001}=F_{010}=0$ y $F_{011}=F_{100}=F_{101}=F_{110}=F_{111}=1$, son:

$w_{000}=F_{000}=0$ 

$w_{001}= -F_{000}+F_{001}=0$ 

$w_{010}=-F_{000}+F_{010}=0$ 

$w_{011}=F_{000}-F_{010}-F_{001}+F_{011}=1$ 

$w_{100}=-F_{000}+F_{100}=1$ 

$w_{101}=F_{000}-F_{001}-F_{100}+F_{101}=0$ 

$w_{110}=F_{000}-F_{100}-F_{010}+F_{110}=0$ 

$w_{111}= -F_{000}+F_{001}+F_{010}-F_{011}+F_{100}-F_{101}-F_{110}+F_{111}=-1$

**Definición 6.---** Cálculo de $M_\mathbf{q}$. La función máscara se define como:

$$M_\mathbf{q}(\mathbf{p}) = 
\begin{cases}      
      1, & \mathbf{q} \cap \mathbf{p} = \mathbf{q}\\
      0, & \text{otro caso}\\
\end{cases}$$

$M_\mathbf{q}$ puede ser escrita como un producto de funciones de pixel: 

$$M_\mathbf{q}=\tilde{x} _{q_1} * \tilde{x} _{q_2} * ... * \tilde{x}_{q_n}$$

con $\mathbf{q} = q_1 \, q_2 \, ... \, q_n$, y

$$\tilde{x}_{q_i} = 
\begin{cases}      
      x_i, & \text{Si $q_i = 1$}\\
      1,   & \text{Si $q_i = 0$}\\
\end{cases}$$

de tal forma que: $M_{000}= 1*1*1=1$,   $M_{001}=1*1*x_3=x_3$,  $M_{011}=1*x_2*x_3$ y así sucesivamene. 

Nótese que $M_\textbf{q}=x_i * x_j * ...* x_k$, es una operación lógica AND la cual puede ser representada por una función de umbral, es decir, 
$M_\mathbf{q}=\text{step} (x_i+x_j+...+x_k-T)$, donde $T$ es la cantidad de variables en $x_i$, $x_j$, ..., $x_k$.

En otras palabras:

$M_{000}=1$,


$M_{001}=\text{step}(x_3-1)$,


$M_{010}=\text{step}(x_2-1)$,


$M_{011}=\text{step}(x_2+x_3-2)$,


$M_{100}=\text{step}(x_1-1)$,


$M_{101}=\text{step}(x_1+x_3-2)$,


$M_{110}=\text{step}(x_1+x_2-2)$,


$M_{111}=\text{step}(x_1+x_2+x_3-3)$.


Finalmente, para el ejemplo desarrollado se obtiene como la sumatoria del producto de   $w_\mathbf{q}$ por $M_\textbf{q}$:

$$F(x_1,x_2,x_3)=\text{step}( \text{step} (x_2+x_3-1)+\text{step} (x_1 )-\text{step}(x_1+x_2+x_3-2))$$

## Implementación

In [1]:
import numpy as np

#
# Esta es una clase generica para representar la propagación de 
# la señal por una red neuronal de propagación hacia adelante.
#
class Layer:
    #
    # Se implementa una clase genérica de capa
    #
    def __init__(self, units, input_dim, activation=None, seed=None):
        self.units = units
        self.input_dim = input_dim
        self.activation = activation
        self.kernel = None
        self.bias = None

        if seed is None:
            self.rng = np.random.default_rng()
        else:
            self.rng = np.random.default_rng(seed)

    def check_activation(self):
        if self.activation is None:
            self.activation = lambda x: x

        if isinstance(self.activation, str):
            self.activation = {
                "linear": lambda x: x,
                "sigmoid": lambda x: 1 / (1 + np.exp(-x)),
                "relu": lambda x: np.where(x <= 0, 0, x),
                "step": lambda x: np.where(x < 0, 0, 1),
            }[self.activation]

    def check_weights(self):

        if self.bias is None:
            self.bias = rng.uniform(
                low=-1,
                high=1,
                shape=self.units,
            )

        if self.kernel is None:
            self.kernel = rng.uniform(
                low=-1,
                high=1,
                shape=(self.input_dim, self.weights),
            )

    def __call__(self, x):
        self.check_weights()
        self.check_activation()
        return self.activation(np.matmul(x, self.kernel) + self.bias)

In [2]:
class BinaryPerceptronNetwork:
    #
    def __init__(self, input_dim):
        self.input_dim = input_dim
        self.hidden_layer = None
        self.ouput_layer = None

    def step(self, x):
        return np.where(x >= 0, 1, 0)

    def substractum(self, x):
        stack = [x]
        result = [x]
        while len(stack) > 0:
            m = stack.pop()
            for i in range(len(m)):
                if m[i] == 1:
                    n = m.copy()
                    n[i] = 0
                    if sum(n) > 0 and n not in result:
                        result.append(n)
                        stack.append(n)
        if sum(x) != 0:
            result.append([0] * len(x))
        return result

    def array2key(self, x):
        x = [str(e) for e in x]
        return "".join(x)

    def compute_wq(self, nbits, F):

        w_keys = self.substractum([1] * nbits)

        S = {}
        for w_key in w_keys:
            S[self.array2key(w_key)] = [
                self.array2key(m) for m in self.substractum(w_key)
            ]

        coefs = {}
        for w_key in w_keys:
            q = sum(w_key)
            q = np.power(-1, q)

            p = {
                s: q * np.power(-1, len(s.replace("0", "")))
                for s in S[self.array2key(w_key)]
            }

            coefs[self.array2key(w_key)] = p

        return coefs

    def fit(self, X, y):

        nbits = len(X[0])
        #
        # Convierte las filas de X a claves binarias
        #
        F = {self.array2key(k): v for k, v in zip(X, y)}

        wq = self.compute_wq(nbits, F)

        wq = {w: sum([wq[w][k] * F[k] for k in wq[w].keys()]) for w in wq.keys()}

        wq = {w: wq[w] for w in wq.keys() if wq[w] != 0}

        kernel_hidden = [k for k in wq.keys()]
        kernel_hidden = [list(k) for k in kernel_hidden]
        kernel_hidden = [[int(e) for e in row] for row in kernel_hidden]
        kernel_hidden = np.array(kernel_hidden)

        bias_hidden = -kernel_hidden.sum(axis=1)

        kernel_hidden = np.transpose(kernel_hidden)

        kernel_output = np.array([wq[w] for w in wq.keys()])
        bias_output = np.int(-1)

        H = len(wq.keys())

        self.hidden_layer = Layer(input_dim=self.input_dim, units=H, activation="step")
        self.hidden_layer.kernel = kernel_hidden
        self.hidden_layer.bias = bias_hidden

        self.output_layer = Layer(input_dim=H, units=1, activation="step")
        self.output_layer.kernel = kernel_output
        self.output_layer.bias = bias_output

    def __call__(self, x):
        x = self.hidden_layer(x)
        return self.output_layer(x)
    
    def __repr__(self):
        
        def coef2string(coef, isvar):
            if coef > 0:
                if coef == 1 and isvar is True:
                    return " + "
                return " + {}".format(coef)
            if coef < 0:
                if coef == -1 and isvar is True:
                    return " - "
                return " - {}".format(-coef)
            return ""
            
        def var2string(coef, index):
            if coef != 0:
                return coef2string(coef, True) + "x{}".format(index)
            return ""
                
        
        text_hidden = []
        for neuron, bias in zip(np.transpose(self.hidden_layer.kernel), self.hidden_layer.bias):
            eq = [
                var2string(weight, i)
                for i, weight in enumerate(neuron)
            ]
            if bias != 0:
                eq = "".join(eq) + coef2string(bias, False)
            else:
                eq = "".join(eq)
                
            eq = eq.strip()
            if len(eq) > 0 and eq[0] == '+':
                eq = eq[1:]
            text_hidden.append("step(" + eq.strip() + ")")

        text_output = [
            coef2string(int(w), True) + t
            for w, t in zip(self.output_layer.kernel, text_hidden)
        ]
            
        if self.output_layer.bias != 0:
            text_output.append(coef2string(int(self.output_layer.bias), False))
            
        text_output = ["    " + t.strip() + "\n"  for t in text_output]
        text_output = "step(\n" + "".join(text_output) + ")"
        
        return text_output


## Solución numérica

In [3]:
import pandas as pd

X = np.array([
    [0, 0, 0],
    [0, 0, 1],
    [0, 1, 0],
    [0, 1, 1],
    [1, 0, 0],
    [1, 0, 1],
    [1, 1, 0],
    [1, 1, 1],
])

y = np.array([0, 0, 0, 1, 1, 1, 1, 1])

#
# Crea el modelo
#
nn = BinaryPerceptronNetwork(input_dim=3)

#
# Lo entrena
#
nn.fit(X, y)

pd.DataFrame({'Real': y, 'Pronostico':nn(X)})

Unnamed: 0,Real,Pronostico
0,0,0
1,0,0
2,0,0
3,1,1
4,1,1
5,1,1
6,1,1
7,1,1


## Circuito más complejo

A continuación se presenta el resultado para un circuito más complejo de 6 bits de entrada.

In [4]:
df = pd.read_csv(
    "https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/switching_circuits.csv",
    na_values="-",
)

df.head()

Unnamed: 0,x,output
0,'000000',1.0
1,'000001',1.0
2,'000010',1.0
3,'010000',1.0
4,'001000',0.0


In [5]:
#
# Longitud del dataset
#
len(df)

64

In [6]:
#
# Algunas de las salidas son NA indicando que no importa
# el valor que arroje el modelo
#
df[df.output.isna()]

Unnamed: 0,x,output
23,'001110',
27,'011001',
36,'011010',
37,'111000',
41,'001111',
43,'011101',
46,'101101',
53,'011011',
54,'101110',
55,'111010',


In [7]:
#
# Los patrones con NA son reemplazados por valores arbitrarios
#
df['output'] = df.output.map(lambda w: 0 if np.isnan(w) else w)

In [8]:
#
# Para efectos prácticos, se transforman los patrones
# binarios a variables x0, ..., x5
#
for i in range(6):
    df['x{}'.format(i)] = df.x.map(lambda w: int(w[1+i]))

    
df['output'] = df.output.map(int)
df = df[['x{}'.format(i) for i in range(6)] + ['output']]

df.head()

Unnamed: 0,x0,x1,x2,x3,x4,x5,output
0,0,0,0,0,0,0,1
1,0,0,0,0,0,1,1
2,0,0,0,0,1,0,1
3,0,1,0,0,0,0,1
4,0,0,1,0,0,0,0


In [9]:
df.tail()

Unnamed: 0,x0,x1,x2,x3,x4,x5,output
59,1,1,1,0,1,1,1
60,1,1,1,1,0,1,1
61,1,1,1,1,1,0,1
62,1,1,1,1,1,1,1
63,1,0,0,1,1,0,0


In [10]:
#
# Especificación y entrenamiento del modelo
#
X = df.copy()
y = X.pop("output")

X = X.values
y = y.values

nn = BinaryPerceptronNetwork(input_dim=6)
nn.fit(X, y)

p = df.copy()
p["predicted"] = nn(X)
p

Unnamed: 0,x0,x1,x2,x3,x4,x5,output,predicted
0,0,0,0,0,0,0,1,1
1,0,0,0,0,0,1,1,1
2,0,0,0,0,1,0,1,1
3,0,1,0,0,0,0,1,1
4,0,0,1,0,0,0,0,0
...,...,...,...,...,...,...,...,...
59,1,1,1,0,1,1,1,1
60,1,1,1,1,0,1,1,1
61,1,1,1,1,1,0,1,1
62,1,1,1,1,1,1,1,1


In [11]:
sum(p.output == p.predicted)

64

In [12]:
nn

step(
    - step(x0 + x1 + x2 + x3 + x4 + x5 - 6)
    + step(x0 + x2 + x3 + x4 + x5 - 5)
    - step(x0 + x1 + x2 + x3 + x5 - 5)
    - 2step(x0 + x1 + x2 + x3 + x4 - 5)
    + 2step(x1 + x2 + x3 + x4 - 4)
    + step(x0 + x2 + x3 + x4 - 4)
    + step(x0 + x1 + x2 + x4 - 4)
    + 2step(x0 + x1 + x2 + x3 - 4)
    - step(x1 + x2 + x3 - 3)
    - step(x0 + x2 + x3 - 3)
    - step(x0 + x1 + x2 - 3)
    + step(x0 + x2 - 2)
    - step(x2 - 1)
    + step(x1 + x3 - 2)
    - step(x3 - 1)
    + step(x2 + x3 - 2)
    - step(x1 + x2 + x4 - 3)
    - step(x0 + x2 + x4 - 3)
    + step(x2 + x4 - 2)
    - step(x2 + x3 + x4 - 3)
    + step(x0 + x1 + x2 + x5 - 4)
    + step()
    - 1
)

## Notas

A continuación se presentan dos circuitos lógicos que implementan un codificador y un decodificador respectivamente.

![assets/PerceptronBinEnt-01.png](assets/PerceptronBinEnt-01.png)

En este caso, las entradas y salidas correspondientes son (verifique!):

    Codificador      Decodificador
    
          x   y            y     x 
    ------------------------------
       1000  00            00 1000 
       0100  01            01 0100
       0010  10            10 0010
       0001  11            11 0001

El diseño de estos circuitos no es trivial, y puede realizarse a traves del algoritmo presentado para perceptrones binarios.