# XOR

In [1]:
%matplotlib inline

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import json, matplotlib
s = json.load( open("styles/bmh_matplotlibrc.json") )
matplotlib.rcParams.update(s)
from IPython.core.pylabtools import figsize
figsize(11, 5)
colores = ["#348ABD", "#A60628","#06A628"]

In [2]:
from mpl_toolkits.mplot3d import Axes3D

In [3]:
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets
from IPython.display import display

In [4]:
import numpy as np

## Función de activación

In [5]:
def logistica(z):
    """
    Devuelve la función logística evaluada componente por componente
    """
    return 1 / (1 + np.exp(-z))

In [6]:
from matplotlib.pyplot import figure

@interact
def plot_log():
    z = np.arange(-5,5,0.1)
    figure(figsize=(4,2))
    plt.plot(z, logistica(z))
    plt.xlabel("$z$")
    plt.ylabel("$\sigma$")
    plt.title("$\sigma = \\frac{1}{1 + e^{-z}}$")

interactive(children=(Output(),), _dom_classes=('widget-interact',))

In [6]:
def derivada_logistica(z):
    """
    Función que, dado un arreglo de valores z
    calcula el valor de la derivada para cada entrada.
    """
    g = logistica(z)
    return g * (1 - g)

In [8]:
@interact
def plot_logp():
    z = np.arange(-5,5,0.1)
    figure(figsize=(4,2))
    plt.plot(z, derivada_logistica(z))
    plt.xlabel("$z$")
    plt.ylabel("$\sigma'$")
    plt.title("$\sigma' = \sigma (1-\sigma)$")

interactive(children=(Output(),), _dom_classes=('widget-interact',))

In [7]:
def derivada_logistica_atajo(val_sigma):
    """
    Función que, dado un arreglo de valores de sigma(z)
    calcula el valor de la derivada para cada entrada.
    
    Si ya se cuenta con esos valores, es más eficiente
    calcular esto directamente.
    """
    return val_sigma * (1 - val_sigma)

$\frac{d\sigma}{dz} = \sigma(z) \cdot (1 - \sigma(z))$

In [None]:
@interact
def plot_logpa():
    z = np.arange(-5,5,0.1)
    val = logistica(z)
    figure(figsize=(4,2))
    plt.plot(z, derivada_logistica_atajo(val))
    plt.xlabel("$z$")
    plt.ylabel("$\sigma'$")
    plt.title("$\sigma' = \sigma (1-\sigma)$")

In [8]:
np.random.seed(10)

## Función de error: Entropía cruzada

La función de error más sencilla utilizada para problemas de clasificación es la **entropía cruzada**
\begin{align}
  J(\Theta) =& - \frac{1}{m} \left[ \sum_{i=1}^m \sum_{k=1}^K   y_k^{(i)} \log(h_\Theta(x^{(i)}))_k  + (1 - y_k^{(i)}) \log(1 - h_\Theta(x^{(i)}))_k   \right]    +  \\
  & \frac{\lambda}{2m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_L} \sum_{j=1}^{s_{l+1}} (\theta_{ji}^{(l)})^2
\end{align}
donde:
  * $K$ es el número de neuronas de salida.
  * $s_l$ es el número de neuronas en la capa $l$.
  * $m$ es el número de ejemplares de entrenamiento.
  
En su forma vectorizada, las componentes del gradiente están dadas por:
\begin{align}
  \delta^{(L)} &= (A^{(L)})^T - Y  \\
  \delta^{(L-1)} &= \delta^{(L)} \Theta_{[:,1:]}^{(L-1)} \circ g'(z^{(L-1)}) \\
  ... \\
  \delta^{(1)} &= \delta^{(0)} \Theta_{[:,1:]}^{(1)} \circ g'(z^{(1)}) \\
\end{align}
con:
\begin{align}
  g'(z^{(l)}) = A^{(l)} \circ (1 - A^{(l)})
\end{align}
en general:
\begin{align}
  \Delta^{(l)} =& (\delta^{(l+1)})^T A^{(l)}   &   \nabla^{(l)} =& \frac{1}{m}\Delta^{(l)}
\end{align}

In [9]:
def cross_entropy(y, h):
    return - y * np.log(h) - (1 - y) * np.log(1 - h)

In [11]:
@interact
def plot_crossentropy():
    """
    Muestra como, en el rango donde está definida, la entropía cruzada tiene
    sus valores más pequeños donde 'y' y 'h' coinciden, y su valor más alto
    donde éstos son opuestos.
    """
    fig = plt.figure()

    #ax = fig.gca(projection='3d') # Metodo 1
    ax = fig.add_subplot(111, projection='3d') # Metodo 2
    # Cambio al metodo 2 porque el 1 no funciona en mi compu 
    
    # Datos
    X = np.arange(0.01, 1, 0.05)
    Y = np.arange(0.01, 1, 0.05)
    X, Y = np.meshgrid(X, Y)
    CE = cross_entropy(X, Y)
    
    surf = ax.plot_surface(X, Y, CE, cmap=cm.coolwarm,
                       linewidth=0, antialiased=False)
    
    ax.set_xlabel("$y$")
    ax.set_ylabel("$h$")
    ax.set_title("Entropía cruzada")
    plt.show()

interactive(children=(Output(),), _dom_classes=('widget-interact',))

## Red neuronal
La red implementa encadenamiento hacia adelante (para evaluar) y hacia atrás (para entrenarse).

In [12]:
# Cuando se programa un algoritmo que depende de la generación de números aleatorios
# es buena costumbre fijar la semilla a partir de la cual dichos números son generados.
# De este modo el comportamiento sobre los datos de entrada será predecible mientras
# se está desarrollando/probando el código.
#
# Una vez el código está listo, se debe usar variando los valores de esta semilla
# para ver los efectos de la aleatoriedad simulada.

np.random.seed(10)

In [13]:
class Multicapa:
    """
    Red neuronal con tres capas:
    
    Entrada
    Oculta
    Salida
    
    Los parámetros (pesos) que conectan las capas se encuentran en matrices
    con los nombres siguientes:
    
    Entrada -> self.Theta_0 -> Oculta
    Oculta  -> self.Theta_1 -> Salida
    """
    def __init__(self, n_entrada, n_ocultas, n_salidas):
        """
        Inicializa la red neuronal, con pesos Theta_0 y Theta_1 aleatorios,
        esta implementación debe incluir el uso de sesgos, por lo que éstos
        no se cuentan en los parámetros siguientes, puedes incluirlos como
        neuronas extra o en sus propias matrices, sólo sé consistente pues
        esto afectará tu implementación.
        
        :param n_entrada: número de datos de entrada (sin contar el sesgo)
        :param n_ocultas: número de neuronas ocultas
        :param n_salidas: número de nueronas de salida
        """
        self.Theta_0 = np.random.rand(n_ocultas, n_entrada + 1) * 2 - 1
        self.Theta_1 = np.random.rand(n_salidas, n_ocultas + 1) * 2 - 1
        
        
    
    def feed_forward(self, X, vector = None):
        """ Calcula las salidas, dados los datos de entrada en forma de matriz.
        Guarda los parámetros siguientes:
        A0: activaciones de la capa de entrada, ya con sesgos
        Z1: potenciales de la capa oculta, aún sin sesgo
        A1: activaciones de la capa oculta, ya con sesgos
        Z2: potenciales de la capa de salida
        A2: activaciones de la capa de salida
        
        :param vector: [opcional] se utilizarán los pesos indicados en este
                       vector en lugar de los pesos actuales de la red.
        """
        if vector is None:
            Theta_0 = self.Theta_0
            Theta_1 = self.Theta_1
        else:
            Theta_0, Theta_1 = self.reconstruct_matrices(vector)
        
        # Añadimos el sesgo a la capa de entrada
        A0 = np.hstack([np.ones([X.shape[0], 1]), X])
        
        # Potenciales y activaciones de la capa oculta
        Z1 = A0 @ Theta_0.T
        A1 = np.hstack([np.ones([Z1.shape[0], 1]), logistica(Z1)])
        
        # Potenciales y activaciones de la capa de salida
        Z2 = A1 @ Theta_1.T
        A2 = logistica(Z2)
        
        self.A0 = A0
        self.Z1 = Z1
        self.A1 = A1
        self.Z2 = Z2
        self.A2 = A2
        
        return A2
        
        
    def back_propagate(self, X, Y, lambda_r = 0.0):
        """ Calcula el error y su gradiente dados los pesos actuales de la red
        y los resultados esperados.
        
        Guarda el error en el atributo self.error y el gradiente en matrices
        self.Grad_1 y self.Grad_0, que tienen la misma forma de Theta_0 y Theta_1.
        
        :param X: matriz de entradas
        :param Y: matriz de salidas deseadas
        :param lambda_r: coeficiente de regularización
        """
        m = X.shape[0]
        
        # Propagación hacia adelante
        self.feed_forward(X)
        
        # Error
        error = cross_entropy(Y, self.A2)
        self.error = np.sum(error) / m
        
        # Gradiente
        Delta_1 = np.zeros(self.Theta_1.shape)
        Delta_0 = np.zeros(self.Theta_0.shape)
        
        for t in range(m):
            a0 = self.A0[t,:]
            z1 = self.Z1[t,:]
            a1 = self.A1[t,:]
            a2 = self.A2[t,:]
            y = Y[t,:]
            
            d2 = a2 - y
            d1 = (d2 @ self.Theta_1) * derivada_logistica_atajo(a1)
            
            Delta_1 += np.outer(d2, a1)
            Delta_0 += np.outer(d1[1:], a0)
        
        self.Grad_1 = Delta_1 / m
        self.Grad_0 = Delta_0 / m
        
        # Regularización
        self.Grad_1[:,1:] += (lambda_r / m) * self.Theta_1[:,1:]
        self.Grad_0[:,1:] += (lambda_r / m) * self.Theta_0[:,1:]


        
        
    def calc_error(self, X, Y, vector, lambda_r = 0.0):
        """
        Calcula el error que se cometería utilizando los pesos en 'vector' en lugar
        de los pesos actuales de la red.
        
        :returns: el error
        """
        Theta_0, Theta_1 = self.reconstruct_matrices(vector)
        A2 = self.feed_forward(X, vector)
        error = cross_entropy(Y, A2)
        return np.sum(error) / X.shape[0]
        
    
    def vector_weights(self):
        """
        Acomoda a todos los parámetros en las matrices de sesgos y pesos, en un solo vector.
        
        :returns: vector de parámetros
        """
        return np.hstack([self.Theta_0.flatten(), self.Theta_1.flatten()])
        
    
    def reconstruct_matrices(self, vector):
        """
        Dado un vector, rearma matrices del tamaño de las matrices de sesgos y pesos.
        
        :returns: matrices de parámetros
        """
        n_ocultas = self.Theta_0.shape[0]
        n_entrada = self.Theta_0.shape[1] - 1
        n_salidas = self.Theta_1.shape[0]
        
        Theta_0 = vector[:n_ocultas * (n_entrada + 1)].reshape(n_ocultas, n_entrada + 1)
        Theta_1 = vector[n_ocultas * (n_entrada + 1):].reshape(n_salidas, n_ocultas + 1)
        
        return Theta_0, Theta_1
        
        
    def approx_gradient(self, X, Y, lambda_r = 0.0):
        """
        Aproxima el valor del gradiente alrededor de los pesos actuales,
        perturbando cada peso, uno por uno hasta estimar la variación alrededor
        de cada peso.
        
        En este método se itera sobre cada peso w:
        * Sea w - epsilon -> val1, se calcula el error e1 cometido por la red si w es
                                   reemplazado por val1.
        * Sea w + epsilon -> val2, se calcula el error e2 cometido por la red si w es
                                   reemplazado por val2.
        * La parcial correspondiente se estima como (val1 - val2)/(2 * epsilon)
        
        Este método sólo se utiliza para verificar que backpropagation esté bien
        implementado, ya que en la práctica es muy lento y menos preciso.
        
        :returns: matrices que tienen la misma forma de Theta_0 y Theta_1, donde
                  cada entrada es la estimación de la parcial del error con
                  respecto al peso correspondiente
        """
        epsilon = 0.0001
        vector = self.vector_weights()
        grad = np.zeros(vector.shape)
        
        for i in range(len(vector)):
            vector[i] -= epsilon
            e1 = self.calc_error(X, Y, vector, lambda_r)
            vector[i] += 2 * epsilon
            e2 = self.calc_error(X, Y, vector, lambda_r)
            vector[i] -= epsilon
            grad[i] = (e2 - e1) / (2 * epsilon)
        
        Theta_0, Theta_1 = self.reconstruct_matrices(vector)
        return self.Grad_0, self.Grad_1
        
        
    def gradient_descent(self, X, Y, alpha, ciclos=10, check_gradient = False, lambda_r = 0.0):
        """ Evalúa y ajusta los pesos de la red, de acuerdo a los datos en X y los resultados
        deseados en Y.  Al final grafica el error vs ciclo.  Si el entrenamiento es correcto
        el error debe descender por cada iteración (ciclo).
        
        :param X: datos de entrada
        :param Y: salidas deseadas
        :param alpha: taza de aprendizaje
        :param ciclos: número de veces que se realizarán ajustes para todo el conjunto de datos X
        :param check_gradient: se calculará el gradiente con backpropagation y con aproximación por
                               perturbaciones, imprimiendo los valores lado a lado para que puedan
                               ser comparados.
        :param lambda_r: coeficiente de regularización
        """
        errores = []
        for ciclo in range(ciclos):
            self.back_propagate(X, Y, lambda_r)
            self.Theta_0 -= alpha * self.Grad_0
            self.Theta_1 -= alpha * self.Grad_1
            errores.append(self.error)
        
        #plt.plot(errores)
        #plt.xlabel("Ciclo")
        #plt.ylabel("Error")
        #plt.title("Entrenamiento")
        #plt.show()
        
        if check_gradient:
            grad_0, grad_1 = self.approx_gradient(X, Y, lambda_r)
            print("Gradiente real:")
            print(self.Grad_0)
            print(self.Grad_1)
            print("Gradiente aproximado:")
            print(grad_0)
            print(grad_1)
        
        
    def print_output(self):
        """
        Muestra en pantalla los valores de salida obtenidos en la última ejecución de feed_forward.
        """
        print(self.A2)
        
        

# Conjunto de datos

Probaremos esta red con la función más sencilla que requiere más de un perceptrón: $XOR$.

Para ello requerimos una red con la arquitectura siguiente:

<img src="figuras/xor_sin_pesos.png">

In [20]:
# Datos
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])  # Entradas
Y = np.array([[0], [1], [1], [0]])              # Salidas deseadas

# Instanciación de la red
xor = Multicapa(2, 2, 1)

# Probamos qué valores calcula con una inicialización aleatoria
xor.feed_forward(X)
xor.print_output()

[[0.64202163]
 [0.6825512 ]
 [0.68338319]
 [0.71184487]]


Para verificar si la red funciona para lo que fue diseñada, no basta con reducir el error,
debemos evaluar si calcula la función que queremos que calcule.  En este caso, queremos
usarla para evaluar una función binaria.  Si realizamos un redondeo, veamos cuántas respuestas
calcula correctamente.

In [21]:
def count_correct(red, X, Y):
    """ Conciderando que las etiquetas en Y son binarias (0 y 1)
    la salida h de la red se tomará como 0 si h < 0.5
    y como 1 si h >= 0.5
    """
    red.feed_forward(X)
    H = red.A2#.T                         # Ojo: dependiendo de tu implementación, podrías no querer la .T
    H = np.rint(H)
    print("H = ", H)
    print("Y = ", Y)
    c = np.count_nonzero((H - Y)==0)
    print("Se calcularon correctamente ", c, "entradas.")

In [22]:
c = count_correct(xor, X, Y)

H =  [[1.]
 [1.]
 [1.]
 [1.]]
Y =  [[0]
 [1]
 [1]
 [0]]
Se calcularon correctamente  2 entradas.


Para poder implementar el algoritmo de optimización, las variables a optimizar, es decir, los pesos, deben ser colocados sobre un vector (o matriz columna, en este caso).  Es necesario convertir las matrices de pesos a vector y, para usar la red, revertir el proceso, reconstruyendo las matrices a partir del vector con los pesos.

In [23]:
# Con esta casilla verifica que tus conversiones sean correctas

print("Valores actuales de los pesos")

print("Theta_0:\n", xor.Theta_0, "\n\nTheta_1:\n", xor.Theta_1)

print("\nMatrices a vector de pesos: ")
print(xor.vector_weights())

print("\nReconstrucción de las matrices a partir del vector de pesos: ")
T0, T1 = xor.reconstruct_matrices(xor.vector_weights())
print(T0, T1)

Valores actuales de los pesos
Theta_0:
 [[-0.2317711   0.88852142  0.97525095]
 [-0.08739091  0.65224569 -0.49725173]] 

Theta_1:
 [[0.1947433  0.80566352 0.0691159 ]]

Matrices a vector de pesos: 
[-0.2317711   0.88852142  0.97525095 -0.08739091  0.65224569 -0.49725173
  0.1947433   0.80566352  0.0691159 ]

Reconstrucción de las matrices a partir del vector de pesos: 
[[-0.2317711   0.88852142  0.97525095]
 [-0.08739091  0.65224569 -0.49725173]] [[0.1947433  0.80566352 0.0691159 ]]


In [24]:
# Con esta casilla revisa que backpropagation y aproximación por perturbaciones
# den resultados semejantes.  Observa que se ejecuta sobre un solo ciclo pues es lento.

xor.gradient_descent(X, Y, 0.3, 1, check_gradient = True)

Gradiente real:
[[0.0232081  0.00527455 0.00565027]
 [0.00331492 0.00180732 0.00181099]]
[[0.17995022 0.11393485 0.08986769]]
Gradiente aproximado:
[[0.0232081  0.00527455 0.00565027]
 [0.00331492 0.00180732 0.00181099]]
[[0.17995022 0.11393485 0.08986769]]


In [25]:
@interact_manual(ciclos = (50, 2000))
def train_XOR(ciclos):
    xor.gradient_descent(X, Y, 0.3, ciclos)

interactive(children=(IntSlider(value=1025, description='ciclos', max=2000, min=50), Button(description='Run I…

In [26]:
# Después de haber sido correctamente entrenada, la red debe producir salidas
# cercanas a las deseadas.  Dado que la función de activación es la sigmoide
# nunca llegará a 0 o 1 exactamente.

xor.feed_forward(X)
xor.print_output()

print("\nTheta_0 = ", xor.Theta_0, "\n\nTheta_1", xor.Theta_1)

[[0.05892096]
 [0.89913479]
 [0.89957951]
 [0.15600779]]

Theta_0 =  [[-2.19489735  7.04923466  5.85083934]
 [-3.86893627  2.71295782  2.61330407]] 

Theta_1 [[-3.35691541  7.25401578 -6.88572878]]


In [27]:
c = count_correct(xor, X, Y)

H =  [[0.]
 [1.]
 [1.]
 [0.]]
Y =  [[0]
 [1]
 [1]
 [0]]
Se calcularon correctamente  4 entradas.


## Regularización

In [28]:
xor_reg = Multicapa(2, 2, 1)

In [29]:
c = count_correct(xor_reg, X, Y)

H =  [[1.]
 [1.]
 [1.]
 [1.]]
Y =  [[0]
 [1]
 [1]
 [0]]
Se calcularon correctamente  2 entradas.


In [30]:
xor.gradient_descent(X, Y, 0.3, 1, check_gradient = True, lambda_r = 0.15)

Gradiente real:
[[0.00375241 0.26295504 0.21492177]
 [0.01826393 0.09206924 0.08681811]]
[[ 0.00341076  0.26301063 -0.23787942]]
Gradiente aproximado:
[[0.00375241 0.26295504 0.21492177]
 [0.01826393 0.09206924 0.08681811]]
[[ 0.00341076  0.26301063 -0.23787942]]


In [31]:
@interact_manual(ciclos = (50, 2000))
def train_XOR_reg(ciclos):
    # Prueba diferentes valores de lambda_r ¿qué tanto lo puedes incrementar si matar a la red?
    xor_reg.gradient_descent(X, Y, 0.3, ciclos, lambda_r = 0.005)

interactive(children=(IntSlider(value=1025, description='ciclos', max=2000, min=50), Button(description='Run I…

In [32]:
xor_reg.feed_forward(X)
xor_reg.print_output()
print("Theta_0 = ", xor_reg.Theta_0, "\nTheta_1", xor_reg.Theta_1)

[[0.08253996]
 [0.8792507 ]
 [0.87926819]
 [0.19441896]]
Theta_0 =  [[ 1.79599249 -5.06405617 -5.06190722]
 [ 4.51063507 -3.06432118 -3.0639362 ]] 
Theta_1 [[-2.35760253 -6.59180485  5.66438919]]


In [33]:
c = count_correct(xor_reg, X, Y)

H =  [[0.]
 [1.]
 [1.]
 [0.]]
Y =  [[0]
 [1]
 [1]
 [0]]
Se calcularon correctamente  4 entradas.


In [34]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read() #or edit path to custom.css
    return HTML(styles)
css_styling()