# Reversión de redes neuronales

## Resúmen

Las redes neuronales artificiales alimentadas hacia adelante (*feed-forward*) son un modelo de cómputo utilizado en el área de aprendizaje máquna para hacer regresión o clasificación de datos. En este trabajo se explora la posibilidad de revertir el proceso de una red neuronal de este tipo y se presenta la reversión de una red con una sola neurona, de tal manera que al alimentarle una valor de salida la neurona pueda computar un entrada que al ser alimentada hacia adelante, resulte en la salida dada.

## Introducción

En este trabajo se presentan los resultados de una exploración en progreso sobre la reversión de redes neuronales artificiales. La bibliografía y videografía consiste en el material del telecurso *Learning from Data* de Yaser Abu-Mostafa disponible en `https://work.caltech.edu/telecourse.html`.

Se comienza la exploración con las redes neuronales hacia adelante y se aborda el problema de revertir sólo una neurona.

### Revirtiendo una red neuronal

La red neuronal que se explorará será alimentada hacia adelante con la función logística como función de transformación y la red habrá sido entrenada previamente.

Debido a que la red neuronal ya ha sido entrenada, el proceso de reversión no debe de ajustar los pesos $w^{l}_{i,j}$ ya que las entradas generadas a partir de una salida dada deben de respetar el hecho de que si son alimentadas hacia adelante, la red dará como resultado la salida dada.

El proceso de alimentación hacia adelante puede dividirse en procesos de alimentación capa a capa, es decir, las salidas de las neuronas de la capa $i$ son la entrada del proceso que realizan las neuronas en la capa $i+1$. Esto significa que para el proceso revertido, las salidas de las neuronas en la capa $i+1$ son la entrada del proceso que realizan las neuronas revertidas de la capa $i$.

El proceso de una capa en una red neuronal no revertida consiste en distribuír una ponderación de las entradas de la capa en las neuronas, cada neurona va a reducir las ponderaciones correspondiente en un solo valor el cual será evaluado en la función de transformación de la neurona.

En el tipo de redes que abordamos, la ponderación y agregación de cada neurona corresponden a la operación de producto punto entre vectores y la función de transformación corresponde a la función logística

$$\theta (s) = \frac{1}{1+\exp{(-s)}}$$

Debido a que la salida de una capa depende de la salida de las neuronas en esta capa y la salida de una neurona es independiente a la salida de el resto de las neuronas en la misma capa:

**Hipótesis (1):** Si se puede revertir una neurona en una red neuronal alimentada hacia adelante y todas las neuronas tienen el mismo mecanismo de agregación y transformación, entonces todas las neuronas en la red neuronal podrán ser revertidas.

**Hipótesis (2):** Si el proceso de cada neurona es independiente del resto de las neuronas y el proceso de la red neuronal consiste únicamente en comunicar capas de neuronas de manera secuencial y la hipótesis (1) es cierta, entonces la red neuronal podrá ser revertida.

Debido a que las salidas de una red neuronal de este tipo son valores producidos por una función logística $\theta$ y esta tiene las siguientes propiedades:

- $\theta : \mathbb{R} \to [0,1]$
- $\theta$ es monotonamente creciente
- $\lim_{x \to \infty}  \theta (x) = 1$
- $\lim_{x \to -\infty} \theta (x) = 0$

las salidas de una capa serán valores en el intervalo cerrado $[0,1]$.

Debido a que las salidas de una capa serán valores entre 0 y 1. Las entradas antes de ser ponderadas también lo serán. Esto implica que las entradas de la primer capa de la red neuronal deben cumplir esta restricción, es por ello que se debe asegurar que la red neuronal haya sido entrenada con datos normalizados entre 0 y 1.

### Reversión de una neurona

Consideremos ahora un ánalisis sobre el proceso que realiza una sola neurona.

![caption](neurona.png)

La capa en la que yace la neurona recibe $d^{l}$ valores de la capa $l-1$ y estos valores junto con un valor $1$ son representados con el vector $\mathbf{x}^{T}$ (es un vector renglón), cada una de las entradas tiene asociado un peso, estos y el *bias* se representan con el vector $\mathbf{w}$ (es un vector columna). Las entradas y los pesos forman una combinación lineal de entradas la cual se calcula como el producto punto $\mathbf{x}^{T} \cdot \mathbf{w}$. El resultado del producto se evalúa en la función $\theta$ para obtener la salida de la neurona $y$.

**(a)** Cuando la red neuronal es alimentada hacia adelante $\mathbf{x}^{T}$ es dado, $\mathbf{w}$ se conoce y es parte de la red neuronal y $y$ se calcula.

**(b)** Si se quiere revertir el proceso de la neurona, debemos de considerar el problema con $y$ dada y $\mathcal{x}^{T}$ desconocida (a excepción de la primera entrada del vector, que se sabe de antemano es $1$).

En caso de **(a)**:
$$\theta \left( \sum^{n}_{i=0} w_{i} \cdot x_{i} \right) = y$$

En caso de **(b)**:
$$\theta^{-1} \left( y \right) = \sum^{n}_{i=0} w_{i} \cdot x_{i}$$

Ya que $\theta$ tiene inversa el valor de $\theta^{-1} \left( y \right)$ se conoce cuando $y$ es dada. La función logística inversa es llamada *logit* y se define como

$$\theta^{-1}(y) = -\log{\left( \frac{1}{y} - 1 \right) }$$

**Hipótesis (3):** Una red neuronal alimentada hacia adelante puede ser revertida siempre y cuando la función de transformación tenga inversa.

Esto hace que el problema a resolver sea el de encontrar la familia de soluciones a una ecuación lineal con $n$ incógnitas y la restricción para todos los valores de la solución
$$0 \leq x_i \leq 1$$

Ya que esta es una ecuación lineal es posible que se tenga una conjunto de soluciones, sin embargo, debido a la restricción de resultados en el intervalo $[0,1]$ es posible también que se tenga una ecuación sin solución.

**Hipótesis (4):** Al revertir una red neuronal alimentada hacia adelante, todas las ecuaciones lineales que se presenten hasta la primer capa (en donde se encuentran las entradas de la red) van a tener al menos una solución.

**Hipótesis (5):** Si se asegura que las entradas de la red neuronal fueron normalizadas y tienen valores en el intervalo $[0,1]$, todas las ecuaciones lineales que se presenten al revertir la red neuronal van a tener al menos una solución.

Algo que es importante enfatizar es que de momento solo nos interesa generar un solo elemento de la familia de soluciones y este elemento debe de ser elegido de manera aleatoria, para que cada vez que alimentemos hacia atrás una red neuronal, podamos obtener entradas diferentes.

## Algoritmo 

Sea $y$ un número real en el intervalo $[0,1]$.

Sea $\mathbf{w}$ un vector de dimensión $n+1$ tal que $w_{i} \in \mathbb{R}$ $\forall i \in \left\{ 0, 1, \dots , n-1, n \right\}$.

Por definición $x_0 = 1$

Para cada entrada $i$ del vector de entradas $\mathbf{x}$ se encuentra el intervalo en el que puede estar $x_i$ despejando de la ecuación lineal y se elige un valor en el intervalo para $x_i$:
1. Se obtiene una cota asignando valores a las $x_j$ con $j>i$ tal que la sumatoria de productos sea mínima.
2. Se obtiene otra cota asignando valores a las $x_j$ con $j>i$ tal que la sumatoria de productos sea máxima.
3. Se identifica la cota inferior $lo$ y la cota superior $hi$.
4. Se elige un valor de manera aleatoria en el intervalo $[lo,hi] \cap [0,1]$.
5. Ahora $x_i$ es conocida y se puede proceder a encontrar los valores de $x_j$ con $j>i$.


## Implementación

### Función de transformación

In [1]:
function logistic(s)
    1.0 / (1 + exp(-s))
end

function logit(y)
    -log(1/y - 1)
end
;

### Alimentación hacia adelante

In [2]:
function sendInput(xs, ws)
    logistic((xs*ws)[1])
end
;

### Alimentación hacia atrás

Ya que se conoce $\theta^{-1}$, $y$, $w_0$ y $x_0$ podemos evitar el calculo redundante en los despejes de variables utilizando $\delta = \theta^{-1}(y) - w_0$

In [3]:
function sendOutput(y, ws)
    xs = zeros(1, size(ws)[1])
    δ  = logit(y) - ws[1]
    
    xs[1] = 1.0
    
    negWeight = 0.0 # the sum of all the negative weight
    posWeight = 0.0 # the sum of all the possitive weight
    for w in ws[2:end]
        w < 0.0 ? negWeight += w : posWeight += w
    end
    
    knownVals = 0.0
    for i in eachindex(ws)[2:end]
        w = ws[i]
        w < 0.0 ? negWeight-=w : posWeight-=w
        divCoef = 1.0/w
        boundA = (δ - negWeight - knownVals)*divCoef
        boundB = (δ - posWeight - knownVals)*divCoef
        lo, hi = validInterval(boundA, boundB)
        x = randInterval(lo, hi)
        xs[i] = x
        knownVals += x*w
    end
    
    xs
end
;

La función `validInterval` ordena las cotas de una variable e intersecta este intervalo con $[0,1]$.

In [4]:
function validInterval(a,b)
    lo = min(a, b)
    hi = max(a, b)
    (lo>0.0?lo:0.0, hi<1.0?hi:1.0)
end
;

La función `randInterval` regresa un número aleatorio en el intervalo dado

In [5]:
function randInterval(lo, hi)
    rand()*(hi-lo)+lo
end
;

#### Pruebas

In [6]:
function sendInputBig(xs, ws)
    sendInput(Array{BigFloat,2}(xs), Array{BigFloat,1}(ws))
end
function sendOutputBig(y, ws)
    sendOutput(BigFloat(y), Array{BigFloat, 1}(ws))
end
;

In [7]:
function floatTest(n, wlo, whi, r)
    times  = zeros(r)
    errors = zeros(r)
    
    for i in 1:r
        xs = rand(n)'
        ws = (whi-wlo)*rand(n)+wlo
        y  = sendInput(xs, ws)
        
        tic()
        new_xs = sendOutput(y, ws)
        time = toq();
        times[i] = time
        
        new_y = sendInput(new_xs, ws)
        err = abs(y-new_y)
        errors[i] = err
    end
    
    println("===================================================")
    println("elapsed time mean     = $(mean(times))")
    println("elapsed time variance = $(var(times))")
    println("---------------------------------------------------")
    println("error mean     = $(mean(errors))")
    println("error variance = $(var(errors))")
    println("===================================================")
end
;

In [8]:
floatTest(10,-10, 10, 2000)

elapsed time mean     = 7.495880000000001e-7
elapsed time variance = 8.841347799499749e-14
---------------------------------------------------
error mean     = NaN
error variance = NaN


In [9]:
function gmpTest(n, wlo, whi, r)
    times  = Array{BigFloat,1}(zeros(r))
    errors = Array{BigFloat,1}(zeros(r))
    
    for i in 1:r
        xs = Array{BigFloat,2}(rand(n)')
        ws = Array{BigFloat,1}((whi-wlo)*rand(n)+wlo)
        y  = sendInputBig(xs, ws)
        
        tic()
        new_xs = sendOutputBig(y, ws)
        time = toq();
        times[i] = time
        
        new_y = sendInputBig(new_xs, ws)
        err = abs(y-new_y)
        errors[i] = err
    end
    
    println("===================================================")
    println("elapsed time mean     = $(mean(times))")
    println("elapsed time variance = $(var(times))")
    println("---------------------------------------------------")
    println("error mean     = $(mean(errors))")
    println("error variance = $(var(errors))")
    println("===================================================")
end
;

In [10]:
gmpTest(1000, -1, 1, 2000)

elapsed time mean     = 3.908829886500000006660515694534296926576644182205200195312499999999999999999987e-03
elapsed time variance = 8.169388588053804624644775304591166658881801573245043344027311876579042117536044e-06
---------------------------------------------------
error mean     = 1.757913061892069497885299027963529259237399072767087986471973939701434247028553e-18
error variance = 2.067252161607890105223830804867468600629805912180240145356669772000356454485367e-35


### Mejoras a la implementación

La reversión de la red neuronal se realiza después de haber ajustado los pesos, por lo tanto, en una implementación completa de las redes neuronales alimentadas hacia adelante se pudieran computar una sola vez los valores de $\delta$, `negWeight` y `posWeight`. El algoritmo entonces se dividiría en dos partes, una para encontrar estos valores teniendo los pesos fijos y otra para calcular los valores de entrada de la red dado un valor de salida.

La complejidad del algoritmo no cambia, pero sería un cambio deseable si consideramos que el cómputo se realizará por vada variable de entrada en cada neurona.

### Trabajo futuro

A pesar de plantearse como observaciones generales de las redes neuronales alimentadas hacia adelante, algunas hipótesis planteadas sólo pueden ser argumentadas analizando el caso particular del proceso de una neurona.

Una observación que se deja pendiente para el siguiente trabajo es la siguiente:

Existe una dependencia entre el proceso revertido de las neuronas de una misma capa al momento de generar valores para $\mathbf{x}$ ya que este mismo vector se propaga hacia adelante a todas las neuronas de la capa pero con diferentes pesos.

Si hay $m$ neuronas en una capa y el vector de entrada de la capa tiene dimensión $n$, entonces se busca generar valores aleatorios en la familia de soluciones de un sistema de $m$ ecuaciones, cada una con $n$ incógnitas. Por lo tanto, el algoritmo deberá ser modificado para que satisfaga todas ellas.

### Prototipo

```scheme
(import (scheme base)
	    (srfi 27))


;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;
;; NEURAL NETWORK PROCEDURES ;;
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;

;;; ANN function
(define (sigmoid t)
  (/ 1 (+ 1 (exp (- t)))))

;;; ANN inverse function
(define (logit p)
  (- (log (- (/ 1 p) 1))))

;;; f and g are aliases for sigmoid and logit respectively
(define f sigmoid)
(define g logit)

;;; !! it is necessary that f^{-1} = g

;;; this is forward propagation for one neuron
(define (send-input f xs ws)
  (f (apply + (map * xs ws))))

;;; this is backward propagation for one neuron
(define (send-output g y ws)
  (define (get-random-solution s w0 wrest)
    (define (loop known-xs known-ws unknown-ws)
      (if (no-more? unknown-ws)
	  '()
	  (let* ((w  (first unknown-ws))
		 (ks (map * known-xs known-ws))
		 (+s (map cut-neg unknown-ws))
		 (-s (map cut-pos unknown-ws))
		 (ba (/ (apply - `(,s ,w0 ,@ks ,@+s)) w))
		 (bb (/ (apply - `(,s ,w0 ,@ks ,@-s)) w))
		 (in (interval-cut ba bb))
		 (x (random-value in)))
	    (cons x (loop (cons x known-xs)
			  (cons w known-ws)
			  (rest unknown-ws))))))
    (loop '() '() wrest))
  (cons 1 (get-random-solution (g y) (car ws) (cdr ws))))


;;;;;;;;;;;;;;;;;;;;;;;;;;
;; AUXILIARY PROCEDURES ;;
;;;;;;;;;;;;;;;;;;;;;;;;;;

(define (unitary-intersect lo hi)
  (cons (if (> lo 0) lo 0)
	(if (< hi 1) hi 1)))

(define (random-value interval)
  (let ((lo (car interval))
	(hi (cdr interval)))
    (+ lo (* (random-real) (- hi lo)))))

(define (no-more? xs)
  (null? xs))

(define (first xs)
  (car xs))

(define (rest xs)
  (cdr xs))

(define (cut-neg w)
  (if (< w 0) 0 w))

(define (cut-pos w)
  (if (< w 0) w 0))

(define (interval-cut a b)
  (unitary-intersect (min a b) (max a b)))
```