# Redes Neuronales
### Aprendizaje Automático - Instituto de Computación - UdelaR

## Redes Neuronales

Supongamos que tenemos una tarea de aprendizaje supervisada donde, a partir de un vector $x^T = (x_1, x_2, \ldots, x_n)$ con $n$ atributos se busca construir una función (hipótesis) $h_{\theta}(x): \mathbb{R}^{n} \to \mathbb{R}$ que prediga la salida $y \in \mathbb{R}$, a partir de un conjunto de entrenamiento. El problema de aprendizaje para las redes neuronales consiste en aprender los parámetros $\theta$ a partir de un conjunto de entrenamiento $\{(x^{(i)},y^{(i)})\}$ que tiene $m$ elementos y donde cada $(x^{(i)},y^{(i)})$ es una _instancia_ de entrenamiento.  

Si la función de hipótesis $h_{\theta}(x)$ no es lineal, sabemos que podemos utilizar atributos no lineales, resultado de la combinación de atributos de entrada, y aplicar regresión logística, por ejemplo. El problema con esta aproximación es que el número de parámetros crecerá exponencialmente con la cantidad de atributos, lo que vuelve computacionalmente imposible el problema cuando el número de atributos es muy grande. Las redes neuronales permiten aprender hipótesis complejas de forma eficiente.

## Unidad sigmoide

<img src="https://github.com/pln-fing-udelar/curso_aa/raw/master/img/logistic%20unit.png"  alt="Drawing" width=500/>

Dado un vector de entrada  $x^T = (x_1, x_2, \ldots, x_n)$, la red neuronal más simple que puede construirse 
está compuesta por una primera capa de neuronas con los atributos de entrada (a lo que llamaremos _capa de entrada_, y denotaremos también como $a^{(1)})$, y una segunda capa compuesta por una sola neurona (o _unidad sigmoide_), que calcula la combinación lineal de las entradas y le aplica la función sigmoide (llamada _función de activación_), para obtener una salida real. 

## Unidad sigmoide



$$ x \in  \mathbb{R}^{n} = a^{(1)} = \left[ \begin{array}{c} x_1\\\vdots\\x_n \end{array}\right]$$

Para esta red de una sola neurona, nuestra función de hipótesis será:

$$ h_\theta(x) =  a^{(2)} \in \mathbb{R} = g(w_{1}^{(2)} \cdot a^{(1)}_1 + w_{2}^{(2)} \cdot a^{(1)}_2 + w_{3}^{(2)} \cdot a^{(1)}_3 + b^{(2)} ) $$

$$ h_\theta(x) =  a^{(2)} \in \mathbb{R} = g(z^{(2)}) = g(w^{(2)}\cdot x + b^{(2)} ) $$



siendo $ w^{(2)} = (w_1^{(2)} \ldots w_n^{(2)}) $ el conjunto de parámetros para la combinación lineal calculados por la neurona de la capa 2 (también llamados _pesos_), $b^{(2)}$ un término independiente de sesgo, y $g(z)$ la _función de activación_ (en nuestro ejemplo, la función logística). Obsérvese que hemos extendido la definición de $g$ para que reciba un vector y calcule el resultado para cada uno de sus elementos.

## Redes Neuronales

Algunas observaciones:

* Tanto en las neuronas como en los parámetros, el superíndice indica la capa a la que pertenece. Los parámetros con superíndice $i$ multiplican a los valores obtenidos en la capa $i-1$ y el resultado sirve de entrada a la capa $i$
* El valor de salida de cada neurona $a^{(j)}$ se conoce como _activación_. El valor intermedio $z^{(j)}= w^{(j)}\cdot x + b^{(j)}$ es conocido también como entrada ponderada de la neurona (y veremos más adelante la utilidad de identificarla por separado)
* En este curso seguiremos la terminología usual en redes neuronales, llamando $w$ a los parámetros (en lugar de $\theta$, como hicimos en el módulo de regresión logística). Pero son exactamente los mismos, al igual que el término de sesgo.
* Una forma alternativa de presentar la combinación lineal, es definir un parámetro adicional $w_0$ y agregar a $x$ (y a todas las entradas de las neuronas), un valor dummy $1$ al principio, permitiendo incluir el sesgo dentro del producto de los vectores. 

## Redes Neuronales

Las redes neuronales _feedforward_ son una generalización del ejemplo anterior: en cada una de las capas puede haber más de una neurona (que recibe como entrada los resultados de la capa anterior), y pueden introducirse capas intermedias (también llamadas _capas ocultas_).

Por lo tanto, generalizando el caso anterior tendremos: 

$$ a^{(1)} \in  \mathbb{R}^{n} =  x = \left[ \begin{array}{l} x_1\\\vdots\\x_n \end{array}\right] ,\ \ \ \  \ \ \  a^{(j)} \in  \mathbb{R}^{S_j} =  \left[ \begin{array}{l} a^{(j)}_1\\\vdots\\a^{(j)}_{s_j} \end{array}\right] = g(W^{(j)} \cdot a^{(j-1)} + b^{(j)})$$

siendo $S_j$ el número de neuronas en la capa $j$, y $W^{(j)}$ la matriz de pesos que define el mapeo desde la capa $j-1$ a la capa $j$. 

<img src="https://github.com/pln-fing-udelar/curso_aa/raw/master/img/nn_2.png"  alt="Drawing" width="400"/>

## Redes Neuronales

La matriz $W^{(j)}$ tiene en su fila $i$ los pesos asociados a la combinación lineal de las entradas de la unidad $i$ de la capa $j$, que son resultados de la activación de las unidades en la capa $j-1$:

$$ W^{(j)}= \left ( \begin{array} {cccc} 
w^{(j)}_{11} & w^{(j)}_{12} & \cdots & w^{(j)}_{1s_{j-1}}\\
w^{(j)}_{21} & w^{(j)}_{22} & \cdots & w^{(j)}_{2s_{j-1}}\\
\vdots & \ddots & \vdots & \vdots \\
w^{(j)}_{s_{j}1} & w^{(j)}_{s_{j}2} & \cdots & w^{(j)}_{s_{j}s_{j-1}}\\
\end{array}\right )$$

Podemos observar que $W^{(j)} \in  \mathbb{R}^{s_{j}} \times \mathbb{R}^{s_{j-1}}$: tiene tantas filas como neuronas hay en la capa $j$, y tantas columnas como neuronas hay en la capa $j-1$. Cada valor $w^{(j)}_{ik}$ de la matriz debe leerse como el peso asociado a la i-ésima neurona de la capa $j$, correspondiente a la entrada proveniente de la k-ésima neurona de la capa $j-1$.

De forma similar, el vector de sesgo $b^{(j)} \in \mathbb{R}^{s_j}$ incluye un componente por cada neurona de la capa correspondiente:

$$ b^{(j)}=  (b^{(j)}_{1}, b^{(j)}_{2}, \cdots b^{(j)}_{s_{j}})^T $$

Ejercicio: verificar las dimensiones de $ a^{(j)}$.

## Redes Neuronales

Supongamos que tenemos una red con dos entradas, y tres unidades en la primera capa oculta. Nuestra matriz de pesos $W^{(2)}$ lucirá así (eliminamos el supraíndice en los componentes para que se vea mejor):

$$ W^{(2)} \in \mathbb{R^{3 \times 2}}= \left ( \begin{array} {cc} 
w_{11} & w_{12}\\
w_{21} & w_{22}\\
w_{31} & w_{32}
\end{array}\right )  \;\;
, \;\; b^{(2)} \in \mathbb{R^{3 \times 1}} =  \left ( \begin{array} {c} 
b_{1}\\
b_{2}\\
b_{3}
\end{array}\right )  $$

Si queremos obtener *todos* los valores de $z^{(2)}$:

$$ z^{(2)} \in \mathbb{R^{3 \times 1}} = W^{(2)} \cdot a^{(1)} + b^{(2)} $$
 

### Forward propagation (Propagación hacia adelante)

El proceso de calcular los valores de salida de cada capa, y utilizarlo como entrada para la siguiente, hasta obtener el valor final de $h_\theta(x)$ es conocido como _forward propagation_. Veremos algunos ejemplos 



### Forward propagation (Propagación hacia adelante)

Supongamos que tenemos una red neuronal con dos valores de entrada (que supondremos binarios) y queremos construir una red que calcule el OR lógico de ambos valores. Para ello, definiremos una arquitectura con dos entradas, y una sola neurona, que nos dará la salida necesaria. Comprobaremos que utilizando $W^{(2)} \in \mathbb{R}^{1 \times 2} = ( 20\  20)$ y $b^{(2)} \in \mathbb{R}^{1 \times 1}=(-10)$ estaremos computando la función que queremos. 




Primero calculamos el resultado de la red para la entrada $x=(0,0)^T$: 

$$ x \in  \mathbb{R}^{2 \times 1} = a^{(1)} = \left[ \begin{array}{c} 0\\0\\ \end{array}\right]$$

$$ a^{(2)} \in  \mathbb{R}^{1 \times 1} = g(W^{(2)}\cdot x + b^{(2)}) = g (20 \times 0+20 \times 0-10) = g(-10) \approx 0$$

Es decir que cuando $x_1=0$ y $x_2=0$, entonces $h(x) \approx 0$, lo cual corresponde a la definición de OR lógico. Análogamente, se puede ver que en las otras combinaciones de la entrada, se obtienen los valores adecuados para la función. 


### Forward propagation (Propagación hacia adelante)

Para ver un caso más interesante, construiremos una red neuronal para calcular la función XNOR, que devuelve $1$ si ambas entradas valen $1$, o ambas entradas valen $0$. Esta función puede escribirse como OR(AND $(x_1,x_2)$ ,NOR $(x_1,x_2)$ ) (comprobarlo), y a partir de esto construiremos una red neuronal de tres capas: las dos neuronas de la primera capa corresponden a las entradas $x_1, x_2$, la segunda capa (oculta), tiene dos neuronas: una computa la función AND y la otra la función NOR. Finalmente, la tercera capa (de salida) tiene una sola neurona que computa el OR de los resultados de las neuronas de la capa 2, para obtener el resultado. 


### Forward propagation (Propagación hacia adelante)

- La entrada será igual que en el caso anterior: $ x \in  \mathbb{R}^{2 \times 1} = a^{(1)} $

- En la capa 2, tendremos los parámetros correspondientes a la función AND en la primera fila (verifíquelo en cada caso), y a los de NOR en la segunda, lo que nos da la siguiente matriz de parámetros y sesgo

$$W^{(2)} \in  \mathbb{R}^{2 \times 2}  = \left [ \begin{array}{rr} 20&20\\ -20&-20\\ \end{array}\right], b^{(2)}  \in \mathbb{R}^{2 \times 1}=\left [ \begin{array}{r} -30\\10\\\end{array}\right]$$


- En la capa 3, hay una sola neurona que calcula el OR de sus entradas:

$$W^{(3)}  \in  \mathbb{R}^{1 \times 2} = \left [ \begin{array}{rr} 20&20 \end{array}\right], b^{(3)}  \in  \mathbb{R}^{1 \times 1}=\left [ \begin{array}{r} -10\\\end{array}\right]$$


- Podemos comprobar mediante forward propagation que nuestra red se comporta como esperamos. Supongamos que las dos entradas son 0: 

$$ x \in  \mathbb{R}^{2 \times 1} = a^{(1)} = (0,0)^T$$
- Obtenemos los valores de activación de la segunda capa: 

$$ a^{(2)} \in  \mathbb{R}^{2 \times 1} = g(W^{(2)}\cdot a^{(1)} + b^{(2)})  = g ((-30\  20)^T) \approx (0\  1)^T$$

- El primer valor de $ a^{(2)}$ es $0$, equivalente al AND de las entradas, y el segundo es 1, el NOR de las entradas. 

- Con estos valores de salida como entrada para la ùnica neurona de salida, calculamos la activación: 

$$ a^{(3)} \in  \mathbb{R^{1 \times 1}} =  g(W^{(3)}\cdot a^{(2)} + b^{(3)})  = g ((10)) \approx (1)$$

- Por lo tanto, nuestra funciòn devuelve $1$ cuando las dos entradas son 0.

**Ejercicio: repita el proceso, complete la tabla de valores, y verifique que la red computa la función XNOR. Verifique que las matrices tienen las dimensiones correctas.**

### Aprendizaje en Redes Neuronales

Al igual que en los métodos anteriores, es importante entender cómo funciona el aprendizaje en redes neuronales. En este caso, lo que intentaremos aprender a partir de los datos de entrenamiento será las matrices de pesos $W^{(j)}$ y $b^{(j)}$ de las diferentes capas. 

Fijemos algunas definiciones:

* $L$ es el número de capas de la red neuronal
* $s_l$ es el número de neuronas de la capa $l$
* $K$ es el número de neuronas en la capa de salida (por lo tanto, $h_\Theta(x) \in \mathbb{R}^K$)


### Aprendizaje en Redes Neuronales


Una función de costo para redes neuronales que podemos utilizar es una generalización de la función de mínimos cuadrados, que utilizamos para la regresión lineal, pero sumando en todas las unidades de la capa de salida:

$$J(W,b) = - \frac{1}{2m} \sum_{i=1}^m \sum_{k=1}^{k=K} (y^{(i)} - a^{(L)}_k)^2 $$


Estas función no es la única posible. De hecho, basta con suponer que la función de costo puede escribirse como un promedio de los costos de los ejemplos de entrenamiento, y que puede ser escrita como función de las salidas de la red. A partir de la primera propiedad, eliminaremos los supraíndices en los cálculos y supondremos que estamos calculando el costo para un ejemplo dado. 





Lectura recomendada:  [A list of cost functions used in neural networks, alongside applications](https://stats.stackexchange.com/questions/154879/a-list-of-cost-functions-used-in-neural-networks-alongside-applications)


### Aprendizaje en Redes Neuronales

Para aprender los pesos de las redes neuronales, aplicaremos exactamente el mismo procedimiento que utilizamos para la regresión: intentaremos minimizar la función de costo, utilizando descenso por gradiente. Recordemos que la regla de actualización (o _regla delta_) en el descenso por gradiente es la siguiente:

$$ w_{ji} = w_{ji} - \alpha \frac{\partial J}{\partial w_{ji}} $$

donde los $w_{ji}$ son los pesos asociados a la función $J$ que queremos minimizar. 


<img src="http://neuralnetworksanddeeplearning.com/images/tikz19.png" alt="Chain rule" width="400"/>


Es decir, necesitaremos calcular las derivadas parciales de $J$ respecto a cada uno de los pesos de la red (incluidos los sesgos!). Esto es sencillo en el caso de las neuronas de salida, pero un poco más complejo en el caso de las unidades ocultas (porque no podemos calcular directamente el error cometido por la neurona).  El algoritmo de backpropagation, precisamente, permite calcular de forma eficiente estas derivadas.

### Repaso (del liceo): la regla de la cadena

<img src="https://mathsathome.com/wp-content/uploads/2021/10/the-chain-rule-of-differentiation-1.png" alt="Chain rule" width="300"/>


<img src="https://mathsathome.com/wp-content/uploads/2021/10/the-chain-rule-function-notation.png" alt="Chain rule" width="300"/>

Ejercicio: Derivar $sen(x^2)$ respecto a $x$.


### Repaso (de primer año): la regla de la cadena para varias variables

<img src="https://cdn.kastatic.org/ka-perseus-images/1a2d653890943942ad2a020548a2074eb9f3b2a8.svg" alt="Chain rule" width="400"/>


Ejercicio: Derivar $sen(x^2+y^2)$ respecto a $x$.


### Backpropagation

Aplicando la regla de la cadena, podemos ver a la derivada parcial de $J$ respecto a cualquiera de los pesos como: 

$$ \frac{\partial J}{\partial w^{(l)}_{ji}} =  \frac{\partial J}{\partial z^{(l)}_{j}} \frac{\partial z^{(l)}_j}{ \partial w^{(l)}_{ji}}$$


Al segundo componente ya lo calculamos en la regresión lineal: 

$$  \frac{\partial z^{(l)}_j}{ w^{(l)}_{ji}} = \frac {\partial (w_{j1}^{(l)}a_1^{(l-1)} + \ldots + w_{js_{l-1}}^{(l)}a_{s_{l-1}}^{(l-1)})     }{ w^{(l)}_{ji}} = a^{(l-1)}_i$$

Esto es: el crecimiento de la función de costo respecto a un peso, depende de la activación de la neurona "origen".  



### Backpropagation


Al primer componente (que generaliza la idea del "error" cometido por la neurona respecto al valor de la instancia de entrenamiento correspondiente), lo llamaremos $\delta^{(l)}_j$. 

$$\delta^{(l)}_j = \frac{\partial J  } {\partial z^{(l)}_j}  $$ 

Entonces, tendremos: 

$$\frac{\partial J}{\partial w^{(l)}_{ji}} =a^{(l-1)}_i  \cdot \delta^{(l)}_j$$ 

Obtenidos estos valores, ya podemos aplicar descenso por gradiente para buscar el mínimo de la función de costo. Para cada parámetro, tendremos: $w^{(l)}_{ji} \leftarrow w^{(l)}_{ji} - \alpha \delta^{(l+1)}_j a^{(l)}_{i}$

Esta ecuación es maravillosa. Lo que dice es que, para un peso que va de $i$ a $j$, la función de costo va a aumentar de acuerdo a dos factores: al valor de activación de la neurona origen (lo que tiene sentido, porque es la única que modifica al peso), y al impacto de la neurona destino en la función final, que se mide por $z$. Intuitivamente, si incrementamos en $\Delta z^{(l)}_j$ el valor de la combinación lineal de la entrada, la salida de la neurona será  $g(z^{(l)}_j+\Delta z^{(l)}_j)$. Este valor se propagará por la red, para llegar a un cambio final de $\frac{\partial J}{\partial z^{(l)}_j}  \Delta z^{(l)}_j$. En caso de que esta derivada final tenga un valor grande, y modifiquemos el valor $\Delta z^{(l)}_j$ con signo opuesto, podremos reducir el valor de la función de costo (utilizando descenso por gradiente). Si es el valor de la derivada es cercano a 0, entonces ese parámetro no modifica mucho el costo, por lo que no aporta al costo final (y por lo tanto, es razonable no modificarlo demasiado).

### Backpropagation - Neuronas de salida

Veamos ahora cómo calcular el "error" de cada unidad. Puede calcularse directamente para las neuronas de salida, utilizando nuevamente la regla de la cadena:

$$\delta^{(L)}_j = \frac{\partial J  } {\partial z^{(L)}_j} = \frac{\partial J} {\partial a^{(L)}_j} \frac{\partial a^{(L)}_j}{\partial z^{(L)}_j} =  \frac{\partial J} {\partial a^{(L)}_j} g'(z^{L}_j) $$ 

En el caso en que J sea la función de mínimos cuadrados tenemos:

$$ \frac{\partial J} {\partial a^{(L)}_j} = \frac{\partial \frac{1}{2} \Sigma_j (y_j - a^{(L)}_j)^2}{\partial a^{(L)}_j} = (y_j - a^{(L)}_j)\times (-1) = (a^{(L)}_j - y_j)$$

Y, para la sigmoide, además $\sigma'(x) = \sigma(x)(1 - \sigma(x)$, por lo que:  

$$\delta^{(L)}_j = {(a^{(L)}_j - y_j}) \sigma(z^{L}_j)(1-\sigma(z^{L}_j)) $$ 

O, en formato vectorial: 

$$ \delta^{(L)} = (a^{(L)}-y) \odot g'(z^{(L)})$$

siendo $y$ el valor objetivo de la instancia de entrenamiento, y donde $\odot$ representa al producto de Hadamard (es decir el producto componente a componente de los vectores involucrados). 

### Backpropagation - Neuronas de salida

$$ \delta^{(L)} = (a^{(L)}-y) \odot g'(z^{(L)})$$


El primer factor está relacionado a la derivada de la función de costo respecto a cada uno de los valores de activación de la capa de salida (y por lo tanto mide qué tanto cambia el costo como función del valor de activación), y el segundo a la derivada de la función de activación (es decir, cómo está cambiando la función de activación respecto a su entrada). 

### Backpropagation - Unidades ocultas

En el caso de las unidades ocultas, no contamos con el valor "correcto", y por lo tanto no podemos calcular directamente el error, sino que debemos hacerlo a partir de los errores de la capa siguiente. Es decir, "propagaremos hacia atrás" el error, intentando calcular cómo afecta el valor de salida de cada neurona a las entradas de la capa siguiente. 

Esto nos lleva a que, si $output(j)$ son los valores de salida de una neurona, entonces:

$$\delta^{(l)}_j = \sum_{k \in output(j)} \delta^{(l+1)}_{k} w^{(l+1)}_{kj} g'(z^{(l)}_j) $$ 


Utilizando notación vectorial: 
$$ \delta^{(l)} = (W^{(l+1)})^T \delta^{(l+1)} \odot g'(z^{(l)}) $$

siendo $g'(z^{(l)})$  la derivada de $g$ evaluada en cada uno de los elementos de $z^{(l)}$ 




### Backpropagation - Unidades ocultas

Esta igualdad nos dice que el error de una unidad de cierta capa puede calcularse a partir del error de las unidades de las capas siguientes, ponderado por sus pesos, y ponderado por el crecimiento de la función de activación de la unidad. Esto permite "llevar hacia atrás" el error. 

Para derivar esta igualdad, considere 

$$ \frac{\partial J}{\partial z^{(l)}_j} = \sum_{k \in output(j)}  \frac{\partial{J}}{\partial{z_k}} \frac{\partial{z_k}}{\partial{a_j}} \frac{\partial{a_j}}{\partial{z_j}} $$

(Puede encontrar la derivación en el capítulo 4 de libro de Mitchell)

### Backpropagation - Pesos de sesgo

En forma análoga a los casos anteriores, podemos ver que, en el caso de los pesos independientes, la derivada parcial es exactamente igual a $\delta$:



$$\frac{\partial J}{\partial b^{(l)}_j} = \frac{\partial J}{\partial z_j^{(l)}} \frac{\partial z_j^{(l)}}{\partial b_j^{ (l)}} = \delta^{(l)}_j $$

o, en su versión vectorial

$$ \frac{\partial J}{\partial b} = \delta $$

### El algoritmo de backpropagation

Resumiendo, el algoritmo de backpropagation permite obtener el mínimo de la función de costo en redes neuronales, calculando primero sus derivadas parciales respecto a cada parámetro de la red. Daremos aquí la versión que utiliza descenso por gradiente incremental. 

Entradas: 
- conjunto de entrenamiento $\{(x^{(1)},y^{(1)}), \ldots , (x^{(m)},y^{(m)}) \}$, para cada ejemplo $(x,y)=(x^{(i)},y^{(i)})$
- una red neuronal con $n$ entradas, con función de activación $g$.
- una tasa de aprendizaje $\alpha$


### El algoritmo de backpropagation


1. Inicializar los pesos de la red con valores aleatorios pequeños (e.g. entre -.05 y .05)
2. Mientras no se cumpla la condición de fin
    
    2.1. $a^{(1)}$ := $x$
    
    2.2 Para cada $l=2,3,\ldots, L$ calcular $z^{(l)}=W^{(l)} a^{(l-1)} + b^{(l)}$ ; $a^{(l)} = g(z^{(l)})$

    2.3. Calcular $\delta^{(L)} = (a^{(L)}-y) \odot g'(z^{(L)})$  (si  la función de costo es mínimos cuadrados)

    2.4. Propagar el error hacia atrás: para cada $l = L-1,L-2, \ldots, 2$ calcular $\delta^{(l)} = (W^{(l)})^T \delta^{(l+1)} \odot g'(z^{(l)})$

    2.5 Actualizar los pesos de las capas $l=L,L-1,L-2,\ldots ,2$:


$$ W^{(l)} = W^{(l)} - \alpha \delta^{l+1} \cdot (a^{l})^T$$

$$ b^{(l)} = b^{(l)} - \alpha \delta^{l}$$

Video recomendado: [What is backpropagation really doing?](https://www.youtube.com/watch?v=Ilg3gGewQ5U) 3Blue1Brown

### Aprendizaje en Redes Neuronales

* El orden para calcular los pesos es desde la última capa hacia atrás, hasta llegar a la segunda capa (la primera capa es la capa de entrada, y por lo tanto no tiene error). 

* La regla de actualización es similar a la regla delta utilizada para regresión lineal: depende de la entrada $x_{ij}$ y del valor del "error" de la neurona a la que llegamos. Este error, a su vez, depende de los errores de las capas siguientes, dependiendo de sus respectivos pesos y de cómo está creciendo la función de activación según la salida de la neurona. 

* Algunas posibles condiciones de finalización:
    
    - Número de iteraciones
    - Accuracy en un conjunto de validación
    - Error en en el conjunto de entrenamiento (Ojo con 😈)



### Aprendizaje en Redes Neuronales

* Si la activación de la neurona es cercana a 0 ( $a^{(l)}_j \approx 0$), la modificación en el parámetro al aplicar descenso por gradiente será también pequeño. Decimos en este caso que el parámetro está _aprendiendo lentamente_.

* Cuando una neurona de salida tiene un valor de activación cercano a 0, o cercano a 1, y dada la forma de la función sigmoide, tendremos $g'(z_j^{(L)})\approx0$: el parámetro de esta neurona aprenderá lentamente, y diremos que la neurona está _saturada_. Lo mismo puede suceder en las capas anteriores.  Esto hace que, en una neurona saturada, los pesos que llegan a esa neurona aprenderán lentamente. 

* Las ecuaciones que permiten calcular las derivadas parciales dependen de la función de activación solamente a través de su derivada. Por lo tanto, es posible elegir funciones de activación diferentes para lograr ciertos comportamientos de las redes neuronales.La literatura sobre distintas funciones de activación y de costo ha sido enorme en los últimos años.



### Funciones de activación 

- La función logística no es la única (y ni siquiera la más utilizada) como función de activación de las neuronas. Recordemos algunas de sus propiedades:
    - Toma valores entre 0 y 1, lo que permite analizar su salida como una probabilidad
    - Es diferenciable
    - Lleva los valores alejados de la media hacia 0 o 1
    
<img src="https://miro.medium.com/max/1400/1*6A3A_rt4YmumHusvTvVTxw.png" alt="Sigmoide" width="600"/>


### Funciones de activación 

- La función [tangente hiperbólica](https://es.wikipedia.org/wiki/Tangente_hiperb%C3%B3lica) es parecida a la sigmoide, con algunas diferencias:
    - Toma valores entre -1 y 1
    - El promedio de los valores de salida sería 0, lo que es bueno para el aprendizaje
    - Al no tender a 0, es más difícil saturar
    - Lleva los valores alejados de la media hacia -1 o 1
    - Derivada simple

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/87/Hyperbolic_Tangent.svg/735px-Hyperbolic_Tangent.svg.png" alt="Sigmoide" width="450"/>
    

### Funciones de activación 

- La función ReLU (Rectified Linear Unit) y sus variantes son las más populares, especialmente en redes muy grandes, porque permiten aprender más rápido 

    - Devuelve cero para entradas negativas o cero, y la misma entrada si es positiva, y, Por lo tanto, su rango es de 0 a infinito
    - Su principal virtud es que no se satura, porque el gradiente es constante al crecer los valores de z
    - Su derivada puede calcularse muy rápidamente
    - Si los valores de activación son negativos, toma valor 0, lo que es bueno para el aprendizaje
    
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/42/ReLU_and_GELU.svg/440px-ReLU_and_GELU.svg.png" alt="ReLU" width=350/>
    

### Clasificación multiclase y activación Softmax

¿Cómo podemos utilizar las redes neuronales para clasificar entre más de dos clases? La solución pasa por definir varias neuronas en la capa de salida (podemos observar que el modelo no lo impide), y que la función $h_\theta(x)$ devuelva un vector, cuyos elementos sean los valores de activación de cada una de esas neuronas. Por ejemplo, si tenemos 4 clases posibles de salida, nuestros ejemplos de entrenamiento serán:

$$ y^{(i)} \in \{ \left[ \begin{array}{c} 0\\0\\0\\1 \end{array}\right], \left[ \begin{array}{c} 0\\0\\1\\0 \end{array}\right], \left[ \begin{array}{c} 0\\1\\0\\0 \end{array}\right], \left[ \begin{array}{c} 1\\0\\0\\0 \end{array}\right] \}$$

Y la misma forma tendrá $h_\theta(x)$. Al componente i-esimo de $h_\theta(x)$ lo denotaremos $(h_\theta(x))_i$. Si lo que interesa tener es una distribución de probabilidad entre los valores de las clases, podemos utilizar en la última capa una función de activación softmax sobre los valores de las neuronas de salida

$$ \text{softmax}(z) = \left [ \frac{e^{z_1}}{\sum_{i=1}^k e^{z_i}}, \frac{e^{z_2}}{\sum_{i=1}^k e^{z_i}}, \dots, \frac{e^{z_k}}{\sum_{i=1}^k e^{z_i}}  \right ] $$

Ejemplo: si en la última capa oculta $j$ tenemos valores $(0.7, 0.6)$ para $a^{(j)}$, en la última capa tenemos una capa softmax con 4 neuronas, y tenemos una matriz $w^{(j)} \in \mathbb{R}^{2\times4}$ de pesos, el cálculo queda así

In [18]:
import numpy as np
w=np.array([0.6,8.1,0.3,7.7,0.1,1.5,1.2,1.2]).reshape(4,2)
a=np.array([0.7,0.6])

z=np.dot(w,a)

display(z)
np.exp(z)/np.sum(np.exp(z))

array([5.28, 4.83, 0.97, 1.56])

array([0.59690956, 0.38060634, 0.00801861, 0.01446549])

### Backpropagation en la práctica

- A diferencia de los casos que vimos en las clases anteriores, la función de costo de una red neuronal no es convexa, por lo que siempre tenemos el riesgo de que Backpropagation nos lleve a un mínimo local. Sin embargo, en la práctica ha mostrado funcionar muy bien. Entender cuándo y por qué vamos a quedar en mínimos locales no es un problema con una solución general. Intuitivamente, dado que las redes neuronales tienen muchos parámetros, es más difícil que todas las direcciones lleguen a un mínimo al mismo tiempo. 

- Veamos algunas heurísticas  para evitar caer en mínimos locales.

- **Inicialización de los parámetros**: para evitar que, al aprender, todos los parámetros ajusten al mismo valor, debemos inicializar los parámetros en valores diferentes a 0. Para eso, una solución es utilizar valores aleatorios entre $[-\epsilon, \epsilon]$ para inicializar cada uno de los parámetros. Estos valores deberían ser pequeños, para que las funciones hipótesis sean más suaves al comienzo, y disminuya el riesgo de quedar atrapados en un mínimo local. 



### Backpropagation en la práctica

- **Momentum**: una forma de mejorar la performance del algoritmo  es agregar un componente a la regla de actualización que haga que ésta dependa parcialmente de la actualización anterior. 

 $$\Delta w_{ji}(n) = \alpha \delta^{(l+1)}_j a^{(l)}_{i} + \Delta w_{ji}(n-1)$$
 Esto busca favorece el movimiento en el descenso por gradiente en la misma dirección en la que se venía. Esto podría ayudar a superar mínimos locales, e incluso favorecer la velocidad de convergencia si el gradiente no está cambiando. 

- **Utilizar SGD**: el descenso por gradiente incremental, al considerar una instancia a la vez, tendrá diferentes mínimos en los gradientes calculados.

- **Inicializar con diferentes pesos**: una forma de evitar los mínimos locales es intentar ajustar varias veces, utilizando diferentes valores de pesos iniciales, y elegir el mejor en un corpus de validación separado. 

### Sobreajuste (overfitting)

Las redes neuronales tienen en general muchos parámetros... el riesgo de overfitting es alto!

Una buena forma de ver si estamos sobreajustando es ver qué pasa con la pérdida (u otra función de performance) sobre un conjunto de validación. 

<img src="https://www.jeremyjordan.me/content/images/2017/07/Screen-Shot-2017-07-25-at-3.55.30-PM.png" alt="ReLU" width=500/>

(Imagen tomada del artículo [Deep neural networks: preventing overfitting.](https://www.jeremyjordan.me/deep-neural-networks-preventing-overfitting/)

La idea de _early stopping_ es elegir, al finalizar el entrenamiento, el modelo donde este valor fue mínimo.

### Regularización

- Una forma de prevenir el sobreajuste es utilizar regularización
- Esto se logra agregando (igual que lo hicimos con la regresión lineal) un término de penalización a la función de pérdida (en este caso, regularización $L_2$ aplicada a la función de mínimos cuadrados)

$$J(W,b) = - \frac{1}{2m} \sum_{i=1}^m \sum_{k=1}^{k=K} (y^{(i)} - a^{(L)}_k)^2 + \frac{\lambda}{2n} \sum_{w} w^2$$



### Dropout

- El método de dropout es muy sencillo: al entrenar, en cada batch eliminamos temporalmente de la red un porcentaje al azar de las neuronas ocultas, dejando el resto igual. Con esto, ajustamos los pesos. Luego, recuperamos las neuronas y volvemos a empezar.
- Luego de entrenado, dividimos los pesos de salida de las neuronas ocultas en forma proporcional al porcentaje de neuronas apagadas en cada iteración (es decir, si eliminábamos el 50% de las neuronas, dividiremos el peso por 2). 
- _"This technique reduces complex co-adaptations of neurons, since a neuron cannot rely on the presence of particular other neurons. It is, therefore, forced to learn more robust features that are useful in conjunction with many different random subsets of the other neurons."_ (*[ImageNet Classification with Deep Convolutional Neural Networks](https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf), by Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton (2012)) 


<img src="http://neuralnetworksanddeeplearning.com/images/tikz31.png" alt="ReLU" width=300/>


### Gradient checking

Cuando se está implementando backpropagation, es muy difícil detectar errores pequeños en el funcionamiento del algoritmo. Una forma mucho más sencilla (pero muchísimo más lenta) que backprop de aproximarse al cálculo del gradiente es la siguiente: dado un valor pequeño $\epsilon$ (por ejemplo, $10^{-4}$), calcular:

$$   \frac{\partial J(W)}{\partial W} \approx \frac{J(W +\epsilon ) - J(W-\epsilon )}{2\epsilon}$$


Esta aproximación nos permite verificar que los valores que estamos calculando con backpropagation de las derivadas son correctos. Por supuesto, esto se utiliza durante el desarrollo del algoritmo: para el ajuste final de los parámetros se desactiva.

### Aprendizaje de Representaciones

La redes neuronales tienen la capacidad de aprender representaciones intermedias en las capas ocultas a partir de los datos. Estas representaciones (atributos), que no aparecieron en forma de atributos explícitos en la entrada, son sin embargo aprendidas y capturan propiedades de las instancias de entrada. Mostraremos un ejemplo muy sencillo, tomado del libro de Tom Mitchell. 

<img src="https://github.com/pln-fing-udelar/curso_aa/raw/master/img/mitchell_rep_learning.png" alt="Rep.Learning" style="width: 500px;" />


### Aprendizaje de Representaciones

La redes neuronales tienen la capacidad de aprender representaciones intermedias en las capas ocultas a partir de los datos. Estas representaciones (atributos), que no aparecieron en forma de atributos explícitos en la entrada, son sin embargo aprendidas y capturan propiedades de las instancias de entrada. Mostraremos un ejemplo muy sencillo, tomado del libro de Tom Mitchell. 

<img src="https://github.com/pln-fing-udelar/curso_aa/raw/master/img/mitchell_rep_learning.png" alt="Rep.Learning" style="width: 500px;" />

- La red neuronal computa la función identidad, usando una capa oculta de tres unidades. En la figura puede verse que las capas ocultas están aprendiendo la representación binaria de la entrada (y esto "comprime" la representación de 8 bits a 3)


### Aprendizaje de Representaciones

 $\ $           |  $\ $  
:-------------------------:|:-------------------------:
![](https://github.com/pln-fing-udelar/curso_aa/raw/master/img/mitchell_rep_learning2.png) | ![](https://github.com/pln-fing-udelar/curso_aa/raw/master/img/mitchell_rep_learning3.png)

- Podemos ver cómo varían las activaciones en la capa oculta para la entrada "01000000"
- Al comienzo, todas las activaciones están cercanas a 0.5, y luego se ajustan a los valores (0 1 0)
- En la gráfica de la derecha vemos cómo se ajustan los pesos de cada una de las entradas en una de las unidades ocultas

### Referencias y material adicional

- Machine Learning, Tom Mitchell. Capítulo 4.
- [Neural Networks and Deep Learning](http://neuralnetworksanddeeplearning.com/), Michael Nielsen.
- [Notas del curso CS229](https://see.stanford.edu/materials/aimlcs229/cs229-notes1.pdf) de la Universidad de Stanford (disponible en la plataforma Coursera)
- [Calculus on Computational Graphs: Backpropagation](http://colah.github.io/posts/2015-08-Backprop/) Chris Olah
- [Eficient BackProp](http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf) Yann LeCun


Para una excelente visión didáctica sobre redes neuronales y los algoritmos asociados, recomendamos los [videos](https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi) de 3Blue1Brown sobre el tema. 
