# Introducción a redes neuronales

![Logo Laboratorio](images/labdac_logo.png)

## Idea de la charla   

* Motivar las redes neuronales como modelos predictivos
* Presentar las distintas topologías y tipos
* Comentar un poco la literatura

## Modelos

### ¿Cómo definimos un modelo?  
* Planteamos una hipótesis
* Definimos qué es un buen modelo
* Intentamos llegar a uno

### ¿Cómo definimos un modelo? (Versión matemática)
* Planteamos una función predictora
* Definimos una función de error (o *costo*)
* Minimizamos el costo con métodos numéricos

### Funciones predictoras  

* Generalmente dos tipos
 + de regresión
 + de clasificación

* tienen parámetros
 + algunos se _aprenden_ (calculados según los datos)
 + otros los decidimos nosotros a priori, con intuición o probando (*hiperparámetros*)

### Función error/costo


* permite medir cuán bueno (o malo) es el modelo
* implícitamente nos dice cómo mejorarlo (¡derivando!)
* ejemplo para regresión:  

$$ MSE(X,Y) = \sum_i (Y_i - X_i)^2 $$
* ejemplo para clasificación:     

$$ \mathcal{L}(\theta|x) \equiv P(x|\theta) $$

### Optimización: reduciendo el error 

* Análisis I: derivando, igualo a 0, calculo los puntos de mínimo
* Ahora, no siempre es sencillo (o posible) resolverlo de manera analítica, entonces necesitamos un método numérico

* Usamos *descenso de gradiente*
 + dado un campo escalar 
 
$$f: \mathbb{R}^n \rightarrow \mathbb{R}$$
 + y su gradiente:

$$\bar{\nabla}f(\bar{x}) = \left (
    \frac{\partial f}{\partial x_1},
    ...,
    \frac{\partial f}{\partial x_n}
\right )
$$
 + podemos minimizar x iterativamente:

$$ \bar{x}^{t+1} =  \bar{x}^t - \bar{\nabla}f(\bar{x}^t)$$

### Comentario: pequeño truquito (SGD)
* el gradiente se calcula sobre todos los datos
* pero si tenemos millones de datos.. ¡eso es lento!

* entonces lo calculamos sobre unos pocos datos: **Descenso de gradiente estocástico**

### Visualización  
![Visualizacion de distintos SGD](images/sgd.gif)

### Links y referencias  
* Visualizaciones súper copadas y comparación de optimizaciones: [Why momentum really works](https://distill.pub/2017/momentum/).

## Regresión lineal 

* super sencillo
* hipotesis: 
$$ y = f(x) = mx + b $$

![grafico de regresion lineal](images/linear_regression.png)

* hipótesis generalizada:    

$$ h_{\theta}(\bar{x}) = \theta^t \bar{x}$$

* usamos el error cuadrático:  

$$ J(\theta) = \frac{1}{2} \sum_i \left ( h_\theta(x^{(i)}) - y^{(i)} \right )^2 $$

* derivamos:   

$$ \bar{\nabla} J(\theta) = \sum_i \left ( h_\theta(x^{(i)}) - y^{(i)} \right ) x^{(i)}  $$

* tenemos nuestra receta:     

$$\theta_{t+1} = \theta_t - \bar{\nabla}J(\theta_t)$$

### Visualización 
![grafo de regresión lineal](images/grafo_regresion_lineal.png)

## Regresión logística
* queremos transformar nuestra regresión lineal para que prediga una variable binaria

* teníamos una función 
$$f_{regr}: \mathbb{R}^n \rightarrow \mathbb{R}$$
* ahora queremos 
$$f_{clasif}: \mathbb{R}^n \rightarrow [0,1]$$  
* esto lo podemos conseguir aplicando una función $\sigma: \mathbb{R} \rightarrow [0,1]$
* particularmente estaría bueno que
 + $\sigma(x)$ sea fácil de diferenciar
 + $\sigma(x)$ sea continua y tenga propiedades lindas
 + $\sigma(x)$ sea no lineal

* *un* candidato es la función logística:   

$$\sigma(x) = \frac{1}{1+e^{-x}}$$

* Esta función es buena porque nos permite indicar el grado de incerteza que podemos tener para predecir la clase. 
![curva sigmoide](images/sigmoid_curve.png)

### Receta de la logística
* hipótesis:    

$$ P(y=1|x) = h_\theta(x) = \frac{1}{1+exp(-\theta^tx)}$$   

$$ P(y=0|x) = 1 - P(y=1|x) = 1 - h_\theta(x) $$

* para definir el costo, usamos la verosimilitud:   

$$ \mathcal{L}(\theta|x_1\ ...\ x_n) = P(x_1\ ...\ x_n|\theta) = P(x_1|\theta)\times ... \times P(x_n|\theta)$$  

entonces:  

$$ J(\theta) = -\sum_i \log \mathcal{L(\theta|x_i)}$$   

$$ J(\theta) = -\sum_i \left ( y_i \log h_\theta(x_i) + (1-y_i) \log(1-h_\theta(x_i)) \right )$$
  
* luego de otra hoja, obtenemos el gradiente:   

$$ \bar{\nabla}J(\theta) = \sum_i x_i(h_\theta(x_i)-y_i)$$   

¡bastante sencillo quedó el gradiente!

### Representación de la regresión logística

![grafo de la regresión logística](images/graph_logistic.png)

### ¡Veamos un ejemplo!
** [playground.tensorflow.org](http://playground.tensorflow.org/#activation=sigmoid&batchSize=10&dataset=gauss&regDataset=reg-plane&learningRate=0.03&regularizationRate=0&noise=0&networkShape=&seed=0.90322&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false)**

## Regresión softmax   

* queremos generalizar la regresión logística al caso de $k$ clases a predecir

$$P(x|\theta) = \binom{\exp(\theta_1^t)x}{\exp(\theta_2^t)x} \frac{1}{\sum_{i=1}^{2} \exp(\theta_i^t x)}$$

$$P(x|\theta) = 
\begin{pmatrix}
\exp(\theta_1^tx) \\ 
... \\ 
\exp(\theta_k^tx)
\end{pmatrix}
\frac{1}{\sum_{i=1}^{k} \exp(\theta_i^t x)}$$

los vectores $\theta_i$ son pesos que relacionan la muestra $x$ con la clase $i$. 

### Función costo

Teníamos en la logística:     

$$J(\theta) = - \sum_i \left ( y^{(i)} \log h_\theta (x^{(i)}) + (1-y^{(i)}) \    log (1-h_\theta (x^{(i)})) \right )$$

Reescribimos:     

$$J(\theta) = - \sum_i \sum_{k=1}^2 \mathrm{1}_{\{y^{(i)} = k\}} \log \left ( \frac{\exp(\theta_{(k)}^t) x^{(i)}}{\sum_{j=1}^2 \exp(\theta_{(j)}^t) x^{(i)}} \right )  $$

* para un dato $x^{(i)}$, sólo sumamos el error de la clase verdadera del dato (función indicadora).

¡Generalizamos!:
$$J(\theta) = - \sum_i \sum_{k=1}^K \mathrm{1}_{\{y^{(i)} = k\}} \frac{\exp(\theta_{(k)}^t) x^{(i)}}{\sum_{j=1}^2 \exp(\theta_{(j)}^t) x^{(i)}}  $$


* el gradiente simplemente es derivar

representamos el vector 
![softmax](images/graph_softmax.png)

## Perceptrón multicapa
* Hasta ahora, todo lo que hicimos fue una variación de la regresión lineal. Entonces el límite de separación entre clases (*decision boundary*) son *hiperplanos*. 
* ¿Cómo manejamos un problema que no es separable por hiperplanos?

* [veamos un ejemplo](http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle&regDataset=reg-plane&learningRate=1&regularizationRate=0&noise=0&networkShape=&seed=0.27921&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false)

* Una manera de resolver esto es cambiar de espacio hacia uno donde sean linealmente separables las clases.
* SVM hace esto con proyecciones implícitas a través de kernels.

* queremos una transformación no-lineal que mueva los datos para luego aplicar softmax: $\mathrm{softmax}(\phi(x))$


![projection](images/projection.png)

* esto lo podemos hacer agregando una capa adicional: 

![projection_softmax](images/projection_softmax.png)

* Agreguemos una capa al playground anterior!

* El entrenamiento, que ajusta los pesos, se puede interpretar como lo siguiente:
 + en la capa última, los pesos se optimizan para separar las clases con hiperplanos.
 + en la capa intermedia, los pesos cambian para mejorar la representación de las clases, tal que el softmax tenga un trabajo más sencillo.

* ¿cómo entrenamos esto?

* observemos que cada capa es una función:
![sof](images/sequence_of_functions.png)

Calculamos los costos para cada capa:   

$$
\frac{\partial \mathrm{Costo}}{\mathrm{Capa}_{n-1}}
= 
\frac{\partial \mathrm{Costo}}{\mathrm{Capa}_{n}} 
\times
\frac{\partial \mathrm{Capa}_{n}}{\mathrm{Capa}_{n-1}}
$$

* Para esto se usa el algoritmo de retropropagación (*backpropagation*).

### Teorema de aproximación universal
* Nos garantiza que con una sola capa oculta de suficiente número de neuronas, podemos representar cualquier función.   

* Entonces, un perceptrón multicapa podrá separar cualquier set de datos.

### Funciones de activación
* Una neurona tiene varias entradas y una salida.
* La salida es función de la entrada: $\mathrm{Salida} = \bar{\sigma}(\theta_t x)$
* En este contexto $\sigma$ se llama función de activación. Hasta ahora usamos la función sigmoide, pero hay otras:
![activation function](images/activationfunctions.png)

### Referencias    
Backpropagation: 
* [Calculus on computational graphs: backpropagation](http://colah.github.io/posts/2015-08-Backprop/), Christopher Olah
* [How the backpropagation algorithm works](http://neuralnetworksanddeeplearning.com/chap2.html), Michael Nielsen
* [What is backpropagation and what is it actually doing?](https://www.youtube.com/watch?v=Ilg3gGewQ5U), 3Blue1Brown (video)

## Redes neuronales convolucionales 

* Como vimos hasta ahora, un MLP es de la forma:  
$$ y = f_n(f_{n-1}(\cdot \cdot f_1(x))) $$
Con funciones de la forma:  
$$ 
f(x) = \begin{pmatrix}
\sigma(\theta_1^t x) \\ 
... \\ 
\sigma(\theta_n^t x)
\end{pmatrix} = 
\bar{\sigma}(\Theta x)
$$

* Interpretamos a la última función como el *softmax* que separa con hiperplanos a las clases, y las funciones anteriores como *proyecciones* que obtienen una **buena representación** de los datos para poder separarlos con hiperplanos.   

* Entonces, tiene sentido considerar otras funciones si son más acorde a nuestros datos.

* ¿podemos identificar si una imagen es o no de un gato?

![maru the cat](images/marucat.jpg)

* Para usar una MLP podríamos transformar la imagen, que es una matriz de $m\times n$, en un vector de $m*n$, y luego juntamos unas capas y vemos qué sale.

* ¡Pero perdemos información! Al transformarlo en un vector y tratar a cada píxel como independiente, no tenemos en cuenta la localidad.

* Podríamos usar funciones que tomen matrices (o tensores si RGB) y tengan en cuenta este aspecto.

* Convolución
![matrix convolution example](images/matrix_convolution_example.png)

* Max-pool
![max pool example](images/maxpool.png)

* Las convoluciones son formas comunes de procesamiento de imágenes. Se utilizan para encontrar bordes, difuminar o enfocar.  
![kernel edge detection](images/kernel_edge_detection.png)

* Las operaciones de max-pooling nos dan un cierto grado de invarianza a las traslaciones.

* Entonces, tenemos funciones que nos permiten representar a las imágenes de manera invariante a la luminosidad y a la traslación.

![Convnet architecutres](images/convnet_architecture.jpeg)

![results](images/cnn_results.png)

### Referencias
* [Introduction to Convolutional Neural Networks](https://cs.nju.edu.cn/wujx/paper/CNN.pdf)
* [Convolution and edge detection](http://graphics.cs.cmu.edu/courses/15-463/2005_fall/www/Lectures/convolution.pdf)
* [ImageNet classification with Deep CNNs](https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf)
* [Stanford CS231n Convolutional Neural Networks for Visual Recognition](http://cs231n.github.io/convolutional-networks/)

## Redes neuronales recurrentes


Lo que hicimos con las redes convolucionales era modificar a la red para que se ajuste mejor a un tipo particular de datos.

¿Qué podríamos modificar a nuestro MLP si queremos procesar texto?

El problema principal es *la longitud variable* de la entrada.

Como siempre, nos inspiramos en la naturaleza: en vez de tomar toda la entrada de una, tomar de a un caracter o palabra a la vez, y que vayan manteniendo un "estado interno" contextual en base a lo que ya vieron.

![rnn unrolled](images/RNN-unrolled.png)

Esto está muy bien, pero tiene un problema: los gradientes se desvanecen.

Por ejemplo, si queremos calcular el error en una capa lejana:

$$
\frac{\partial \mathrm{Costo}}{\partial \mathrm{Capa}_{n-1}}
= 
\frac{\partial \mathrm{Costo}}{\partial \mathrm{Capa}_{n}} 
\times
\frac{\partial \mathrm{Capa}_{n}}{\partial \mathrm{Capa}_{n-1}}
\times
\frac{\partial \mathrm{Capa}_{n-1}}{\partial \mathrm{Capa}_{n-2}}
\times
\frac{\partial \mathrm{Capa}_{n-2}}{\partial \mathrm{Capa}_{n-3}}
$$

Si los coeficientes son menores a uno, decrecen exponencialmente; si son mayores, crecen exponencialmente.

El módulo recurrente (que toma la salida contextual de la iteración anterior) se puede analizar como si tuviese una capa por cada timestep / iteración.

### LSTMs
Las redes del tipo Long Short Term Memory (1997) intentan resolver este problema.

![lstm](images/lstm_cec_simple.jpg)

### GRU 
Las redes del tipo Gated Recurrent Unit también resuelven el mismo problema. Son un poco más sencillas.

$$h_t^j = (1-z_t^j) h_{t-1}^j + z_t^j \tilde{h}_t^j$$

$$\tilde{h}_t^j = \tanh(Wx_t + U(r_t \odot h_{t-1}))^j$$

donde $h_t$ es el estado interno en el tiempo $t$, $z_t$ la compuerta de olvido, $\tilde{h}_t$ es el estado interno candidato, y $r_t$ es la compuerta de reinicio.

![gru vs lstm](images/gru_lstm_gate.png)

### Ejemplo: BorgesNet!

### Referencias

[Understanding LSTM Networks](http://colah.github.io/posts/2015-08-Understanding-LSTMs/), Christopher Olah   

[LSTM: A brief introduction](https://wiki.inf.ed.ac.uk/twiki/pub/MLforNLP/WebHome/lstm_intro.pdf), Daniel Renshaw

[Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling](https://arxiv.org/pdf/1412.3555.pdf) Junyoung Chung, Yoshua Bengio et al.

[The unreasonable effectiveness of recurrent neural networks](http://karpathy.github.io/2015/05/21/rnn-effectiveness/)

## Generativas Adversarias (GANs)

* La idea es conseguir modelos generativos.
* Tenemos tres componentes:
 + los datos, que representan la distribución verdadera
 + el generador, que intenta generar cosas que se parezcan a los datos (i.e., la distribución del generador intenta parecerse a la de los datos)
 + el discriminador, que dada una entrada dice si es real (proveniente de un dato real) o no (proveniente del generador)

### Comportamiento en teoría de juegos
El objetivo de entrenamiento es el siguiente:
$$\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p_{data}(x)} [ \log D(x)] + \mathbb{E}_{z\sim p_z(z)} [\log(1-D(G(z)))]$$
($z$ es una variable de ruido para pasarle a $G$)

![componentes de la gan](images/gan_components.png)

![resultados de gans originales](images/gan_results.png)

### Conditional GANs
Idea muy similar, pero la diferencia es que el generador $G$ **toma un dato** y aplica una función sobre ella. El discriminador tiene que decidir si el par (dato, valor de la función) es válido o no.

![componentes cgan](images/cgan_components.png)

Entonces, si tenemos una función $f: A \rightarrow B$ conocida, podemos armar varias tuplas $(A_i, B_i)$ y entrenar una CGAN para armar $f^{-1}: B \rightarrow A$!  

La función $f$ puede existir o no, pero el punto es que el proceso de $f$ sea bastante sencillo para generar datos, y $f^{-1}$ sea lo difícil. Veamos ejemplos:

![facades with cgan](images/cgan_facade.png)

![cgan night](images/cgan_night.png)

![occlusion](images/cgan_occlusion.png)

### Referencias
[Image to image translation with conditional adversarial networks](https://arxiv.org/pdf/1611.07004.pdf), Isola et al.

[Generative Adversarial Networks](https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf), Goodfellow et al.

[Image to image demo](https://affinelayer.com/pixsrv/)

## Otras cositas

* Hay muchos otros tipos de redes y tipos de entrenamiento distintos!

* **Transfer learning**. Cuando se aprovechan los resultados de un entrenamiento anterior sobre datos distintos, para lograr mejores resultados en otro set de datos.   
* **Las redes se pueden comprimir**. Una vez entrenado un ensamble de redes neuronales, se pueden comprimir a un solo modelo mejorando los resultados.

* Bueno, hasta acá tenemos una manera de representar funciones.. a la cual le agregamos memoria (RNN)..
* ..como una computadora?

* En 1992 Siegelmann y Sontag mostraron que las RNNs son turing completas. 

* En 2014, Alex Graves (DeepMind), [publicó](https://arxiv.org/pdf/1410.5401.pdf) un modelo donde una red aprendía algoritmos (copiar vectores, ordenar valores, entre otros). Se vio que su modelo, *Neural Turing Machine*, generalizaba mucho mejor que una red LSTM.

* También hay otros modelos que mezclan lo que vimos hasta ahora. Redes que observan imágenes (CNNs) pero de a regiones según les dice una red recurrente (para simular atención),..

* Hay modelos y técnicas de aprendizaje semi-supervisado (como Q-Learning), donde el objetivo no es conocido pero se tiene una medida de calidad del resultado (como los puntos en un juego).

* Hay muchos otros tipos! Es realmente un [zoológico](http://www.asimovinstitute.org/neural-network-zoo/)