# Introducción a redes neuronales

![Logo Laboratorio](images/labdac_logo.png)

## Idea de la charla   

* Motivar las redes neuronales como modelos predictivos
* Presentar las distintas topologías y tipos
* Comentar un poco la literatura

## Modelos

### ¿Cómo definimos un modelo?  
* Planteamos una hipótesis
* Definimos qué es un buen modelo
* Intentamos llegar a uno

### ¿Cómo definimos un modelo? (Versión matemática)
* Planteamos una función predictora
* Definimos una función de error (o *costo*)
* Minimizamos el costo con métodos numéricos

### Funciones predictoras  

* Generalmente dos tipos
 + de regresión
 + de clasificación

* tienen parámetros
 + algunos se _aprenden_ (calculados según los datos)
 + otros los decidimos nosotros a priori, con intuición o probando (*hiperparámetros*)

### Función error/costo


* permite medir cuán bueno (o malo) es el modelo
* implícitamente nos dice cómo mejorarlo (¡derivando!)
* ejemplo para regresión:  

$$ MSE(X,Y) = \sum_i (Y_i - X_i)^2 $$
* ejemplo para clasificación:     

$$ \mathcal{L}(\theta|x) \equiv P(x|\theta) $$

### Optimización: reduciendo el error 

* Análisis I: derivando, igualo a 0, calculo los puntos de mínimo
* Ahora, no siempre es sencillo (o posible) resolverlo de manera analítica, entonces necesitamos un método numérico

* Usamos *descenso de gradiente*
 + dado un campo escalar 
 
$$f: \mathbb{R}^n \rightarrow \mathbb{R}$$
 + y su gradiente:

$$\bar{\nabla}f(\bar{x}) = \left (
    \frac{\partial f}{\partial x_1},
    ...,
    \frac{\partial f}{\partial x_n}
\right )
$$
 + podemos minimizar x iterativamente:

$$ \bar{x}^{t+1} =  \bar{x}^t - \bar{\nabla}f(\bar{x}^t)$$

### Comentario: pequeño truquito (SGD)
* el gradiente se calcula sobre todos los datos
* pero si tenemos millones de datos.. ¡eso es lento!

* entonces lo calculamos sobre unos pocos datos: **Descenso de gradiente estocástico**

### Visualización  
![Visualizacion de distintos SGD](images/sgd.gif)

### Links y referencias  
* Visualizaciones súper copadas y comparación de optimizaciones: [Why momentum really works](https://distill.pub/2017/momentum/).

## Regresión lineal 

* super sencillo
* hipotesis: 
$$ y = f(x) = mx + b $$

![grafico de regresion lineal](images/linear_regression.png)

* hipótesis generalizada:    

$$ h_{\theta}(\bar{x}) = \theta^t \bar{x}$$

* usamos el error cuadrático:  

$$ J(\theta) = \frac{1}{2} \sum_i \left ( h_\theta(x^{(i)}) - y^{(i)} \right )^2 $$

* derivamos:   

$$ \bar{\nabla} J(\theta) = \sum_i \left ( h_\theta(x^{(i)}) - y^{(i)}) \theta \right )  $$

* tenemos nuestra receta:     

$$\theta_{t+1} = \theta_t - \bar{\nabla}J(\theta_t)$$

### Visualización 
![grafo de regresión lineal](images/grafo_regresion_lineal.png)

### Ejemplo de código


In [1]:
#contratar un mono que lo programe

## Regresión logística
* queremos transformar nuestra regresión lineal para que prediga una variable binaria

* teníamos una función 
$$f_{regr}: \mathbb{R}^n \rightarrow \mathbb{R}$$
* ahora queremos 
$$f_{clasif}: \mathbb{R}^n \rightarrow [0,1]$$  
* esto lo podemos conseguir aplicando una función $\sigma: \mathbb{R} \rightarrow [0,1]$
* particularmente estaría bueno que
 + $\sigma(x)$ sea fácil de diferenciar
 + $\sigma(x)$ sea continua y tenga propiedades lindas
 + $\sigma(x)$ sea no lineal

* *un* candidato es la función logística:   

$$\sigma(x) = \frac{1}{1+e^{-x}}$$

* Esta función es buena porque nos permite indicar el grado de incerteza que podemos tener para predecir la clase. 
![curva sigmoide](images/sigmoid_curve.png)

### Receta de la logística
* hipótesis:    

$$ P(y=1|x) = h_\theta(x) = \frac{1}{1+exp(-\theta^tx)}$$   

$$ P(y=0|x) = 1 - P(y=1|x) = 1 - h_\theta(x) $$

* para definir el costo, usamos la verosimilitud:   

$$ \mathcal{L}(\theta|x_1\ ...\ x_n) = P(x_1\ ...\ x_n|\theta) = P(x_1|\theta)\times ... \times P(x_n|\theta)$$  

entonces:  

$$ J(\theta) = -\sum_i \log \mathcal{L(\theta|x_i)}$$   

$$ J(\theta) = -\sum_i \left ( y_i \log h_\theta(x_i) + (1-y_i) \log(1-h_\theta(x_i)) \right )$$
  
* luego de otra hoja, obtenemos el gradiente:   

$$ \bar{\nabla}J(\theta) = \sum_i x_i(h_\theta(x_i)-y_i)$$   

¡bastante sencillo quedó el gradiente!

### Representación de la regresión logística

![grafo de la regresión logística](images/graph_logistic.png)

### ¡Veamos un ejemplo!
** [playground.tensorflow.org](http://playground.tensorflow.org/#activation=sigmoid&batchSize=10&dataset=gauss&regDataset=reg-plane&learningRate=0.03&regularizationRate=0&noise=0&networkShape=&seed=0.90322&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false)**

## Regresión softmax   

* queremos generalizar la regresión logística al caso de $k$ clases a predecir

$$P(x|\theta) = \binom{\exp(\theta_1^t)x}{\exp(\theta_2^t)x} \frac{1}{\sum_{i=1}^{2} \exp(\theta_i^t x)}$$

$$P(x|\theta) = 
\begin{pmatrix}
\exp(\theta_1^tx) \\ 
... \\ 
\exp(\theta_k^tx)
\end{pmatrix}
\frac{1}{\sum_{i=1}^{k} \exp(\theta_i^t x)}$$

los vectores $\theta_i$ son pesos que relacionan la muestra $x$ con la clase $i$. 

### Función costo

Teníamos en la logística:     

$$J(\theta) = - \sum_i \left ( y^{(i)} \log h_\theta (x^{(i)}) + (1-y^{(i)}) \    log (1-h_\theta (x^{(i)})) \right )$$

Reescribimos:     

$$J(\theta) = - \sum_i \sum_{k=1}^2 \mathrm{1}_{\{y^{(i)} = k\}} \log \left ( \frac{\exp(\theta_{(k)}^t) x^{(i)}}{\sum_{j=1}^2 \exp(\theta_{(j)}^t) x^{(i)}} \right )  $$

* para un dato $x^{(i)}$, sólo sumamos el error de la clase verdadera del dato (función indicadora).

¡Generalizamos!:
$$J(\theta) = - \sum_i \sum_{k=1}^K \mathrm{1}_{\{y^{(i)} = k\}} \frac{\exp(\theta_{(k)}^t) x^{(i)}}{\sum_{j=1}^2 \exp(\theta_{(j)}^t) x^{(i)}}  $$


* el gradiente simplemente es derivar

representamos el vector 
![softmax](images/graph_softmax.png)

### Ejemplo de softmax: MNIST

## Perceptrón multicapa
* Hasta ahora, todo lo que hicimos fue una variación de la regresión lineal. Entonces el límite de separación entre clases (*decision boundary*) son *hiperplanos*. 
* ¿Cómo manejamos un problema que no es separable por hiperplanos?

* [veamos un ejemplo](http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle&regDataset=reg-plane&learningRate=1&regularizationRate=0&noise=0&networkShape=&seed=0.27921&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false)

* Una manera de resolver esto es cambiar de espacio hacia uno donde sean linealmente separables las clases.
* SVM hace esto con proyecciones implícitas a través de kernels.

* queremos una transformación no-lineal que mueva los datos para luego aplicar softmax: $\mathrm{softmax}(\phi(x))$


![projection](images/projection.png)

* esto lo podemos hacer agregando una capa adicional: 

![projection_softmax](images/projection_softmax.png)

* Agreguemos una capa al playground anterior!

* El entrenamiento, que ajusta los pesos, se puede interpretar como lo siguiente:
 + en la capa última, los pesos se optimizan para separar las clases con hiperplanos.
 + en la capa intermedia, los pesos cambian para mejorar la representación de las clases, tal que el softmax tenga un trabajo más sencillo.

* ¿cómo entrenamos esto?

* observemos que cada capa es una función:
![sof](images/sequence_of_functions.png)

Calculamos los costos para cada capa:   

$$
\frac{\partial \mathrm{Costo}}{\mathrm{Capa}_{n-1}}
= 
\frac{\partial \mathrm{Costo}}{\mathrm{Capa}_{n}} 
\times
\frac{\partial \mathrm{Capa}_{n}}{\mathrm{Capa}_{n-1}}
$$

* Para esto se usa el algoritmo de retropropagación (*backpropagation*).

3blue1brown, nielsen, colah?

### Teorema de aproximación universal
* Nos garantiza que con una sola capa oculta de suficiente número de neuronas, podemos representar cualquier función.   

* Entonces, un perceptrón multicapa podrá separar cualquier set de datos.

### Funciones de activación
* Una neurona tiene varias entradas y una salida.
* La salida es función de la entrada: $\mathrm{Salida} = \bar{\sigma}(\theta_t x)$
* En este contexto $\sigma$ se llama función de activación. Hasta ahora usamos la función sigmoide, pero hay otras:
![activation function](images/activationfunctions.png)

### Referencias    
Backpropagation: 
* [Calculus on computational graphs: backpropagation](http://colah.github.io/posts/2015-08-Backprop/), Christopher Olah
* [How the backpropagation algorithm works](http://neuralnetworksanddeeplearning.com/chap2.html), Michael Nielsen
* [What is backpropagation and what is it actually doing?](https://www.youtube.com/watch?v=Ilg3gGewQ5U), 3Blue1Brown (video)