# Introducción a redes neuronales

![Logo Laboratorio](images/labdac_logo.png)

## Idea de la charla   

* Motivar las redes neuronales como modelos predictivos
* Presentar las distintas topologías y tipos
* Comentar un poco la literatura

## Modelos

### ¿Cómo definimos un modelo?  
* Planteamos una hipótesis
* Definimos qué es un buen modelo
* Intentamos llegar a uno

### ¿Cómo definimos un modelo? (Versión matemática)
* Planteamos una función predictora
* Definimos una función de error (o *costo*)
* Minimizamos el costo con métodos numéricos

### Funciones predictoras  

* Generalmente dos tipos
 + de regresión
 + de clasificación

* tienen parámetros
 + algunos se _aprenden_ (calculados según los datos)
 + otros los decidimos nosotros a priori, con intuición o probando (*hiperparámetros*)

### Función error/costo


* permite medir cuán bueno (o malo) es el modelo
* implícitamente nos dice cómo mejorarlo (¡derivando!)
* ejemplo para regresión:  

$$ MSE(X,Y) = \sum_i (Y_i - X_i)^2 $$
* ejemplo para clasificación:     

$$ \mathcal{L}(\theta|x) \equiv P(x|\theta) $$

### Optimización: reduciendo el error 

* Análisis I: derivando, igualo a 0, calculo los puntos de mínimo
* Ahora, no siempre es sencillo (o posible) resolverlo de manera analítica, entonces necesitamos un método numérico

* Usamos *descenso de gradiente*
 + dado un campo escalar 
 
$$f: \mathbb{R}^n \rightarrow \mathbb{R}$$
 + y su gradiente:

$$\bar{\nabla}f(\bar{x}) = \left (
    \frac{\partial f}{\partial x_1},
    ...,
    \frac{\partial f}{\partial x_n}
\right )
$$
 + podemos minimizar x iterativamente:

$$ \bar{x}^{t+1} =  \bar{x}^t - \bar{\nabla}f(\bar{x}^t)$$

### Comentario: pequeño truquito (SGD)
* el gradiente se calcula sobre todos los datos
* pero si tenemos millones de datos.. ¡eso es lento!

* entonces lo calculamos sobre unos pocos datos: **Descenso de gradiente estocástico**

### Visualización  
![Visualizacion de distintos SGD](images/sgd.gif)

### Links y referencias  
* Visualizaciones súper copadas y comparación de optimizaciones: [Why momentum really works](https://distill.pub/2017/momentum/).

## Regresión lineal 

* super sencillo
* hipotesis: 
$$ y = f(x) = mx + b $$

![grafico de regresion lineal](images/linear_regression.png)

* hipótesis generalizada:    

$$ h_{\theta}(\bar{x}) = \theta^t \bar{x}$$

* usamos el error cuadrático:  

$$ J(\theta) = \frac{1}{2} \sum_i \left ( h_\theta(x^{(i)}) - y^{(i)} \right )^2 $$

* derivamos:   

$$ \bar{\nabla} J(\theta) = \sum_i \left ( h_\theta(x^{(i)}) - y^{(i)}) \theta \right )  $$

* tenemos nuestra receta:     

$$\theta^{t+1} = \theta^t - \bar{\nabla}J(\theta^t)$$

### Visualización 
![grafo de regresión lineal](images/grafo_regresion_lineal.png)

### Ejemplo de código


In [1]:
#contratar un mono que lo programe

## Regresión logística
* queremos transformar nuestra regresión lineal para que prediga una variable binaria