# Diseñar una Red Neuronal usando un lenguaje funcional 

En la actualidad existen tres argumentos que son usados para interpretar deep learning:

- uno basado en las neurociencias que, crea analogías entre las redes neuronales y la **biologia**;
- el argumento de **representaciones** usa transformaciones de datos y la **hipótesis de variedades** (manifold hypothesis);
- finalmente el enfoque **probabilista**, el cual argumenta que las redes neuronales son similares a encontrar variables latentes.

Estos argumentos no son mutuamente exclusivos, pero representan tres maneras diferentes de comprender el deep learning.

### Las representaciones son tipos

En cada capa de una red neuronal, a los datos se les aplica una transformación, para facilitar la tarea a realizar, 
estas versiones transformadas de los datos iniciales se les conoce como **representaciones**.
Para representar fielmente una red neuronal, en un lenguaje funcional, se asume que las representaciones 
corresponden a un **tipo**. 

Los **tipos** en ciencias de la computación corresponden a una manera de 'encajar' algún tipo de dato en n bits, similarmente, las representaciones en deep learning corresponden a 'encajar' una **variedad** de datos en n dimensiones.

En la programación funcional dos funciones solo se pueden componer si ambas funciones poseen el mismo *tipo*, 
dos capas solo se pueden componer cuando la *representación* de los datos corresponde entre sí.
Durante el entrenamiento las capas adyacentes negocian la *representación* a usar; el rendimiento de la red depende de que los datos se encuentren en la *representación* que la red espera.

#### check
Realizar un mapeo entre distintos tipos de datos hacia la misma representación lleva a realizar tareas complicadas. Por ejemplo, al mapear palabras de distintos lenguajes hacia una representación, es posible encontrar palabras que son traducciones una de otra. Al realizar un mapeo de imagenes y palabras hacia una misma representacion, se puede clasificar las imagenes.
![](img/exm1.png)

En la programación la abstraccion de funciones, esto reduce masivamente la cantidad de código que se require escribir. 
Usar multiples copias de una neurona es equivalente a usar funciones. Es claro que no se deben poner neuronas por todo el espacio para que el modelo funcione, se debe explotar las estructuras en los datos. 

En la practica existen distintos patrones que se usan comúnmente, por ejemplo las redes convolucionales, recurrentes, etc.
Estos patrones son equivalentes a funciones de alto orden, esto es, funciones cuyo argumento son otras funciones. Muchos
de estos patrones de redes neuronales han sido estudiados extensamente en la programación funcional, de hecho estos 
corresponden a funciones comunes como **fold**. La única diferencia es que en luagar de recibr como argumento otra función
estas funciones reciben un pedazo de red neuronal.

- La instrucción *fold* es equivalente a la codificación, esto es permite tomar una lista de longitud variable como entrada, de una red neuronal recurrente:
![](img/RNN-encoding.png)
<center><b>fold = Codificar RNN</b></center>
<center>Haskell: foldl a s</center>

- Para generar una red neuronal recurrente se utiliza la instrucción unfold, así se permite tener una lista como salida:
![](img/RNN-generating.png)
<center><b>unfold = Generar RNN</b></center>
<center>Haskell: unfoldr a s</center>

- Las redes neuronales recurrentes en general son mapeos acumulativos:
![](img/RNN-general.png)
<center><b>mapeo acumulativo = RNN</b></center>
<center>Haskell: mapAccumR a s</center>