# Redes Neuronales

Uno de los modelos más complejos y **poderosos**.

Idea vieja, pero resucitada por disponibilidad de datos y hardware.

Para aprendizaje supervisado, no supervisado, y por refuerzo. Un mundo de posibilidades...

... Nosotros nos vamos a centrar en aprendizaje **supervisado** (clasificación y regresión).

# Por qué? Cuándo?

* Cuando modelos simples no funcionan...
* ... y tenemos hardware y datos.
* Cuando trabajamos con imágenes, video, audio y más.
* Cuando alguien ya entrenó y publicó una red que hace lo que queremos, o muy parecido.

* Hype?

# Repasemos: descenso por el gradiente

![](files/images/train.svg)

![](files/images/gradient_descent.svg)

# Repasemos: regresión logistica

![](files/images/logistic_regression_function.svg)

![](files/images/sigmoid_function.png)

![](files/images/logistic_regression_boundary_good_1.svg)

![](files/images/logistic_regression_boundary_good_2.svg)

# Funciona siempre?

![](files/images/non_linear_clasification.svg)

# No linealidad

Necesitamos un modelo más complejo, una recta **nunca funcionaría**.

Veamos entonces, **redes neuronales**.

# Neurona

* Vagamente inspirada en neuronas reales.
* N entradas, 1 salida
* La salida sale de hacer una operación con las entradas y pesos internos.
* ... O sea que es una **función**!

![](files/images/neuron_2.svg)

Qué pasa si Act == Sigmoid?...

Es una **regresión logística**! Podemos entrenarla con **descenso por el gradiente**, para que clasifique cosas.

Una neurona sola, ya podría ser entrenada y clasificar... cosas lineales.

# Y una red neuronal?

Muchas neuronas juntas podrán hacer algo mejor?

![](files/images/non_linear_clasification_two_neurons.svg)

Y si armamos ahora otro set de datos, con las salidas de estas dos neuronas y su clase?

![](files/images/non_linear_clasification_outputs_two_neurons.svg)

Y si intentamos ahora usar ese nuevo set de datos, para entrenar una tercer neurona?

![](files/images/non_linear_clasification_third_neuron.svg)

![](files/images/three_neurons.svg)

![](files/images/three_neurons_function.svg)

# Red neuronal!

![](files/images/neural_network_1.svg)

Este es **un tipo** de red neuronal específico: Multi-Layer Perceptron, o **MLP**.

Es una red "feed forward": las operaciones se hacen en una sola dirección, hacia adelante.

![](files/images/neural_network_1.svg)

* Podemos agregar muchas capas, con muchas neuronas en cada capa.
* Hay una **capa de entrada** y una **capa de salida**. Las demás son **capas ocultas**.
* Se suele dibujar a las entradas como neuronas también, aunque no lo sean realmente.
* Es demostrable que una sola capa oculta es suficiente para poder lograr cualquier función. El tema es cuántas neuronas, y qué tan fácil aprende eso.
* Podemos tener muchas salidas si ponemos varias neuronas en la capa de salida!

# Dónde está el conocimiento?

![](files/images/neural_network_2.svg)

# Cómo encontramos esos pesos?

Nuestro viejo amigo, **descenso por el gradiente**.

Aunque también hay otras opciones (como algoritmos genéticos).

![](files/images/neural_network_2.svg)

Y las **derivadas** de esto?????

Se puede. Es complejo. Por suerte las herramientas nos las resuelven.

... pero hay un problema: **¿Cómo determinar la actualización de pesos de capas ocultas?**

# Backpropagation
<div><img src="files/images/backpropagation.gif" width="50%" style="float: right; margin: 10px;" align="middle"></div>

Es un algoritmo que permite propagar la señal de error a las capas ocultas.

Por ejemplo, un peso del final se modifica sin problemas. Un peso del inicio se modifica **teniendo en cuenta cómo se propaga el error del final a las salidas de esta capa**.

No vamos a ver su detalle matemático. Las herramientas lo traen implementado.

# Hay que decidir unas cuantas cosas

Cuántas **capas**? Cuántas **neuronas** en cada capa? Cómo son las **conexiones** entre capas?

Esto se llama "Arquitectura" de nuestra red.

Pregunta difícil de responder: depende del caso, mirar cosas que hizo otra gente, etc.

* Pocas? Podemos no lograr buen resultado.
* Muchas? Podemos sobreentrenar, y puede ser muy lento.

Qué función de **activación** en cada capa?

Lo habitual es:

* Relu, Tanh o Sigmoidea en capas intermedias.
* Sigmoidea en capa de salida de redes con una sola salida entre 0 y 1.
* Softmax en capa de salida de redes con N salidas entre 0 y 1.

Qué variante de **decenso por el gradiente**?

Normalmente "adam" anda bien.

Qué variante de función de **error**?

Lo habitual es:

* Binary_crossentropy para redes con una sola salida entre 0 y 1.
* Categorical_crossentropy para redes con N salidas entre 0 y 1.

A veces puede hacer falta configurar "pesos" para los errores positivos y negativos.

# Y algunos consejos más

* Normalizar las entradas.
* Como siempre, entrenar y testear con sets separados. Las redes neuronales pueden overfitear muy fácil!
* Probar cambios de a **una** cosa a la vez.

# Técnica relacionada útil: dropout

<div><img src="files/images/dropout.svg" width="40%" style="float: right; margin: 10px;" align="middle"></div>


Capa que "apaga" conexiónes de forma aleatoria.


**Para qué?**

Para evitar que cada capa se "memorice" resultados que tiene que dar para determinados inputs (overfit interno y de la red en general).

# Zoológico de redes neuronales

MLP es el tipo más común, pero hay **muchas** otras formas de neuronas.

Principalmente lo que cambia es la **arquitectura de la red**, la forma en la que las neuronas están conectadas.

![](files/images/zoo.png)

Muy buen resumen de la utilidad de cada arquitectura!:

[THE NEURAL NETWORK ZOO](http://www.asimovinstitute.org/neural-network-zoo/)

Nosotros vamos a ver un poco de 3 de ellas...

# Autoencoders

Esto es un poco loco...

![](files/images/autoencoders.png)

Entrenamos usando las entradas también como salidas! 

Ej: 

entrada=`["fisa", 30, "espadas"]`

salida=`["fisa", 30, "espadas"]`

Como la red se **achica en el medio**, entonces tiene que **comprimir la información de entrada** de alguna forma, para que termine siendo expresada en menos números.

Pero como luego desde esos pocos números tiene que volver a generar las salidas originales, tiene que poder **descomprimir la información comprimida**.

Termina aprendiendo dos redes juntas: una que **comprime** información, y otra que la **descomprime**... Nuestro propio algoritmo de compresión! 

Inentendible, pero que quizás funciona mejor para nnuestro problema, que los algoritmos genéricos de compresión.

También se puede usar para **reducir dimensionalidad** de un set de datos (para visualizarlo, dárselo a modelos más simples, etc).

# Redes generadoras

### Generative Adversarial Networks (GANs)

### Generative Pre-trained Transformers (GPTs)

Esto es **muy** loco.

`"The coolest idea in machine learning in the last twenty years"`

-- Yann LeCun

`"Pretty much all interesting AI approaches involve GANs in the middle"`

-- Eric Smith

No?

![](files/images/transfer_style.png)

No?

![](files/images/transfer_style2.jpg)

No?

![](files/images/transfer_style_4.png)

No?

![](files/images/transfer_style3.jpg)

No?

![](files/images/bag.png)

No?

![](files/images/pix2pix_face.png)

No?

![](files/images/scene.png)

No?

![](files/images/obama_hilary.jpg)

In [2]:
from IPython.display import HTML
HTML('<iframe width="800" height="500" src="https://www.youtube.com/embed/b5AWhh6MYCg" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')



No?

![](files/images/gan_resolution.png)

No?

![](files/images/gan_refill.png)

No?

![](files/images/gan_objects.jpeg)

No?

![](files/images/gan_faces.png)

https://www.whichfaceisreal.com/

No?

![](files/images/best_programming_language.png)

Incluso jugar todo un juego así!! Entendiendo contexto e historia!!!!!

https://play.aidungeon.io/main/landing

![](files/images/dungeon.png)

https://www.instagram.com/openaidalle/

“Antique photo of a knight riding a T-Rex” 

![](files/images/dalle_trex.png)

https://www.instagram.com/openaidalle/

“A turkey sandwich as a superhero saving the city from danger in the style of a comic”

![](files/images/dalle_super_sandwich.png)

https://www.instagram.com/openaidalle/

"A teddy bear on a skateboard in Times Square" 

![](files/images/dalle_skate.png)

https://www.instagram.com/openaidalle/

“An x-ray of a unicorn skull”

![](files/images/dalle_xray.png)

In [3]:
HTML('<iframe width="800" height="500" src="https://www.youtube.com/embed/fZSFNUT6iY8" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')

# GANs: Cómo funcionan???

![](files/images/gans.svg)

La red **discriminadora** intenta predecir correctamente si sus entradas son un ejemplo real o un ejemplo generado.

La red **generadora** trata de generar ejemplos que confundan a la red discriminadora, a partir de entradas (que pueden ser random, o algún tipo de dato relacionado. Ej: dibujo a mano).

Primero entrenamos un poco la red **discriminadora**, hasta que sepa reconocer bien la cosa que queremos generar después (ej: fotos de perros vs fotos de no-perros).

Luego empezamos a generar ejemplos con la **generadora**, y se los pasamos a la **discriminadora**. Cuanto mejor prediga la discriminadora, **más error** le devolvemos a la generadora.

Seguimos entrenando ambas redes **a la vez**, que a partir de ahora **compiten** (una por detectar bien perros reales, la otra por generar perros que parezcan reales).

# MAGIA

![](files/images/magic.jpg)

# GPTs: Cómo funcionan???

Es un concepto **muy** avanzado para lo que llegamos a cubrir en la materia. Pero algunas generalidades:

- Language models para generación de texto (next token prediction, seq2seq, ...)
- Redes recurrentes... y el problema de los gradientes (recordar a largo plazo).
- LSTMs... mejor recordando a largo plazo, pero igual limitado.
- Transformers! All you need is attention. Ya no recurrentes, ver todo y decidir dónde enfocarse (GPT3 = 2048 words).

# Redes Convolucionales

## Motivación

*Un repaso de como se veria una red Densa*

<div><img src="images/mnist_multilayer.png" width="400" style="float: left; margin: 10px;"></div>

<div style="float: left; margin: 10px;">
    <ul>
      <li>¿Cuántos pesos tiene cada neurona?</li>
      <li>¿Se comparte información entre distintas ubicaciones de la imagen?</li>
    </ul>
</div>

<div style="clear:both;"></div>


## Otra forma de interpretar los layers intermedios

### Feature maps

*Podemos pensarlo como neuronas que se activan con determinada lógica, que siguen la posición espacial de la imagen original*

<div><img src="images/feature_maps.png" width="600" style="margin: 10px;"></div>

* Interesa mantener información espacial y destacar alguna propiedad particular
* Interesa ir condensando información

## ¿Cómo funciona la operación de convolución?

<div><img src="images/conv_explanation.jpg" width="50%" style="float: left;"></div>


### 1 canal

![](files/images/conv_animation.gif)

### 3 canales, 2 filtros

![](files/images/conv_calculation.png)

https://cs231n.github.io/convolutional-networks/

## Respecto de los problemas planteados originalmente

### Gran cantidad de pesos

* Si suponemos imagenes de 227x227x3, **cada neurona** de un feature map tendría 154.588 pesos para aprender
* Al conectar las neuronas con una **porción** (receptive field) de la imagen de entrada se reduce drásticamente ese número
 * Por ejemplo, si cada neurona se conecta con una porción de 11x11, los pesos de esa neurona serían solo 364 (11x11x3 + 1)
* Ese conjunto de pesos se denomina **filtro** y es lo que se **aprende** cuando entrenamos
* Al convolucionar un filtro sobre la imagen de entrada obtenemos un **feature map**


## Respecto de los problemas planteados originalmente

### Información espacial compartida

* Este problema se soluciona al utilizar siempre el mismo "conjunto de pesos" (a.k.a. **filtro**) para generar el feature map.

Este hecho vuelve a reducir el número de parametros. Siguiendo el ejemplo anterior, si queremos que nuestros feature maps esten compuestos de 81 neuronas cada uno (9x9), sin compartir pesos tendriamos 364 * 81 = 29.484 pesos. 

Compartiendo los parámetros nos quedamos con solo 364 pesos.

#### Parámetros y conceptos más comunes

* **Input size W**: el tamaño de la entrada
* **filters:** cantidad de filtros 
* **kernel_size F:** tamaño del kernel; se establece el ancho y alto, la profundidad depende de las entradas
* **strides S:** la cantidad de pasos que muevo el kernel
* **padding P:** agrega ceros en los bordes para mantener el tamaño original
* **activation:** función de activación aplicada ``pixel a pixel``

La cantidad de neuronas de salida es **(W - F + 2P)/S + 1**

### Pooling

<div><img src="images/max_pooling.png" width="30%" style="float: left;"></div>


* Se usan para reducir la cantidad de parametros (2 stride, kernel de 2, 2 reduce a 25% la cantidad de parametros)
* Hace mas complicado el sobreentrenamiento
* No hay aprendizaje (operación fija)
* Trabaja de forma independiente en cada profundidad. Ej: Input=(4, 4, 3) F=2, S=2, Output=(2, 2, 3)

La versión más común es max pooling

<div style="clear:both;"></div>

http://textminingonline.com/dive-into-tensorflow-part-v-deep-mnist

### Una red completa

En algún momento, aplanamos la disposición de las neuronas para obtener un vector y continuar con una red fully connected convencional..

<div><img src="images/neural_network_complete.png" width="100%" style="float: left;"></div>

Las convoluciones pueden terminar aprendiendo **"features"** de la imagen **de a poco**, desde conceptos más simples a más complejos.

Ej:primer convolución reconoce tipo de terreno en base a pixeles (planta, agua, cemento, arena). La siguiente convolución reconoce ciudad/playa/bosque/desierto en base a los tipos de terreno y su posición en la salida de la capa anterior (ej: agua + arena = playa). La siguiente convolución reconoce la región del país, en base a cuántas playas, bosques, ciudades, etc ve en las salidas de la anterior.

* Son **muy** efectivas para trabajar con imágenes. El estándar hoy en día.
* Son muy pesadas de calcular.
* Implica determinar cosas nuevas: qué tamaño tienen los kernels, cuántas convoluciones, etc.

# Deep learning?

*The hierarchy of concepts enables the computer to learn complicated concepts bybuilding them out of simpler ones. If we draw a graph showing how these concepts are built on top of each other, the graph is deep, with many layers. For this reason,we call this approach to AI deep learning.*


**Goodfellow et al 2016**

# Transfer Learning

## Qué es?

* Tomar un modelo entrenado para la tarea *A* y reutilizarlo para hacer la tarea *B*

## Para que?

* Principalmente, para evitar conseguir y/o etiquetar un dataset 
* Beneficio adicional, nos ahorramos mucho poder de cómputo en el entrenamiento

## Cómo?

* Buscamos un modelo entrenado 
* Reemplazamos las capas finales, frizamos las iniciales y entrenamos
* A medida que el aprendizaje queda "estancado" podemos comenzar a des-frizar capas del final para ajustar mejor el descubrimiento de features (a este proceso se lo conoce como **fine tuning**

<div><img src="images/transfer_learning.jpg" width="75%" style="float: center;"></div>

# Synthetic data generation

## Qué es?

* Generar ejemplos a partir de ejemplos existentes

## Para qué?

* Para evitar sobre-entrenamiento

## Como?

* Aplicando algunas operaciones sobre los datos de entrada 

Para investigar un poco...(https://keras.io/api/preprocessing/image/#imagedatagenerator-class)
