<img src="img/viu_logo.png" width="200">

# 07MAIR - Redes Neuronales y Deep Learning
## Clase 02: Redes neuronales artificiales
<img src="img/keras_logo.jpg" width="200">

### Profesores: Adrián Colomer Granero / Gabriel Enrique Muñoz Ríos
### Autor: Carlos Fernández Musoles

### Sumario
- Funciones de activación
- Visualización con Tensorflow playground
- Ejemplo mnist keras
- Optimización

<img src="img/xor_multi_layer.png" width="300">

<img src="img/xor_multi_layer_solucion.png" width="300">

### ¿Diferencias en batch size?
- Batch size = 1
- Tamaño del training set > Batch size > 1
- Batch size = Tamaño del training set

#### Batch size = 1 
 - Mucho sesgo en la actualización de pesos -> Outliers  
 - Tantas actualizaciones de pesos como muestras en el trainig set -> Convergencia más lenta (época lenta)
 - Poca carga en memoria ya que no se almacenan en RAM conjuntos de muestras ni errores por muestra

#### Batch size = Tamaño del training set
 - Una única actualización de pesos retropropagando el error medio de todas las muestras
 - Necesidad de establecer mayor número de épocas para garantizar convergencia
 - La época es más rápida ya que solo hay un paso por época
 - La RAM debe almacenar todas las muestras y errores asociados -> No es permisible en datasets grandes (OOM!)

#### Tamaño del training set > Batch size > 1
 - Solución de compromiso entre las dos anteriores
 - Tamaño de batch suele establecerse como potencia de dos
 - Pasos por época = int(Tamaño del dataset/Batch size)
 - Valor exacto del hiperparámetro: ¿arte? -> Ciencia empírica

# Hiperparámetros en el entrenamiento de ANNs

- Época: Una pasada de todos las training samples
- Batch size: Agrupación de training samples considerados para hacer una actualización de los parámetros de la red
- Learning rate: Magnitud del cambio en cada actualización
- Función de activación: Introduce las no linealidades en el esquema de red neuronal
- Función de pérdida: Error entre lo esperado (etiqueta, ground truth) y lo predicho en la época actual
- Topología de la red neuronal: Número de capas ocultas y unidades/neuronas por capa

# Tradeoffs: 
#### Batch size 
 - Alto: Lento en entrenar y mucha memoria RAM consumida, problemático en datasets de grandes dimensiones 
 - Bajo: Poca memoria consumida, errático en bajar el error (mayor sesgo)
 
#### Learning rate
 - Alto: Problemas para alcanzar minimos globales
 - Bajo: Lentitud y posible estancamiento en minimo local
 
VIsualización de entrenamiento con TensorFlow playground https://playground.tensorflow.org

## Función de activación 

Muchas disponibles: https://en.wikipedia.org/wiki/Activation_function

### Umbral
<img src="img/stepfunc.png" width="300">

Fuente: Wikipedia https://en.wikipedia.org/wiki/Step_function

- Input > umbral = 1, else 0

- Difícil convergencia durante entrenamiento
- Para multiclase, cómo decidir el output correcto (tres 1 y un 0)

### Linear

<img src="img/linear.png" width="300">

Fuente: Wikipedia https://en.wikipedia.org/wiki/Activation_function 

- Input - output linear
- Output -inf a +inf

- Combinación de funciones lineales da una funcion lineal
- Explosión de valores (dificil entrenamiento)

### Sigmoide

<img src="img/sigmoid.png" width="300">

- No linear
- Output 0 a 1

- Problema: entrenamiento puede ser lento cuando los valores residen en los extremos

### Tangencial

<img src="img/tanh.png" width="300">

Fuente: Wolfram https://reference.wolfram.com/language/ref/Tanh.html

- No linear
- Output -1 a 1

- Gradiente más fuerte que sigmoide (derivadas son más intensas, por lo que la convergencia puede dificultarse)

### ReLU (Rectified Linear Unit)

<img src="img/relu.png" width="300">

Fuente: Wikipedia https://en.wikipedia.org/wiki/Rectifier_(neural_networks)

- No linear
- Output 0 a +inf

- Cualquier función puede aproximarse con una combinacion de ReLUs
- Aunque puede explotar (lado positivo) es más eficiente (menos calculos) que sigmoid o tanh
 - Sigmoid / tanh el cálculo de la función de activacion es más costoso
 - Con ReLU, muchas serán 0 (sin calculo)

### La no linearidad de la funcion de activación es lo que permite a las ANNs aprender decision boundaries que no son lineales

### Variaciones de SGD
- Rmsprop: dividir gradiente entre la media de las magnitudes recientes 
- Momentum: la magnitud del cambio al actualizar parametros depende del gradiente actual y del cambio anterior. velocity = past_vel * momentum + learning_rate * gradient
- Otros disponibles en Keras https://keras.io/optimizers/

# Instalacion de Keras
- Instalacion backend (CPU, GPU)
```python
pip install tensorflow
```
```python
pip install tensorflow-gpu
```
- Mas información acerca de la instalación:
 
 https://www.pyimagesearch.com/2019/12/09/how-to-install-tensorflow-2-0-on-ubuntu/
 
 https://www.tensorflow.org/install/gpu

## Nuestra primera red neuronal: MNIST dataset
Keras y el dataset MNIST para el reconocimiento de digitos escritos a mano

## MLP aplicado a texto: Ejemplo REUTERS
Keras y el dataset MNIST para la clasificación de reseñas

Hot encoding palabras
<img src="img/hot_encoding.png" width="300">

### Ejercicio
Comparar los resultados con otros modelos:
- Modificar la arquitectura de la red (numero de neuronas, numero de hidden layers)
- Demostrar que con menos hidden units se pierde información que no se puede recuperar
- Experimentar con 'tanh' en vez de 'relu' como función de activación
- Distinto split training / validation (mayoría validation)

# Optimizacion de redes neuronales
- Preprocesado para ANN: 
 - Vectorizacion del input (tensores)
 - Normalizacion de valores para acelerar entrenamiento (todas las features deben tener misma escala), media 0 y std 1
 - Valores perdidos: Eliminar, interpolar o utilizar 0 (si 0 no tiene significado)

- Feature engineering (menos importante en deep learning):
 - Feature cross
 - Creacion de features basadas en el dominio

- Regularización: 
 - Weight regularization
 - Dropout
 - Batch normalization

# Weight regularization

- El modelo más sencillo (menos parametros) que explique los datos es el preferido (Navaja de Ockham)
- Lidiar con el problema de overfitting es la tarea más complicada en el paradigma del aprendizaje profundo:
 - Hace que los parametros tengan valores muy pequeños (coste a cada solución dependiente de la magnitud de los parametros)
 - Coste proporcional al valor absoluto (L1) o proporcional a la raiz cuadrada del valor (L2)

# Dropout

- Desactivar neuronas aleatoriamente (i.e. poner a 0 en output features de una capa)
- Dropout rate determina la proporcion de neuronas a desactivar
- Funciona al eliminar patrones espurios (evita overfitting)
<img src="img/dropout.png" width="600">

# Batch normalization

- Resta la media y divide entre la desviación típica de los datos del batch -> Estandarización de features
<img src="img/batch_norm.png" width="600">
- Se suele situar en la salida de la capa (tras la función de activación)
- Mejora el entrenamiento de la red -> Mayor eficiencia computacional
- Permite el uso de valores de learning rate más altos
- Se puede considerar como un método de regularización aunque no es su principal ventaja. Dropout y L1/L2 aportan mayor regularización
- Existen variantes como Layer normalization, Instance normalization o Group normalization (CNNs)
<img src="img/batch_norm_cnn.png" width="600">

## Regularización en un MLP: L1/L2, Dropout y Batch Normalization
Keras y el dataset Reuters para demostrar el uso de regularización en deep learning

## Función de pérdida / Función de activación (Tabla resumen)

- Dependiente del problema
 - Clasificación binaria: activación ultima capa (sigmoide), función de perdida (binary_crossentropy)
 - Clasificacion multiclase: activación ultima capa (softmax), función de perdida (categorical_crossentropy)
 - Regresión con valores arbitrarios: activación ultima capa (none), función de perdida (mse)
 - Regresión valores 0 a 1: activación ultima capa (sigmoide), función de perdida (mse o binary_crossentropy)
 
 Información en Keras https://keras.io/losses/