
# <center>Introducción a TensorFlow y Keras</center>
**Julio 2020** <br>
**Intructor:** Eduardo Marín Nicolalde

## 1. TensorFlow en Databricks

De forma predeterminada, **Databricks** no instala la última versión de `TensorFlow`. Esto es particularmente importante ya que, desde la versión `2.0.0`, la librería `keras` se incluye como un módulo dentro de la librería en mención.

Para instalar la última versión disponible de `TensorFlow`, es necesario ejecutar el código ``tensorflow==2.2.0`` desde la sección `Libraries` dentro del cluster.


In [0]:
import numpy as np 
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.models import Sequential
from tensorflow.keras import layers
from tensorflow.keras.optimizers import SGD
import matplotlib.pyplot as plt

print(tf.__version__)
print(keras.__version__)

### 1.1 ¿Qué es ``TensorFlow``?
Tensorflow es una librería de código abierto, diseñada para trabajar con Machine Learning, en particular con Deep Learning. Permite definir redes neuronales complejas y profundas y realizar entrenamiento en ellas. 

### 1.2 ¿Qué es ``Keras``?
Keras es una capa de abstracción que sirve para ocultar la complejidad de trabajar directamente con librerías de bajo nivel. Para ello emplea una interfaz común entre múltiples librería llamadas backend. 

### 1.3 ``TensorFlow``: Jerarquía de herramientas
Desde el nivel más alto:

1. **Alto nivel:** API orientadas a objetos (`Estimators`,`tf.keras`) 
2. **Librerías reusables para modelos:** Librerías como (`tf.layers`,`tf.losses`,`tf.metrics`,...)
3. **Bajo nivel:** API de control extensivo
4. **Plataformas:** Puede correr en `CPU`, `GPU` o `TPU`



## 2. Implementación de redes neuronales usando Keras
* Utilizaremos el modelo  `Sequential` de Keras, al que iremos añadiendo capas. 
* Una vez que tenemos un modelo, añadimos capas ```keras.layers```, en el caso de MLPs se llama `Dense`. 

La receta  para crear modelos en Keras es la siguiente:

###### 1.Crear Modelo `Sequencial`: Esto crea una instancia ```model```, sobre la cual se pueden ejecutar más operaciones. En particular añadir capas adicionales, compilar el modelo y entrenar el modelo.

```python
model = Sequential()

```

###### 2. Añadir capas

```python
model.add( ... )
```

**Ejemplo:** añadir 2 capas de tipo `Dense` (MLP), una a continuación de la otra. La primera capa añadida debe indicar el número de inputs que se procesará en la red neuronal.


```python
input_dimensionality = 10
model.add(layers.Dense(units = 3, input_dim=input_dimensionality, activation='relu'))
model.add(layers.Dense(units = 4, activation='relu'))
```
Las líneas anteriores producen un modelo de dos capas ocultas densamente conectadas con 3 y 4 unidades, respectivamente. 

###### 3. La última capa corresponde a la salida. Por ejemplo para clasificación añadimos una capa `Dense` pero con una unidad/neurona.

```python
model.add(layers.Dense(units = 1, activation='sigmoid'))
```

###### 4. Compilación

```python
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])
```

Una vez armada la red, procedemos a compilarla. En este paso especificamos qué optimizador vamos a utilizar, qué tipo de función de pérdida se va a optimizar y qué métricas utilizaremos. Por ejemplo en el código anterior usamos un optimizador RMSProp, con una pérdida llamada ```binary_crossentropy```.


###### 5. Entrenamiento

``` python
history = model.fit(X, y, verbose=2, epochs=10, validation_data=[X_val, y_val])
```

Finalmente ejecutaremos el entrenamiento. Aquí debemos especificar los datos (X, y), número de épocas, datos de validación y otros parámetros.

### 2.1 Ejemplo de implementación
Sin preocuparnos demasiado en validación, testing y generalización, vamos a ver como usar Keras para aprender la función booleana **XOR** de dos variables. Lo importante es ver como se utiliza el framework. En los siguientes laboratorios se verán ejemplos más detallados.

In [0]:
# Data: XOR con MLP sencillo
# X_tr y y_tr definen los casos de una funcion XOR de dos variables booleanas
X_tr = np.array([[0., 0.], [1., 0.], [0., 1.], [1., 1.]])
y_tr = np.array([[0.], [1.], [1.], [0.]])

In [0]:
X_tr
y_tr

Crea modelo **Sequential**. 

La variable model es una instancia sobre la que se invocan las operaciones sucesivas

In [0]:
model = Sequential()

Con `keras.layers.Dense`, se añade una capa oculta de 4 unidades a continuación de las entradas. La primera capa oculta debe especificar el número de inputs `input_dim`.

**```keras.layers.Dense```**
Crea una capa totalmente/densamente conectada. Opciones más importantes:

```python
keras.layers.Dense(units, input_shape=shape, activation=activation, kernel_regularizer=regularizer)

```
* ```units``` **integer**. Número de unidades de esta capa
* ```input_shape``` **tuple** o **integer**. Entero o tupla con la dimensionalidad de la entrada. Por ejemplo: si tenemos 5 variables de entrada podemos poner `input_shape=5` o `input_shape=(5,)`
* ```activation``` **string** o instancia de tipo **keras.layers.Activation**. Designa el tipo de función de activación. Tipos comunes son: ```'sigmoid', 'tanh', 'relu', 'softmax'```
* ```kernel_regularizer``` instancia de tipo **keras.regularizers.Regularizer**. Tipos de regularizadores comunes son l1 y l2. Véase sección: ```Objeto keras.regularizers.Regularizer```

---
**Regularizadores ```keras.regularizers```**
Crea instancia de un regularizador, que se añade como opción en algunos tipos de capas por ejemplo en ```Dense``` o ```Conv2D```. Ejemplos más importantes:
* ```keras.regularizers.l1(regularization_constant)``` Regularizador l1.
    - ```regularization_constant``` **float**. Parámetro que indica la cantidad de regularizacion. Ejemplo: 0.01
* ```keras.regularizers.l2(regularization_constant)``` Regularizador l2.
    - ```regularization_constant``` **float**. Parámetro que indica la cantidad de regularizacion. Ejemplo: 0.01
* ```keras.regularizers.l1_l2(l1=l1_parameter, l2=l2_parameter)``` Aplica regularización l1 y l2 al mismo tiempo.
    - ```l1_parameter``` **float**. Parámetro que indica la cantidad de regularizacion l1. Ejemplo: 0.01
    - ```l2_parameter``` **float**. Parámetro que indica la cantidad de regularizacion l2. Ejemplo: 0.01
    
---

In [0]:
model.add(layers.Dense(4, input_dim=X_tr.shape[1], activation='relu'))

Añade una capa de **salida** de una unidad y de tipo sigmoide

In [0]:
model.add(layers.Dense(units = 1, activation='sigmoid'))

**Compilamos el modelo**, con pérdida `binary_crossentropy`, y especificamos un optimizador `SGD`

**Método ```model.compile(loss=loss, optimizer=optimizer, metrics=metrics)```**

Método de una instancia tipo ```Sequential```. Suponiendo que se creó el modelo ```model```, compilará el modelo y fijará opciones para la optimización. Las opciones más importantes son:

* ```loss``` **string** o instancia tipo **keras.losses**. Especifica el tipo de función de pérdida que se utilizará para optimizar el modelo. Funciones comunes son: ```loss='mse'``` para Mean Square Error (Regresión), ```loss='binary_crossentropy'``` para clasificación binaria, ```loss='categorical_crossentropy'``` para clasificación multi-clase.
* ```optimizer``` **string** o instancia tipo **keras.optimizers**. Especifica el algoritmo de optimización que se ejecutará. Algoritmos comunes son: ```optimizer='sgd'``` para gradiente descendiente estocástica (SGD), ```optimizer='RMSprop'``` para algoritmo RMSProp, ```optimizer='adam'``` para algoritmo Adam.
* ```metrics``` **list of strings**. Especifica que métricas va a ir evaluando el proceso de optimización. Usualmente se utilizan: ```metrics=['accuracy']``` para clasificación y ```metrics=['mse']``` para regresión.

In [0]:
model.compile(loss='binary_crossentropy', optimizer=SGD(lr=0.1))

Obtenemos información sumaria del modelo

In [0]:
model.summary()

6. Procedemos a entrenar durante 1000 épocas

**Método ```model.fit(X, y, verbose=verbose, epochs=epochs, validation_data=(X_val, y_val), callbacks=[callbacks])```**
Método de una instancia tipo ```Sequential```. Suponiendo que se creó el modelo ```model``` y se han compilado las opciones de optimización, se procederá a entrenar. Las opciones más importantes son:

* ```X``` **numpy array (filas, columnas)**. Datos para entrenar. Consiste en un arreglo numpy de forma (filas, columnas), donde filas son el número de muestras y columnas son las variables de entrada.
* ```y``` **numpy array (filas, columnas)**. Normalmente para clasificación binaria es un arreglo de forma (filas,), pero si hay más variables de salida, las segunda dimensión será el número de variables.
* ```epochs``` **int**. Número de épocas que se va a entrenar el modelo.
* ```batch_size``` **int or None**. Número de samples por cada actualización de la gradiente.
* ```verbose``` **int**. Nivel de verbosidad. ```0```: modo silencioso. ```1```: sólo muestra la barra de progreso. ```2```: una línea de información por cada época.
* ```validation_data``` **tuple**. Datos para la validación. Tupla de pares ```X_val```, ```y_val```, ambos arreglos numpy con el mismo número de columnas de ```X``` y ```y```, aunque no necesariamente el mismo número de filas.
* ```callbacks``` **list**. Lista de instancias ```keras.callbacks```. Esto permite ejecutar funciones (callbacks) en cada iteración del proceso (cada época). Un callback muy usado es el EarlyStopping (```keras.callbacks.EarlyStopping```), que detiene el proceso de entrenamiento cuando ya no existe mejora en el desempeño medido en la data de validación. Véase el apartado ```keras.callbacks.EarlyStopping```.

---

In [0]:
model.fit(X_tr, y_tr, verbose=2, epochs=1000)

Hacemos la **predicción** sobre las variables de entrada para comparar con la salida de una función XOR

In [0]:
model.predict(X_tr)

Como vemos la salidas son valores entre 0  y 1 (capa de salida sigmoide), que pueden interpretarse como probabilidades. 

De igual manera, los valores pueden convertirse en una función **XOR**. Si por ejemplo usamos un threshold de $$0.5$$, obtenemos valores booleanes de $$0$$ o $$1$$.

---
8. Otras opciones comunes


**```keras.classbacks.EarlyStopping(monitor=monitor, min_delta=min_delta, patience=patience, verbose=verbose, mode=mode, restore_best_weights=restore_best_weights)```**
Callback utilizado para parar proceso de optimización. Las opciones más importantes son:
* ```monitor``` **string**. Se refiere a la cantidad que se va a monitorear. Usualmente se monitorea la pérdida sobre los datos de validación. Un valor común es ```monitor='val_loss'```.
* ```min_delta``` **float**. Mínimo cambio en la cantidad monitoreada, para que cuantifique como mejoría. Un valor común es ```min_delta=1e-3```
* ```patience``` **int**. Número de épocas sin mejoría después de lo cual la optimización se detiene. Ejemplo: ```patience=5```.
* ```verbose``` **int**. Modo de verbosidad.
* ```mode``` **string**. Usualmente se usa ```mode='auto'```.
* ```restore_best_weights``` **boolean**. Indica si se deben restaurar los pesos que derivaron en el mejor valor de la cantidad monitoreada. Usualmente es ```restore_best_weights=True```.

---
**```keras.callbacks.TensorBoard(log_dir=log_dir)```**
Callback utilizado para monitorear usando la herramienta Tensorboard que viene instalada con Tensorflow. La opción más importante es el directorio donde se escriben los logs:
* ```log_dir``` **string**. Directorio donde se escriben los logs

## 5. Fin
