<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/keras-tf-logo.png" height="200"></center>

# 1.6 Deep Learning con tf.Keras (Keras + TensorFlow)

Profesor: Juan Ramón Rico (<juanramonrico@ua.es>)

Los ejemplos que se presentarán a continuación están basados en la documentación introductoria de [Keras](https://keras.io/).

## Resumen
---
**tf.keras** es un paquete que permite la creación y prueba de redes neuronales avanzadas (Deep Learning). Tiene una sintaxis sencilla que permite modelar rápido. Desde 2019 fue integrado complementamente en el desarrollo de [Tensorflow v2.x](https://www.tensorflow.org/) de Google y forma parte de él.
- Documentación <https://keras.io/> y <https://www.tensorflow.org/tutorials>
- Tutorial de inicio rápido <https://machinelearningmastery.com/tensorflow-tutorial-deep-learning-with-tf-keras/>
---


# Redes neuronales

## Neurona de un ser vivo

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/artificial_vs_biological_neural_cell.png" height="600"></center>


## Perceptrón multicapa

Conocido normalmente por sus siglas en inglés MLP (Multilayer Perceptron).


<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/mlp.png" height="300"></center>

## Pricipales topologías

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/ann_topologies_basic.png" ></center>

## Cronología de aportaciones destacables en las redes neuronales

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/dl_timeline.png" ></center>

> [Geoffrey Hinton](https://en.wikipedia.org/wiki/Geoffrey_Hinton) (británico) psicólogo cognitivo e informático. Destaca por sus aportaciones en las redes neuronales artificiales desde los años 80 hasta la actualidad (MLP, back-propagation, Bolzmann Machine Network, Deep Belief Network, Dropout, Capsule Network). Desde 2013 divide su tiempo trabajando para Google ([Google Brain](https://en.wikipedia.org/wiki/Google_Brain)) y la Universidad de Toronto.

 <center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/hinton.png"></center>

# tf.keras

[Keras](https://keras.io/) era una API de redes neuronales de alto nivel, escrita en Python y capaz de ejecutarse sobre otros paquetes de bajo nivel como [TensorFlow](https://www.tensorflow.org/) (Google), [CNTK](https://www.microsoft.com/en-us/cognitive-toolkit/) (Microsoft) o [Theano](http://deeplearning.net/software/theano/) (Université de Montréal). Fue desarrollado con el objetivo de permitir una rápida experimentación. Poder pasar de la idea al resultado en el menor tiempo posible es clave para realizar una buena investigación. Fue uno de los paquetas más utilizados, y puede que el que más, para diseñar redes neuronales. Desde 2015 al 2019 `Tensorflow` fue integrando parte de su API en sus diferentes versiones hasta que en 2019 con la versión 2 de `TensorFlow` integró completamente a `Keras` y a partir de entonces es un módulo de TF 2.x. Por ello se le conoce como `tf.keras`.

Utiliza **`tf.keras`** si necesitas una biblioteca de Deep Learning que:

- Permite un prototipado fácil y rápido (a través de la facilidad de uso, modularidad y extensibilidad).
- Soporte tanto redes convolucionales como redes recurrentes, así como combinaciones de ambas.
- Se ejecute en la CPU y la GPU.

Basado en los principios de:

- **Facilidad de uso**  Keras es una API diseñada para seres humanos, no para máquinas. Pone la experiencia del usuario en primer plano. Keras sigue las mejores prácticas para reducir la carga cognitiva: ofrece APIs consistentes y simples, minimiza el número de acciones de usuario requeridas para casos de uso común, y proporciona una retroalimentación clara y procesable sobre el error del usuario.

- **Modularidad**: Un modelo se entiende como una secuencia o un gráfico de módulos independientes, totalmente configurables, que pueden conectarse entre sí con las mínimas restricciones posibles. En particular, las capas neuronales, las funciones de coste, los optimizadores, los esquemas de inicialización, las funciones de activación y los esquemas de regularización son módulos independientes que puede combinar para crear nuevos modelos.

- **Permite una extensión fácil**:  Los nuevos módulos son fáciles de añadir (como nuevas clases y funciones), y los existentes proporcionan amplios ejemplos que se intregran con todo el ecosistema de productos de `TensorFlow`. El poder crear fácilmente nuevos módulos permite una expresividad total, haciendo que sea adecuado para la investigación avanzada. Permite tres estilos de programación: secuencial (fácil), funcional (medio) y subclases (avanzado).

- **Trabaja con Python**: No hay archivos de configuración de modelos separados en formato declarativo. Los modelos se describen en código `Python`, que es compacto, más fácil de depurar y permite su extensión fácilmente.

# Ejemplos básicos

## Trabajar con tf.keras

In [None]:
import tensorflow as tf

print(f'TensorFlow versión : {tf.__version__}')
print(f'tf.keras versión: {tf.keras.__version__}')

## Copiar los datos a Google Colab

In [None]:
# Hay que copiar los archivos de ejemplo
!wget https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/data/basic_data.zip
!unzip basic_data

## Crear y entrenar un modelo

Los modelos de Keras se entrenan con matrices de datos de entrada y etiquetas de `Numpy` o tablas de datos de `Pandas`. Para entrenar un modelo se utiliza la función `fit` ([más información](https://keras.io/models/sequential/)).

En este primer ejemplo cargaremos un fichero de datos CSV con dos clases objetivo (si está enfermo o no) y entrenaremos un MLP con todos los datos.

## MLP para clasificación binaria

Este primer planteamiento simplemente es para comprobar si la implementación de nuestra red es correcta.

In [None]:
import pandas as pd
from tensorflow.keras import Sequential, layers

# Clasificación binaria con el fichero 'diabetes_01.csv'
data = pd.read_csv('./basic_data/diabetes_01.csv')
pairs = {'int64':'int32', 'float64':'float32'}
for i in data.columns:
  data[i]= data[i].astype(pairs.get(str(data[i].dtype), data[i].dtype))

# Selección de atributos y variable objetivo
X = data.iloc[:,:-1]
y = data.iloc[:,-1]

# Para un modelo con una entrada de datos numéricos y para clasificar 2 clases (binary classification):
model = Sequential()
model.add(layers.Dense(32, activation='relu', input_dim=X.shape[1]))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(optimizer='sgd',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# Entrenar el modelo, iterando con los datos en grupos de 32 muestras
model.fit(X, y, epochs=50, batch_size=32)

En el ejemplo anterior se entrena sobre todos los datos disponibles con lo que la tasa de aciertos finales no sabemos hasta que punto es fiable.

Para ello, vamos a dividir los datos en un par de conjuntos para poder entrenar con uno y testear con el otro.

Vamos a evitar el sobre-entrenamiento (overfitting) con una función llamada `Dropout` que se explicará con detenimiento en la siguiente sesión.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras import Sequential, layers

# Clasificación binaria con el fichero 'diabete_01.csv'
data = pd.read_csv('./basic_data/diabetes_01.csv')

pairs = {'int64':'int32', 'float64':'float32'}
for i in data.columns:
  data[i]= data[i].astype(pairs.get(str(data[i].dtype), data[i].dtype))

# Selección de atributos y variable objetivo
X = data.iloc[:,:-1]
y = data.iloc[:,-1]

# Dividir los datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.1, random_state=123)

# Scalar valores de las columnas (atributos)
# sc =  StandardScaler()
# sc.fit(X_train)
# X_train = sc.transform(X_train)
# X_test = sc.transform(X_test)

model = Sequential([
    layers.Dense(32, input_dim=X_train.shape[1], activation='relu'),
    layers.Dropout(0.2),
    layers.Dense(16, activation='relu'),
    layers.Dropout(0.3),
    layers.Dense(1, activation='sigmoid')
])

model.compile(loss='binary_crossentropy',
              optimizer='sgd',
              metrics=['accuracy'])

model.fit(X_train, y_train, epochs=70, batch_size=8)
loss, accuracy = model.evaluate(X_test, y_test, batch_size=32)
print(f'Test accuracy {accuracy:.2f}')

## Integración de `Keras` en `scikit-learn`

Hasta hace pocas versiones estaba soportado directamente por tf2 pero ahora lo soporta un proyectos externo `scikeras` (https://github.com/adriangb/scikeras).

Así que procederemos a instalarlo.


In [None]:
!pip install scikeras -U

In [None]:
import pandas as pd
from tensorflow.keras import Sequential, layers

from scikeras.wrappers import KerasClassifier, KerasRegressor

# Clasificación binaria con el fichero 'diabete_01.csv'
data = pd.read_csv('./basic_data/diabetes_01.csv')

pairs = {'int64':'int32', 'float64':'float32'}
for i in data.columns:
  data[i]= data[i].astype(pairs.get(str(data[i].dtype), data[i].dtype))

# Selección de atributos y variable objetivo
X = data.iloc[:,:-1]
y = data.iloc[:,-1]

def build_model(input_dim):
  model = Sequential([
      layers.Dense(32, input_dim=X.shape[1], activation='relu'),
      layers.Dropout(0.2),
      layers.Dense(16, activation='relu'),
      layers.Dropout(0.3),
      layers.Dense(1, activation='sigmoid')
  ])
  model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
  return model

model = build_model(X.shape[1])
model.summary()

In [None]:
%%capture --no-stdout
import numpy as np
from sklearn.model_selection import cross_val_score, KFold
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression

names = ["MLP Keras","Nearest Neighbors", "Linear SVM", "RBF SVM",
         "Decision Tree", "Random Forest", "MLP", "AdaBoost",
         "Naive Bayes"]

models = [
    KerasClassifier(model=build_model, input_dim=X.shape[1], batch_size=32, epochs=75, verbose=0),
    KNeighborsClassifier(3),
    SVC(kernel='linear'),
    SVC(kernel='rbf'),
    DecisionTreeClassifier(random_state=123),
    RandomForestClassifier(random_state=123),
    MLPClassifier(random_state=123),
    AdaBoostClassifier(random_state=123),
    GaussianNB()
]


cv = KFold(n_splits=10, random_state=123, shuffle=True)
# iterate over classifiers
for name, model in zip(names, models):
  pipe = Pipeline([('scale', StandardScaler()), (name, model)])
  results = np.round(cross_val_score(pipe, X, y, cv=cv),2)
  print(f'{name:20s} media: {results.mean():.2} resultados: {results}')

## Clasificación con Multilayer Perceptron (MLP) para diversas clases (softmax):

* Ahora vamos a trabajar de nuevo sobre el conjunto de datos llamado [Iris](https://en.wikipedia.org/wiki/Iris_flower_data_set).

* Además tenemos tres categorias (iris-setosa, iris-virginica e iris-versicolor) que convertiremos a identificadores (0, 1 y 2) con `LabelEncoder`;

* Las categorías en redes necesitan una codificación binaria excluyente llamada **one hot**, es decir, la representación sería 0 (1,0,0), 1 (0,1,0) y 2 (0,0,1).

* En esta ocasión también crearemos un par de conjuntos disjuntos; uno para entrenar y el otro para testear los resultados.



In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras import Sequential, layers, optimizers, utils

# Clasificación múltiple con el fichero 'iris.csv'
label_enc = LabelEncoder()
data = pd.read_csv('./basic_data/iris.csv')
X = data.iloc[:,:-1]
y = label_enc.fit_transform(data.iloc[:,-1])
n_classes = len(np.unique(y))

# Dividir los datos en entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.1, random_state=123)
y_train = utils.to_categorical(y_train)
y_test = utils.to_categorical(y_test)

model = Sequential([
  # Dense(64) es una capa de conexión completa con 64 neuronas ocultas.
  # en la primera capa se tiene que especificar la dimensión de la entrada de datos.
  layers.Dense(64, activation='relu', input_dim=X_train.shape[1]),
  layers.Dropout(0.2),
  layers.Dense(64, activation='relu'),
  layers.Dropout(0.3),
  layers.Dense(n_classes, activation='softmax') # Número de clases finales
])

sgd = optimizers.SGD( momentum=0.9, nesterov=True)
model.compile(loss='categorical_crossentropy',
              optimizer=sgd,
              metrics=['accuracy'])

model.fit(X_train, y_train, epochs=20, batch_size=32)
loss, accuracy = model.evaluate(X_test, y_test, batch_size=32)
print(f'Test accuracy {accuracy:.2f}')

**Ejercicio**: Probar con el valor de `SGD` por defecto.

¿Qué ocurre?

## MLP para regresión

Vamos a mostrar un ejemplo para calcular un valor final. Nos basaremos en el conjunto de datos de `Boston House Prices` incluida en los datos descargados previsamente (`basic_data.zip`).

### Boston house prices dataset

**Data Set Characteristics:**  

    :Number of Instances: 506

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
        - B        1000(Bk - 0.63)^2 where Bk is the proportion of black people by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in $1000's

    :Missing Attribute Values: None

    :Creator: Harrison, D. and Rubinfeld, D.L.

In [None]:
from sklearn.model_selection import train_test_split

data = pd.read_csv('basic_data/boston.csv').astype('float32')

X, y = data.iloc[:,:-1], data.iloc[:,-1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=123)

### Prueba con entrenamiento y test

Para esta prueba necesitamos escalar los diferentes indicadores, ya que tienen diferentes rangos de valores (`StandardScaler`).

In [None]:
import numpy as np
from sklearn import metrics
from sklearn import preprocessing
from tensorflow.keras import Sequential, layers, optimizers, utils

# Para un modelo para calcular una regresión
def build_mlp_reg(input_dim):
  model = Sequential([
    layers.Dense(32, activation='relu', kernel_initializer='normal', input_dim=input_dim),
    layers.Dense(1, kernel_initializer='normal')
  ])
  model.compile(optimizer='adam', loss='mean_absolute_error')

  return model

# Necesitamos ajustar los rangos de las entradas (x) y las salidas (y)
scaler = preprocessing.StandardScaler()
X_train_scaler = scaler.fit_transform(X_train)
X_test_scaler = scaler.transform(X_test)

# Construir el modelo
model = build_mlp_reg(X_train.shape[1])

# Entrenar el modelo, iterando con los datos en grupos de 8 muestras
model.fit(X_train_scaler, y_train, epochs=100, batch_size=8, validation_split=0.1, verbose=2)

# Probar el conjunto de test
y_pred = model.predict(X_test_scaler)
score = metrics.mean_absolute_error(y_test, y_pred)
print(f'mean absolute error: {score:.2f}')

In [None]:
# Suponemos que queremos predecir una nueva muestra
df = pd.DataFrame({'Nombres':data.columns[:-1], 'Valores':X_test_scaler[-1]}) # Última muestra de test
display(df.T)
print(f'Predicción: {y_pred[-1][0]:.2f}')
print(f'Valor real: {y_test.iloc[-1]:.2f}')

### Validación cruzada

Vamos a comparar los resultados de esta regresión MLP usando una validación cruzada de 10 con los resultados del tema previo.

Usaremos el método `KerasRegressor` para comunicar los modelos de `Keras` con la utilidades de `sklearn`.

In [None]:
%%capture --no-stdout
import numpy as np

from tensorflow.keras import Sequential, layers, optimizers, utils
from scikeras.wrappers import KerasClassifier, KerasRegressor

from sklearn.neural_network import MLPRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, AdaBoostRegressor
from sklearn import pipeline, model_selection, preprocessing

names = ["Nearest Neighbors", "Linear SVM", "RBF SVM",
         "Decision Tree", "Random Forest", "AdaBoost",
         "MLP", "MLP-Keras"]

models = [
    KNeighborsRegressor(3),
    SVR(kernel='linear'),
    SVR(kernel='rbf'),
    DecisionTreeRegressor(random_state=123),
    RandomForestRegressor(random_state=123),
    AdaBoostRegressor(random_state=123),
    MLPRegressor(random_state=123),
    KerasRegressor(model=build_mlp_reg, input_dim=X_train.shape[1], epochs=100, batch_size=8, verbose=0)
]

from sklearn.model_selection import cross_val_score

# iterate over regressors models
cv = model_selection.KFold(n_splits=10, random_state=123, shuffle=True)
for name, model in zip(names, models):
  pipe = pipeline.Pipeline([('scaler', preprocessing.StandardScaler()),
                            ('regressor', model)])
  results = -np.round(model_selection.cross_val_score(pipe, X, y, scoring='neg_mean_absolute_error', cv=cv),2)
  print(f'{name:20s} media: {results.mean():.2} resultados: {results}')

# Ejemplos avanzados

En este enlace, <https://keras.io/examples/>, tenemos más ejemplos completos para comenzar en aplicaciones a diferentes ámbitos:

- Visión por ordenador
- Procesamiento del lenguaje natural
- Datos estructurados
- Series temporales
- Datos de audio
- Aprendizaje profundo generativo
- Aprendizaje por refuerzo
- Datos gráficos


## Ejemplos de gráficos de puntos 2D

In [None]:
# Gráfico usando Pandas (sepal)
data = pd.read_csv('./basic_data/iris.csv')

colors = {'Iris-setosa':'blue', 'Iris-versicolor':'red', 'Iris-virginica':'green'}
data.plot.scatter(x='sepallength', y='sepalwidth', c=[colors[i] for i in data['class']])

In [None]:
# Gráfico interactivo usando Altair (sepal)

import altair as alt

alt.Chart(data).mark_point().encode(x='sepallength', y='sepalwidth', fill='class', shape='class').interactive()

In [None]:
# Gráfico usando Pandas (petal)

colors = {'Iris-setosa':'blue', 'Iris-versicolor':'red', 'Iris-virginica':'green'}
data.plot.scatter(x='petallength', y='petalwidth', c=[colors[i] for i in data['class']])

In [None]:
# Gráfico interactivo usando Altair (petal)

import altair as alt

alt.Chart(data).mark_point().encode(x='petallength', y='petalwidth', fill='class', shape='class').interactive()


---

# Resumen

* Introducción intuitiva a las redes neuronales atificiales.

* **tf.keras** módulo básico de TensorFlow para comenzar a usar **Deep Learning**.

* La red básica es el MLP (Multilayer Perceptron) pero existen multitud de topologías. Las más importantes se estudiarán en las próximas sesiones.

* Se han presentado algunos ejemplos con **tf.keras** para solucionar problemas similares a los estudiados en el tema anterior con `sklearn`.

* En redes neuronales es habitual tener que **reestructurar de los datos** con `reshape` (`Numpy`) y ajustar la escala de valores con `StandardScaler` (`sklearn`) o similares.