# Deep Learning II

1. Redes Neuronales
    * Redes Neuronales de varias capas (multilayer)

2. DeepLearning en Keras

3. Convolutional neural network (CNN)

4. Redes Neuronales Recurrentes

# 1. Redes Neuronales

Las redes neuronales son un método específico de aprendizaje a partir de datos, un método que se basa en un elemento muy simple, la *unidad neuronal*. Una unidad neuronal (o red neuronal de 1 capa) es una función matemática de este tipo:

${{mathbf y} = \sigma(\mathbf{w}^T \cdot {{mathbf x} + b)$

donde ${\mathbf x}$ representa un elemento de entrada en forma vectorial, $\mathbf{w}$ es un vector de pesos, $\sigma$ es una función no lineal y $b$ un valor escalar. $(\mathbf{w},b)$ se denominan los parámetros de la función. La salida de esta función se llama la *activación* de la neurona. 

En cuanto a la función no lineal, históricamente la más común era la función Sigmoide, pero hoy en día existen varias alternativas que se suponen más adecuadas para el aprendizaje a partir de datos, como ReLU y variantes.

> **PREGUNTA:** ¿Qué tipo de funciones de decisión están representadas por una nn de 1 capa?

In [None]:
import numpy as np
import matplotlib.pylab as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def ReLU(x):
    return x * (x > 0)

plt.ylim(-1.5, 10)
x = np.linspace(-10.0,10.0,100)
y1 = sigmoid(x)
plt.subplot(2, 1, 1)
plt.plot(x,y1)
y2 = ReLU(x)
plt.subplot(2, 1, 2)
plt.plot(x,y2,'r')

In [None]:
x = np.array([0.4,1.2,3.5])

w = np.array([1.0,2.0,1.0])
b = 1.3

y = sigmoid(np.dot(x,w) + b)

print(y)

## 1.1. Redes Neuronales de varias capas (multilayer)

Las neuronas simples pueden organizarse en estructuras mayores aplicando al mismo vector de datos diferentes conjuntos de pesos, formando lo que se denomina una *capa*, y apilando capas una sobre la salida de la otra.  

Es importante tener en cuenta que una red neuronal multicapa puede verse como una composición de productos matriciales (las matrices representan pesos) y activaciones de funciones no lineales. Para el caso de una red de 2 capas el resultado es:

$ {\mathbf y} = {\mathbf \sigma}\Big( W^1 {\mathbf \sigma}\Big( W^0 {\mathbf x} + {\mathbf b}^0 \Big) + {\mathbf b}^1 \Big)$

donde ${\mathbf \sigma}$ representa una versión vectorial de la función sigmoidea y $W^i$ son los pesos de cada capa en forma matricial.  

Lo interesante de este tipo de estructuras es que se ha demostrado que incluso una red neuronal con una sola capa oculta que contiene un número finito de neuronas puede aproximar cualquier función continua de $\mathbf{R}^n$. Este hecho convierte a las redes neuronales en un buen candidato para aplicar métodos de aprendizaje a partir de datos. La pregunta es entonces: ¿cómo encontrar los parámetros óptimos, ${\mathbf w} = (W^i,{\mathbf b})$, para aproximar una función que está implícitamente definida por un conjunto de muestras $\{({\mathbf x}_1, {\mathbf y}_1), \dots, ({\mathbf x}_n, {\mathbf y}_n)\}$?

Desde un punto de vista técnico, no sólo las redes neuronales, sino la mayoría de los algoritmos que se han propuesto para inferir modelos a partir de grandes conjuntos de datos se basan en la solución iterativa de un problema matemático que implica datos y un modelo matemático. Si existiera una solución analítica al problema, ésta debería ser la adoptada, pero no es así en la mayoría de los casos. Las técnicas que se han diseñado para abordar estos problemas se agrupan en un campo que se denomina optimización. La técnica más importante para resolver problemas de optimización es el *gradient descend*.

> El entrenamiento de modelos como $ {\mathbf y} = {\mathbf \sigma}\Big( W^1  {\mathbf \sigma}\Big( W^0  {\mathbf x} + {\mathbf b}^0 \Big) + {\mathbf b}^1 \Big)$ (o mayor!) puede realizarse fácilmente aplicando *automatic differentiation* a una función de pérdida. 

> En el caso de la regresión: $L = \frac{1}{n} \sum_{i=1}^n \Big({\mathbf y}_i - {\mathbf \sigma}\Big( W^1  {\mathbf \sigma}\Big( W^0  {\mathbf x}_i + {\mathbf b}^0 \Big) + {\mathbf b}^1 )\Big)\Big)^2 $

> En el caso de la clasificación en dos clases: $L = \frac{1}{n} log(1 + exp(-y_i {\mathbf \sigma}\Big( W^1  {\mathbf \sigma}\Big( W^0  {\mathbf x} + {\mathbf b}^0 \Big) + {\mathbf b}^1 \Big))) $


### Jugando con redes neuronales.
+ Clases concéntricas, 1 capa, Sigmoide.
+ Clases concéntricas, 1 capa, ReLu.
+ X-or, 0 capas.
+ X-or, 1 capa.
+ Datos en espiral.
+ Regresión.


http://playground.tensorflow.org

# 2. Deep Learning en `keras`

> Keras es una biblioteca de redes neuronales de alto nivel, escrita en Python y capaz de ejecutarse sobre TensorFlow. Fue desarrollado con foco en permitir la experimentación rápida.

El núcleo de la estructura de datos de Keras es un modelo, una forma de organizar las capas. El principal tipo de modelo es el ``Modelo secuencial``, una pila lineal de capas. 

```Python
from tensorflow.keras.models import Sequential
model = Sequential()
```

Apilar capas es tan fácil como ``.add()``:

```Python
from tensorflow.keras.layers import Dense, Activation

model.add(Dense(output_dim=64, input_dim=100))
model.add(Activation("relu"))
model.add(Dense(output_dim=10))
model.add(Activation("softmax"))
```

Una vez que tu modelo tenga buen aspecto, configura su proceso de aprendizaje con ``.compile()``:

```Python
model.compile(loss='categorical_crossentropy', 
              optimizer='sgd', metrics=['accuracy'])
```

Si lo necesitas, puedes configurar aún más el optimizador.

```Python
from tensorflow.keras.optimizers import SGD
model.compile(loss='categorical_crossentropy', optimizer=SGD(lr=0.01, momentum=0.9, nesterov=True))
```

Ahora puedes iterar sobre tus datos de entrenamiento por lotes:

```Python
model.fit(X_train, Y_train, nb_epoch=5, batch_size=32)
```

Evalúa tu rendimiento en una línea:
```Python
loss_and_metrics = model.evaluate(X_test, Y_test, batch_size=32)
```

O generar predicciones sobre nuevos datos:

```Python
classes = model.predict_classes(X_test, batch_size=32)
proba = model.predict_proba(X_test, batch_size=32)
```

In [None]:
import tensorflow as tf
tf.test.gpu_device_name()

In [None]:
from tensorflow.python.client import device_lib
device_lib.list_local_devices()

Entrena una NN profunda simple en el conjunto de datos MNIST.
Alcanza una precisión de prueba del 98,40% tras 20 epochs.
(hay *mucho* margen para ajustar los parámetros).
2 segundos por epoch en una GPU K520.

In [None]:
from __future__ import print_function

import tensorflow.keras
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import RMSprop

batch_size = 64
num_classes = 10
epochs = 20

# the data, split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255
print(x_train.shape[0], 'train samples')
print(x_test.shape[0], 'test samples')

# convert class vectors to binary class matrices
y_train = tensorflow.keras.utils.to_categorical(y_train, num_classes)
y_test = tensorflow.keras.utils.to_categorical(y_test, num_classes)

model = Sequential()
model.add(Dense(16, activation='relu', input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(32, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(num_classes, activation='softmax'))

model.summary()

model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test))

score = model.evaluate(x_test, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

### 2.1. Dropout

El dropout es una forma de regularizar la red neuronal. Durante el entrenamiento, puede ocurrir que las neuronas de una capa concreta siempre se vean influidas únicamente por la salida de una neurona concreta de la capa anterior. En ese caso, la red neuronal se sobreajustaría.

Dropout evita el sobreajuste y regulariza cortando aleatoriamente las conexiones (también conocido como dropping the connection) entre neuronas de capas sucesivas durante el entrenamiento.

### 2.2. Keras optimizers

Hay varias variantes del gradient descend, que difieren en cómo calculamos el paso.

Keras soporta siete optimizadores:

```python
my_opt = tensorflow.keras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, nesterov=False)
my_opt = tensorflow.keras.optimizers.RMSprop(lr=0.001, rho=0.9, epsilon=None, decay=0.0)
my_opt = tensorflow.keras.optimizers.Adagrad(lr=0.01, epsilon=None, decay=0.0)
my_opt = tensorflow.keras.optimizers.Adadelta(lr=1.0, rho=0.95, epsilon=None, decay=0.0)
my_opt = tensorflow.keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=False)
my_opt = tensorflow.keras.optimizers.Adamax(lr=0.002, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0)
my_opt = tensorflow.keras.optimizers.Nadam(lr=0.002, beta_1=0.9, beta_2=0.999, epsilon=None, schedule_decay=0.004)
```

#### Momentum

Por ejemplo, el SGD tiene problemas para navegar por barrancos, es decir, zonas en las que la superficie se curva de forma mucho más pronunciada en una dimensión que en otra, lo que es habitual en torno a los óptimos locales. En estos casos, SGD oscila por las pendientes del barranco y sólo avanza vacilante por el fondo hacia el óptimo local.

**Momentum** es un método que ayuda a acelerar el SGD en la dirección pertinente y amortigua las oscilaciones. Lo hace añadiendo una fracción del vector de actualización del paso de tiempo anterior al vector de actualización actual:

$$ v_t = m v_{t-1} + \alpha \nabla_w f $$$$ w = w - v_t $$

El momento $m$ suele fijarse en $0,9$.

#### Adagrad

SGD manipula la tasa de aprendizaje de forma global e igual para todos los parámetros. Ajustar los ritmos de aprendizaje es un proceso costoso, por lo que se ha trabajado mucho en la concepción de métodos que puedan ajustar los ritmos de aprendizaje de forma adaptativa, e incluso hacerlo por parámetro.

Adagrad es un algoritmo de optimización basado en el gradiente que hace precisamente esto: Adapta la tasa de aprendizaje a los parámetros, realizando actualizaciones mayores para los parámetros poco frecuentes y menores para los frecuentes.

$$ c = c + (\nabla_w f)^2 $$$$ w = w - \frac{\alpha}{\sqrt{c}} $$

## 2.3. Convolutional neural network (CNN)

Los perceptrones multicapa mencionados anteriormente representan el modelo de red neuronal de avance más general y potente posible; se organizan en capas, de forma que cada neurona de una capa recibe como entrada su propia copia de todas las salidas de la capa anterior. Este tipo de modelo es perfecto para el tipo de problema adecuado: aprender a partir de un número fijo de parámetros (más o menos) no estructurados.

> Sin embargo, considera lo que ocurre con el número de parámetros (pesos) de un modelo de este tipo cuando se le alimentan datos de imagen sin procesar (por ejemplo, una imagen de 200$ por 200$ píxeles conectada a 1024 neuronas).

In [None]:
200 * 200 * 1024

La situación rápidamente se vuelve inmanejable a medida que el tamaño de las imágenes crece, mucho antes de alcanzar el tipo de imágenes con las que la gente usualmente quiere trabajar en aplicaciones reales.

Una solución común es reducir el tamaño de las imágenes a un tamaño donde las redes neuronales de varias capas (MLP) puedan aplicarse de manera segura. Sin embargo, si reducimos directamente el tamaño de la imagen, potencialmente perdemos una gran cantidad de información; sería ideal si pudiéramos hacer algún procesamiento útil de la imagen (sin causar una explosión en el conteo de parámetros) antes de realizar la reducción de tamaño.

Resulta que hay una forma muy eficiente de lograr esto, y se aprovecha de la estructura de la información codificada dentro de una imagen: se asume que los píxeles que están espacialmente más cercanos colaborarán mucho más en la formación de una característica particular de interés que aquellos en esquinas opuestas de la imagen. Además, si se encuentra que una característica (más pequeña) es de gran importancia al definir la etiqueta de una imagen, será igualmente importante si esta característica se encontrara en cualquier lugar dentro de la imagen, independientemente de la ubicación.

Aquí entra el operador de convolución. Dada una imagen bidimensional, $I$, y una pequeña matriz, $K$ de tamaño $h \times w$ (conocida como kernel de convolución), que asumimos codifica una forma de extraer una característica interesante de la imagen, calculamos la imagen convolucionada, $I∗K$, superponiendo el kernel sobre la imagen de todas las maneras posibles y registrando la suma de los productos elemento a elemento entre la imagen y el kernel:

$$
output(x,y) = (I \otimes K)(x,y) = \sum_{m=0}^{M-1} \sum_{n=1}^{N-1} K(m,n) I(x-n, y-m)
$$

El operador de convolución forma la base fundamental de la capa convolucional de una CNN. La capa está completamente especificada por cierto número de kernels, $K$, y opera calculando la convolución de las imágenes de salida de una capa anterior con cada uno de esos kernels, luego añadiendo los sesgos (uno por cada imagen de salida). Finalmente, puede aplicarse una función de activación, $\sigma$, a todos los píxeles de las imágenes de salida.

Típicamente, la entrada a una capa convolucional tendrá $d$ canales (por ejemplo, rojo/verde/azul en la capa de entrada), en cuyo caso los kernels se extienden para tener este número de canales también.

Dado que todo lo que estamos haciendo aquí es adición y escalado de los píxeles de entrada, los kernels pueden ser aprendidos de un conjunto de datos de entrenamiento mediante descenso de gradiente, exactamente como los pesos de un MLP. De hecho, un MLP es perfectamente capaz de replicar una capa convolucional, pero requeriría mucho más tiempo de entrenamiento (y datos) para aprender a aproximar ese modo de operación.


https://towardsdatascience.com/applied-deep-learning-part-4-convolutional-neural-networks-584bc134c1e2

### Pooling

De hecho, tras una capa convolucional se suelen aplicar dos tipos de funciones no lineales: funciones de activación no lineales como sigmoides o ReLU y *pooling*. Las capas de pooling se utilizan con el fin de reducir progresivamente el tamaño espacial de la imagen para lograr la invariancia de escala. La capa más común es la capa *maxpool*. Básicamente, un maxpool de 2 veces 2$ hace que un filtro de 2 por 2 recorra toda la matriz de entrada y elija el elemento más grande de la ventana para incluirlo en el siguiente mapa de representación. El pooling también puede implementarse utilizando otros criterios, como promediar en lugar de tomar el elemento max. 

In [None]:
import numpy as np
from tensorflow import keras
from tensorflow.keras import layers

"""
## Prepare the data
"""

# Model / data parameters
num_classes = 10
input_shape = (28, 28, 1)

# the data, split between train and test sets
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

# Scale images to the [0, 1] range
x_train = x_train.astype("float32") / 255
x_test = x_test.astype("float32") / 255
# Make sure images have shape (28, 28, 1)
x_train = np.expand_dims(x_train, -1)
x_test = np.expand_dims(x_test, -1)
print("x_train shape:", x_train.shape)
print(x_train.shape[0], "train samples")
print(x_test.shape[0], "test samples")


# convert class vectors to binary class matrices
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

"""
## Build the model
"""

model = keras.Sequential(
    [
        keras.Input(shape=input_shape),
        layers.Conv2D(32, kernel_size=(3, 3), activation="relu"),
        layers.Conv2D(32, kernel_size=(3, 3), activation="relu"),
        layers.MaxPooling2D(pool_size=(2, 2)),
        layers.Conv2D(64, kernel_size=(3, 3), activation="relu"),
        layers.Conv2D(64, kernel_size=(3, 3), activation="relu"),
        layers.MaxPooling2D(pool_size=(2, 2)),
        layers.Conv2D(64, kernel_size=(3, 3), activation="relu"),
        layers.MaxPooling2D(pool_size=(2, 2)),
        layers.Flatten(),
        layers.Dropout(0.5),
        layers.Dense(num_classes, activation="softmax"),
    ]
)

model.summary()

"""
## Train the model
"""

batch_size = 128
epochs = 15

model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.1)

"""
## Evaluate the trained model
"""

score = model.evaluate(x_test, y_test, verbose=0)
print("Test loss:", score[0])
print("Test accuracy:", score[1])

## 3. Redes Neuronales Recurrentes


Las redes neuronales clásicas, incluidas las convolucionales, sufren de dos limitaciones severas:

+ Solo aceptan un vector de tamaño fijo como entrada y producen un vector de tamaño fijo como salida.
+ No consideran la naturaleza secuencial de algunos datos (lenguaje, cuadros de video, series temporales, etc.)

Las redes neuronales recurrentes (RNN) superan estas limitaciones al permitir operar sobre secuencias de vectores (en la entrada, en la salida o en ambos). Las RNN se llaman recurrentes porque realizan la misma tarea para cada elemento de la secuencia, con la salida dependiendo de los cálculos previos. Las fórmulas básicas de una RNN simple son:

$$ s_t = f_1 (Ux_t + W s_{t-1}) $$
$$ y_t = f_2 (V s_t) $$

Estas ecuaciones básicamente dicen que el estado actual de la red, comúnmente conocido como estado oculto, $s_t$, es una función $f_1$ del estado oculto anterior $s_{t-1}$ y la entrada actual $x_t$. Las matrices $U, V, W$ son los parámetros de la función.

Dada una secuencia de entrada, aplicamos las fórmulas de RNN de manera recurrente hasta que procesamos todos los elementos de entrada. La RNN comparte los parámetros $U,V,W$ en todos los pasos recurrentes. Podemos pensar en el estado oculto como una memoria de la red que captura información sobre los pasos anteriores.

La novedad de este tipo de red es que hemos codificado en la arquitectura misma de la red un esquema de modelado de secuencias que se ha utilizado en el pasado para predecir series temporales y modelar el lenguaje. A diferencia de las arquitecturas anteriores que hemos introducido, ahora las capas ocultas están indexadas tanto por índice 'espacial' como 'temporal'.

Las entradas de una red recurrente siempre son vectores, pero podemos procesar secuencias de símbolos/palabras representando estos símbolos mediante vectores numéricos.

Supongamos que queremos clasificar una frase o una serie de palabras. Sean $x^1, ...,x^{C}$ los vectores de palabras correspondientes a un corpus con $C$ símbolos. Entonces, la relación para calcular las características de salida de la capa oculta en cada paso de tiempo $t$ es $h_t = \sigma(W s_{t-1} + U x_{t})$, donde:

+ $x_{t} \in \mathbf{R}^{d}$ es el vector de palabra de entrada en el tiempo $t$.
+ $U \in \mathbf{R}^{D_h \times d}$ es la matriz de pesos del vector de palabra de entrada, $x_t$.
+ $W \in \mathbf{R}^{D_h \times D_h}$ es la matriz de pesos de la salida del paso de tiempo anterior, $t-1$.
+ $s_{t-1}  \in \mathbf{R}^{D_h}$ es la salida de la función no lineal en el paso de tiempo anterior, $t-1$.
+ $\sigma()$ es la función de no linealidad (normalmente, ``tanh``).

La salida de esta red es $\hat{y}_t = softmax (V h_t)$, que representa la distribución de probabilidad de salida sobre el vocabulario en cada paso de tiempo $t$.

Esencialmente, $\hat{y}_t$ es la próxima palabra predicha dado el contexto del documento hasta ahora (es decir, $h_{t-1}$) y el último vector de palabra observado $x^{(t)}$.

La función de pérdida utilizada en las RNN es a menudo el error de entropía cruzada:

$
	L^{(t)}(W) = - \sum_{j=1}^{|V|} y_{t,j} \times log (\hat{y}_{t,j})
$

El error de entropía cruzada sobre un corpus de tamaño $C$ es:

$
	L = \frac{1}{C} \sum_{c=1}^{C} L^{(c)}(W) = - \frac{1}{C} \sum_{c=1}^{C} \sum_{j=1}^{|V|} y_{c,j} \times log (\hat{y}_{c,j})
$

Estas arquitecturas simples de RNN han demostrado ser demasiado propensas a olvidar información cuando las secuencias son largas y también son muy inestables cuando se entrenan. Por esta razón, se han propuesto varias arquitecturas alternativas. Estas alternativas se basan en la presencia de *gated units* (unidades con puertas). Las puertas son una forma de permitir opcionalmente que la información fluya. Están compuestas por una capa de red neuronal sigmoidea y una operación de multiplicación punto a punto. Las dos arquitecturas alternativas de RNN más importantes son las redes de Memorias a Largo Corto Plazo (LSTM) y las Unidades Recurrentes con Puertas (GRU).

Script de ejemplo para generar texto a partir de los escritos de Nietzsche.
Se necesitan al menos 20 epochs antes de que el texto generado
empiece a sonar coherente.
Se recomienda ejecutar este script en la GPU, ya que las redes
son bastante intensivas computacionalmente.
Si pruebas este script con datos nuevos, asegurate de que tu corpus
tenga al menos ~100k caracteres. ~1M es mejor.

In [None]:
from __future__ import print_function
from tensorflow.keras.callbacks import LambdaCallback
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation
from tensorflow.keras.layers import LSTM
from tensorflow.keras.optimizers import RMSprop
from tensorflow.keras.utils import get_file
import numpy as np
import random
import sys
import io

path = get_file('nietzsche.txt', origin='https://s3.amazonaws.com/text-datasets/nietzsche.txt')
with io.open(path, encoding='utf-8') as f:
    text = f.read().lower()
print('corpus length:', len(text))

chars = sorted(list(set(text)))
print('total chars:', len(chars))
char_indices = dict((c, i) for i, c in enumerate(chars))
indices_char = dict((i, c) for i, c in enumerate(chars))

# cut the text in semi-redundant sequences of maxlen characters
maxlen = 40
step = 3
sentences = []
next_chars = []
for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i: i + maxlen])
    next_chars.append(text[i + maxlen])
print('nb sequences:', len(sentences))

print('Vectorization...')
x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1


# build the model: a single LSTM
print('Build model...')
model = Sequential()
model.add(LSTM(128, input_shape=(maxlen, len(chars))))
model.add(Dense(len(chars)))
model.add(Activation('softmax'))

optimizer = RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy', optimizer=optimizer)


def sample(preds, temperature=1.0):
    # helper function to sample an index from a probability array
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)


def on_epoch_end(epoch, logs):
    # Function invoked at end of each epoch. Prints generated text.
    print()
    print('----- Generating text after Epoch: %d' % epoch)

    start_index = random.randint(0, len(text) - maxlen - 1)
    for diversity in [0.2, 0.5, 1.0, 1.2]:
        print('----- diversity:', diversity)

        generated = ''
        sentence = text[start_index: start_index + maxlen]
        generated += sentence
        print('----- Generating with seed: "' + sentence + '"')
        sys.stdout.write(generated)

        for i in range(400):
            x_pred = np.zeros((1, maxlen, len(chars)))
            for t, char in enumerate(sentence):
                x_pred[0, t, char_indices[char]] = 1.

            preds = model.predict(x_pred, verbose=0)[0]
            next_index = sample(preds, diversity)
            next_char = indices_char[next_index]

            generated += next_char
            sentence = sentence[1:] + next_char

            sys.stdout.write(next_char)
            sys.stdout.flush()
        print()

print_callback = LambdaCallback(on_epoch_end=on_epoch_end)

model.fit(x, y,
          batch_size=128,
          epochs=60,
          callbacks=[print_callback])