## Keras practica

El principal bloque de construcción de keras es un modelo, llamado secuencial, el cual es un proceso lineal (una pila) de capa de redes neuronales.

El siguiente fragmento de código define una sola capa con 12 neuronas y espera 8 variables de entrada:

In [None]:
from keras.models import Sequential
from keras.layers import Activation, Dense
import os
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "2"
model = Sequential()
model.add(Dense(12, input_dim=8, kernel_initializer='random_uniform'))

Como primer ejemplo crearemos una red neuronal que aprenda a dividir dos grupos de conjuntos:

In [None]:
from sklearn.datasets import make_blobs

In [None]:
import numpy as np

In [None]:
import matplotlib.pyplot as plt

In [None]:
x, y = make_blobs(n_samples=1000, centers=2, random_state=42)

In [None]:
plt.figure(figsize=(8,8))
plt.scatter(x[:, 0], x[:, 1], c=y, s=50);

Con la distribucion de los conjuntos podemos trazar una linea que divida mejor los conjunots, problema que ya repasamos con SVM.Para conocer cual es la mejor linea que divide estos dos conjuntos implementaremos un red neuronal en keras.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 42)

In [None]:
from keras.layers import Dense
from keras.optimizers import Adam

El patron general para crear una red neuronal con keras es el siguiente:
- crear el modelo
- agregar capas
- compilar el modelo
- entrenar el modelo
- evaluar el desempeño

In [None]:
#   Simple Sequential model
model = Sequential()

La red es densa, lo que significa que cada neurona en una capa está conectada a todas las neuronas localizadas en la capa anterior y a todas las neuronas en la capa siguiente.

Agregamos una capa Densa con una neurona.Luego configuramos input_shape=(2,), que significa que la entrada de datos corresponde a una matriz de la forma (*,2). La primera dimensión será una dimensión no especificada 
número de lotes (filas) de datos.  La segunda dimensión es 2 que son las posiciones X, Y de cada elemento de datos.

La función de activación sigmoide se utiliza para devolver 0 o 1, lo que significa que los datos del conjunto se utliza para determinar su prediccion en las clases.

para aprender más sobre las funciones de activación visitar el siguiente enlace: https://keras.io/activations/.


In [None]:
model.add(Dense(1, input_shape=(2,), activation="sigmoid"))

cada neurona es inicializada con un especifico peso;<br>
- random_uniform: Weights are initialized to uniformly random small values in (-0.05, 0.05). In other words, any value within the given interval is equally likely to be drawn.
- random_normal: Weights are initialized according to a Gaussian, with a zero mean and small standard deviation of 0.05. For those of you who are not familiar with a Gaussian, think about a symmetric bell curve shape.
- zero: All weights are initialized to zero.


para revisar mas sobre este apartado visitar: https://keras.io/initializations/.


Compilamos el modelo, minimizando la crossentopy para respuesta binarias y maximizando la  precisión.

El optimizador Adam realizara una propagacion hacia atras para ajustar los pesos y los sesgos para minimizar el error durante la fase de entrenamiento.

In [None]:
model.compile(Adam(lr=0.05), 'binary_crossentropy', metrics=['accuracy'])

Algunas funciones de perdida comunes son las siguientes: visitar la página para mayor información:https://keras.io/objectives/)

- MSE: Estas funciones objetivas promedian todos los errores cometidos para cada predicción, y si la predicción está lejos del valor real, entonces esta distancia se hace más evidente por la operación de cuadrado.
- Binary cross-entropy: Esta función de objetivo es adecuada para la predicción de etiquetas binarias.
- Categorical cross-entropy:  Esta función de objetivo es adecuada para la predicción de etiquetas multiclase. También es la opción predeterminada en asociación con la activación de softmax.


Algunas opciones comunes para las métricas (una lista completa de las métricas de Keras se encuentra en https://keras.io/metrics/) son las siguientes:

- Accuracy: This is the proportion of correct predictions with respect to the targets
- Precision: This denotes how many selected items are relevant for a multilabel classification
- Recall: This denotes how many selected items are relevant for a multilabel classification

Las métricas son similares a las funciones objetivas, con la única diferencia de que no se utilizan para entrenar un modelo sino sólo para evaluar un modelo

Entrenamos el modelo con los datos. Determinamos que realice 100 ciclos a traves de los datos. Configurar verbose = 1 para mostrar un mensaje de progreso de la operacion, de otra menra colocar cero para ocultarlo.

épocas: Este es el número de veces que el modelo está expuesto al set de entrenamiento. En cada iteración, el optimizador intenta ajustar los pesos para minimizar la función objetivo.

In [None]:
model.fit(x_train, y_train, epochs=100, verbose=1)

In [None]:
Obtener la perdida y la precisión en los datos de prueba.

In [None]:
eval_result = model.evaluate(x_test, y_test)

In [None]:
Imprimir la precisión.

In [None]:
print("\n\nTest loss:", eval_result[0], "Test accuracy:", eval_result[1])

Ahora trabajaremos con unos datos con otro tipo de distribucion diferente a la anterior que era de tipo lineal, para observar el comportamiento de la red neuronal:

In [None]:
from sklearn.datasets import make_circles
x, y = make_circles(n_samples=1000, factor=.6, noise=0.1, random_state=42)

In [None]:
plt.figure(figsize=(8,8))
plt.scatter(x[:, 0], x[:, 1], c=y, s=50);

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

In [None]:
model.fit(x_train, y_train, epochs=100, verbose=1)
eval_result = model.evaluate(x_test, y_test)
print("\n\nTest loss:", eval_result[0], "Test accuracy:", eval_result[1])

Al observar los resultados, se hace necesario crear un modelo mas potente con mas capas y con mayor numero de neuronas, a continuación procedemos a crear mas capas y mas neuronas:

Cuantas capas y neuronas en cada capa son requeridas para nuestra red neuronal, para responder esta pregunta no hay un criterio exacto, pero tenemos una pautas aproximadas que se puede estudiar en el siguiente articulo: https://www.heatonresearch.com/2017/06/01/hidden-layers.html

In [None]:
modelMultiLayer = Sequential()

In [None]:
modelMultiLayer.add(Dense(4,input_shape = (2,), activation = "tanh"))

In [None]:
modelMultiLayer.add(Dense(4,activation = "tanh"))

In [None]:
modelMultiLayer.add(Dense(1,activation = "sigmoid"))

In [None]:
modelMultiLayer.compile(Adam(lr=0.05), 'binary_crossentropy', metrics=['accuracy'])

In [None]:
modelMultiLayer.fit(x_train, y_train, epochs=100, verbose=1)

In [None]:
eval_result = modelMultiLayer.evaluate(x_test, y_test)

In [None]:
print("\n\nTest loss:", eval_result[0], "Test accuracy:", eval_result[1])

Ahora pasaremos a un ejemplo con datos reales, mediante la construcción de una red neural que pueda reconocer manuscritos de numeros, para lo cual utilizaremos el dataset de MNIST disponible en el siguiente enlace: http://yann.lecun.com/exdb/mnist/).

Keras proporciona una libreria con un conjunto de datos, entre ellos el MNIST, los datos se encuentran tratados y normalizados de [0,1] para trabajar directamente con ellos.

Los algoritmos de aprendizaje profundo esperan que todas las características de entrada varíen de manera similar, e idealmente que tengan una media de 0, y una varianza de 1, es decir los datos se encuentren normalizados. Debemos reescalar nuestros datos para que cumplan con estos requisitos.

In [None]:
from __future__ import print_function
import numpy as np
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers.core import Dense, Activation
from keras.optimizers import SGD
from keras.utils import np_utils

In [None]:
np.random.seed(1671) # for reproducibility

In [None]:
# red y entrenamiento
N_EPOCAS = 200
BATCH_SIZE = 128
VERBOSE = 1
N_CLASSES = 10 # number of outputs = number of digits
OPTIMIZER = SGD() # SGD optimizer, explained later in this chapter
N_CAPAS_OCULTAS = 128
VALIDATION_TEST=0.2 # how much TRAIN is reserved for VALIDATION
RESHAPED = 784

In [None]:
# data: shuffled and split between train and test sets
(X_train, y_train), (X_test, y_test) = mnist.load_data()
#X_train is 60000 rows of 28x28 values --> reshaped in 60000 x 784RESHAPED = 784

In [None]:
X_train = X_train.reshape(60000, RESHAPED)
X_test = X_test.reshape(10000, RESHAPED)
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')

In [None]:
# normalizar

In [None]:
X_train /= 255
X_test /= 255

In [None]:
print(X_train.shape[0], 'train samples')
print(X_test.shape[0], 'test samples')

In [None]:
# convertir de variable categorica a numerica, onehotencoding
Y_train = np_utils.to_categorical(y_train, N_CLASSES)
Y_test = np_utils.to_categorical(y_test, N_CLASSES)

In [None]:
modelMnist = Sequential()

In [None]:
modelMnist.add(Dense(N_CLASSES, input_shape=(RESHAPED,)))

In [None]:
modelMnist.add(Activation('softmax'))

In [None]:
modelMnist.summary()

In [None]:
modelMnist.compile(loss='categorical_crossentropy', optimizer=OPTIMIZER, metrics=['accuracy'])

In [None]:
modelMnist.fit(X_train, Y_train,batch_size=BATCH_SIZE, epochs=N_EPOCAS, verbose=VERBOSE, validation_split=VALIDATION_TEST)

In [None]:
score = modelMnist.evaluate(X_test, Y_test, verbose=VERBOSE)
print("Test score:", score[0])
print('Test accuracy:', score[1])

Mejorar la red coN capas ocultas, en este caso haremos una pequeña variación con solo 20 epocas.

In [None]:
N_EPOCAS = 20

model = Sequential()
model.add(Dense(N_CAPAS_OCULTAS, input_shape=(RESHAPED,)))
model.add(Activation('relu'))
model.add(Dense(N_CAPAS_OCULTAS))
model.add(Activation('relu'))
model.add(Dense(N_CLASSES))
model.add(Activation('softmax'))
model.summary()
model.compile(loss='categorical_crossentropy',
optimizer=OPTIMIZER,
metrics=['accuracy'])
history = model.fit(X_train, Y_train, batch_size=BATCH_SIZE, epochs=N_EPOCAS, verbose=VERBOSE, validation_split=VALIDATION_TEST)
score = model.evaluate(X_test, Y_test, verbose=VERBOSE)
print("Test score:", score[0])
print('Test accuracy:', score[1])

Como se puede apreciar, disminuyendo las epocas y con una capa oculta obtenemos una mejora considerable en el rendimiento y mejora de 2 puntos en la precisión del modelo.

Las redes neuronales tiendes a sufrir de sobreajuste con pocos datos, lo cual imposibilita su generalización. Para abordar este inconveniente podemos utilizar la tecnica Dropout para regularizar los modelos de aprendizaje profundo. Explicaciones en detalle de esta tecnica se encuentran disponible en los siguientes enlaces: https://machinelearningmastery.com/dropout-for-regularizing-deep-neural-networks/, y la implementacion en keras: https://machinelearningmastery.com/how-to-reduce-overfitting-with-dropout-regularization-in-keras/, a continuación procedemos a configurar dropout a nuestro modelo.

In [None]:
from keras.layers.core import Dropout
DROPOUT = 0.3
N_EPOCAS = 50

model = Sequential()
model.add(Dense(N_CAPAS_OCULTAS, input_shape=(RESHAPED,)))
model.add(Activation('relu'))
model.add(Dropout(DROPOUT))
model.add(Dense(N_CAPAS_OCULTAS))
model.add(Activation('relu'))
model.add(Dropout(DROPOUT))
model.add(Dense(N_CLASSES))
model.add(Activation('softmax'))
model.summary()
model.compile(loss='categorical_crossentropy',
optimizer=OPTIMIZER,
metrics=['accuracy'])
history = model.fit(X_train, Y_train, batch_size=BATCH_SIZE, epochs=N_EPOCAS, verbose=VERBOSE, validation_split=VALIDATION_TEST)
score = model.evaluate(X_test, Y_test, verbose=VERBOSE)
print("Test score:", score[0])
print('Test accuracy:', score[1])

Optimizador

Si es necesario, puede configurar aún más su optimizador. Un principio básico de Keras es hacer las cosas razonablemente simples, mientras que permite al usuario tener el control total cuando lo necesite (el control final es la fácil extensibilidad del código fuente). Aquí utilizamos SGD (Estocástico de descenso en gradiente) como algoritmo de optimización para nuestras pesas entrenables.

![saddle_point_evaluation_optimizers](img/saddle_point_evaluation_optimizers.gif)

Referencias y agradecimientos especiales:
- Gully A, Pal S. Deep Learning with Keras : Implement various deep-learning algorithms in Keras and see how deep-learning can be used in games.
- Raschka S. Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow.
- Jerry Kurata: https://twitter.com/jerrykur?lang=es