https://machinelearningmastery.com/how-to-choose-loss-functions-when-training-deep-learning-neural-networks/

https://machinelearningmastery.com/adam-optimization-algorithm-for-deep-learning/

https://machinelearningmastery.com/difference-between-a-batch-and-an-epoch/
    
https://machinelearningmastery.com/evaluate-skill-deep-learning-models/

https://machinelearningmastery.com/how-to-make-classification-and-regression-predictions-for-deep-learning-models-in-keras/



Pasos para poner a prueba una Deep Neural Net
Load Data.
Define Keras Model.
Compile Keras Model.
Fit Keras Model.
Evaluate Keras Model.
Tie It All Together.
Make Predictions

# Load the data

En este ejercicio, vamos a utilizar el conjunto de datos de inicio de diabetes de los Pima Indians. Este es un conjunto de datos de aprendizaje automático estándar del repositorio de Aprendizaje automático de UCI. Describe los datos de los registros médicos de los pacientes de los Pima Indians y si tuvieron un inicio de diabetes dentro de los cinco años.

Como tal, es un problema de clasificación binaria (aparición de diabetes como 1 o no como 0). Todas las variables de entrada que describen a cada paciente son numéricas. Esto facilita su uso directo con redes neuronales que esperan valores numéricos de entrada y salida, e ideal para nuestra primera red neuronal en Keras.

Descargar dataset en:
    
    https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv
    
   
Información del dataset en:

    https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names

Ahora podemos cargar el archivo como una matriz de números usando la función NumPy loadtxt ().


In [1]:
# first neural network with keras tutorial
from numpy import loadtxt
from keras.models import Sequential
from keras.layers import Dense

Using TensorFlow backend.



Hay ocho variables de entrada y una variable de salida (la última columna). Aprenderemos un modelo para asignar filas de variables de entrada (X) a una variable de salida (y), que a menudo resumimos como y = f (X).

Las variables se pueden resumir de la siguiente manera:

Variables de entrada (X):

Number of times pregnant

Plasma glucose concentration a 2 hours in an oral glucose tolerance test

Diastolic blood pressure (mm Hg)

Triceps skin fold thickness (mm)

2-Hour serum insulin (mu U/ml)

Body mass index (weight in kg/(height in m)^2)

Diabetes pedigree function

Age (years)


Variables de salida (y):

Variable de clase (0 o 1)


Una vez que el archivo CSV se carga en la memoria, podemos dividir las columnas de datos en variables de entrada y salida.

Los datos se almacenarán en una matriz 2D donde la primera dimensión es filas y la segunda dimensión son columnas, p. [filas, columnas].

Podemos dividir la matriz en dos matrices seleccionando subconjuntos de columnas usando el operador de división estándar NumPy o ":" Podemos seleccionar las primeras 8 columnas del índice 0 al índice 7 a través de la división 0: 8. Luego podemos seleccionar la columna de salida (la novena variable) a través del índice 8.


In [4]:

# load the dataset
dataset = loadtxt('pima-indians-diabetes.csv', delimiter=',')
# split into input (X) and output (y) variables
X = dataset[:,0:8]  #todas las filas, de la 0 a la 7 columna
y = dataset[:,8]    #todas las filas, la columna 8


Ahora estamos listos para definir nuestro modelo de red neuronal.

# Define Keras Model

Los modelos en Keras se definen como una secuencia de capas.

Creamos un modelo secuencial y agregamos capas de una en una hasta que estemos contentos con nuestra arquitectura de red.

Lo primero que debe acertar es asegurarse de que la capa de entrada (input layer) tenga el número correcto de características de entrada. Esto se puede especificar al crear la primera capa con el argumento input_dim y establecerlo en 8 para las 8 variables de entrada.

¿Cómo sabemos la cantidad de capas y sus tipos?

Esta es una pregunta muy difícil. Hay heurísticas que podemos usar y, a menudo, la mejor estructura de red se encuentra a través de un proceso de experimentación de prueba y error. Generalmente, necesita una red lo suficientemente grande como para capturar la estructura del problema.

En este ejemplo, utilizaremos una estructura de red totalmente conectada con tres capas (fully-connected network structure with three layers).

Las capas completamente conectadas se definen usando la clase Dense. Podemos especificar el número de neuronas o nodos en la capa como primer argumento, y especificar la función de activación (activation function) usando el argumento de activación.

Utilizaremos la función de activación de unidad lineal rectificada denominada ReLU en las dos primeras capas y la función Sigmoide en la capa de salida.

Solía ser el caso que las funciones de activación Sigmoid y Tanh eran preferidas para todas las capas. En estos días, se logra un mejor rendimiento utilizando la función de activación ReLU. Utilizamos un sigmoide en la capa de salida para garantizar que nuestra salida de red esté entre 0 y 1 y sea fácil de asignar a una probabilidad de clase 1 o ajustar a una clasificación rígida de cualquiera de las clases con un umbral predeterminado de 0.5.

Podemos juntar todo agregando cada capa:

El modelo espera filas de datos con 8 variables (el argumento input_dim = 8)
La primera capa oculta tiene 12 nodos y usa la función de activación relu.
La segunda capa oculta tiene 8 nodos y usa la función de activación relu.
La capa de salida tiene un nodo y usa la función de activación sigmoidea.

In [5]:

# define the keras model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

In [13]:
print(model.summary())

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 12)                108       
_________________________________________________________________
dense_2 (Dense)              (None, 8)                 104       
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 9         
Total params: 221
Trainable params: 221
Non-trainable params: 0
_________________________________________________________________
None


Tenga en cuenta que lo más confuso aquí es que la forma de la entrada al modelo se define como un argumento en la primera capa oculta. Esto significa que la línea de código que agrega la primera capa densa está haciendo 2 cosas, definiendo la capa de entrada o visible y la primera capa oculta.

El resumen es textual e incluye información sobre:

- Las capas y su orden en el modelo.
- La forma (shape) de salida de cada capa.
- El número de parámetros (pesos) en cada capa.
- El número total de parámetros (pesos) en el modelo.

El resumen se puede crear llamando a la función summary () en el modelo

# Compile Keras Model

Ahora que el modelo está definido, podemos compilarlo.

La compilación del modelo utiliza las bibliotecas numéricas eficientes (el llamado backend) como Theano o TensorFlow. El backend elige automáticamente la mejor manera de representar la red para el entrenamiento y hacer predicciones para ejecutar en su hardware, como CPU o GPU o incluso distribuidas.

Al compilar, debemos especificar algunas propiedades adicionales requeridas al entrenar la red. Recuerde que entrenar una red significa encontrar el mejor conjunto de pesos para mapear entradas a salidas en nuestro conjunto de datos.

Debemos especificar la función de pérdida (loss function) que se utilizará para evaluar un conjunto de pesos, el optimizador se usa para buscar a través de diferentes pesos para la red y cualquier métrica opcional que nos gustaría recopilar e informar durante el entrenamiento.

En este caso, utilizaremos la entropía cruzada (cross entropy) como argumento de pérdida. Esta pérdida es para problemas de clasificación binaria y se define en Keras como "binary_crossentropy". 

Definiremos el optimizador como el algoritmo eficiente de descenso de gradiente estocástico "adam". Esta es una versión popular del descenso de gradiente porque se sintoniza automáticamente y brinda buenos resultados en una amplia gama de problemas. 

Finalmente, debido a que es un problema de clasificación, recopilaremos e informaremos la 'accuracy' de la clasificación, definida a través del argumento metrics.

In [6]:

# compile the keras model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Fit Keras Model

Hemos definido nuestro modelo y lo hemos compilado para un cálculo eficiente.

Ahora es el momento de ejecutar el modelo en algunos datos.

Podemos entrenar o ajustar nuestro modelo en nuestros datos cargados llamando a la función fit () en el modelo.

El entrenamiento ocurre durante épocas y cada época se divide en lotes.

Epochs: una pasada a través de todas las filas del conjunto de datos de entrenamiento.
Batch: una o más muestras consideradas por el modelo dentro de una época antes de actualizar los pesos.


Una época se compone de uno o más lotes, según el tamaño de lote elegido y el modelo es apto para muchas épocas. 
El proceso de entrenamiento se ejecutará durante un número fijo de iteraciones a través del conjunto de datos llamado epochs, que debemos especificar usando el argumento epochs. También debemos establecer el número de filas del conjunto de datos que se consideran antes de que los pesos del modelo se actualicen dentro de cada época, denominado tamaño del lote y establecido mediante el argumento batch_size.

Para este problema, ejecutaremos una pequeña cantidad de épocas (150) y usaremos un tamaño de lote relativamente pequeño de 10. Esto significa que cada época implicará (150/10) 15 actualizaciones de los pesos del modelo.

Estas configuraciones se pueden elegir experimentalmente por prueba y error. Queremos entrenar al modelo lo suficiente para que aprenda una buena (o suficiente) asignación de filas de datos de entrada a la clasificación de salida. El modelo siempre tendrá algún error, pero la cantidad de error se nivelará después de algún punto para una configuración de modelo dada. Esto se llama convergencia modelo.

In [7]:

# fit the keras model on the dataset
model.fit(X, y, epochs=150, batch_size=10)


Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78

<keras.callbacks.callbacks.History at 0x128e1ca90>

# Evaluate Keras Model

Hemos entrenado nuestra red neuronal en todo el conjunto de datos y podemos evaluar el rendimiento de la red en el mismo conjunto de datos.

Esto solo nos dará una idea de qué tan bien hemos modelado el conjunto de datos, pero no tenemos idea de qué tan bien podría funcionar el algoritmo con los nuevos datos. Lo hemos hecho por simplicidad, pero idealmente, podría separar sus datos en conjuntos de datos de entrenamiento y prueba.

Puede evaluar su modelo en su conjunto de datos de entrenamiento utilizando la función evaluar() en su modelo y pasarle la misma entrada y salida utilizada para entrenar el modelo.

Esto generará una predicción para cada par de entrada y salida y recopilará puntajes, incluida la pérdida promedio y cualquier métrica que haya configurado, como la precisión.

La función evaluar() devolverá una lista con dos valores. La primera será la pérdida del modelo en el conjunto de datos y la segunda será la precisión del modelo en el conjunto de datos. Solo estamos interesados en informar la precisión, por lo que ignoraremos el valor de la pérdida.

In [8]:
# evaluate the keras model
_, accuracy = model.evaluate(X, y)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 75.13


# Make Predictions

Podemos adaptar el ejemplo anterior y usarlo para generar predicciones en el conjunto de datos de entrenamiento, pretendiendo que es un nuevo conjunto de datos que no hemos visto antes.

Hacer predicciones es tan fácil como llamar a la función predict() en el modelo. Estamos utilizando una función de activación sigmoidea en la capa de salida, por lo que las predicciones serán una probabilidad en el rango entre 0 y 1. Podemos convertirlas fácilmente en una predicción binaria nítida para esta tarea de clasificación redondeándolas.

Por ejemplo:

In [9]:

# make probability predictions with the model
predictions = model.predict(X)
# round predictions 
rounded = [round(x[0]) for x in predictions]

Alternativamente, podemos llamar a la función predict_classes () en el modelo para predecir clases nítidas directamente, por ejemplo:

In [10]:

# make class predictions with the model
predictions = model.predict_classes(X)

In [12]:
for i in range(10):
    print('%s => %d (expected %d)' % (X[i].tolist(), predictions[i], y[i]))

[6.0, 148.0, 72.0, 35.0, 0.0, 33.6, 0.627, 50.0] => 1 (expected 1)
[1.0, 85.0, 66.0, 29.0, 0.0, 26.6, 0.351, 31.0] => 0 (expected 0)
[8.0, 183.0, 64.0, 0.0, 0.0, 23.3, 0.672, 32.0] => 1 (expected 1)
[1.0, 89.0, 66.0, 23.0, 94.0, 28.1, 0.167, 21.0] => 0 (expected 0)
[0.0, 137.0, 40.0, 35.0, 168.0, 43.1, 2.288, 33.0] => 0 (expected 1)
[5.0, 116.0, 74.0, 0.0, 0.0, 25.6, 0.201, 30.0] => 0 (expected 0)
[3.0, 78.0, 50.0, 32.0, 88.0, 31.0, 0.248, 26.0] => 0 (expected 1)
[10.0, 115.0, 0.0, 0.0, 0.0, 35.3, 0.134, 29.0] => 1 (expected 0)
[2.0, 197.0, 70.0, 45.0, 543.0, 30.5, 0.158, 53.0] => 0 (expected 1)
[8.0, 125.0, 96.0, 0.0, 0.0, 0.0, 0.232, 54.0] => 0 (expected 1)


# Ajuste el modelo
Cambie la configuración del modelo o el proceso de entrenamiento y vea si puede mejorar el rendimiento del modelo, p. Ej. lograr una precisión superior al 76%.