<a href="https://colab.research.google.com/github/idavid80/keras/blob/main/01_Introduccion/red_neuronal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from keras.datasets import mnist

Según el libro La librería MNIST nos proporciona 60.000 imagenes de entrenamiento, más 10.000 imagenes de pruebas, que han sido recompiladas por el National Institute of Standards and Technology.

Este es un ejemplo para clasificar digitos manuscritos mediante una red neuronal. Para ello, se utiliza un sistema de clasificación de imagenes (en escala de grises de 28x28 pixeles) con 10 categorías (digitos del 0 al 9).

In [2]:
# Cargar datos
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step


Almacenamos los datos de los que aprende el modelo en las variables train_images y train_labels (Conjuntos de entrenamiento) y en las variables test_images y test_labels (Conjuntos de prueba) los datos de prueba.


In [3]:
# Datos de entrenamiento
print(train_images.shape)
print(train_labels)
print(train_labels.dtype)
len(train_labels)

(60000, 28, 28)
[5 0 4 ... 5 6 8]
uint8


60000

In [4]:
# Datos de prueba
print(test_images.shape)
print(test_labels)
print(test_labels.dtype)
len(test_labels)

(10000, 28, 28)
[7 2 1 ... 4 5 6]
uint8


10000

El flujo es:

1.   Proporcionar los datos de entrenamiento
2.   Red aprende a asociar imagenes y etiquetas
3.   Solicitamos a la red que predicciones para test_images y comprobamos que coinciden con test_labels.

In [5]:
"""
from keras import models
from keras import layers

# Arquitectura de la red (Capa)
network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))
"""
from keras.models import Sequential
from keras.layers import Dense, Input

input_dim = 28 * 28

model = Sequential([
    Input(shape=(input_dim,)),
    Dense(512, activation='relu'),
    Dense(10, activation='softmax')
])

Es el bloque de construcción principal de las redes. Un modulo de procesamiento de datos que nos permite representar los datos de una forma más útiles.
En este caso, hemos creado 2 capas *Dense* (Densa o Fully Connected)

La primera capa oculta de tu red. Es una capa Densa, lo que significa que cada neurona en esta capa está conectada a cada neurona de la capa anterior. Tiene como parámetros:  
*   512 es el número de neuronas (o unidades) que tendrá esta capa (un número mayor permite a la red aprender representaciones más complejas).
*   activation: ReLU (Rectified Linear Unit) es la función de activación más común para capas ocultas. Introduce no-linealidad, lo que permite que la red aprenda relaciones complejas que no podrían ser modeladas solo con operaciones lineales
*   input_shape: Este parámetro solo es necesario en la primera capa. Le dice al modelo la forma de los datos de entrada

La segunda capa, en este caso capa de salida tiene como parámetros:
*   10 es el número de neuronas en la capa de salida. En problemas de clasificación, este número debe coincidir con el número de clases que quieres predecir.
*   activation='softmax': función de activación estándar para la capa de salida en problemas de clasificación multiclase. Softmax toma las salidas numéricas de las 10 neuronas y las convierte en una distribución de probabilidad (valores entre 0 y 1).

In [6]:
# Compilación de la red
model.compile(
    optimizer='rmsprop',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

# Mostrar un resumen de la arquitectura
model.summary()

optimizer='rmsprop': algoritmo que la red usará para ajustar los pesos (weights) basándose en la función de pérdida. rmsprop es una opción excelente y por defecto para muchas tareas. Otros comunes son 'adam' y 'sgd'.

loss='categorical_crossentropy': función de pérdida que la red tratará de minimizar. Es la elección ideal para problemas de clasificación multiclase (0 al 9) y donde la salida de la red es un vector de probabilidades (softmax).

metrics=['accuracy']: métrica para evaluar el rendimiento de la red, pero no afecta al proceso de entrenamiento. La precisión (accuracy) es la métrica más común para la clasificación.

In [7]:
# Preparación datos de imagen
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

Transformamos la matriz y la escalamos a valores entre [0,1)

In [8]:
from keras.utils import to_categorical

# Preparación de etiquetas
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

In [9]:
model.fit(train_images, train_labels, epochs=5, batch_size=128)

Epoch 1/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 13ms/step - accuracy: 0.8690 - loss: 0.4459
Epoch 2/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 12ms/step - accuracy: 0.9652 - loss: 0.1196
Epoch 3/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 13ms/step - accuracy: 0.9772 - loss: 0.0739
Epoch 4/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 10ms/step - accuracy: 0.9849 - loss: 0.0508
Epoch 5/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 10ms/step - accuracy: 0.9889 - loss: 0.0383


<keras.src.callbacks.history.History at 0x7c7af8b18b60>

Itera 5 veces en minilotes de 128 muestras. Resultando 469x5=2345 ajustes.
Obtenemos un resultado de 0.9887 con los datos de entrenamientos.

In [10]:
test_loss, test_acc = model.evaluate(test_images, test_labels)
print('test_acc:', test_acc)

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 5ms/step - accuracy: 0.9765 - loss: 0.0777
test_acc: 0.9793999791145325


Observamos que los resultados de prueba  son un poco menores que los de entrenamiento. Esta diferencia es un problema de sobreajuste. Este problema se profundizará en el Capitulo 3.

In [11]:
test_digits = test_images[0:10]

predictions = model.predict(test_digits)

print(predictions[0])
print(predictions[0].argmax())

print(predictions[0][7])

print(test_labels[0])

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 92ms/step
[1.2953366e-08 6.8644568e-10 1.2363456e-06 2.1152299e-04 2.8147315e-12
 1.0798596e-07 1.2864891e-13 9.9977970e-01 3.8211162e-08 7.3347551e-06]
7
0.9997797
[0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]


**print(predictions[0]):** Vector de 10 probabilidades, una para cada dígito (clase) posible, del índice 0 al índice 9. Evalua la probabilidad de que la imagen de entrada pertenezca a cada una de las 10 clases. Se observa el valor en el índice 7 (contando desde 0): 9.9998862e-01. Esto es igual a 0.99998862. Por lo que, la red está extremadamente segura (casi 100% de confianza) de que la imagen es el dígito 7. El resto de los valores son números muy pequeños, lo que indica muy baja probabilidad para los otros dígitos.

**print(predictions[0].argmax()):**
índice con la probabilidad más alta en el vector anterior.


**print(predictions[0][7]):** valor de probabilidad exacto en el índice 7

**print(test_labels[0]):** Los datos de la etiqueta están en formato one-hot encoding. El 1 en el índice 7 indica que la imagen es, de hecho, el dígito 7.

Tu red neuronal ha clasificado correctamente la primera imagen de prueba.

Predicción de la Red: 7

Etiqueta Verdadera: 7

Confianza: 99.977%

Esta es una excelente métrica para una sola predicción, lo que sugiere que el entrenamiento fue exitoso. El siguiente paso en tu práctica sería verificar la precisión general del modelo en todo el conjunto de prueba, usando el método model.evaluate().

In [12]:
test_digits = test_images[0:10]

predictions = model.predict(test_digits)

print(predictions[0])
print(predictions[0].argmax())

print(predictions[0][7])

print(test_labels[0])

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 44ms/step
[1.2953366e-08 6.8644568e-10 1.2363456e-06 2.1152299e-04 2.8147315e-12
 1.0798596e-07 1.2864891e-13 9.9977970e-01 3.8211162e-08 7.3347551e-06]
7
0.9997797
[0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]


In [13]:
loss, accuracy = model.evaluate(test_images, test_labels)

print(f"Pérdida en el conjunto de prueba: {loss:.4f}")
print(f"Precisión en el conjunto de prueba: {accuracy:.4f}")

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 6ms/step - accuracy: 0.9765 - loss: 0.0777
Pérdida en el conjunto de prueba: 0.0658
Precisión en el conjunto de prueba: 0.9794


Pérdida (Loss)	0.0638	Representa el "castigo" o la discrepancia entre la predicción del modelo y la etiqueta verdadera. Una pérdida tan baja (cercana a cero) indica que las predicciones probabilísticas del modelo (softmax output) están muy cerca de las etiquetas verdaderas (one-hot encoded)

Precisión (Accuracy)	0.9812	Es la proporción de imágenes que el modelo clasificó correctamente. De los 10,000 ejemplos en el conjunto de prueba de MNIST, tu modelo solo se equivocó en aproximadamente 188 imágenes (menos del 2%).