<a href="https://colab.research.google.com/github/Armegas/4Geeks_Academy_RNA_Redes-de-Neuronas-Artificiales-clase-/blob/main/es_exploring_neural_networks.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## RNA in Python

A continuación veremos cómo podemos implementar RNA (Redes de Neuronas Artificiales) en Python. Para ello, utilizaremos la librería keras sobre tensorflow (que es lo más común).

### Clasificación de conjuntos de datos textuales

Vamos a utilizar el conjunto de datos de inicio de diabetes de los indios Pima. Este es un conjunto de datos de Machine Learning estándar del repositorio de Machine Learning de UCI. Describe los datos de los registros médicos de los pacientes de los indios Pima y si tuvieron un inicio de diabetes dentro de los cinco años.

#### Paso 1. Lectura del conjunto de datos

In [None]:
import pandas as pd # Importa la biblioteca pandas, que se usa para manipular y analizar datos de forma tabular (como hojas de cálculo).
from sklearn.model_selection import train_test_split # Importa la función train_test_split de la biblioteca scikit-learn. Esta función se utiliza para dividir datos en conjuntos de entrenamiento y prueba.

total_data = pd.read_csv("https://raw.githubusercontent.com/4GeeksAcademy/machine-learning-content/master/assets/clean-pima-indians-diabetes.csv") # Carga el conjunto de datos de diabetes Pima Indians desde un archivo CSV en una URL y lo almacena en un DataFrame de pandas llamado total_data.

X = total_data.drop("8", axis = 1) # Crea el DataFrame de características (X) eliminando la columna "8" del conjunto de datos. El argumento axis=1 indica que se está eliminando una columna, no una fila. La columna "8" representa la variable objetivo.
y = total_data["8"] # Crea la Serie de etiquetas o variable objetivo (y) seleccionando la columna "8" de los datos.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42) # Divide los datos en conjuntos de entrenamiento y prueba.
# X_train, y_train: Conjuntos de entrenamiento (80% de los datos).
# X_test, y_test: Conjuntos de prueba (20% de los datos, definido por test_size = 0.2).
# random_state = 42: Asegura que la división de los datos sea la misma cada vez que se ejecuta el código, lo que hace el resultado reproducible.

X_train.head() # Muestra las primeras cinco filas del conjunto de datos de entrenamiento (X_train) para verificar que la división se realizó correctamente.

Unnamed: 0,0,1,2,3,4,5,6,7
60,-0.547919,-1.154694,-3.572597,-1.288212,-0.692891,-4.060474,-0.507006,-1.041549
618,1.530847,-0.278373,0.666618,0.217261,-0.692891,-0.481351,2.44667,1.425995
346,-0.844885,0.566649,-1.194501,-0.096379,0.02779,-0.417892,0.550035,-0.956462
294,-1.141852,1.255187,-0.98771,-1.288212,-0.692891,-1.280942,-0.658012,2.702312
231,0.639947,0.410164,0.563223,1.032726,2.519781,1.803195,-0.706334,1.085644


El conjunto train lo utilizaremos para entrenar el modelo, mientras que con el test lo evaluaremos para medir su grado de efectividad. Además, generalmente es una buena práctica normalizar los datos antes de entrenar una red neuronal artificial (RNA). Se pueden aplicar dos tipos: de 0 a 1 o de -1 a 1

#### Paso 2: Inicialización y entrenamiento del modelo

Los modelos en Keras se definen como una secuencia de capas. Creamos un modelo secuencial y agregamos capas una a una hasta que estemos satisfechos con nuestra arquitectura de red.

La capa de entrada siempre tendrá tantas neuronas como variables predictoras. En este caso, tenemos un total de 8 (de la 0 a la 7). A continuación, añadimos dos capas ocultas, una de 12 neuronas y otra de 8. Por último, la cuarta capa, de salida, tendrá una única neurona, ya que el problema es dicotómico. Si fuese de n clases, la red tendría n salidas.

Nota: Hemos creado una red por defecto con capas ocultas y neuronas en cada capa oculta aleatorias. Normalmente se suele empezar así y a continuación hacer una optimización de hiperparámetros.



In [None]:
# Se importa la clase Dense del módulo de capas de Keras.
# Una capa Dense (o completamente conectada) es la capa de neuronas más común y fundamental en una red neuronal.
from tensorflow.keras.layers import Dense

# Se importa la clase Sequential del módulo de modelos de Keras.
# Un modelo secuencial es una pila lineal de capas, lo que significa que las capas se añaden una tras otra. Es el tipo de modelo más simple.
from tensorflow.keras.models import Sequential

# Se importa la función set_random_seed. Esto se usa para establecer una semilla aleatoria para que los resultados del modelo sean reproducibles.
from tensorflow.keras.utils import set_random_seed

# Se establece la semilla aleatoria en 42. Esto garantiza que cada vez que se ejecute el código,
# la inicialización de los pesos de la red neuronal será la misma,
# lo que permite obtener resultados consistentes.
set_random_seed(42)

# Se crea una instancia de un modelo secuencial y se asigna a la variable 'model'.
model = Sequential()

# Se añade la primera capa oculta al modelo.
# Dense(12,...): Esta capa tendrá 12 neuronas.
# input_shape=(8,): Define la forma de la entrada para esta capa. En este caso, la entrada es un vector de 8 elementos (las 8 características del conjunto de datos).
# activation="relu": La función de activación "Rectified Linear Unit" (ReLU) se aplica a las salidas de esta capa.
model.add(Dense(12, input_shape = (8,), activation = "relu"))

# Se añade una segunda capa oculta al modelo.
# Dense(8,...): Esta capa tendrá 8 neuronas.
# activation="relu": También usa la función de activación ReLU.
model.add(Dense(8, activation = "relu"))

# Se añade la capa de salida al modelo.
# Dense(1,...): Esta capa tiene una sola neurona, que es adecuada para una tarea de clasificación binaria (como la de este caso, ¿sí o no diabetes?).
# activation="sigmoid": La función de activación sigmoide comprime el resultado de la neurona de salida entre 0 y 1, lo que se puede interpretar como la probabilidad de que la entrada pertenezca a la clase positiva.
model.add(Dense(1, activation = "sigmoid"))

A continuación, una vez que el modelo está definido, podemos compilarlo. El backend elige automáticamente la mejor manera de representar la red para entrenar y hacer predicciones para ejecutar en su hardware, como CPU o GPU o incluso distribuido.

Al compilar, debemos especificar algunas propiedades adicionales requeridas al entrenar la red. Recordemos que entrenar una red significa encontrar el mejor conjunto de pesos para asignar entradas a salidas en nuestro conjunto de datos.

In [None]:
# Este comando configura el proceso de entrenamiento del modelo.
# Se le pasan tres argumentos clave:
model.compile(
    loss = "binary_crossentropy",  # 1. Función de pérdida: binary_crossentropy
    optimizer = "adam",           # 2. Optimizador: adam
    metrics = ["accuracy"]        # 3. Métricas: accuracy
)

# Muestra un resumen del modelo. Esto incluye las capas, el número de parámetros en cada capa y el número total de parámetros entrenables.
model.summary()

Definiremos el optimizador conocido como adam. Esta es una versión popular del descenso de gradiente porque se sintoniza automáticamente y brinda buenos resultados en una amplia gama de problemas. Recopilaremos e informaremos la precisión de la clasificación, definida a través del argumento de las métricas.

El entrenamiento ocurre en épocas (epoch) y cada época se divide en lotes (batch).

Epoch: Una pasada por todas las filas del conjunto de datos de entrenamiento.
Batch: Una o más muestras consideradas por el modelo dentro de una época antes de que se actualicen los pesos.
El proceso de entrenamiento se ejecutará durante un número fijo de iteraciones, que son las épocas. También debemos establecer la cantidad de filas del conjunto de datos que se consideran antes de que se actualicen los pesos del modelo dentro de cada época, lo que se denomina tamaño de batch y se establece mediante el argumento batch_size (tamaño_lote).

Para este problema, ejecutaremos una pequeña cantidad de epochs (150) y usaremos un tamaño de batch relativamente pequeño de 10:



In [None]:
# Este comando inicia el proceso de entrenamiento del modelo.
# Se le pasan los conjuntos de datos de entrenamiento (características y etiquetas)
# y se especifican parámetros clave para el entrenamiento.
model.fit(
    X_train,     # 1. Los datos de entrenamiento (características)
    y_train,     # 2. Las etiquetas de entrenamiento (la variable objetivo)
    epochs = 150,# 3. Número de épocas: cuántas veces el algoritmo recorrerá todo el conjunto de datos de entrenamiento
    batch_size = 10# 4. Tamaño del lote: cuántas muestras se usarán en cada paso de actualización del modelo.
)

Epoch 1/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8043 - loss: 0.3911
Epoch 2/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7924 - loss: 0.3939
Epoch 3/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7924 - loss: 0.3939
Epoch 4/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7974 - loss: 0.3937
Epoch 5/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7954 - loss: 0.3934
Epoch 6/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7974 - loss: 0.3934
Epoch 7/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.7957 - loss: 0.3927
Epoch 8/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7979 - loss: 0.3928
Epoch 9/150
[1m62/62[0m [32m━━━━━━━━━━━━━━━━━

<keras.src.callbacks.history.History at 0x7e3575e9e360>

In [None]:
# Evalúa el modelo en el conjunto de datos de entrenamiento (X_train, y_train).
# Devuelve la pérdida y las métricas (como la precisión).
_, accuracy = model.evaluate(X_train, y_train)

# Imprime la precisión del modelo en la terminal, formateada como un porcentaje.
print(f"Accuracy: {accuracy}")

[1m20/20[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.8519 - loss: 0.3088  
Accuracy: 0.8583061695098877


El tiempo de entrenamiento de un modelo dependerá, en primer lugar, del tamaño del conjunto de datos (instancias y características), y también de la tipología de modelo y su configuración.

El accuracy del conjunto de entrenamiento es de un 84,20%.

#### Paso 3: Predicción del modelo

In [None]:
# Realiza predicciones sobre el conjunto de datos de prueba (X_test) usando el modelo.
y_pred = model.predict(X_test)

# Muestra las primeras 15 predicciones (valores) del array y_pred.
y_pred[:15]

[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step


array([[0.13090663],
       [0.02762299],
       [0.07976675],
       [0.5106946 ],
       [0.3687225 ],
       [0.7348838 ],
       [0.00241285],
       [0.00305427],
       [0.9401702 ],
       [0.18566978],
       [0.16093999],
       [0.8827251 ],
       [0.14474158],
       [0.3935397 ],
       [0.13409334]], dtype=float32)

Como vemos, el modelo no devuelve las clases 0 y 1 directamente, sino que requiere de un preprocesamiento previo:

El código redondea las predicciones de probabilidad del modelo y muestra las primeras 15.

In [None]:
# y_pred es una lista de listas, por lo que x[0] accede al valor de probabilidad dentro de cada lista.
# La función round() redondea cada probabilidad al número entero más cercano (0 o 1).
# Esto convierte las probabilidades en predicciones binarias (0 = sin diabetes, 1 = con diabetes).
y_pred_round = [round(x[0]) for x in y_pred]

# Muestra los primeros 15 valores del array y_pred_round.
# Estos valores serán 0 o 1, lo que representa las predicciones finales del modelo.
y_pred_round[:15]

[0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0]

Con los datos en crudo es muy complicado saber si el modelo está acertando o no. Para ello, debemos compararlo con la realidad. Existe una gran cantidad de métricas para medir la efectividad de un modelo a la hora de predecir, entre ellas la precisión (accuracy), que es la fracción de predicciones que el modelo realizó correctamente.

In [None]:
# Importa la función accuracy_score de la biblioteca scikit-learn.
# Esta función se usa para calcular la precisión de un modelo de clasificación.
from sklearn.metrics import accuracy_score

# Compara las etiquetas reales del conjunto de prueba (y_test) con las predicciones del modelo (y_pred_round).
# El resultado es un valor decimal que representa la proporción de predicciones correctas.
accuracy_score(y_test, y_pred_round)

0.7077922077922078

#### Paso 4: Guardado del modelo

Una vez tenemos el modelo que estábamos buscando (presumiblemente tras la optimización de hiperparámetros), para poder utilizarlo a futuro es necesario almacenarlo en nuestro directorio.

In [None]:
model.save("keras_8-12-8-1_42.keras")

Añadir un nombre explicativo al modelo es vital, ya que en el caso de perder el código que lo ha generado sabremos qué arquitectura tiene (en este caso decimos 8-12-8-1 porque tiene 8 neuronas en la capa de entrada, 12 y 8 en las dos capas ocultas y una neurona en la capa de salida) y además la semilla para replicar los componentes aleatorios del modelo, que en este caso lo hacemos añadiendo un número al nombre del archivo, el 42.

### Image set classification

The following is a simple example of how to train a neural network to classify images from the MNIST dataset. MNIST is a dataset of images of handwritten digits, from 0 to 9.

#### Step 1. Reading the data set

In [None]:
from tensorflow.keras.datasets import mnist

(X_train, y_train), (X_test, y_test) = mnist.load_data()

# Normalize the data (transform pixel values from 0-255 to 0-1)
X_train, X_test = X_train / 255.0, X_test / 255.0

The pixel values of the images are normalized to be in the range 0 to 1 instead of 0 to 255.

#### Step 2: Model initialization and training

The architecture of the neural network is defined. In this case, we are using a simple sequential model with a flattening layer that transforms 2D images into 1D vectors, a dense layer with 128 neurons, and an output layer with 10 neurons.

An alternative way to create an ANN to the above is provided below. Both are valid:

In [None]:
from tensorflow.keras.layers import Flatten

set_random_seed(42)

model = Sequential([
  # Layer that flattens the 28x28 pixel input image to a vector of 784 elements
  Flatten(input_shape = (28, 28)),
  # Dense hidden layer with 128 neurons and ReLU activation function
  Dense(128, activation = "relu"),
  # Output layer with 10 neurons (one for each digit from 0 to 9)
  Dense(10)
])

We also added the network compiler to define the optimizer and the loss function, as we did before:

In [None]:
from tensorflow.keras.losses import SparseCategoricalCrossentropy

model.compile(optimizer = "adam", loss = SparseCategoricalCrossentropy(from_logits = True), metrics = ["accuracy"])

The model is trained on the training set for a certain number of epochs. When working with images, it is less common to use the `batch_size` parameter:

In [None]:
model.fit(X_train, y_train, epochs = 5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.src.callbacks.History at 0x7fa9704ed010>

In [None]:
_, accuracy = model.evaluate(X_train, y_train)

print(f"Accuracy: {accuracy}")

Accuracy: 0.9858166575431824


The training time of a model will depend, first of all, on the size of the dataset (instances and features), and also on the type of model and its configuration.

#### Step 3: Model prediction

In [None]:
test_loss, test_acc = model.evaluate(X_test,  y_test, verbose=2)

print('\nTest accuracy:', test_acc)

313/313 - 0s - loss: 0.0841 - accuracy: 0.9751 - 271ms/epoch - 867us/step

Test accuracy: 0.9750999808311462


#### Step 4: Saving the model

Once we have the model we were looking for (presumably after hyperparameter optimization), to be able to use it in the future, it is necessary to store it in our directory.

In [None]:
model.save("keras_28x28-128-10_42.keras")

Adding an explanatory name to the model is vital, since in the case of losing the code that has generated it we will know what architecture it has (in this case we say `28x28-128-10` because it has an input layer of 28 x 28 pixels, 128 neurons in the only hidden layer it has, and 10 neurons in the output layer) and also the seed to replicate the random components of the model, which in this case we do by adding a number to the file name, `42`.