# DEEP LEARNING Y REDES NEURONALES - Una introducción ligera.    

<img src="./img/keras_logo.jpg" height="150px">
<img src="./img/tfLogo.png" height="150px">

El **Aprendizaje Profundo (Deep Learning)** es un conjunto de técnicas dentro del Machine Learning que nos permite entrenar una Inteligencia Artificial para obtener una predicción dado un conjunto de entradas. Este tipo de IA logrará un nivel de cognición por jerarquías. Se puede utilizar Aprendizaje Supervisado o No Supervisado.    


Tomando un ejemplo hipotético de predicción sobre quién ganará el próximo mundial de futbol, se podría utilizar el aprendizaje supervisado mediante algoritmos de Redes Neuronales Artificiales.

Para lograr las predicciones de los partidos de fútbol usaremos como ejemplo las siguientes entradas:   

 - Cantidad de Partidos Ganados
 - Cantidad de Partidos Empatados
 - Cantidad de Partidos Perdidos
 - Cantidad de Goles a Favor
 - Cantidad de Goles en Contra
 - “Racha Ganadora” del equipo (cant. max de partidos ganados seguidos sobre el total jugado)   

Se podría tener en cuenta muchas entradas más, por ejemplo la puntuación media de los jugadores del equipo, o el score que da la FIFA al equipo. Como en cada partido tenemos a 2 rivales, deberemos estos 6 datos de entrada por cada equipo, es decir, 6 entradas del equipo 1 y otras 6 del equipo 2 dando un total de 12 entradas.    

La predicción de salida será el resultado final del partido: Empate, Local vence o Visitante vence.

## Creación de una Red Neuronal   

En la programación “tradicional” se escribiría el código indicando reglas por ejemplo:   
**“si goles  de equipo 1 mayor a goles de equipo 2 entonces probabilidad de Local aumenta”**.   

Es decir que se debería programar "artesanalmente" unas reglas de inteligencia bastante extensa e interrelacionar las 12 variables. Para evitar todo ese enredo y hacer que el código sea escalable y flexible a cambios es cuando se recurre a las Redes Neuronales de Machine Learning, elaborando una arquitectura de interconexiones y permitiendo que este modelo aprenda por sí mismo (y descubra él mismo relaciones de variables/patrones que, de entrada, se desconocen).

Se crea una Red Neuronal con 12 valores de entrada **(Input Layer)** y con 3 neuronas de Salida **(Output Layer)**. Las neuronas que están en medio se llaman **Hidden Layers** y se pueden tener muchas, cada una con una distinta cantidad de neuronas.    
Todas las neuronas estarán interconectadas unas con otras en las distintas capas, como vemos en el dibujo. Las Neuronas son los círculos blancos.


<img src="./img/rn_futbol.png">   

La cantidad total de capas que existe en la red es lo que le otorga la "PROFUNDIDAD" al modelo y que genera el término **APRENDIZAJE PROFUNDO**.

## Calculando la predicción   

Cada conexión de la red neuronal está asociada a un peso. Este peso dictamina la importancia que tendrá esa relación en la neurona al multiplicarse por el valor de entrada. Los valores iniciales de peso se asignan aleatoriamente (NOTA: más adelante los pesos se ajustarán solos).    

<img src="./img/pesosRN.png">   


Imitando a las neuronas biológicas, cada Neurona tiene una ***Función de Activación***. Esta función determinará si la suma de sus valores recibidos (previamente multiplicados por el peso de la conexión) supera un umbral que hace que la neurona se active y dispare un valor hacia la siguiente capa conectada. Hay diversas Funciones de Activación conocidas que se suelen utilizar en estas redes.

Cuando todas las capas terminan de realizar sus cálculos, se llega a la capa final con una predicción.     

Por ejemplo: si nuestro modelo nos devuelve 0.6, 0.25 y 0.15 la predicción indica que ganará el equipo local (Local) con 60% probabilidades, será Empate 25% o que gane Visitante 15%.

## Entrenamiento de la Red Neuronal   

Entrenar la Red Neuronal puede llegar a ser la parte más compleja del Deep Learning. Para poder realizar un entrenamiento en buenas condiciones es necesario disponer de:

- Gran cantidad de valores en nuestro conjunto de Datos de Entrada (Dataset).
- Gran capacidad de cálculo computacional.   

Para el ejemplo de “predicción de Partidos de Futbol" es necesario crear una base de datos con todos los resultados históricos de los Equipos de Fútbol en mundiales, en partidos amistosos, en clasificatorios, los goles, las rachas a lo largo de los años, etc.

Para entrenar la Red, se deberá alimentar con un conjunto de datos de entrada y comparar el resultado (local, empate, visitante) contra la predicción obtenida. Como el modelo ha sido inicializado con pesos aleatorios, y aún está sin entrenar, las salidas obtenidas seguramente serán erróneas.

Una vez se dispone del conjunto de datos, se arranca con un proceso iterativo:    
Se usa una función para comparar cuan bueno/malo fue el resultado predicho contra el resultado real. Esta función es llamada *“Función Coste“*.  Idealmente, se pretende que el coste sea cero, es decir sin error(cuando el valor de la predicción es igual al resultado real del partido). A medida que entrena el modelo, se irá ajustando el valor de los pesos de las interconexiones de las neuronas de manera automática hasta lograr la obtención de buenas predicciones. A ese proceso de “ir y venir” por las capas de neuronas se le conoce como **Back-Propagation**.

## Reducción de la Función Coste: generando mejores predicciones.   

Para poder ajustar los pesos de las conexiones entre neuronas haciendo que el coste se aproxime a cero se usa una técnica llamada **Gradient Descent (Descenso del Gradiente)**. Esta técnica permite encontrar el mínimo de una función. Para esta red, se buscará el mínimo en la Función Coste.

Este método funciona cambiando los pesos en pequeños incrementos luego de cada iteración del conjunto de datos. Al calcular la derivada (o gradiente) de la Función Coste en un cierto conjunto de pesos, se puede observar en que dirección “desciende” hacia el mínimo global. Aquí se puede ver un ejemplo de Descenso de Gradiente en  2 dimensiones (Podemos intentar hacernos una idea de la dificultad que supone el tener que encontrar un mínimo global en 12 dimensiones!)    

<img src="./img/gradiente.png">    


Para minimizar la función de coste es necesario iterar por el conjunto de datos cientos de miles de veces (ó más), por eso es tan necesario tener gran capacidad de cómputo en el equipo en la que se entrena la red.

La actualización del valor de los pesos se realizará automáticamente usando el Descenso de Gradiente. Esta es parte de la magia del Aprendizaje Profundo “Automático”.

Una vez que se termina el entrenamiento del modelo "Predictor de Partidos de Futbol", sólo será necesario "alimentarlo" con los partidos que se disputarán y será posible saber quién ganará el próximo campeonato. Se trata de un caso hipotético, pero es un ejercicio divertido para hacer.

# Ejemplo Red Neuronal sencilla (función XOR) usando KERAS y TENSORFLOW    

Vamos a construir una red neuronal artificial muy sencilla usando Python con Keras y Tensorflow para comprender su uso y su comportamiento.    
Para ello, se implementará la compuerta XOR y se realizará una comparación de las ventajas del aprendizaje automático frente a la programación tradicional.

El funcionamiento de una compuerta XOR es el siguiente:   

Existen dos entradas binarias (1 ó 0) y la salida será 1 sólo si una de las entradas es verdadera (1) y la otra falsa (0).

Por tanto, de cuatro combinaciones posibles, sólo dos tienen salida 1 y las otras dos serán 0, como se observa en la siguiente tabla de verdad:   

| A | B | OUT |
|---|---|-----|
| 0 | 0 |  0  |
| 0 | 1 |  1  |
| 1 | 0 |  1  |
| 1 | 1 |  0  |

### Creando el código para la RNA con Python y Keras.   

Para crear y ejecutar la RNA se va a usar **Keras** que es una librería de alto nivel, para que resulte más fácil describir las capas de la red que se crean. En *background*, es decir, el motor que ejecutará la red neuronal y la entrenará, estará la implementación de Google llamada **Tensorflow**, que es la una de las más usadas, junto con **Pytorch**, a día de hoy.

1. Importamos librerías necesarias

In [2]:
import numpy as np
from keras.models import Sequential
from keras.layers import Dense

2. Preparamos nuestra "puerta XOR" con los datos que contiene

In [3]:
# cargamos las 4 combinaciones de las compuertas XOR
training_data = np.array([[0,0],[0,1],[1,0],[1,1]], "float32")

# y estos son los resultados que se obtienen, en el mismo orden
target_data = np.array([[0],[1],[1],[0]], "float32")

3. Construimos la arquitectura de nuestro modelo de RNA, siguiendo estos pasos:
    1. Creamos un "modelo vacio" de tipo **Sequential**. Este modelo se refiere a que crearemos una serie de capas de neuronas secuenciales, “una delante de otra”.   
    2. Agregamos dos capas **Dense** con ```model.add()```. Realmente serán 3 capas, pues al poner ```input_dim=2``` estamos definiendo la capa de entrada con 2 neuronas (para nuestras entradas de la función XOR) y la primer capa oculta (hidden) de 16 neuronas. Como función de activación utilizaremos *RELU* que sabemos que da buenos resultados. Podría ser otra función, esto es un mero ejemplo, y según la implementación de la red que haremos, deberemos variar la cantidad de neuronas, capas y sus funciones de activación.   
    Y agregamos una capa con 1 neurona de salida (sólo hay dos "clases de salida" posibles (0 ó 1)) y función de activación *SIGMOID*.   

<img src="./img/redxor.png">

In [None]:
model = Sequential() #creamos el modelo secuencial "vacío"
model.add(Dense(16, input_dim=2, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)
I0000 00:00:1763624982.604513   22765 gpu_device.cc:2020] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 6243 MB memory:  -> device: 0, name: NVIDIA GeForce RTX 4060 Laptop GPU, pci bus id: 0000:01:00.0, compute capability: 8.9


Otra sintaxis posible sería la siguiente:

```python
model = keras.Sequential([
    keras.layers.Input(shape=(2,)),
    keras.layers.Dense(units=16,activation='relu'),
    keras.layers.Dense(units=1,activation='sigmoid')
])
```

NOTA: En este último tipo de sintaxis, se puede observar que se debe generar la "capa de entrada) (```keras.layers.Input(shape=(2,))```), en lugar de definir las neuronas de entrada directamente sobre la primera capa oculta, a la par que se crea directamente la arquitectura del modelo, de tipo ```Sequential```, definiendo las capas dentro del mismo sin necesidad de ejecutar ```model.add()```. 

## Entrenamiento   

Antes de llevar a cabo el entrenamiento de la RNA, se termina de realizar ajustes al modelo, indicando en este caso, el tipo de pérdida (loss) a utilizar, el "optimizador" de los pesos y las métricas que se quieren obtener. A esta fase se la denomina "compilación".

In [5]:
model.compile(loss='mean_squared_error',
              optimizer='adam',
              metrics=['binary_accuracy'])

Ahora se procede a realizar el entrenamiento, usando ```.fit()```, indicando las entradas y salidas (training_data, target_data) y el número de iteraciones/épocas (epochs) que vamos a tener entrenando el modelo.     

En este caso se trata de un modelo sencillo pero para otros modelos más grandes y complejos va a ser necesario un mayor número de iteraciones con lo que esto puede suponer a nivel de tiempo de ejecución.

In [6]:
model.fit(training_data, target_data, epochs=1000)

Epoch 1/1000


2025-11-20 08:49:52.644804: I external/local_xla/xla/service/service.cc:163] XLA service 0x736308007520 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:
2025-11-20 08:49:52.644849: I external/local_xla/xla/service/service.cc:171]   StreamExecutor device (0): NVIDIA GeForce RTX 4060 Laptop GPU, Compute Capability 8.9
2025-11-20 08:49:52.692029: I tensorflow/compiler/mlir/tensorflow/utils/dump_mlir_util.cc:269] disabling MLIR crash reproducer, set env var `MLIR_CRASH_REPRODUCER_DIRECTORY` to enable.
2025-11-20 08:49:52.907781: I external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:473] Loaded cuDNN version 91002


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2s/step - binary_accuracy: 0.7500 - loss: 0.2529
Epoch 2/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 118ms/step - binary_accuracy: 0.7500 - loss: 0.2525
Epoch 3/1000


I0000 00:00:1763624993.458848   23432 device_compiler.h:196] Compiled cluster using XLA!  This line is logged at most once for the lifetime of the process.


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 112ms/step - binary_accuracy: 0.7500 - loss: 0.2522
Epoch 4/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 101ms/step - binary_accuracy: 0.7500 - loss: 0.2519
Epoch 5/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 104ms/step - binary_accuracy: 0.7500 - loss: 0.2516
Epoch 6/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 97ms/step - binary_accuracy: 0.7500 - loss: 0.2513
Epoch 7/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 95ms/step - binary_accuracy: 0.7500 - loss: 0.2511
Epoch 8/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 83ms/step - binary_accuracy: 0.7500 - loss: 0.2508
Epoch 9/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 81ms/step - binary_accuracy: 0.7500 - loss: 0.2506
Epoch 10/1000
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 81ms/step - binary_accuracy: 0.7500 - loss: 0.2503
E

<keras.src.callbacks.history.History at 0x736520036d50>

## Evaluación del modelo.    

Procedemos a evaluar el modelo, usando la métrica que se ha establecido en el momento de la compilación.

In [7]:
# evaluamos el modelo
scores = model.evaluate(training_data, target_data)
print("\n%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 472ms/step - binary_accuracy: 1.0000 - loss: 0.0355

compile_metrics: 100.00%


## Predicción    

Por último, se efectúan las 4 predicciones posibles de la puerta XOR, pasando las entradas y se comprueba que las salidas obtenidas son las correctas.

In [8]:
print (model.predict(training_data).round())

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 283ms/step
[[0.]
 [1.]
 [1.]
 [0.]]


Vemos que las predicciones se corresponden con las salidas deseadas de la función XOR.

## Fine tunning: ajustando los hiperparámetros de la RNA.    

Recordemos que este es un ejemplo muy sencillo y con sólo 4 entradas posibles. Pero si en la realidad tuviéramos una red compleja, deberemos poder ajustar muchos parámetros:

- Cantidad de capas de la red (en nuestro caso son 3)
- Cantidad de neuronas en cada red (nosotros tenemos 2 de entrada, 16 en capa oculta y 1 de salida)
- Funciones de activación de cada capa. Nosotros utilizamos relu y sigmoid
- Al compilar el modelo, definir las funciones de pérdida, optimización y métricas.
- Número de iteraciones de entrenamiento (*epochs*).    

En este ejemplo que es muy sencillo, se puede intentar variar, por ejemplo, la cantidad de neuronas de la capa oculta, probar con 8 o con 32 y ver qué resultados se obtienen. También se puede comprobar si necesita más o menos iteraciones para alcanzar el 100% de aciertos.    

Realmente se puede apreciar que hay muchos *hiperparámetros* para ajustar. Si se calcula la combinatoria de todos ellos, se obtendría una cantidad muy elevada de ajustes posibles. Y queda sobretodo por parte del diseñador de la red, decidir esos parámetros y ajustarlos.

## Guardar la RNA para usos posteriores.   

Si esto se tratase de un caso real, en el cual se entrena una red, se adjusta y se obtienen buenos resultados, sería necesario guardar esa red optimizada, que tiene los pesos que se necesitaban.    

Lo que se hace es guardar esa red y en OTRO código se carga de nuevo la red y se utiliza como si fuera una librería o una funcion que se ha creado, pasándole entradas y obteniendo las predicciones.

Este sería un código de ejemplo para usar a tal efecto, de la forma más sencilla:

1. Guardar el modelo:

In [None]:
model.save('xor_model.h5')  # Guardar el modelo

2. Recuperar el modelo guardado:

In [None]:
model = keras.models.load_model('xor_model.h5')  # Cargar el modelo

Una forma más completa, y compleja, de guardar el modelo es la que nos da la posibilidad de guardar, por un lado, la arquitectura del modelo y, por el otro, los pesos de la red.

1. Guardar el modelo, separando arquitectura y pesos:

In [None]:
# serializar el modelo a JSON
model_json = model.to_json()
with open("model.json", "w") as json_file:
    json_file.write(model_json)
    
# serializar los pesos a HDF5
model.save_weights("model.h5")
print("Modelo Guardado!")

Se debe tener en cuenta que ```save_weights``` puede crear archivos en el formato Keras ```HDF5``` o en el formato TensorFlow ```SavedModel```. El formato se infiere de la extensión de archivo que proporciona: si es "**.h5**" o "**.keras**", el marco utiliza el formato Keras ```HDF5```. Cualquier otra cosa por defecto es ```SavedModel```.    
Para una total explicidad, el formato se puede pasar explicitamente a traves del argumento 'save_format', que puede tomar el valor "tf" o "h5":   

```
model.save_weights('path_to_my_tf_savedmodel', save_format='tf')
```

2. Recuperar/cargar el modelo:

In [None]:
# cargar json y crear el modelo
json_file = open('model.json', 'r')
loaded_model_json = json_file.read()
json_file.close()
loaded_model = model_from_json(loaded_model_json)
# cargar pesos al nuevo modelo
loaded_model.load_weights("model.h5")
print("Cargado modelo desde disco.")
 
# Compilar modelo cargado y listo para usar.
loaded_model.compile(loss='mean_squared_error', optimizer='adam', metrics=['binary_accuracy'])

A partir de aquí, se podría usar ```loaded_model.predic()``` para realizar predicciones normalmente.

Más información del guardado de modelos [aquí](https://www.tensorflow.org/guide/keras/save_and_serialize?hl=es-419)