# ELEMENTOS RED NEURONAL ARTIFICIAL   

## Deep Learning y Redes Neuronales Artificiales
En general, hoy en día estamos manejando redes neuronales artificiales con muchísimas capas que, literalmente, están apiladas una encima de la otra; de aquí el concepto de **deep** (profundidad de la red), donde cada una de ellas está compuesta, a su vez, por muchísimas neuronas, cada una con sus parámetros que, a su vez, realizan una transformación simple de los datos que reciben de neuronas de la capa anterior para pasarlos a las de la capa posterior. La unión de todas permite descubrir patrones complejos en los datos de entrada.    

En la práctica, todos los algoritmos de Deep Learning son redes neuronales que comparten algunas propiedades básicas comunes, como que todas consisten en neuronas interconectadas que se organizan en capas.
En lo que difieren es en la arquitectura de la red (la forma en que las neuronas están organizadas en la red) y, a veces, en la forma en que se entrenan. Con eso en mente, enumeramos a continuación las principales clases de redes neuronales que presentaremos a lo largo del libro. Aunque no es una lista exhaustiva, representan la mayor parte de los algoritmos en uso hoy en día:   

- ***Perceptrón multicapa (MLP, del inglés Multi-layer perceptron)***: un tipo de red neuronal con capas densamente conectadas.
- ***Redes neuronales convolucionales (CNN del inglés Convolutional Neural Networks)***: una CNN es una red neuronal con varios tipos de capas especiales. Hoy en día este tipo de red está siendo muy usada por la industria en diferentes tipos de tarea, especialmente de visión por computador.
- ***Redes neuronales recurrentes (RNN del inglés Recurrent Neural Networks)***: este tipo de red tiene un estado interno (o memoria) que se crea con los datos de entrada ya vistos por la red. La salida de una RNN es una combinación de su estado interno y los datos de entrada. Al mismo tiempo, el estado interno cambia para incorporar datos recién entrados. Debido a estas propiedades, las redes neuronales recurrentes son buenas candidatas para tareas que funcionan en datos secuenciales, como texto o datos de series de tiempo.

## Estructura y elementos de una Red Neuronal Artificial    

<img src="img/DIAGRAMARNA.jpeg" width="800">

En la figura anterior se puede ver la estructura de la red, de donde extraemos los siguientes cuatro elementos:

- **Capas**: Es el elemento fundamental. Hay ciertas variantes, ciertos hiperparámetros como se suele expresar, para definir la red en lo relativo a las capas (número de capas, número de neuronas por capa, etc). Pero de cara a centrarnos en los elementos de la RN, nos fijaremos básicamente en el tipo de capa (o combinaciones de capa). 
- **Función de activación**: No aparece en el dibujo, pero es la función que rige la salida de las neuronas, especialmente relevante en las capas de salida. Dado que tiene relevancia en relación con el problema a tratar, será analizada detalladamente.
- **Función de pérdida**: La función que calcula cuán lejos está el resultado que produce la red del esperado, y que constituye la entrada fundamental para el aprendizaje.
- **Optimizador**: Que, en función de lo que obtiene como entrada de la función de pérdida, ‘decide’ en qué cuantía y dirección modificar los parámetros de las capas, típicamente sus pesos.   

Existen muchas más variantes y muchos más hiperparámetros a elegir para definir una red neuronal pero, inicialmente, nos referiremos a esos cuatro elementos a la hora de analizar los componentes de las redes neuronales.

## Capas de una Red Neuronal Artificial   
   
Como ya sabemos, la unidad mínima en una red neuronal sería, en teoría, la neurona, que conceptualmente se corresponde con una unidad que recibe unos datos de entrada (en la metáfora neuronal serían las salidas de otras neuronas) y proporciona un valor de salida.   
Realmente, a la hora de trabajar, más que con neuronas individuales, se trabaja con *capas*, que se corresponden intuitivamente con lo que la palabra capa indica, es decir, un *conjunto de neuronas en un mismo nivel*, que tienen características homogéneas entre sí y que se conectan con las neuronas de la capa precedente. Desde un punto de vista matemático, una capa se traduce en un módulo de procesamiento matemático que toma como entrada un tensor (que sería la salida de la capa anterior) y devuelve como salida otro tensor.

Entre los elementos que definen la tipología de una capa tenemos, por supuesto, el tipo de cálculos que aplican sus neuronas, pero también el patrón de conexión entre sí y, sobre todo, con la capa precedente.   
Disponemos, de entrada, de tres familias de capas, a saber:   
- **Densa (Perceptrón)**: En ellas todas las neuronas de una capa están conectadas a todas las neuronas de la capa anterior. Son capas que no asumen ningún tipo de estructura específica en las características de entrada. Se utilizan fundamentalmente en problemas de clasificación ya sea asumiendo la totalidad de las capas de la red o bien como fase final de clasificación en una red con capas de otros tipos.
- **Convolución**: capas que aplican transformaciones geométricas locales en espacios acotados de sus datos de entrada. Es decir, recorren sus datos de entrada aplicando sucesivamente pequeñas transformaciones a subconjuntos pequeños de ese espacio de entrada hasta finalizar el recorrido. Su comportamiento tiende a ir extrayendo, mediante la acción de capas sucesivas, características significativas del espacio de entrada. Suelen apoyarse en otros tipos de capas auxiliares como son las *capas de ‘pooling‘ (reducción del espacio de datos)* y *‘flatten‘ (conversión de tensores n-dimensionales en vectores)*.Su aplicación más típica es en tratamiento de imágenes y visión artificial, pero también su utilizan en procesamiento de sonidos, de textos u otro tipo de datos secuenciales.
- **Recurrente (RNR)**: Capa específicamente diseñada para el tratamiento de secuencias de entradas, típicamente temporales. Las capas recurrentes se denominan así porque su salida en un momento dado depende, no sólo de las entradas en ese momento, sino de su salida en el paso anterior. Son capas que, además, conservan un estado. Se utilizan en todo tipo de tratamiento de series temporales, siendo quizá lo más relevante, todo lo que tiene que ver con el procesamiento de texto y lenguaje o el análisis de sentimiento, pero también, por ejemplo, en la predicción del tiempo e incluso en redes generativas de texto. Existen algunas variantes de las que las más comunes son las dos siguientes:   

    - *Long Short-Term Memory (LSTM)*: En que la información recurrente se transmite no sólo al paso anterior sino a varios pasos anteriores.
    - *Gated Recurrent Unit (GRU)*: siguen la misma idea que las LSTM pero son computacionalmente más eficientes.

<img src="img/denseLayer.svg" width=800>
   
### Conv Layer (Convolutional Network)
<img src="img/convLayer.png" width=800>   

### RNN Layer (Recurrent Network)
<img src="img/RNNLayer.png" width=400>


## Función de Activación   

Como se recoge en la figura inferior (autor: Jordi Torres), una neurona artificial habitualmente divide su procesamiento en dos partes:   
- Por un lado, un tratamiento de las entradas (que puede ser, por ejemplo, una suma ponderada como se muestra en la figura o una convolución) y, 
- al resultado de esa primera función, aplicarle otra pequeña transformación para obtener el valor de salida de nuestra neurona. Esa segunda transformación, esa segunda función que en la figura se representa dentro de un rectángulo, es a lo que se denomina **función de activación** y es un segundo elemento de diseño relevante.   


<img src="img/neuronaArtificialJT.png" width=300>

Disponemos de variedad de funciones de activación, algunas de las cuales se muestran en la figura siguiente:    

<img src="img/activationFunction.png">



Analizamos, a continuación, algunas de las más habituales.

- **Función Lineal**: Se trata, quizá, del caso más simple, en que la función de activación básicamente, da una salida igual a la entrada, es decir, actúa como función identidad trasladando a su salida el resultado obtenido en la primera parte del procesamiento de la neurona (la suma ponderada de entradas, por ejemplo).
- **Función Rectified Linear Unit (‘ReLU’)**: Aunque el nombre pueda llamar a engaño, se trata en realidad de una función no lineal. En este caso, el valor de la función de activación es igual a su entrada mientras ésta sea mayor que cero (en ese caso sí actúa como lineal) pero, en caso contrario, el valor de activación es nulo. Su labor, en el fondo, no es más que eliminar valores negativos. Es difícil de explicar brevemente, pero este tipo de no linealidades aumenta las posibilidades de la red. En concreto, esta función, muy popular, da buenos resultados, por ejemplo, en redes de convolución y, por tanto, en tareas como visión artificial o reconocimiento de voz.    
Aparte de la ReLU, existen otras muchas funciones de activación que juegan con la linealidad y no linealidad de forma parecida, como pueden ser, por ejemplo, la *‘Leaky ReLU‘* en que para los valores negativos se proporciona una pendiente diferente (más tendida) que para los positivos o la *‘Exponential LU‘*.
- **Función Sigmoidea (logística)**: Se trata de una función continua y derivable (importante en los algoritmos de aprendizaje), con un rango entre 0 y 1 y generalmente cerca de esos extremos (0 ó 1). Esto la hace muy adecuada para problemas de clasificación. Por ejemplo, para una clasificación binaria, una única neurona de salida con esta función de activación sigmoidea tendería a dar muy bien el resultado (cercano a uno una categoría, cercana a cero la otra). También se utiliza en problemas de regresión con salida entre 0 y 1.
- **Función Tangente Hiperbólica**: Una función con una forma parecida a la sigmoidea pero que, en este caso, proporciona valores entre 1 y -1, es decir, admite valores negativos en la salida.
- **Función ‘softmax’ (función exponencial normalizada)**: Es una función de activación un poco particular, puesto que la salida no sólo depende de las entradas de la neurona sino también de la salida de las otras neuronas de la misma capa. Cuando se aplica una función de activación, la suma de las activaciones de la capa debe ser 1. Se utiliza en problemas de clasificación en múltiples categorías y etiquetas, en las que cada neurona de salida representa una categoría. La que tiene el valor más alto es la que representa con más probabilidad la categoría que corresponde a los datos mostrados en la entrada de la red.     

Existen más funciones de activación, claro, pero con éstas, inicialmente, se cubren los casos más habituales.

## Función de pérdida   


La **función de pérdida (loss function)**, también denominada función objetivo, en esencia, nos dice, durante el proceso de entrenamiento de la red, lo lejos que está en un momento dado, lo que la red nos ofrece como salida y el resultado que nosotros consideramos que es el correcto o deseado. El valor de la función de pérdida será luego un dato de entrada en el algoritmo de aprendizaje.

Dado que los algoritmos de aprendizaje como el descenso de gradiente, calculan la derivada de la función de pérdida, ésta debe ser una función continua y derivable.    

Hay una gran variedad de funciones de pérdida posibles pero para nosotros vamos a seleccionar las siguientes:   


- **Error Cuadrático Medio (‘Mean Square Error‘, MSE)**: Una función muy conocida que calcula la distancia ‘geométrica’ al valor objetivo. Hablar de distancia geométrica es una forma de visualizarlo que nos orienta cuando pensamos en dos o tres dimensiones. Más allá de esas dimensiones, es sólo una forma de entenderlo. Además, decimos distancia, pero en realidad es la distancia elevada al cuadrado. Una variante de ésta seria la que, en lugar del cuadrado de la distancia, elige el valor absoluto (‘Absolute Error‘). MSE se puede usar, por ejemplo, en problemas de regresión a valores arbitrarios y con una última capa sin función de activación.
- **Entropía cruzada Categórica (‘Categorical Cross Entropy‘)**: es una medida de la distancia entre distribuciones de probabilidad. La entropía cruzada suele ser adecuada en modelos de redes cuya salida representa una probabilidad, como cuando hacemos una clasificación categórica con función de activación ‘softmax’. Se puede utilizar, por ejemplo, en problemas de clasificación categórica con una sola etiqueta de salida y precedida de una función de activación ‘Softmax’.
- **Entropía cruzada binaria (‘Binary Cross Entropy‘)**:  Una variante de la anterior pero en que tratamos con clasificación binaria y , por tanto, la función de activación sería una sigmoide.
- **Entropía Cruzada Categórica Dispersa (‘Sparse Categorical Cross Entropy‘)**: Una variante que se suele usar en el caso de trabajar con números enteros.   


Hay mucho más aparato matemático detrás de las funciones de pérdida, y más opciones posibles pero para nuestros objetivos en este módulo y en el curso, estás serán más que suficientes.

## Optimizadores   

Los optimizadores son una pieza nuclear del aprendizaje que, tomando como dato de entrada el valor de la función de pérdida, decide cómo modificar los pesos de la red para conseguir que el resultado se acerque, en cada paso, un poquito más al objetivo deseado.   

El algoritmo más ‘típico’ que podemos en este caso que el **descenso de gradiente (‘Gradient descent‘)** que, en el fondo, no es más, como intuición, que imaginar el perfil de la función de pérdida como una curva o superficie e ir ‘bajando’ en pequeños pasos por esa curva/superficie, en la dirección de máxima inclinación, hasta encontrar el ‘valle’, el punto más bajo, momento en que habríamos minimizado el error.

El descenso de gradiente *(‘Gradient Descent’, GD)* es un optimizador popular y la base de algunos otros. Vamos a ver, brevemente, una relación de otros optimizadores:   

- **BGD (‘Batch Gradient Descent‘)**: Es una variante del gradient descent en que, en cada iteración, tomamos el conjunto entero de datos de aprendizaje para calcular el valor del gradiente. Es un algoritmo relativamente sencillo de entender, pero de convergencia lenta.
- **SGD (‘Stochastic Gradient Descent‘)**: Es el extremo contrario, es decir, en lugar de usar todo el conjunto de datos para calcular el gradiente y actualizar pesos como hace BGD, en este caso en cada iteración utilizamos un único punto de datos con lo que tenemos una convergencia mucho más rápida. A cambio, tiende a presentar ciertas inestabilidades y fluctuaciones.
- **‘Mini-batch Gradient Descent‘**: Es el punto intermedio entre los dos anteriores. En este caso, en cada iteración elegimos un conjunto más o menos reducido de puntos de datos.
- **Nadam (‘Nesterov-accelerated adaptive moment stimation’)**: Este es un optimizador que utiliza el concepto de ‘momento‘. La idea intuitiva es acelerar más o menos el descenso de la curva de gradiente, según la pendiente de la misma, yendo más rápido en las direcciones en que la curva de la función de pérdida es más escarpada y más lento en las direcciones en que la curva presenta un perfil más suave. Y la forma de hacerlo matemáticamente es teniendo en cuenta, no sólo la pendiente actual, sino también la pendiente de las iteraciones anteriores con lo cual tenemos una cierta estimación de aceleración o deceleración.
- **Adagrad (‘ADAptive GRADient algorithm‘)**: Un método que introduce el aprendizaje adaptativo, en que el nivel de variación de los parámetros depende de estos. La idea geométrica es que, si en el descenso de gradiente avanzamos en la dirección de la mayor pendiente en cada momento, pudiendo esa pendiente no apuntar directamente al mínimo global, en Adagrad intentamos que la dirección de descenso, aunque no sea la máxima, sí apunte más en la dirección del mínimo. Presenta, eso si, el problema de una tasa de aprendizaje cada vez menor, que es lo que intentan resolver los siguientes optimizadores.
- **RMSprop (‘Root Mean Square prop‘)**: Utiliza una media móvil de los cuadrados del gradiente y normaliza ese valor empleando para ello las magnitudes recientes de los gradientes anteriores. La normalización se realiza, evidentemente, por que si no, el hecho de elevar al cuadrado hace que, caso de no normalizar, tengamos un valor de gradiente exageradamente alto (el cuadrado, en concreto).
- **Adam (‘ADAptive Moment stimation’)**: Viene a ser una combinación de Adagrad y RMSprop. Utiliza una media móvil exponencial de los gradientes para ajustar las tasas de aprendizaje. Es un algoritmo computacionalmente eficiente y que usa poca memoria. Y es uno de los optimizadores más populares hoy día.
- **Adadelta**: Una extensión de Adagrad más robusta que usa una ventana móvil de actualizaciones de gradientes.
- **Adamax**: Una variante algo sutil de Adam, en que en lugar de un momento de segundo orden, se utiliza un momento de orden infinito.   


Por detrás de los optimizadores, como puede intuirse, existe un cierto aparataje matemático y no es fácil describirlos de una forma realmente sencilla. Al igual que con los elementos anteriores, para este curso entendemos que la información proporcionada es la estrictamente necesaria.



## Construcción de una Red Neuronal Sencilla con TENSORFLOW y KERAS

**TensorFlow** es un ecosistema propuesto por Google que se ha convertido en el entorno más popular para desarrolladores de aplicaciones que requieran Deep Learning. Desde su lanzamiento inicial en 2015 por parte del equipo de Google Brain, el paquete cuenta con decenas de millones de descargas y con alrededor de dos mil contribuidores.   

**Keras** ofrece una API cuya curva de aprendizaje es muy suave en comparación con otras. Los modelos de Deep Learning son complejos y, si se quieren programar a bajo nivel, requieren un conocimiento matemático de base importante para manejarse fácilmente. Por suerte para nosotros, Keras encapsula las sofisticadas matemáticas de tal manera que el desarrollador de una red neuronal solo necesita saber construir un modelo a partir de componentes preexistentes y acertar en su parametrización.   
La implementación de referencia de la librería de Keras fue desarrollada y es mantenida por François Chollet76, ingeniero de Google, y su código ha sido liberado bajo la licencia permisiva del MIT. Su documentación y especificaciones están disponibles en la página web oficial https://keras.io   

*tf.keras* es la implementación de TensorFlow de las especificaciones API de Keras. Esta es una API de alto nivel para construir y entrenar modelos que incluye soporte para funcionalidades específicas de TensorFlow, como eager execution o procesamiento de datos con tf.data.

### Importamos librerías necesarias

In [3]:
# IMPORTAMOS LIBRERIAS
from keras.models import Sequential  
from keras.layers import Dense  
import numpy  

import warnings
warnings.filterwarnings("ignore")

numpy.random.seed(7)



### Cargamos dataset "Pima Indians Diabetes"

In [None]:
dataset = numpy.loadtxt("datasets/pima-indians-diabetes.csv", delimiter=",")  
X = dataset[:,0:8]  
Y = dataset[:,8]

### Creamos modelo de Red Neuronal (formato antiguo)

In [5]:
model = Sequential()  
model.add(Dense(12, input_dim=8, activation='relu'))  
model.add(Dense(8, activation='relu'))  
model.add(Dense(1, activation='sigmoid'))

2025-02-18 10:43:39.122921: E external/local_xla/xla/stream_executor/cuda/cuda_driver.cc:152] failed call to cuInit: INTERNAL: CUDA error: Failed call to cuInit: UNKNOWN ERROR (303)


### Compilamos el modelo RN

In [6]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

### Entrenamos el modelo RN

In [7]:
model.fit(X, Y, epochs=150, batch_size=10)

Epoch 1/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - accuracy: 0.6233 - loss: 9.4131 
Epoch 2/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.6165 - loss: 2.0481
Epoch 3/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.6049 - loss: 1.1952
Epoch 4/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6429 - loss: 0.8318
Epoch 5/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6923 - loss: 0.7334
Epoch 6/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6842 - loss: 0.6687
Epoch 7/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6764 - loss: 0.6318
Epoch 8/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6668 - loss: 0.6392
Epoch 9/150
[1m77/77[0m [32m━━━━━━━━━━━━━━━━

<keras.src.callbacks.history.History at 0x7f743ee0cf10>

### Evaluamos el modelo

In [8]:
scores = model.evaluate(X, Y)  
print("\n%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))

[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.7526 - loss: 0.5014  

compile_metrics: 77.86%


### Realizamos predicciones

In [9]:
# Predicciones 
predictions = model.predict(X)  
rounded = [round(x[0]) for x in predictions]  
print(rounded)

[1m24/24[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step 
[1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0

## Construcción de una Red Neuronal Sencilla con PYTORCH

**PyTorch** es una librería de Python para deep learning creada y publicada por Facebook.
Además de PyTorch, también existe la librería *torchvision* que se utiliza habitualmente junto con PyTorch. Proporciona multitud de funciones útiles para proyectos de visión por computador.   
Para instalar Pytorch sistema, a través de *pip*, ejecutaremos la siguiente instrucción:   

***pip install torch torchvision***

### Importamos librerías necesarias

In [11]:
import torch 
print(torch.__version__)

ModuleNotFoundError: No module named 'torch'