Las redes neuronales artificiales (ANN, por sus siglas en inglés) representan una clase de modelos de aprendizaje automático inspirados en la estructura y funcionamiento del cerebro humano. Consisten en nodos interconectados organizados en capas, donde cada nodo realiza una operación simple. Estas redes se pueden utilizar para una variedad de tareas, incluyendo clasificación, regresión, reconocimiento de patrones y más.

## Estructura de las Redes Neuronales Artificiales

Una red neuronal artificial típicamente consta de tres tipos de capas:

1. **Capa de Entrada**: Esta capa recibe los datos de entrada y los pasa a la siguiente capa. Cada nodo en la capa de entrada representa una característica de los datos de entrada.

2. **Capas Ocultas**: Estas capas realizan cálculos sobre los datos de entrada. Cada nodo en una capa oculta recibe entrada de todos los nodos en la capa anterior y envía su salida a todos los nodos en la siguiente capa. El número de capas ocultas y el número de nodos en cada capa son parámetros configurables.

3. **Capa de Salida**: Esta capa produce la salida final de la red. El número de nodos en la capa de salida depende de la naturaleza de la tarea (por ejemplo, un nodo para clasificación binaria, múltiples nodos para clasificación multiclase o regresión).

## Funciones de Activación

Cada nodo en una red neuronal aplica una función de activación a la suma ponderada de sus entradas. Las funciones de activación comunes incluyen:

- **Sigmoidal**: Mapea la entrada a un valor entre 0 y 1. Se utiliza frecuentemente en la capa de salida de problemas de clasificación binaria.
- **ReLU (Unidad Lineal Rectificada)**: Devuelve 0 para entradas negativas y el valor de entrada para entradas positivas. Se utiliza comúnmente en capas ocultas.
- **Tanh (Tangente Hiperbólica)**: Similar a la función sigmoidal pero mapea la entrada a un valor entre -1 y 1.

## Entrenamiento

Las redes neuronales aprenden de los datos a través de un proceso llamado entrenamiento. Durante el entrenamiento, la red ajusta sus parámetros internos (pesos y sesgos) basados en los datos de entrada y la salida esperada (etiquetas). Este proceso implica dos pasos principales:

1. **Propagación hacia Adelante**: Los datos de entrada se envían hacia adelante a través de la red, capa por capa, para producir una salida predicha.

2. **Retropropagación**: Se calcula el error entre la salida predicha y la salida real, y este error se propaga hacia atrás a través de la red para actualizar los parámetros.

## Sobreajuste y Regularización

Como otros modelos de aprendizaje automático, las redes neuronales son susceptibles al sobreajuste, donde el modelo aprende a memorizar los datos de entrenamiento en lugar de generalizar a partir de ellos. Técnicas de regularización como la regularización L1 y L2, la eliminación aleatoria y la detención temprana pueden ayudar a prevenir el sobreajuste.

## Aplicaciones

Las redes neuronales han encontrado aplicaciones en varios campos, incluyendo:

- Clasificación de imágenes y detección de objetos
- Procesamiento de lenguaje natural
- Reconocimiento de voz
- Pronóstico financiero
- Diagnóstico médico
- Juegos (por ejemplo, AlphaGo)

## Conclusión

Las redes neuronales artificiales son herramientas poderosas para abordar tareas complejas de aprendizaje automático. Al aprovechar su capacidad para aprender patrones complejos a partir de datos, se han convertido en un pilar de las aplicaciones modernas de inteligencia artificial. Sin embargo, construir y entrenar redes neuronales requiere ajustes cuidadosos de parámetros y arquitecturas, así como grandes cantidades de datos etiquetados. Con un entrenamiento y optimización adecuados, las redes neuronales pueden lograr resultados impresionantes en una amplia gama de dominios.

# ARTIFICIAL NEURAL NETWORKS

Este penúltimo capítulo sobre algoritmos de aprendizaje automático nos lleva a las redes neuronales artificiales (ANN) y la puerta de entrada al aprendizaje por refuerzo.

Las redes neuronales artificiales, también conocidas como redes neuronales, son una técnica popular de aprendizaje automático para procesar datos a través de capas de análisis. El nombre de las redes neuronales artificiales se inspiró en la similitud del algoritmo con el cerebro humano.

![image.png](attachment:image.png)

Figure 1: Anatomy of a human neuron

Las redes neuronales artificiales, al igual que el cerebro humano, están formadas por neuronas interconectadas, llamadas nodos, que reciben entradas a través de dendritas. Estas neuronas interactúan entre sí a través de axones, conocidos como aristas. En una red neuronal, los nodos se organizan en capas, generalmente comenzando con una capa inicial amplia. La primera capa procesa datos sin procesar, como valores numéricos, texto, imágenes o sonido, que se dividen en nodos. Luego, cada nodo envía información a la siguiente capa de nodos a través de las aristas de la red.

![image.png](attachment:image.png)

Figure 2: The nodes, edges/weights, and sum/activation function of a basic neural network

Cada arista tiene un peso numérico (algoritmo) que puede ser modificado y formulado según la experiencia. Si la suma de las aristas conectadas satisface un umbral establecido, conocido como la función de activación, activará una neurona en la siguiente capa. Sin embargo, si la suma de las aristas conectadas no cumple con el umbral establecido, la activación no se producirá. Esto resulta en un arreglo de todo o nada.

Además, los pesos a lo largo de cada arista son únicos para asegurar que los nodos se activen de manera diferente (como se ve en la Figura 3) y no devuelvan todos el mismo resultado.

![image.png](attachment:image.png)

Figure 3: Unique edges to produce different outcomes

Para entrenar la red a través del aprendizaje supervisado, la salida predicha del modelo se compara con la salida real (que se sabe que es correcta) y se mide la diferencia entre estos dos resultados, conocida como costo o valor de costo. El propósito del entrenamiento es reducir el valor del costo hasta que la predicción del modelo se aproxime estrechamente a la salida correcta. Esto se logra ajustando incrementalmente los pesos de la red hasta obtener el valor de costo más bajo posible. Este proceso de entrenamiento de la red neuronal se llama retropropagación. En lugar de navegar de izquierda a derecha como se alimentan los datos en una red neuronal, la retropropagación se realiza en reversa y se ejecuta desde la capa de salida de la derecha hacia la capa de entrada de la izquierda.

Una de las desventajas de las redes neuronales es que operan como una caja negra en el sentido de que, aunque la red puede aproximar resultados precisos, rastrear su estructura revela una visión limitada o nula sobre las variables que impactan en el resultado. Por ejemplo, al usar una red neuronal para predecir el resultado probable de una campaña de Kickstarter (la plataforma de financiamiento más grande del mundo para proyectos creativos), la red analizará varias variables como la categoría de la campaña, la moneda, el plazo y el monto mínimo de la promesa, pero no podrá especificar sus relaciones con el resultado final.

Además, es posible que dos redes neuronales con una topología y pesos diferentes produzcan la misma salida, lo que dificulta aún más rastrear las relaciones de las variables con la salida. Ejemplos de modelos no caja negra son las técnicas de regresión y los árboles de decisión. Entonces, ¿cuándo deberías usar una red neuronal caja negra? En general, las redes neuronales son mejores para resolver problemas con patrones altamente complejos y especialmente aquellos que son difíciles de resolver para las computadoras pero simples y casi triviales para los humanos. Un ejemplo obvio es un desafío de CAPTCHA (prueba de Turing pública completamente automatizada para diferenciar entre computadoras y humanos) que se utiliza en sitios web para determinar si un usuario en línea es un humano real. Hay numerosas publicaciones de blog en línea que demuestran cómo se puede resolver una prueba de CAPTCHA utilizando redes neuronales.

Otro ejemplo es identificar si un peatón cruzará el camino de un vehículo que se aproxima, como se usa en vehículos autónomos para evitar el caso de un accidente.

![image.png](attachment:image.png)

Figure 4: The three general layers of a neural network

Una red neuronal típica se puede dividir en capas de entrada, ocultas y de salida.

Los datos primero son recibidos por la capa de entrada, donde se detectan características generales.

Las capas ocultas luego analizan y procesan los datos. Basándose en cálculos previos, los datos se simplifican a través del paso por cada capa oculta. El resultado final se muestra en la capa de salida.

Las capas intermedias se consideran capas ocultas porque, al igual que la visión humana, descomponen los objetos de manera encubierta entre las capas de entrada y salida. Por ejemplo, cuando los humanos ven cuatro líneas conectadas en forma de cuadrado, instantáneamente reconocemos esas cuatro líneas como un cuadrado. No notamos las líneas como cuatro líneas independientes sin relación entre sí. Nuestro cerebro solo es consciente de la capa de salida. Las redes neuronales funcionan de manera muy similar en que descomponen los datos en capas y examinan las capas ocultas para producir una salida final.

Aunque hay muchas técnicas para ensamblar los nodos de una red neuronal, el método más simple es la red de alimentación directa. En una red de alimentación directa, las señales fluyen solo en una dirección y no hay bucle en la red.

La forma más básica de una red neuronal de alimentación directa es el perceptrón.
![image.png](attachment:image.png)

Figure 5: Visual representation of a perceptron neural network

A perceptron consists of one or more inputs, a processor, and a single output.
Within a perceptron model, inputs:
1) Are fed into the processor (neuron)
2) Are processed
3) Generate output
As an example, let’s say we have a perceptron consisting of two inputs:
Input 1: 3x = 24
Input 2: 2x = 16
We then add a random weight to these two inputs and they are sent into the
neuron to be processed.

![image.png](attachment:image.png)

Figure 6: Weights are added to the perceptron

**Weights:**
- Input 1: 0.5
- Input 2: -1.0
Next, multiply each weight by its input:
- Input 1: 24 * 0.5 = 12
- Input 2: 16 * -1.0 = -16

Al pasar la suma de los pesos de las aristas a través de la función de activación se genera la salida del perceptrón.

Una característica clave del perceptrón es que solo registra dos posibles resultados, "1" y "0". El valor de "1" activa la función de activación y el valor de "0" no lo hace. Aunque el perceptrón es binario en naturaleza (1 o 0), hay varias formas en las que podemos configurar la función de activación.

En este ejemplo, hicimos que la función de activación sea ≥ 0. Esto significa que si la suma es un número positivo o cero, la salida es 1. Si la suma es un número negativo, la salida es 0.

![image.png](attachment:image.png)

Figure 7: Activation function where the output (y) is 0 when x is negative, and the output (y) is 1 when x is positive

**Thus:**
- Input 1: 24 * 0.5 = 12
- Input 2: 16 * -1.0 = -16
- Sum (Σ): 12 + -16 = - 4

Como un valor numérico menor que cero, nuestro resultado se registrará como "0" y, por lo tanto, no activará la función de activación del perceptrón.

Sin embargo, también podemos modificar el umbral de activación a una regla completamente diferente, como:

$x > 3, y = 1$
$x ≤ 3, y = 0$

![image.png](attachment:image.png)

Figure 8: Activation function where the output (y) is 0 when x is equal or less than 3, and the output (y) is 1 when x is greater than 3

Cuando trabajamos con un modelo más grande de capas de redes neuronales, se configura un valor de "1" para pasar la salida a la siguiente capa. Por el contrario, un valor de "0" se configura para ser ignorado y no se pasará a la siguiente capa para su procesamiento.

En el aprendizaje supervisado, los perceptrones se pueden utilizar para entrenar datos y desarrollar un modelo de predicción. Los pasos para entrenar datos son los siguientes:

1) Se introducen los datos de entrada en el procesador (neuronas/nodos).
2) El perceptrón estima el valor de esos datos de entrada.
3) El perceptrón calcula el error entre la estimación y el valor real.
4) El perceptrón ajusta sus pesos según el error.
5) Se repiten los cuatro pasos anteriores hasta estar satisfechos con la precisión del modelo. El modelo de entrenamiento luego se puede aplicar a los datos de prueba.

La debilidad de un perceptrón es que, como la salida es binaria (1 o 0), pequeños cambios en los pesos o sesgos en cualquier perceptrón único dentro de una red neuronal más grande pueden inducir resultados polarizantes. Esto puede llevar a cambios drásticos dentro de la red y a un cambio completo en cuanto a la salida final.

Como resultado, esto hace que sea muy difícil entrenar un modelo preciso que se pueda aplicar con éxito a datos de prueba y a futuras entradas de datos.

Una alternativa al perceptrón es el neurón sigmoide. Un neurón sigmoide es muy similar a un perceptrón, pero la presencia de una función sigmoide en lugar de un modelo binario ahora acepta cualquier valor entre 0 y 1. Esto permite más flexibilidad para absorber pequeños cambios en los pesos de las aristas sin desencadenar resultados inversos, ya que la salida ya no es binaria. En otras palabras, el resultado de salida no cambiará simplemente por un cambio menor en un peso de arista o valor de entrada.

$$y=\frac{1}{1+e^{-x}}$$

Aunque más flexible que un perceptrón, un neurón sigmoide no puede generar valores negativos. Por lo tanto, una tercera opción es la función tangente hiperbólica.

![image.png](attachment:image.png)

Figure 10: A hyperbolic tangent function graph

Hasta ahora hemos discutido redes neuronales básicas; para crear una red neuronal más avanzada, podemos vincular neuronas sigmoideas y otros clasificadores para crear una red con un mayor número de capas o combinar múltiples perceptrones para formar un perceptrón multicapa.

Para analizar patrones simples, una red neuronal básica o una herramienta de clasificación alternativa como la regresión logística y los vecinos más cercanos generalmente son suficientes para el propósito del análisis. Sin embargo, a medida que los patrones en los datos se vuelven más complicados, especialmente en forma de un alto número de entradas como el número total de píxeles en una imagen, un modelo básico o poco profundo ya no es confiable ni capaz de análisis. Esto se debe a que el modelo se vuelve exponencialmente complejo a medida que aumenta el número de entradas y, en el caso de las redes neuronales, esto significa más capas para manejar más nodos de entrada. Una red neuronal, con un número profundo de capas, sin embargo, es capaz de descomponer patrones complejos en patrones más simples, como se muestra en la Figura 11.

![image.png](attachment:image.png)

Figure 11: Facial recognition using deep learning. Source: kdnuggets.comFigure 11: Facial recognition using deep learning. Source: kdnuggets.com

Esta red profunda utiliza aristas para detectar diferentes características físicas y reconocer caras, como una línea diagonal. Como bloques de construcción, la red combina los resultados de los nodos para clasificar la entrada como, por ejemplo, la cara de un humano o la cara de un gato, y luego procesa eso más a fondo para reconocer la cara de un individuo específico.

Esto se conoce como aprendizaje profundo. Lo que hace que el aprendizaje profundo sea "profundo" es la apilación de al menos 5-10 capas de nodos, con el reconocimiento avanzado de objetos utilizando más de 150 capas.

El reconocimiento de objetos, utilizado por vehículos autónomos para reconocer objetos como peatones y otros vehículos, es una aplicación popular del aprendizaje profundo hoy en día. Otras aplicaciones comunes del aprendizaje profundo incluyen el análisis de series temporales para analizar tendencias de datos medidas durante períodos o intervalos de tiempo específicos, el reconocimiento de voz y tareas de procesamiento de texto, incluido el análisis de sentimientos, la segmentación de temas y el reconocimiento de entidades nombradas. Se enumeran más escenarios de uso y técnicas de aprendizaje profundo comúnmente asociadas en la Figura 12.

![image.png](attachment:image.png)

Figure 12: Common usage scenarios and paired deep learning techniques

Como se puede ver en la tabla, los perceptrones multicapa han sido en gran medida reemplazados por nuevas técnicas de aprendizaje profundo como las redes convolucionales, las redes recurrentes, las redes de creencias profundas y las redes neuronales tensoriales recursivas (RNTN). Estas iteraciones más avanzadas de una red neuronal pueden ser utilizadas eficazmente en una serie de aplicaciones prácticas que están de moda hoy en día. Aunque las redes convolucionales son, sin duda, las más populares y potentes de las técnicas de aprendizaje profundo, continuamente surgen nuevos métodos y variaciones.