# 1 - Redes neuronales

**Sumario**

1. Introducción
4. Estructura de la red
5. Funciones de activación
6. Back propagation
7. Inicialización de capas

## 1.1 - Introducción

Una red de neuronas artificial es una red representada de manera espacial mediante un grafo dirigido donde cada uno de los nodos representa neuronas, mientras que los arcos reflejan las sinapsis o conexiones entre estas. Esta estructura intenta imitar la distribución de las neuronas en el cerebro humano con el fin de construir un modelo capaz de simular la capacidad de procesamiento de nuestros cerebros.

Las neuronas humanas están formadas por tres elementos:

1. El **soma** o cuerpo celular, que es su parte principal
2. Las **dendritas**, que son las múltiples prolongaciones que salen de distintas partes del soma, en cuyo extremo se encuentran los **botones sinápticos**, conectados a las dendritas de otras neuronas y cuya función consiste en recibir impulsos eléctricos de estas y transmitirlos al soma.
3. El **axón**, que es una prlongación del soma la cual se extiende en dirección opuesta a las dendritas y cuya función consiste en conducir un impulso nerviso desde el soma hasta otra neurona, músculo o glándula del cuerpo humano

<img src="images_1/neurona.jpg" width="600" data-align="center">

Aparentemente, las neuronas biológicas parecen comportarse de una manera bastante simple a nivel individual, pero, en realidad, se encuentran organizadas en una amplia red de miles de millones de neuronas conectadas entre sí que interactúan de manera conjunta y/o sincronizada. Este tipo de estructura permite, en teoría, que un elevado número de elementos sencillos (neuronas) sean capaces de realizar cálculos de gran complejidad de forma muy rápida.

### 1.1.1 - Primer modelo de red neuronal

En base a esta estructura biológica, en 1943 los investigadores Pitts y McCulloch definieron el que se considera **el primer modelo de red neuronal en 1943**, que pasó a denominarse red de neuronas artificial (ANN, Artificial Neural Network, en inglés). 

Dicho modelo consistía en una red con dos capas de neuronas conectadas entre sí:
1. La primera capa estaba formada por un **conjunto de nodos o neuronas formales**, que representaban la **entrada de la red**.
2. La segunda capa estaba formada por un **único nodo o neurona formal**, que representa la **salida de la red**.

Una neurona formal consituye una puerta lógica con dos posibles estados internos (encendido o apagado) representados por una variable. Esta red funcionaba como un discriminador del estado de la puerta lógica, de forma que:
1. Las neuronas de la primera capa reciben las entradas. Las entradas $x$ podían ser positivas o negativas y las neuronas podían estar activas o no ($w$).
2. Se aplica una operación matemática sobre el valor de las entradas
3. Se aplica una función de activación con un umbral. De tal tal forma que si el valor supera el umbra la salida es 1 y sino, la salida es 0.

<img src="images_1/red_neuronal_formal.png" width="500" data-align="center">

En definitiva, si consideramos una red $U$ formada por dos neuronas de entrada y una neurona de salida, tendríamos que calcular la salidad de la red del siguiente modo:

$$
Y(x) = f(U)
$$

Donde $f$ se corresponde con una función de activación definida de esta forma:

$$
f(U) = \begin{cases}
    1,& \text{si} \ U > 0\\
    0,              & \text{si} \ U \leq 0
\end{cases}
$$

Y donde $U$ se calcula de la siguiente manera:

$$
U = w_{1} x_{1} + w_{2} x_{2} - \theta
$$

donde $w_{1}$ y $w_{2}$ son los coeficientes de cada una de las neuronas.

### 1.1.2 - Teoría Hebbiana

El modelo anterior no consideraba la actualización de estos coeficientes, es decir, no consideraba el aspecto de *aprendizaje*. En este sentido, surge la teoría hebbiana en 1949, donde se introduce un proceso genérico de modificación de coeficientes (también conocidos como pesos) de manera muy sencilla.

Según la regla de Hebb, el peso entre dos neuronas **se incrementa si las dos neuronas se activan simultáneamente y se reduce si se activan por separado**. Los nodos que tienden a ser positivos o negativos al mismo tiempo tienen fuertes pesos positivos, mientras que aquellos que tienden a ser contrarios tienen fuertes pesos negativos. 

Dada una red de neuronas con vectores de entrada $X=\{x_{1}, x_{2}, \dots, x_{n}\}$, e $Y=\{y_{1}, y_{2}, \dots, y_{m}\}$, así como una matriz de pesos $W$, y un ritmo de aprendizaje $\alpha$, se define una función destinada a modificar el valor de la matriz de pesos (según el aprendizaje hebbiano) de la siguiente forma:

$$
w_{ij}' = w_{ij} + \alpha x_{i} y_{j}
$$

Mediante esta representación, se pudo definir un algoritmo que permitiera calcular el valor de los pesos a partir del **error cuadrático medio** de las salidas obtenidas con respecto a las salidas esperadas:

$$
\frac{1}{N} || Y - WX||
$$

### 1.1.3 - Perceptrón simple

A partir de ambos trabajos, se desarolló una versión más compleja de red de neuronas artificiales denominada **perceptrón** (Minsky, 1969) que utilizaba un nuevo tipo de neuronas denominadas unidades de umbral lineal (**LTU, Linear Threshold Unit**). En este caso **las entradas y las salidas eran de tipo numérico**, no de tipo binario, confiriéndose una mayor versatilidad sobre las operaciones que podían ser representadas. De esta forma, el resultado generado por una neurona se calculaba mediante la suma ponderada de las entradas ($X$) combinadas con los pesos $W$:

$$
U = X \ W^{T} = (x_{1}, x_{2}, \dots, x_{n}) \binom{w_{1}}{w_{n}} = \sum_{i=1}^{n} x_{i} w_{i} = x_{1}w_{1} + x_{2}w_{2} + \dots +  x_{n}w_{n}
$$

Al igual que con la red neuronal formal, se aplicaba un función de umbral $f$ sobre el valor generado por la red con la finalidad de generar un resultado de salida normalizado:

$$
f(U) = \begin{cases}
    1,& \text{si} \ U > 0\\
    0,              & \text{si} \ U \leq 0
\end{cases}
$$

<img src="images_1/perceptron_simple.png" width="500" data-align="center">

La fase de entrenamiento del perceptron se llevaba a cabo mediante **una variación de la regla de Hebb que incorporaba el error cometido por la red**. Así para cada instancia de entrenamiento formada por un vector de entrada $x$ y un valor de salida $y$ en cada una de las neuronas de la red que genera un resultado erróneo, se realizaba una modificación de los pesos de las neuronas de entrada que contribuían a la salida correcta.

De esta manera, el proceso definido para la actualización de los pesos sería el siguiente:

$$
w_{ij}^{t+1} = w_{ij}^{t} + \alpha (\hat{y}_{j} - y_{j}) x_{i}
$$

Donde $w_{ij}^{t}$ es el peso de la conexión entre la neurona de entrada $i$ y la neurona de salida $j$ en el instante de entrenamiento $t$. $x_{i}$ es el valor de entrada de la instancia de entrenamiento, $y_{j}$ es el valor de salida esperado, $\hat{y}_{j}$ el valor de salidad de la neurona en el estado actual, y $\alpha$ la tasa de aprendizaje.

El perceptrón se diseñó para ser una máquina, en lugar de un programa. Es por ello que se implementó en un hardware especifico denominado como el perceptrón Mark 1. Esta máquina fue diseñada para el reconocimiento de imágenes: tenía una matriz de 400 fotocélulas, conectadas aleatoriamente a las "neuronas". Los pesos se codificaron en potenciómetros y las actualizaciones de peso durante el aprendizaje se realizaron mediante motores eléctricos.

<img src="images_1/Mark_I_perceptron.jpg" width="250" data-align="center">

Aunque inicialmente el perceptrón parecía prometedor, rápidamente se demostró que no podía ser entrenado para reconocer muchas clases de patrones. Sólo era capaz de aprender patrones
sencillos, pues el límite de decisión de cada una de las neuronas de salida era lineal.

<img src="images_1/lineal_no_lineal.png" width="500" data-align="center">

Este y otros muchos problemas fueron identificados en el artículo Perceptrons (Minsky, 1969) donde se destacaba la incapacidad de esta técnica para resolver problemas triviales como el problema de clasificación XOR. 

### 1.1.4 - Perceptrón multicapa

El artículo de Minsky artículo ocasionó un declive en la investigación sobre redes neuronales hasta la aparición de una nueva técnica que **combinaba múltiples perceptrones** para construir lo que se denominó **perceptrón multicapa**, capaz de resolver muchos de los problemas enunciados por Minsky en su artículo.

En el siguiente ejemplo, podemos observar un perceprón multicapa formado por cuatro capas:
* Una capa de neuronas de entrada
* Dos capas de neuronas ocultas de tipo LTU ($\mathbb{R}$)
* Una capa de neuronas de tipo LTU

Cada capa de neuronas LTU tiene definida una **función de activación** y un **bias**. Normalmente, el bias se representa utilizando un tipo especial de neurona denominada neurona de bias que suele devolver siempre un mismo valor, por ejemplo $1$.

<img src="images_1/perceptron_multicapa.png" width="500" data-align="center">

Esta nueva estructura permitía resolver problemas más complejos (**no estaba limitada a problemas linealmente separables**) mediante la combinación de las capas, pero, según se iba aumentando el número de neuronas, **el proceso de aprendizaje se volvía más complejo a nivel computacional**, hasta que en 1986 se presentó una nueva técnica de actualización de pesos llamada *backpropagation*.

## 1.2 - Estructura de la red

Desde el punto de vista estructural, una red de neuronas artificial es un **grafo dirigido y ponderado** donde:
* Las neuronas son los nodos.
* Las conexiones entre ellas constituyen los arcos del grafo.

La conectividad entre neuronas viene definida según capas secuenciales conectadas entre si:
* En primer lugar, una capa de entrada.
* Después, una serie de capas ocultas.
* Finalmente, una capa de salida

Dependiendo de cómo se produzcan las conexiones entre estas capas, podemos diferenciar dos tipos de redes neuronales:

* Las **redes de propagación hacia delante** (*feedforward networks*), donde no existen bucles en el grafo que define la red de neuronas.
* Las **redes recurrentes** (*recurrent networks*), donde existen bucles producidos por las conexiones de retroalimentación que poseen algunas neuronas.

<img src="images_1/fnn_rnn.png" width="700" data-align="center">

Con independencia del tipo de red, cada una de las capas, exceptuando las de entrada, está formada por tres elementos básicos:

* **Operación matemática**.
* **Bias**.
* **Función de activación**.