# Redes Neuronales Artificiales

## ¿Qué es una Red Neuronal Artificial (RNA)?

Tipo de algoritmo Learning inspirado en las redes neuronales biológicas

Componente principal del Deep Learning

Se introducen por primera vez en 1943 por el neuropsicólogo Warren McColloch y el matemático Walter Pitts [[1]](https://www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and.Pitts.pdf)

Alrededor de 1990 pierde interés a favor de técnicas de *Machine Learning* como el *Support Vector Machine*

En 2012 resurgen con más fuerza que nunca cuando Geoffery Hinton gana el reto ***ImageNet*** con una Red Neuronal Convolucional [[2]](http://www.cs.toronto.edu/~fritz/absps/imagenet.pdf)

## ¿Por qué resurgen las RNA?

En la actualidad existe una gran cantidad de datos disponibles

En las últimas décadas el poder computacional se ha multiplicado, permitiendo la ejecución de algoritmos costosos y complejos en periodos de tiempo razonables

Los algoritmos en los que se basan las Redes Neuronales Artificiales han mejorado

Muchas limitaciones que se habían intuido de manera teórica resultaron no cumplirse en la práctica

## Perceptrón

Propuesto por Frank Rosenblatt en 1957 [[4]](https://pubmed.ncbi.nlm.nih.gov/13602029/)

En 1969 fue refinado y analizado en detalle por Marvin Minsky y Seymour Papert [[3]](https://direct.mit.edu/books/book/3132/PerceptronsAn-Introduction-to-Computational)

Se basa en un tipo de neurona artificial conocida como **Threhold Logit Unit (TLU)**

Tanto las entradas como las salidas de la TLU se corresponden con valores numéricos continuos

La **TLU** computa una **suma parametrizada** de las entradas

Después, aplica una **función de activación** sobre la suma calculada anteriormente

Veamos cómo funciona

supongamos que tenemos dos caracteristicas de entrada $x_1,x_2$ y una de salida $y$, de la forma $(x_1,x_2,y)$

![fig48.png](attachment:fig48.png)

En la regresión logística
$$z=\theta_0+\theta_1 x_1+\theta_2 x_2$$

$$h_{\theta}(x)=sigmoid(z)$$

en la TLU
$$z=\theta_1 x_1+\theta_2 x_2+b$$

$$h_{w}(x)=activation(z)$$


### Funciones de activación

Existen múltiples funciones de activación. Algunas de las más comunes son:

- **Heaviside step function**
$$heaviside(z)=
\left\{
  \begin{array}{rr}
    0, & \hbox{si $z<0$;} \\
    1, & \hbox{si $z\geq 0$.}
  \end{array}
\right.
$$
- **Sign function**
$$sign(z)=
\left\{
  \begin{array}{rr}
    -1, & \hbox{si $z<0$}; \\
    0, & \hbox{si $z=0$;} \\
    1, & \hbox{si $z> 0$.}
  \end{array}
\right.
$$
- **Rectified linear unit (ReLU)**
$$ReLU(z)=\max(z,0)$$
- **Leaky ReLU**
$$LeakyReLU(x)=
\left\{
  \begin{array}{rr}
    0.01*z, & \hbox{si $z<0$;} \\
    z, & \hbox{si $z\geq 0$.}
  \end{array}
\right.
$$
- **sigmoid**
$$sigmoid(z)=\frac{1}{1+\exp(-z)}$$
- **Tangente hiperbólico (Tanh)**
$$\tanh(z)=\frac{1-\exp(-2z)}{1+\exp(-2z)}=2*sigmoid(2z)-1$$
- **Softmax**
$$Softmax(z_i)=\frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}$$ 


**La función de activación adecuada**

- La regla general básica es que si realmente no sabe qué función de activación usar, simplemente use RELU, ya que es una función de activación general y se usa en la mayoría de los casos en estos días.

- Si su salida es para clasificación binaria, la función sigmoidea es una opción muy natural para la capa de salida.

Veamos un ejemplo como funciona la función de activación *heaviside*

Si $z=w_1x_1+w_2x_2+b$, entonces
$$
h_w(x)=heaviside(z)=
\left\{
  \begin{array}{rr}
    0, & \hbox{si $w_1x_1+w_2x_2+b<0$;} \\
    1, & \hbox{si $w_1x_1+w_2x_2+b\geq 0$.}
  \end{array}
\right.
$$

El perceptrón se corresponde con una arquitectura compuesta por una **única capa de TLUs**

Permite la clasificación de instancias en diferentes clases binarias de manera simultánea

![fig49.png](attachment:fig49.png)

### Entrenamiento del perceptrón

La función de entrenamiento

$$w_{i,j}=w_{i,j}+\eta(y_j-\hat{y}_j)x_i$$

donde $\eta$ es la tasa de aprendizaje (*learning rate*)

Supongamos que tomamos la primera $TLU_1$, luego
$$h_w(x)_1=heaviside(w_{11}x_1+w_{21}x_2+d_1)=1$$

Nuestros pesos $w_{i,j}$ se van modificando de acuerdo con
\begin{eqnarray*}
w_{11}&=&w_{11}+\eta(y_1-\hat{y}_1)x_1\\
w_{21}&=&w_{21}+\eta(y_1-\hat{y}_1)x_2
\end{eqnarray*}



### Limitaciones del Perceptrón

El perceptrón no proporciona como resultado una probabilidad, sino que realiza las predicciones basándose en un ***threshold estático***

Construye **límites de decisión lineales**

El uso de Perceptrones tiene grandes limitaciones no permite resolver problemas sencillos como el problema de clasificación XOR

Más adelante, se descubre que muchas de las limitaciones del Perceptrón se solucionan añadiendo más capas de TLUs, apareciendo el **Multi-Layer Perceptron**

## Perceptrón Multicapa

El perceptrón Multicapa se compone de una input layer y una o más capas de TLUs

Cada capa de TLUs intermedia se denomina **hidden layer**

La capa final de TLUs es la **output layer**

Todas las capas excepto la *output layer* incluiyen la **bias neuron**

Todas las capas se encuentra totalmente conectada (**fully connected**) con las siguientes

Cuando una ANN (Artificial Neural Network) tiene dos o más *hidden layers*, se denomina red neurona profunda **DNN (Deep Neural Network)**

![fig50.png](attachment:fig50.png)

En la Hidden Layer 1, tendriamos
\begin{eqnarray*}
z_1^{[2]}&=&w_{11}^{[2]}x_1+w_{21}^{[2]}x_2+b_1^{[2]}\\
z_2^{[2]}&=&w_{12}^{[2]}x_1+w_{22}^{[2]}x_2+b_2^{[2]}\\
z_3^{[2]}&=&w_{13}^{[2]}x_1+w_{23}^{[2]}x_2+b_3^{[2]}
\end{eqnarray*}
Con la función de activación en cada TLU
\begin{eqnarray*}
a_1^{[2]}&=&heaviside(z_1^{[2]})\\
a_2^{[2]}&=&heaviside(z_2^{[2]})\\
a_3^{[2]}&=&heaviside(z_3^{[2]})
\end{eqnarray*}
En la Hidden Layer 2
\begin{eqnarray*}
z_1^{[3]}&=&w_{11}^{[3]}a_1^{[2]}+w_{21}^{[3]}a_2^{[2]}+w_{31}^{[3]}a_3^{[2]}+b_1^{[3]}\\
z_2^{[3]}&=&w_{12}^{[3]}a_1^{[2]}+w_{22}^{[3]}a_2^{[2]}+w_{31}^{[3]}a_3^{[2]}+b_2^{[3]}\\
z_3^{[3]}&=&w_{13}^{[3]}a_1^{[2]}+w_{23}^{[3]}a_2^{[2]}+w_{31}^{[3]}a_3^{[2]}+b_3^{[3]}
\end{eqnarray*}
Con la función de activación en cada TLU
\begin{eqnarray*}
a_1^{[3]}&=&heaviside(z_1^{[3]})\\
a_2^{[3]}&=&heaviside(z_2^{[3]})\\
a_3^{[3]}&=&heaviside(z_3^{[3]})
\end{eqnarray*}
En la Output Layer
\begin{eqnarray*}
z_1^{[4]}&=&w_{11}^{[4]}a_1^{[3]}+w_{21}^{[4]}a_2^{[3]}+w_{31}^{[4]}a_3^{[3]}+b_1^{[4]}\\
z_2^{[4]}&=&w_{12}^{[4]}a_1^{[3]}+w_{22}^{[4]}a_2^{[3]}+w_{31}^{[4]}a_3^{[3]}+b_2^{[4]}\\
z_3^{[4]}&=&w_{13}^{[4]}a_1^{[3]}+w_{23}^{[4]}a_2^{[3]}+w_{31}^{[4]}a_3^{[3]}+b_3^{[4]}
\end{eqnarray*}

Durante mucho tiempo una de las mayores limitaciones del Perceptrón Multicapa era que no existia una forma adecuada de entrenarlo

En 1986 D.E. Rumelhart presenta un algoritmo que revoluciona la manera de entrenar el Perceptrón Multicapa, el algoritmo **backpropagation**[[4]](https://www.nature.com/articles/323533a0)

El cambio clave del algoritmo backpropagation respecto a los utilizados anteriormente fue reemplazar la función de activación *Heaviside step function* por la **sigmoide** (conceptualmente es como calcular una regresión logística en cada TLU)

En la actualidad se usan otras funciones como la **tanh(z)** o la **ReLU(z)**

## Aprendizaje RNAs: Gradiente Descent

![fig51.png](attachment:fig51.png)

En la regresión logística
$$
h_{\theta}(x)=sigmoid(\theta_0+\theta_1x_1+\theta_2x_2)
$$
En las RNAs
$$
h_{w}(x)=sigmoid(w_1x_1+w_2x_2+b)
$$

La función de error utilizada para optimizar RNAs:
$$
L(a,y)=-y\log(a)-(1-y)\log(1-a)
$$
La función de optimización consisten en encontrar el $\min L(a,y)$, el cual se consigue, cuando (Backward propagation)
\begin{eqnarray*}
\frac{\partial L}{\partial w_1}&=&\frac{\partial L}{\partial a}\cdot\frac{\partial a}{\partial z}\cdot\frac{\partial z}{\partial w_1}&=&x_1\cdot(a-y)\\
\frac{\partial L}{\partial w_2}&=&\frac{\partial L}{\partial a}\cdot\frac{\partial a}{\partial z}\cdot\frac{\partial z}{\partial w_2}&=&x_2\cdot(a-y)\\
\frac{\partial L}{\partial b}&=&\frac{\partial L}{\partial a}\cdot\frac{\partial a}{\partial z}\cdot\frac{\partial z}{\partial b}&=&a-y\\
\end{eqnarray*}


### Algoritmo Gradient Descent RNA

Se dispone de todas las ecuaciones que se requieren para actualizar de manera iterativa el valor de los parámetros de entrada de forma que minimicen la función de error
\begin{eqnarray*}
w_1&=&w_1-\eta\cdot \frac{\partial L}{\partial w_1}\\
w_2&=&w_2-\eta\cdot \frac{\partial L}{\partial w_2}\\
b&=&b-\eta\cdot \frac{\partial L}{\partial b}\\
\end{eqnarray*}

![fig52.png](attachment:fig52.png)

Todo lo explicado anteriormente para una TLU es fácilmente aplicable a varias TLUs en diversas capas

![fig53.png](attachment:fig53.png)

Se necesitaran optimizar los parámetros $w_1^{[1]},w_2^{[1]},b_1^{[1]},w_1^{[2]}$ y $b_1^{[2]}$

**backward Propagation**
\begin{eqnarray*}
dw^{[2]}&=&a^{[1]}\cdot(a^{[2]}-y)\\
db^{[2]}&=&a^{[2]}-y\\
dw_1^{[1]}&=&(a^{[2]}-y)\cdot w^{[2]}\cdot(1-(a^{[1]})^2)\cdot x_1\\
dw_2^{[1]}&=&(a^{[2]}-y)\cdot w^{[2]}\cdot(1-(a^{[1]})^2)\cdot x_2\\
db^{[1]}&=&(a^{[2]}-y)\cdot w^{[2]}\cdot(1-(a^{[1]})^2)\\
\end{eqnarray*}

**Parameter update**
\begin{eqnarray*}
w^{[2]}&=&w^{[2]}-\eta\cdot dw^{[2]}\\
b^{[2]}&=&b^{[2]}-\eta\cdot db^{[2]}\\
w_1^{[1]}&=&w_1^{[1]}-\eta\cdot dw_1^{[1]}\\
w_2^{[1]}&=&w_2^{[1]}-\eta\cdot dw_2^{[1]}\\
b^{[1]}&=&b^{[1]}-\eta\cdot db^{[1]}\\
\end{eqnarray*}


### Perceptrón Multicapa: Clasificación

Las RNAs utilizadas para tareas de clasificación binaria, en general, van a utilizar la función de activación sigmoide

El resultado de la Red Neuronal es la probabilidad de que el ejemplo pertenezca a la clase positiva

Pueden realizar clasificaciones binarias simultáneas, en este caso, se utilizarán dos neuronas en el output layer con funciones de activación sigmoide

Pueden realizarse clasificaciones de más de dos clases (multiclase), en este caso, se utilizán tantas neuronas como clases se desean predecir y la función de activación softmax

En la clasificación multiclase la salida de las neuronas de la output layer debe sumar 1


### Perceptrón Multicapa: Regresión

Las Redes Neuronales profundas pueden utilizarse para predecir un valor continuo

Para predecir un único valor continuo la output layer debe estar formada por una única neurona

También pueden utilizarse RNAs para predecir varios valores continuos de manera simultánea

Para predecir varios valores continuos se requiere una neurona por cada uno de los valores en la output layer

Las RNAs utilizadas para regresión, en general, **no van a utilizar la función de activación en las neuronas de la output layer**, esto permite que la salida se encuentre dentro de un rango amplio de valores

En determinados casos de usos, si se requiere que los valores se encuentren dentro de un rango acotado, puede utilizarse algunas funciones de activación como por ejemplo ReLU

La función de error que suele utilizarse es la del **error cuadrático medio**
$$
ECM=\frac{1}{m}\sum_{i=1}^m (\hat{y}_i-y_i)^2
$$