In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import ipywidgets as widgets
%matplotlib widget

<h1>REDES NEURONALES </h1>

<strong>Una red neuronal toma valores de entrada y los procesa utilizando pesos 
    que son ajustados durante el proceso de entrenamiento. Esto le permite generar 
    una predicción a su salida. Los pesos son ajustados para encontrar patrones 
    que produzcan mejores predicciones. El diseñador de la red neuronal no necesita 
    especificar qué patrones deben buscarse, sino que la misma red los determina 
    durante el entrenamiento.</strong>

Las redes neuronales están compuestas por <strong>capas</strong> y <strong>nodos</strong>. 
Las entradas de la red son las variables de entrada $x_1,...,x_n$ y el resultado de la 
última capa es el resultado de la función hipótesis $h_\theta(x)$. 
<ul>
    <li>La primera capa de una red neuronal se denomina <strong>capa de entrada</strong>, la cual 
        puede ser seguida por una o más <strong>capas ocultas</strong>. Y en último lugar se encuentra la
        <strong>capa de salida</strong>.</li>
    <li>Cada uno de los nodos (o neuronas) recibe una o más señales de entrada. Estas señales de entrada pueden
        provenir de los datos de entrada o de alguna neurona posicionada en la capa anterior de la red neuronal.
        Con estos datos, en cada nodo se realiza algún tipo de cálculo y se envía el resultado a neuronas 
        ubicadas en la siguiente capa de la red.</li>
    <li>Cada unión de una capa con la siguiente posee un <strong>peso</strong> asociado.</li>
    <strong>Los modelos de redes neuronales son entrenados principalmente mediante el ajuste de los pesos.</strong>
</ul>

<center>
<img src="./figures/neural-network.png"  height="600" width="600"/>
</center>

Cuando neurona, también llamada <strong>perceptron</strong> recibe sus 
señales de entrada procedentes de la capa anterior, suma estos valores 
multiplicados por su correspondiente peso. El valor obtenido luego es 
utilizado en una <strong>función de activación</strong>, la cual calcula 
el valor de salida de la neurona que será pasado a la siguiente capa.

<center>
<img src="./figures/node_neuralNetwork.png"  height="600" width="600"/>
</center>

Es importante tener en cuenta que la primera variable recibida por cada 
neurona es siempre igual a 1 y es denominada <strong>bias unit</strong>.

Existen muchas funciones de activación, una de ellas es la <strong>función 
sigmoide</strong>:
          $$
              g(z)=\frac{1}{1+e^{-z}}
          $$



<h2>Red neuronal con una capa oculta</h2>

Las redes neuronales que poseen al menos una capa oculta suelen denominarse
<strong>Multi-Layer Perceptron</strong>.

$$
    \begin{bmatrix}
            x_0\\
            x_1\\
            x_2\\
            x_3
     \end{bmatrix}
     \to
     \begin{bmatrix}
            a_0^2\\
            a_1^2\\
            a_2^2\\
            a_3^2
     \end{bmatrix}
     \to
     h_\theta(x)
$$

<ul>
    <li>$a_i^j$ es el resultado de la función de activación del nodo $i$ de la capa $j$. Se llaman también <strong>nodos de activación</strong>.</li>
    <li>$\Theta^j$ es la matriz de pesos que mapean de la capa $j$ a la capa $j+1$.</li>
    <li>$\Theta_{i,k}^j$ es el peso que mapea desde la neurona $i$ de la capa $j$, 
    hasta el nodo $k$ de la capa $j+1$.</li>
</ul>

<center>
<img src="./figures/nn_hiddenLayers.jpg"  height="600" width="600"/>
</center>

Teniendo en cuenta la imagen anterior, el vector de variables
de entrada con el nodo bias adicionado es de dimensión $1x4$.
Es posible calcular el valor de entrada ($z$) a cada función 
de activación ($g(z)$) de los nodos de la capa oculta 
utilizando una matriz $\Theta$ de tamaño $4x3$. El número de 
filas de esta matriz se corresponde con el número de 
variables de entrada ($x_1,x_2,x_3$) sumado al bias unit ($x_0$), 
y el número de columnas hace referencia al número de nodos de la 
capa oculta (sin incluir el bias unit).

$$
    a_1^2 = g\left(x_0\Theta_{01}^1+x_1\Theta_{11}^1+x_2\Theta_{21}^1+x_3\Theta_{31}^1\right) 
$$
$$
    a_2^2 = g\left(x_0\Theta_{02}^1+x_1\Theta_{12}^1+x_2\Theta_{22}^1+x_3\Theta_{32}^1\right) 
$$
$$
    a_3^2 = g\left(x_0\Theta_{03}^1+x_1\Theta_{13}^1+x_2\Theta_{23}^1+x_3\Theta_{33}^1\right) 
$$
$$
    a^2 = g\left(X.\Theta^1\right)
$$

En cada capa, el nodo de activación correspondiente al valor de $\Theta_0^j$, 
es el denominado bias node y posee un valor de 1.
$$
    a_0^2 = 1
$$

El resultado de la hipótesis es el resultado de la aplicación de la función de activación a la suma de los 
valores de los nodos de activación de la segunda capa, los cuales son multiplicados por una segunda matriz 
$\Theta$ de dimensión $4x1$, que contiene los pesos correspondientes para los nodos de dicha capa de la red.

$$
    a_1^3 = g\left(a_0^2\Theta_{01}^2+a_1^2\Theta_{11}^2+a_2^2\Theta_{21}^2+a_3^2\Theta_{31}^2\right) = g\left(a^2.\Theta^2\right) =h_\Theta(x)
$$

<strong>Si una red posee $s_j$ nodos en la capa $j$ y $s_{j+1}$ nodos en la capa $j+1$, la matriz $\Theta^j$
será de dimensión $(s_j+1) . s_{j+1}$, siendo este 1 adicionado debido al bias node.</strong>
 


<h2>CLASIFICACIÓN MULTICLASE</h2>
Para realizar una clasificación en múltiples clases, la función hipótesis debe dar como resultado un <strong>vector de valores</strong>. 

$$
            \begin{bmatrix}
                    x_0\\
                    x_1\\
                    ...\\
                    x_2
             \end{bmatrix}
             \to
             \begin{bmatrix}
                    a_0^2\\
                    a_1^2\\
                    ...
             \end{bmatrix}
             \to
             \begin{bmatrix}
                    a_0^3\\
                    a_1^3\\
                    ...
             \end{bmatrix}
             \to
             ...
             \to
             \begin{bmatrix}
                    h_\theta(x)_1\\
                    h_\theta(x)_2\\
                    ...
             \end{bmatrix}      
$$


Por ejemplo, si se desea clasificar los datos en 4 categorías, se puede definir un set de clases resultantes, de las cuales cada 
$y^i$ representa una clase diferente:

$$
    y^i 
    =
    \begin{bmatrix}
       1\\
       0\\
       0\\
       0
    \end{bmatrix}
    ,
    \begin{bmatrix}
       0\\
       1\\
       0\\
       0
    \end{bmatrix}
    , 
    \begin{bmatrix}
       0\\
       0\\
       1\\
       0
    \end{bmatrix}
    ,
    \begin{bmatrix}
       0\\
       0\\
       0\\
       1
    \end{bmatrix}
$$

<h2>FUNCIÓN DE COSTOS</h2>

La función de costos para redes neuronales es:

$$
    J(\Theta)= \frac{-1}{m}\sum_{i=1}^m\sum_{k=1}^K\left[y_k^i\log\left((h_\theta(x^i))_k\right)+(1-y_k^i)\log\left(1-(h_\theta(x^i))_k\right)\right] 
$$

<ul>
    <li> $L$: número total de capas en la red.</li>
    <li> $s_l$: número de nodos en la capa l (sin contar el bias node).</li>
    <li> $K$: número de nodos/clases de salida.</li>
    <li> $h_\theta(x)_k$: hipótesis resultante de la salida k.</li>
</ul>


<h2>ALGORITMO DE PROPAGACIÓN HACIA ATRÁS</h2>

El algoritmo de propagación hacia atrás (backpropagation) es un algoritmo de minimización de la función costo $J(\Theta)$.
El mismo busca obtener el set óptimo de parámetros $\Theta$ que den por resultado $\min_{\Theta} J(\Theta)$, para lo cual calcula las derivadas parciales $\frac{\partial}{\partial\Theta_{i,j}^l}J(\Theta)$.

Dado un set de datos de entrenamiento: $\{(x^1,y^1),...,(x^m,y^m)\}$:

<ol>
    <li>Setear $\Delta_{i,j}^l:=0$ para todo valor de $l,i,j$.</li>
    <li>Para cada ejemplo de entrenamiento $t=1,...m$:
        <ol>
            <li>Setear $a^1:= x^t$</li>
            <li>Realizar la propagación hacia adelante (forward) para calcular los valores de $a^l$:
                $$
                    a^1=X
                $$
                $$
                    Z^2=\Theta^1 a^1
                $$
                $$
                    a^2 = g(Z^2)
                $$
                $$
                    Z^3=\Theta^2 a^2\quad \text{con $a_0^2$ adicionado}
                $$
                $$
                    a^3=g(Z^3)
                $$
                $$
                    Z^4=\Theta^3 a^3\quad \text{con $a_0^3$ adicionado}
                $$ 
                $$
                    a^4 = h_\Theta(x)= g(Z^4)
                $$
            </li>
            <li>Usando el valor $y^i$, calcular $\delta^L=a^L-y^t$.
                <ul> 
                    <li>$a^L$ es el vector de salidas de los nodos de activación de la última capa de la red.
                Por lo que los <strong>valores de error ($\delta^L$)</strong> de la última capa son
                la diferencia entre los resultados de la última capa y las salidas correctas en $y$.</li>
                </ul>
            </li>
            <li>Calcular los valores de $\delta^{L-1},\delta^{L-2},...,\delta^2$.
                <ul> 
                    <li>Los valores $\delta^l$ son calculados para cada capa mediante la multiplicación de los
                    valores $\delta$ de la siguiente capa($\delta^{l+1}$) con la matriz $\Theta^l$ de la capa actual. Seguido 
                    por la multiplicación elemento a elemento de este resultado con la derivada de la función
                    de activación $g$ evaluada en $Z^l$:
                    $$
                        g(Z^l)=a^l.*(1-a^l)
                    $$
                    $$
                        \delta^l=\left((\Theta^l)^T\delta^{l+1}\right).*a^l.*(1-a^l)
                    $$
                    </li>
                </ul>
            </li>
            <li>Una vez calculados los valores $\delta$, se actualizan los valores de $\Delta$:
                $$
                    \Delta_{i,j}^l:=\Delta_{i,j}^l+a_j^l\delta_i^{l+1}
                $$
                Finalmente estos valores se acumulan en la matriz $D$, para luego obtener la derivada parcial, 
                ya que $\frac{\partial}{\partial \Theta_{i,j}^l}J(\Theta)=D_{i,j}^l$: 
                $$
                    D_{i,j}^l := \frac{1}{m}\left(\Delta_{i,j}^l+ \lambda\Theta_{i,j}^l\right)\quad j\neq 0
                $$
                $$
                    D_{i,j}^l := \frac{1}{m}\Delta_{i,j}^l\quad j=0
                $$
            </li>
        </ol>
    </li>
</ol>

<h2>FUNCIONES DE ACTIVACIÓN</h2>
          
<table width="750">
  <tr>
      <th style="text-align:center">MÉTODO</th>
      <th style="text-align:center">USO</th>
      <th style="text-align:center">DESVENTAJA</th>
  </tr>
  <tr>
      <th style="text-align:center">Sigmoid</th>
      <td style="text-align:center">Cuando se requieren valores de salida en el intervalo $(0,1)$.</td>
      <td style="text-align:center">Sufre de desvanecimiento de gradiente.</td>
  </tr>
  <tr>
      <th style="text-align:center">Hyperbolic Tangent</th>
      <td style="text-align:center">Cuando se requieren valores de salida en el intervalo $(-1,1)$.</td>
      <td style="text-align:center">Sufre de desvanecimiento de gradiente.</td>
  </tr>
  <tr>
    <th style="text-align:center">ReLU</th>
      <td style="text-align:center">Para capturar efectos grandes, no sufre de desvanecimiento de gradiente.</td>
      <td style="text-align:center">.</td>
  </tr>
  <tr>
    <th style="text-align:center">Leaky ReLu</th>
      <td style="text-align:center">Actúa como un ReLU pero permitiendo valores de salida negativos .</td>
      <td style="text-align:center">.</td>
  </tr>
</table>

El problema de desvanecimiento del gradiente se debe al hecho de que a 
medida que la red tiene más capas, el gradiente se vuelve cada vez más pequeño 
en las primeras capas. Por esta razón, otras funciones se han vuelto más comunes.


La función de activación correcta depende de la aplicación y no existen reglas
estrictas y rápidas para su selección. Estas son algunas de las funciones de 
activación más utilizadas:
<center>
<img src="./figures/activationFunctions.png"  height="600" width="600"/>
</center>