<h1>TIPOS DE REDES NEURONALES</h1>

<table width="650" style="text-align:center">
  <tr>
      <th>MODELO</th>
      <th>CASOS DE USO</th>
  </tr>
  <tr>
      <th>Multi-Layer Perceptron, Feedforward Networks</th>
      <td>Problemas predictivos tradicionales 
      (clasificación y regresión).</td>
  </tr>
  <tr>
      <th>Redes Neuronales Recurrentes 
          (RNN, LSTM)</th>
      <td>Modelado de secuencias 
      (previsión de series de tiempo, predicción de oraciones).</td>
  </tr>
  <tr>
    <th>Redes Neuronales Convolucionales 
        (CNN)</th>
    <td>Reconocimiento de características 
        y objetos en datos visuales (imágenes, videos). Aplicado 
        también en contextos de previsión.</td>
  </tr>
</table>

<h2>REDES CONVOLUCIONALES</h2>

Las redes neuronales convolucionales son redes neuronales que presentan,
en al menos una capa, la operación matemática de convolución. Su objetivo 
principal es el de tratar con imágenes, comprender sus estructuras 
internas y abordar tareas específicas (como la clasificación de imágenes).

La particularidad que presentan las redes neuronales 
convolucionales es que permiten incorporar información 
sobre la distribución espacial de las variables al modelo. Es por esto
que son muy utilizadas en el análisis de datos en formato
imagen, siendo cada  uno de los pixeles de una imagen considerado
como una variable de entrada. 

En una capa convolucional, cada neurona solo está conectada a unas pocas 
neuronas de la capa anterior. Además, cada una utiliza el mismo
conjunto de pesos para conectarse a ellas.


En una imagen, para poder capturar las relaciones entre las variables 
de entrada (pixeles) se hace uso de los
denominados <strong>kernels</strong>, los cuales son 
simplemente una grilla de pesos que se superpone en una determinada region
de la imagen y se centra en un pixel.

$$
kernel=
        \begin{bmatrix}
        1          & 0    & 1     \\
        0          & 1    & 0     \\
        1          & 0    & 1
        \end{bmatrix}
$$

Una vez que el kernel se encuentra superpuesto sobre la imagen, cada peso es
multiplicado por el valor del pixel sobre el cual se encuentra. Siendo la
suma de cada una de las multiplicaciones de los pesos con sus respectivos
pixeles, la salida sobre el pixel en el cual está centrado el kernel. Para 
hallar la salida correspondiente a otro pixel, simplemente se desplaza el
kernel sobre la imagen y se centra sobre este nuevo pixel.

<center>
<img src="figures/Convolution_schematic.gif" style="width: 450px; height: 300px;">
</center>

Los Kernels pueden ser considerados como detectores de características.
Por ejemplo, un kernel de tipo:

$$
kernel=
        \begin{bmatrix}
        -1          & 1    & -1     \\
        -1          & 1    & -1     \\
        -1          & 1    & -1
        \end{bmatrix}
$$

permitiría detectar la existencia de una línea vertical al ser 
desplazado por la imagen.

Sin embargo, a la hora de diseñar una red neuronal convolucional,
no es necesario determinar que características deben ser 
detectadas por los kernels. Sino que al entrenarse la red, la 
misma aprenderá qué kernels necesita utilizar para realizar
su función.

La gran ventaja de las CNN es que son extraordinariamente buenas para 
encontrar características en imágenes que crecen después de cada nivel, 
lo que al final da como resultado características de alto nivel, más 
complejas. Las capas finales (pueden ser una o más) utilizan todas 
estas características generadas para clasificación o regresión.

Básicamente, las redes neuronales convolucionales permiten <b> realizar 
automáticamente el aprendizaje de características </b>.

 <center>
 <img src="figures/featureDetection.jpeg" >
 </center>

<h3>PADDING</h3>
Es posible observar que al utilizar este tipo de convolución del
kernel con las imágenes, los bordes y esquinas de las mismas son
"pasadas por alto" ya que los kernels no se centran en esos pixeles.
Es por esto que surge el denominado <strong>relleno (padding)</strong>, 
mediante el cual se busca agregar pixeles alrededor de la imagen. De 
esta manera, todos los pixeles de la imagen original se pueden convertir 
en centros a medida que el kernel se desplaza a través de ella. Por lo
general, estos pixeles adicionados tienen un valor de cero (zero-padding).

<center>
 <img src="figures/padding.gif" style="width: 550px;">
</center>

Es importante destacar que al utilizar padding, la salida tendrá un mayor 
tamaño. Pudiendo ser igual al de la imagen original.

<h3>STRIDE</h3>
El <strong>paso (stride)</strong> es un parámetro ajustable que permite definir 
el tamaño del paso que utiliza el kernel para desplazarse sobre la imagen.
Por defecto este valor siempre es 1 tanto en sentido vertical como horizontal,
pero puede ser un valor diferente para cada dirección. 

<table>
    <tr>
        <td><center><img src="figures/stride1.gif" style="width: 300px; height: 400px;"></center></td>
        <td><center><img src="figures/stride2.gif" style="width: 300px; height: 400px;"></center></td>
    </tr>
</table>

Como puede verse en la imagen anterior, cuando el paso es mayor a 1, la salida
es de menor tamaño.

<h3>FILTROS</h3>
Las imágenes a color, por lo general, se representan como una pila 
de 3 arreglos de 2 dimensiones. Donde cada uno de los cuales 
corresponde a una escala de colores diferente (rojo, verde y azul 
respectivamente). Para este tipo de imágenes se utiliza un kernel 
de 3 dimensiones, de manera que un valor de salida se obtendrá 
mediante la suma de las multiplicaciones de los valores de los 
arreglos de la imagen con los valores de la capa del kernel 
correspondiente.

<center>
 <img src="figures/rgbConvolution.gif" style="width: 450px;">
</center>

Cada uno de los valores asociados con un pixel determinado es
denominado como <strong>canal</strong>. El número de canales
que posee una imagen se conoce como la <strong>profundidad</strong>.
Por lo tanto, el kernel posee una profundidad igual al número
de canales de la entrada.

Por otro lado, cada kernel produce como salida un único número
para cada pixel. Sin embargo, la salida de una capa tiene una 
profundidad definida por el número de kernels aplicados en dicha capa.

<h3>POOLING</h3>
<strong>Pooling</strong> es una técnica muy apicada en las redes 
neuronales convolucionales que consiste en reducir el tamaño 
(dimensiones) de la imagen realizando un mapeo de un grupo de 
pixeles a un único valor. 

<ul>
    <li><strong>Max-pool</strong>: Representa cada grupo de pixeles 
        por su valor máximo.</li>
    <li><strong>Average-pool</strong>: Representa cada grupo de pixeles 
        por su valor promedio.</li>
</ul>
<center>
 <img src="figures/pooling.gif" style="width: 450px;">
</center>