### Redes neuronales Feed Forward

Las redes "feed forward" o $\text{FFN}$ de ahora en adelante, son tipo de redes neuronales en las que los datos entran por la capa de entrada y se transmiten en una única dirección hacia la capa de salida. El tipo de red neuronal mas común del tipo $\text{FFN}$ son los perceptrones multicapa, que consisten en una serie de capas de neuronas, donde cada neurona de una capa está conectada con todas las neuronas de la capa siguiente.

En este trabajo estaremos comparando el rendimiento de redes $\text{FFN}$ del tipo autoencoder, ya que queremos evaluarlas en conjunto con los metodos de normalización disponibles, ya que es asi como se utilizan en los transformers para aprender a transformar las secuencias de una representacion en el espacio de embeddings en otra entre las capas de la red. 

Tambien compararemos el rendimiento de estas redes en tareas de clasificación entrenandolos con una cabeza clasificadora en la capa de salida y una capa de normalización entre el autoencoder y la cabeza clasificadora, tal como se hacen en los $\text{ViT}$.

### Modelos a comparar

Compararemos los siguientes modelos:

1. Multi layer perceptron $\text{MLP}$ clásico, con dropout y bias en la capa encoder.
2. Gated linear units $\text{GLU}$ descrito en el paper "GLU Variants Improve Transformer" utilizado en $\text{Llama3}$.
3. Modelo basado en $\text{DropConnect}$ descrito en el paper "Regularization of Neural Networks using DropConnect".

#### Elección del tamaño de la capa oculta.

Para una comparación justa, elegiremos los tamaños de las capas ocultas para las redes de forma tal que todas tengan el mismo numero de parametros. La memoria vram es un recurso limitado y es el principal cuello de botella en el entrenamiento de redes neuronales, y por eso el numero de parametros debe ser el factor determinante en la elección del tamaño de las capas ocultas. 

Sean:

- $d$ la dimensión del modelo.
- $h$ el tamaño de la capa oculta de la red tipo $\text{MLP}$.
- $h'$ el tamaño de la capa oculta de la red tipo $\text{GLU}$.

El numero de parámetros de la red tipo $\text{MLP}$ sera de $dh + hd = 2dh $, sin bias y $dh + hd + h = (2d + 1)h$ con bias. Notemos que ignoramos el termino de bias en la ultima capa debido a que este es incompatible con los metodos normalización utilizados actualmente.

El numero de parámetros de la red tipo $\text{GLU}$ sera de $3dh'$ sin bias y $3dh' + h' = (3d + 1)h'$ con bias en la capa de entrada, de modo que para que ambas redes tengan el mismo numero de parametros, debemos elegir $h$ y $h'$ de forma tal que:

$$2dh = 3dh' \Rightarrow h = \frac{3}{2}h' \quad \text{sin bias}$$
$$(2d + 1)h = (3d + 1)h' \Rightarrow h = \frac{3d + 1}{2d + 1}h' = \frac{3}{2} (1 - \frac{1}{6d + 3}) h' \approx \frac{3}{2}h' \quad \text{con bias}$$

De modo que la red del tipo $\text{MLP}$ debe tener $\frac{3}{2}$ veces el tamaño de la capa oculta de la red del tipo $\text{GLU}$.

(Vease "Batch Normalization: Accelerating Deep Network Training by
Reducing Internal Covariate Shift", "Understanding the Disharmony between Dropout and Batch Normalization by
Variance Shift", la misma explicación aplica para los otros métodos de normalización).