# Normalización de las capas

Con una filosofía similar a la normalización de los datos tenemos la normalización de las capas.

Recordemos cómo se acyualiza un patámetro al realizar el entrenamiento. Si usamos `SGD`, la actualización de los parámetros se realiza de la siguente manera

$$\omega = \omega - \alpha\frac{\partial{loss}}{\partial{\omega}}$$

Esto puede producir dos casos
 * Que al ir restanto valores a $\omega$, este se vaya reduciendo tanto, hasta que computacionalmente sea incapaz de representarse y pase a ser 0. Es decir, los ordenadores son capaces de representar números pequeños hasta un cierto valor, por debajo de dicho valor, el número pasa a ser 0. Esto es equivalente a destruir una conexión entre neuronas
 * En el caso de que el gradiente sea negativo, lo que estamos haciendo es hacer $\omega$ cada vez más grande. En este caso puede pasar lo contrario, que el valor de $\omega$ aumente tanto que no sea representable por el computador

Ambos casos suponen un problema

Para solucinar esto, al igual que antes, se calcula la media y la desviación estandar de la salida de una de las capas y se normaliza

## Normalización de las capas en Pytorch

¿Cómo se hace esto? Aunque hay varias funciones vamos a ver las `BatchNormXd`, donde `X` puede ser 1, 2 o 3

```python
class WineNeuralNetwork(nn.Module):
    def __init__(self, num_inputs, num_outputs, hidden_layers=[100, 50, 20]):
        super().__init__()
        self.network = torch.nn.Sequential(
            torch.nn.Linear(num_inputs, hidden_layers[0]),
            torch.nn.ReLU(),
            torch.nn.Linear(hidden_layers[0], hidden_layers[1]),
            torch.nn.BatchNorm1d(hidden_layers[1]),                 // Normalization
            torch.nn.ReLU(),
            torch.nn.Linear(hidden_layers[1], hidden_layers[2]),
            torch.nn.ReLU(),
            torch.nn.Linear(hidden_layers[2], num_outputs),
        )
        self.activation = torch.nn.Softmax(dim=1)

    def forward(self, x):
        logits = self.network(x)
        probs = self.activation(logits)
        return logits, probs
```

Como se puede ver se ha metido una capa de normalización después de la segunda capa lineal