<div style="text-align: center;">
<a target="_blank" href="https://colab.research.google.com/github/miquelmn/aa_2526/blob/main/07_Batch_normalization/Batch_normalization.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>
</div>

# Batch Normalization

## Objectius

En aquesta pràctica, ampliarem el treball realitzat amb AlexNet i *transfer learning*, incorporant tècniques de regularització i optimització per millorar el rendiment del model. Els objectius són:

- **Implementar Batch Normalization**: afegir capes de normalització per estabilitzar i accelerar l'entrenament.
- **Comparar resultats**: analitzar l'impacte de cada tècnica en el rendiment final del model.
- **Optimització d'hiperparàmetres**: provar diferents configuracions per trobar la millor combinació.

Aquest enfocament permetrà comprendre com les tècniques vistes a teoria milloren la generalització i eviten l'overfitting en problemes reals de classificació d'imatges.

Una segona part serà emprar els nous models vists a classe de teoria.

## Introducció

### Batch Normalization

La Batch Normalization és una tècnica que normalitza les activacions de cada capa durant l'entrenament, utilitzant la mitjana i la desviació estàndard del mini-batch actual. Els seus principals avantatges són:

- **Accelera l'entrenament**: permet utilitzar learning rates més alts.
- **Redueix la sensibilitat a la inicialització**: els pesos inicials tenen menys impacte.
- **Actua com a regularitzador**: redueix la necessitat de Dropout en alguns casos.
- **Millora la convergència**: facilita que el model arribi a millors mínims.


La formulació d'aquesta operació, tal com heu vist a classe de teoria, és la següent:

$$ \hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$$

$$ y_i = \gamma \hat{x}_i + \beta, $$

on $\gamma$ i $\beta$ són paràmetres entrenables.

Per implementar-ho feim operacions diferents a entrenament i validació.

In [None]:
import torch
import torch.nn as nn

class MyBatchNorm1d(nn.Module):
    def __init__(self, num_features, eps=1e-5, momentum=0.1):
        super().__init__()
        self.num_features = num_features

        # Evitar divisió per 0
        self.eps = eps

        # Momentum
        self.momentum = momentum

        # Paràmetres aprenables: gamma (weight) i beta (bias)
        self.gamma = nn.Parameter(torch.ones(num_features))
        self.beta = nn.Parameter(torch.zeros(num_features))

        # Estadístiques que s’acumulen durant l’entrenament però que no són paràmetres
        self.register_buffer("running_mean", torch.zeros(num_features))
        self.register_buffer("running_var", torch.ones(num_features))

    def forward(self, x):
        if self.training:
            # Calcular mitjana i variància del batch
            batch_mean = x.mean(dim=0)
            batch_var = x.var(dim=0, unbiased=False)

            # Actualitzar estadístiques globals
            self.running_mean =
            self.running_var =

            # Normalitzar el batch actual
            x_hat =
        else:
            # En mode d’avaluació, s’usen les estadístiques acumulades
            x_hat =

        # Aplicar gamma i beta
        y = self.gamma * x_hat + self.beta
        return y
