# **Lecture 4d - Normalización de Funciones e Inicialización de Pesos**

- Feature/input normalization
- Batch normalization
- BatchNorm en PyTorch
- ¿Por qué funciona BatchNorm?
- Inicialización de pesos: ¿por qué es importante?
- Inicialización de Xavier y He
- Esquemas de inicialización de pesos en PyTorch


# **Input normalization para mejorar gradiente descendente**

- **Feature/input normalization**
- Batch normalization
- BatchNorm en PyTorch
- ¿Por qué funciona BatchNorm?
- Inicialización de pesos: ¿por qué es importante?
- Inicialización de Xavier y He
- Esquemas de inicialización de pesos en PyTorch

# **Resumen: Por qué se normalizan las entradas para gradiente descendente?**

![](Figs/NOR1.PNG)

- Normalizar las entradas a la red solo afecta a la primera capa oculta

- ¿Qué pasa con las otras capas ocultas?

# **Input normalization para mejorar gradiente descendente**

- Feature/input normalization
- **Batch normalization**
- BatchNorm en PyTorch
- ¿Por qué funciona BatchNorm?
- Inicialización de pesos: ¿por qué es importante?
- Inicialización de Xavier y He
- Esquemas de inicialización de pesos en PyTorch

# **Bacth normalization ("BatchNorm")**

Ioffe, S., & Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. In International Conference on Machine Learning (pp. 448-456).

http://proceedings.mlr.press/v37/ioffe15.html

# **Batch normalization ("BatchNorm")**

- Normaliza las entradas de las capas ocultas
- Ayuda con problemas de gradientes que explotan / desvanecen
- Puede aumentar la estabilidad del entrenamiento y la convergencia.
- Puede entenderse como capas adicionales (normalización con parámetros adicionales)


Suponga, que se tiene una entrada de red $z_{1}^{(2)}$ asociada con una activación en la segunda capa oculta

![](Figs/NOR2.PNG)

Ahora, considere todos los ejemplos en un minibatch tal que la entrada de red de un ejemplo de entrenamiento dado en la capa 2 se escriba como:
##$z_{1}^{(2)[i]}$ donde $i \in \left \{1, ..., n \right \}$

![](Figs/NOR3.PNG)

En las siguientes diapositivas, se omitirá el índice de capa, ya que puede distraer.





# **Paso 1 de BatchNorm: Normalizar las Entradas Netas**

![](Figs/NOR4.PNG)


# **Paso 1 de BatchNorm: Normalizar las Entradas Netas**

![](Figs/NOR4.PNG)

En la práctica:

#**${z}'^{[i]}_{j} = \frac{z_{j}^{[i]} - \mu_{j}}{\sqrt{\sigma _{j}^{2} + \epsilon }}$**

Para estabilidad numérica, donde $\epsilon$ es un número pequeño ~$1e^{-5}$




# **Paso 2 de BatchNorm: Escala de Preactivación**

![](Figs/NOR5.PNG)

# **Paso 2 de BatchNorm: Escala de Preactivación**


![](Figs/NOR6.PNG)

**Técnicamente, una capa de BatchNorm podría aprender a realizar una "estandarización" con media cero y varianza unitaria.**


# **Resumen de los pasos 1 y 2 de BatchNorm**

![](Figs/NOR7.PNG)


# **BatchNorm: Aspectos Adicionales a Considerar**

![](Figs/NOR8.PNG)

Además, tenga en cuenta que los parámetros de batchnorm son vectores con el mismo número de elementos que el vector de sesgo


# **Cómo usar BatchNorm en la práctica y durante la inferencia**

- Feature/input normalization
- Batch normalization
- **BatchNorm en PyTorch**
- ¿Por qué funciona BatchNorm?
- Inicialización de pesos: ¿por qué es importante?
- Inicialización de Xavier y He
- Esquemas de inicialización de pesos en PyTorch

![](Figs/NOR9.PNG)



![](Figs/NOR10.PNG)


![](Figs/NOR11.PNG)



# **BatchNorm durante la predicción ("Inferencia")**

- Utilice un promedio ponderado exponencialmente (promedio móvil) de media y varianza

running_mean = momentum * running_mean + (1 - momentum) * sample_mean

(donde **momentum** es tipicalmente ~0.1; y lo mismo para la varianza)

- Alternativamente, también puede usar la media y la varianza del conjunto de entrenamiento global




# **BatchNorm: algunas teorías y consejos prácticos**

- Feature/input normalization
- Batch normalization
- BatchNorm en PyTorch
- **¿Por qué funciona BatchNorm?**
- Inicialización de pesos: ¿por qué es importante?
- Inicialización de Xavier y He
- Esquemas de inicialización de pesos en PyTorch

# **BatchNorm and internal covariate shift**

Ioffe, S., & Szegedy, C. (2015, June). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. In International Conference on Machine Learning (pp. 448-456).

http://proceedings.mlr.press/v37/ioffe15.html

Internal Covariate Shift es una jerga para decir que la distribución de entrada de la capa cambia ("cambio de características" en las capas ocultas)

Pero no hay garantía ni evidencia sólida de que BatchNorm ayude con el cambio de covariables

Tal vez BatchNorm solo proporcione parámetros adicionales que ayudarán a las capas a aprender un poco más de forma independiente

![](Figs/NOR12.PNG)




# **BatchNorm permite una convergencia más rápida al permitir tasas de aprendizaje más altas**

![](Figs/NOR13.PNG)

Santurkar, S., Tsipras, D., Ilyas, A., & Madry, A. (2018). How does batch normalization help optimization?. In Advances in Neural Information Processing Systems (pp. 2488-2498).

https://arxiv.org/abs/1805.11604


# **El buen rendimiento de BatchNorm parece no estar relacionado con la prevención de cambios de covariables**

![](Figs/NOR14.PNG)

Santurkar, S., Tsipras, D., Ilyas, A., & Madry, A. (2018). How does batch normalization help optimization?. In Advances in Neural Information Processing Systems (pp. 2488-2498).

# **¿Cómo funciona BatchNorm?**

![](https://drive.google.com/uc?id=1RCVVk4YcTmkaTqtVramgHqUgXG6cF5Uv)



# **¿Por qué ayuda BatchNorm?**

## **2015**
## Reduce el cambio de covariables.
Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167.

## **2018**
## Las redes con BatchNorm se entrenan bien con o sin ICS. La hipótesis es que BatchNorm suaviza el panorama de la optimización.
Santurkar, S., Tsipras, D., Ilyas, A., & Madry, A. (2018). How does batch normalization help optimization? In Advances in Neural Information Processing Systems (pp. 2483-2493).

## **2018**
## "La normalización por lotes reduce implícitamente la dependencia en una sola dirección" (en este caso, "dependencia en una sola dirección" significa que una entrada influye solo en una unidad única o una combinación lineal de unidades individuales)
Morcos, A. S., Barrett, D. G., Rabinowitz, N. C., & Botvinick, M. (2018). On the importance of single directions for generalization. arXiv preprint arXiv:1803.06959.

# **¿Cómo funciona BatchNorm?**
# **¿Por qué ayuda BatchNorm?**

## **2018**
## BatchNorm actúa como un regularizador implícito y mejora la precisión de la generalización
Luo, P., Wang, X., Shao, W., & Peng, Z. (2018). Towards understanding regularization in batch normalization. arXiv preprint arXiv:1809.00846.

## **2019**
## BatchNorm provoca gradientes explosivos, lo que requiere un ajuste cuidadoso al entrenar redes neuronales profundas sin omitir conexiones (más sobre omitir conexiones pronto)
Yang, G., Pennington, J., Rao, V., Sohl-Dickstein, J., & Schoenholz, S. S. (2019). A mean field theory of batch normalization. arXiv preprint arXiv:1902.08129.

# **Variantes de BatchNorm**

## **Preactivación**
Versión "original" como se discutió en diapositivas anteriores

![](Figs/NOR15.PNG)



## **Post-activación**
Puede tener más sentido, pero menos común

![](Figs/NOR16.PNG)





# **Algunos puntos de referencias**

https://github.com/ducha-aiki/caffenet-benchmark/blob/master/batchnorm.md#bn----before-or-after-relu

![](Figs/NOR17.PNG)



# **Consideración Práctica**

## BatchNorm se vuelve más estable con tamaños de minibatch más grandes

![](Figs/NOR18.PNG)

Wu, Y., & He, K. (2018). Group normalization. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 3-19).

# **Otras Lecturas**

**Conditional batch norm**
De Vries, H., Strub, F., Mary, J., Larochelle, H., Pietquin, O., & Courville, A. (2017). Modulating early visual processing by language. arXiv preprint arXiv:1707.00683.

https://github.com/pytorch/pytorch/issues/8985

https://arxiv.org/abs/1707.00683

Shallue, C. J., Lee, J., Antognini, J., Sohl-Dickstein, J., Frostig, R., & Dahl, G. E. (2018). **Measuring the effects of data parallelism on neural network training.** arXiv preprint arXiv:1811.03600. -> "We find no evidence that larger batch sizes degrade out-of-sample performance"

https://arxiv.org/abs/1811.03600

Cai, Z., Ravichandran, A., Maji, S., Fowlkes, C., Tu, Z., & Soatto, S. (2021). **Exponential Moving Average Normalization for Self-supervised and Semi-supervised Learning**. arXiv preprint arXiv:2101.08482. -> "We present a plug-in replacement for batch normalization (BN) called exponential moving average normalization (EMAN), which improves the performance of existing student-teacher based self- and semisupervised learning techniques. ..."

https://arxiv.org/abs/2101.08482

Brock, A., De, S., Smith, S. L., & Simonyan, K. (2021). **High-Performance Large-Scale Image Recognition
Without Normalization.** arXiv preprint arXiv:2102.06171. “Although recent work has succeeded in training deep ResNets without normalization layers, these models do not match the test accuracies of the best batch-normalized networks, and are often unstable for large learning rates or strong data augmentations. In this work, we develop an adaptive gradient clipping technique which overcomes these instabilities, and design a significantly improved class of Normalizer-Free ResNets.”

https://arxiv.org/abs/2102.06171

# **¿Por qué tamaños de minibatch como potencias de 2?**

- Relacionado con SIMD - Datos múltiples de instrucción única - paradigma utilizado por CPUs/GPUs
- Proviene de mapear los cálculos (por ejemplo, productos punto) a los núcleos de procesamiento físico en la GPU, donde el número de núcleos de procesamiento suele ser una potencia de 2
- Por ejemplo, si tenemos 32 columnas en una matriz, podemos asignar 2 productos punto a cada núcleo de procesamiento si tenemos 16 núcleos de procesamiento (las GPU generalmente tienen muchos, muchos más núcleos de procesamiento)

![](Figs/NOR19.PNG)

fuente: https://upload.wikimedia.org/wikipedia/commons/thumb/c/ce/SIMD2.svg/440pxSIMD2.svg.png

# **Además de la normalización de entrada, la inicialización del peso también es importante**

# **BatchNorm: algunas teorías y consejos prácticos**

- Feature/input normalization
- Batch normalization
- BatchNorm en PyTorch
- ¿Por qué funciona BatchNorm?
- **Inicialización de pesos: ¿por qué es importante?**
- Inicialización de Xavier y He
- Esquemas de inicialización de pesos en PyTorchh

# **Inicialización de pesos**

- Anteriormente se discutió que queremos inicializar los pesos en números pequeños y aleatorios para romper la simetría
- Además, se quiere que los pesos sean relativamente pequeños, ¿por qué?

![](Figs/NOR20.PNG)

# **Nota: Problemas de gradientes que desvanecen/explotan**

![](Figs/NOR21.PNG)

# **Nota: Problemas de gradientes que desvanecen/explotan**

![](Figs/NOR22.PNG)

# **Nota: Problemas de gradientes que desvanecen/explotan**

Supongamos que tenemos el gradiente más grande:

## $\frac{\mathrm{d} }{\mathrm{d} z}\sigma (0.0) = \sigma (0.0)(1-\sigma(0.0)) = 0.25$

Incluso entonces, por ejemplo, para 10 capas, ¡degradamos sustancialmente los otros gradientes!

## $0.25^{10} \approx 10^{-6}$



# **Inicialización de Peso**

- Tradicionalmente, podemos inicializar pesos muestreando una distribución uniforme aleatoria en el rango [0, 1], o mejor, [-0.5, 0.5]
- O, podríamos tomar muestras de una distribución gaussiana con media 0 y pequeña varianza (por ejemplo, 0,1 o 0,01)


# **BatchNorm: algunas teorías y consejos prácticos**

- Normalización de entrada
- Normalización por lotes
- BatchNorm en PyTorch
- ¿Por qué funciona BatchNorm?
- Inicialización de pesos: ¿por qué nos importa?
- **Inicialización de Xavier y He**
- Esquemas de inicialización de peso en PyTorch

# **Inicialización de Peso - Inicialización de Xavier**

Xavier Glorot and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010.

- TanH es un poco más robusto con respecto a los gradientes explosivos (en comparación con el sigmoide logístico)
- Todavía tiene el problema de la saturación (gradientes cercanos a cero si las entradas son valores muy grandes, positivos o negativos)
- La inicialización de Xavier es una pequeña mejora para la inicialización de pesos para tanH

# **Inicialización de Pesos - Inicialización de Xavier**

Xavier Glorot and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010.

**Paso 1:** Inicializar pesos basándonos en distribuciones gaussianas o uniformes

**Paso 2:** Escale los pesos proporcionalmente al número de entradas a la capa

(Para la primera capa oculta, esa es la cantidad de características en el conjunto de datos; para la segunda capa oculta, esa es la cantidad de unidades en la primera capa oculta, etc.)

# **Inicialización de Pesos - Inicialización de Xavier**

Xavier Glorot and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010.

## **Método:**

Escale los pesos proporcionalmente al número de entradas a la capa

En particular, escale de la siguiente manera:

$W^{(l)} := W^{(l)}\cdot \sqrt{\frac{1}{m^{(l-1)}}}$

donde $m$ es el número de unidades de entrada a la siguente capa

Por ejemplo: $W_{i,j}^{(l)} \sim N(\mu = 0, \sigma ^{2} = 0.01)$

(o distribución uniforme en un intervalo fijo, como en el artículo original)





# **Inicialización de Pesos - Inicialización de Xavier**

Xavier Glorot and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010.

**Nota: Si no inicializó las unidades de sesgo a todos los ceros, inclúyalas también en la escala.**

$W^{(l)} := W^{(l)}\cdot \sqrt{\frac{1}{m^{(l-1)}}}$

donde $m$ es el número de unidades de entrada a la siguente capa

Por ejemplo: $W_{i,j}^{(l)} \sim N(\mu = 0, \sigma ^{2} = 0.01)$

(o distribución uniforme en un intervalo fijo, como en el artículo original)

# **Inicialización de Pesos - Inicialización de Xavier**

Glorot, Xavier, and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010.

**Justificación detrás de esta escala:
La varianza de la muestra (entre los puntos de datos, no la varianza de la media) aumenta linealmente a medida que aumenta el tamaño de la muestra (la varianza de la suma de las variables independientes es la suma de las varianzas); raíz cuadrada de la desviación estándar**

$W^{(l)} := W^{(l)}\cdot \sqrt{\frac{1}{m^{(l-1)}}}$

donde $m$ es el número de unidades de entrada a la siguente capa

Por ejemplo: $W_{i,j}^{(l)} \sim N(\mu = 0, \sigma ^{2} = 0.01)$

(o distribución uniforme en un intervalo fijo, como en el artículo original)

# **Inicialización de Pesos - Inicialización de Xavier**

Glorot, Xavier, and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010.

**Justificación detrás de esta escala:
La varianza de la muestra (entre los puntos de datos, no la varianza de la media) aumenta linealmente a medida que aumenta el tamaño de la muestra (la varianza de la suma de las variables independientes es la suma de las varianzas); raíz cuadrada de la desviación estándar**

![](Figs/NOR23.PNG)

# **Inicialización de Pesos - Inicialización de Xavier**

![](Figs/NOR24.PNG)

# **Inicialización de Pesos - Inicialización de Xavier**

![](Figs/NOR24.PNG)

**Sin embargo, en la práctica, algunas personas también usan "entrada de ventilador" + "salida de ventilador" en el denominador, y funciona bien.**

# **Inicialización de Pesos - Inicialización de Xavier**

Glorot, Xavier, and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010.

![](Figs/NOR25.PNG)

# **Inicialización de Pesos - Inicialización de Xavier**

Glorot, Xavier, and Yoshua Bengio. "Understanding the difficulty of training deep feedforward neural networks." Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010.

![](Figs/NOR26.PNG)


# **Inicialización de Pesos - Inicialización de He**

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. "Delving deep into rectifiers: Surpassing human-level performance on imagenet classification." In Proceedings of the IEEE international conference on computer vision, pp. 1026-1034. 2015.

- Suponiendo activaciones con media 0, que es razonable, inicialización de Xavier asume una derivada de 1 para la función de activación (que es razonable para tanH)
- Para ReLU, esto es diferente, ya que las activaciones ya no están centradas en cero
- La inicialización de He tiene esto en cuenta
- El resultado es que agregamos un factor de escala de $2$$

#$W^{(l)} := W^{(l)}\cdot \sqrt{\frac{2}{m^{(l-1)}}}$


# **¿Cómo maneja PyTorch la inicialización del pesos y cómo la anulamos?**

# **BatchNorm: algunas teorías y consejos prácticos**

- Normalización de entrada
- Normalización por lotes
- BatchNorm en PyTorch
- ¿Por qué funciona BatchNorm?
- Inicialización de pesos: ¿por qué nos importa?
- Inicialización de Xavier y He
- **Esquemas de inicialización de peso en PyTorch**

# **Pesos predeterminados de PyTorch**

PyTorch (ahora) usa el esquema Kaiming He por defecto

![](Figs/NOR27.PNG)

https://github.com/pytorch/pytorch/blob/master/torch/nn/modules/linear.py#L86

![](Figs/NOR28.PNG)

![](Figs/NOR29.PNG)

![](Figs/NOR30.PNG)

# **Tenga en cuenta que si se utiliza BatchNorm, la elección del peso de la característica inicial es menos importante de todos modos**



![](Figs/NOR31.PNG)


In [None]:
!wget -nc https://raw.githubusercontent.com/brpy/colab-pdf/master/colab_pdf.py
from colab_pdf import colab_pdf
colab_pdf('/content/drive/MyDrive/Classroom/Aprendizaje profundo 2021 II/Lecture06/Info/Lecture06_Profe.ipynb')

File ‘colab_pdf.py’ already there; not retrieving.





This application is used to convert notebook files (*.ipynb) to various other
formats.


Options
-------

Arguments that take values are actually convenience aliases to full
Configurables, whose aliases are listed on the help line. For more information
on full configurables, see '--help-all'.

--execute
    Execute the notebook prior to export.
--allow-errors
    Continue notebook execution even if one of the cells throws an error and include the error message in the cell output (the default behaviour is to abort conversion). This flag is only relevant if '--execute' was specified, too.
--no-input
    Exclude input cells and output prompts from converted document. 
    This mode is ideal for generating code-free reports.
--stdout
    Write notebook output to stdout instead of files.
--stdin
    read a single notebook file from stdin. Write the resulting notebook with default basename 'notebook.*'
--inplace
    Run nbconvert in pla

'File Download Unsuccessful. Saved in Google Drive'