# Epochs vs Batch size vs Iterations 
### por Jorge Avila | javilac@udec.cl | Departamento de Ingeniería Matemática, Universidad de Concepción.

***Abstract*** época, tamaño de batch e iteraciones son tres términos muy importantes a la hora de entrenar un modelo. Estos nacen de la necesidad de separar el conjunto de entrenamiento en subconjuntos más pequeños, de modo que se tenga la capacidad computacional para que la red se pueda entrenar. 
Para entrenar un modelo necesitamos datos, pero también una función de pérdida a minimizar, y aún más importante, un **optimizador**. Para entender estas tres palabras primero debemos entender cómo funciona este último. 

### Gradient Descent.
* Es un algoritmo de optimización iterativo usado en Machine Learning para minimizar una función de pérdida. 
    1. _Gradient_ se refiere a la tasa de inclinación declinación de una pendiente. 
    2. _Descent_ se refiere a la instancia de descender.
* Este algoritmo tiene un parámetro llamado **learning rate** (tasa de aprendizaje). Cuando la tasa de aprendizaje es pequeña, el algoritmo da pasos pequeños para acercarse al mínimo de la función de pérdida. Cuando la tasa es grande, pasa lo contrario.

In [1]:
from IPython.display import display, Image, SVG, Math, YouTubeVideo, HTML
Image(url='https://cdn-images-1.medium.com/max/1600/1*pwPIG-GWHyaPVMVGG5OhAQ.gif')

Necesitamos las terminologías de **época, batch size** e **iterations** solamente cuando la cantidad de datos esmuy grande, lo que ocurre el $99.9%$ en Machine Learning, y no es posible pasarle todos los datos de una sola vez a la red (al computador en realidad). Para solucionar esto es que debemos dividir los datos en subconjuntos de datos más pequeños (batches) y entregárselos al computador uno por uno y actualizar los pesos. 


### Veamos ahora a qué se refiere cada término.

Una **época** es cuando el conjunto completo de datos de entrenamiento se pasa a la red una sola vez.

Como el conjunto completo es usualemente muy grande, este se suele separar en conjuntos más pequeños llamados **batches**. 

Podrá recordar que la cantidad de épocas que se suele elegir en los entrenamientos es mayor que 1. Pero si ya se pasaron los datos por la red, ¿Por qué habría que volver a pasarlos más veces? esto es necesario debido a que estamos usando una muestra aleatoria y limitada del fenómeno que estamos estudiando (me refiero a los datos). Además, para optimizar la pérdida estamos usando un proceso iterativo (Gradient Descent), por lo tanto, actualizar los pesos de una red sólo una vez no es suficiente. 

Recordará a qué nos referimos con **underfitting** y **overfitting**. Pues, a _menor número de épocas_, se corre el riesgo de caer en **underfitting** (es decir, un deficiente ajuste de los pesos del modelo para describir el fenómeno estudiado), mientras que a _mayor cantidad de épocas_, corremos el riesgo de que nuestra red memorize los datos de entrenamiento, perdiendo poder de generalización sobre datos nuevos, cayendo en un **overfitting**.


** En resumen **
Una época es cuando el conjunto completo de entrenamiento se pasa a la red una vez.  Este conjunto completo se separa en subconjuntos más pequeños llamados batches. Las **iteraciones** son el número de batches necesarios para completar una época. 

***Ejemplo*** 
Supongamos que tenemos un conjunto para entrenar de $10$ observaciones: 



In [26]:
import pandas as pd
import numpy as np
ExampleData = pd.DataFrame({'ID': ["a","b","c","d","e","f","g","h","i","j"],
            'Gender': np.random.choice(['M','F'],10),
            'Salary ($K)': np.random.choice(['1','1.5','2','2.5'],10).tolist(),
            'Good Buyer': np.random.choice(['Yes','No'],10).tolist()})

ExampleData

Unnamed: 0,ID,Gender,Salary ($K),Good Buyer
0,a,F,1.0,Yes
1,b,F,1.5,No
2,c,F,2.0,Yes
3,d,F,2.5,Yes
4,e,M,2.5,Yes
5,f,F,1.5,No
6,g,M,1.0,Yes
7,h,M,2.0,Yes
8,i,M,1.5,Yes
9,j,M,2.5,Yes


Una **época** consiste en pasar las $10$ observaciones disponibles a la red. 

Si suponemos que separamos los datos en dos **batches**, tendríamos: 


In [27]:
Batch1 = ExampleData[:5]
Batch1

Unnamed: 0,ID,Gender,Salary ($K),Good Buyer
0,a,F,1.0,Yes
1,b,F,1.5,No
2,c,F,2.0,Yes
3,d,F,2.5,Yes
4,e,M,2.5,Yes


In [28]:
Batch2 = ExampleData[5:]
Batch2

Unnamed: 0,ID,Gender,Salary ($K),Good Buyer
5,f,F,1.5,No
6,g,M,1.0,Yes
7,h,M,2.0,Yes
8,i,M,1.5,Yes
9,j,M,2.5,Yes


Y por lo tanto, para completar una época requerimos $2$ **iteraciones**.

# Referencias
1. https://towardsdatascience.com/epoch-vs-iterations-vs-batch-size-4dfb9c7ce9c9
2.   
3. 
