<a href="https://colab.research.google.com/github/Malvodio/DeepHistory/blob/main/Data_Partitioning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
%matplotlib inline
import torch # operaciones sobre tensores
import random # para números aleatorios

## Seeds para reproducibilidad

Un paso muy importante a la hora de implementar nuestros modelos es el uso de `seeds` que permitirá reproducir los resultados obtenidos.

In [None]:
# Función para establecer el "seed"
def set_seed(seed):
  random.seed(seed)        # seed para generación de números aleatorios
  torch.manual_seed(seed)  # seed de torch

set_seed(42)

#### Partitioning on mini batches

<p align="center">
<img src="https://drive.google.com/file/d/1nT4K74Ouxj08r6Mdat5Km6WCpB6k3ZGx/preview" width="800px" />
<p/>


In [None]:
def data_iter(X, y, batch_size, shuffle=True):
  """
    Este método particiona la data en mini lotes de forma aleatoria acorde al 
    batch_size. En caso el número de datos, n, no sea divisible por el batch_size,
    considerar los datos faltantes como un lote. Por ejemplo: Si n = 11 y 
    batch_size=3 entonces tenemos tres lotes con 3 muestras y un lote con 2 muestras

    Args:
      - X: tensor de dimensión (n, m), donde n es el número de datos y m
           es el número de características
      - y: tensor de dimensión (n, 1), representando los valores reales
      - batch_size: tamaño de cada lote
      - shuffle: True para que los datos se aleatoricen en cada época

    Returns:
      - Los lotes actuales mediante 'yield' para usar el método como iterador
  """
  n = X.shape[0]
  
  if shuffle:    
    indices = torch.randperm(n)
  else:
    indices = range(n)

  # Iteramos sobre los datos considerando el tamaño de cada lote (batch_size)
  for i in range(0, n, batch_size):
    
    batch_indices = indices[i:i+batch_size if i+batch_size <=n else n]
    X_batch, y_batch = X[batch_indices,:],y[batch_indices,:]
    yield X_batch, y_batch

Probaremos la implementación mostrando el tamaño de cada lote:

In [None]:
# Tamaño de cada lote
batch_size = 32

# Número total de muestras
total_samples = 0

# Iteramos sobre todos los datos y mostramos el tamaño de cada lote
for i, (X_batch, y_batch) in enumerate(data_iter(X_train, y_train, batch_size), 1):
  total_samples += X_batch.shape[0]
  print(f'Lote {i} tiene tamaño {X_batch.shape[0]}')

if total_samples == X_train.shape[0]:
  print(':) El número total de muestras por lotes es correcto.')
else:
  print(':( El número total de muestras por lotes difiere del total de muestras.')

Lote 1 tiene tamaño 32
Lote 2 tiene tamaño 32
Lote 3 tiene tamaño 32
Lote 4 tiene tamaño 32
Lote 5 tiene tamaño 32
Lote 6 tiene tamaño 32
Lote 7 tiene tamaño 32
Lote 8 tiene tamaño 32
Lote 9 tiene tamaño 32
Lote 10 tiene tamaño 32
Lote 11 tiene tamaño 32
Lote 12 tiene tamaño 32
Lote 13 tiene tamaño 32
Lote 14 tiene tamaño 32
Lote 15 tiene tamaño 32
Lote 16 tiene tamaño 32
Lote 17 tiene tamaño 32
Lote 18 tiene tamaño 32
Lote 19 tiene tamaño 24
:) El número total de muestras por lotes es correcto.
