# Split Data

En este código se descargó el dataset de MNIST y luego se dividió en 5 folds, buscando que se mantengan las mismas proporciones en cada número.

### Librerías

In [6]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
from sklearn.model_selection import StratifiedKFold

### Cargar dataset

In [5]:
# Cargar el dataset MNIST
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

# Normalizar los datos
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0

# Agregar una dimensión para el canal (escala de grises)
x_train = np.expand_dims(x_train, -1)
x_test = np.expand_dims(x_test, -1)

## Dividir dataset

In [8]:
num_clients = 5 # Un dataset por cada miembro del equipo

def split_dataset(x, y, num_clients):
    skf = StratifiedKFold(n_splits=num_clients, shuffle=True)
    datasets = []
    for _, client_idx in skf.split(x, y):
        client_x = x[client_idx]
        client_y = y[client_idx]
        datasets.append((client_x, client_y))
    return datasets

datasets = split_dataset(x_train, y_train, num_clients)

In [10]:
datasets[0][0].shape # Forma de un elemento del dataset

(12000, 28, 28, 1)

### Guardar cada dataset en un archivo

In [12]:
for i, (x, y) in enumerate(datasets):
    np.savez_compressed(f'train_fold{i+1}.npz', x=x, y=y)

### Guardar datos de prueba en un archivo

Guardar x_test y y_test en un archivo de numpy.

In [13]:
np.savez_compressed('test_data.npz', x=x_test, y=y_test)