# Notebook de preprocesamiento para el experimento

El objetivo de este experimento es lanzar un entrenamiento federado para lograr un modelo entrenado con tres datasets aislados. En usuario tendra uno de ellos. El objetivo es comunicarse con los otros 3 compañeros en como establecer un dataset con una estructura común, y lanzar el entrenamiento. Para ello, se espera que los usuarios de este notebook realicen lo siguiente:

- Definir el dataset en la plataforma **(no aquí)**, con la siguiente información:
    - Nombre de la columna
    - Descripción de la columna (Opcional)
    - Tipo de dato (Si numérico o categórico)
    - Si numérico:
        - Valores máximos y mínimos
    - Si categóricos:
        - Todas las posibles categorías
    - (No marcar grupo, no es necesario)
    - Poner la label siempre la última.
- Construir el dataset con la misma estructura o proponer otra versión del dataset. Para construir el dataset:
    - Ordenar las columnas del dataset en el mismo orden del dataset definido en la plataforma.
    - Eliminar las columnas que puedan sobrar, o crear aquellas que falten.
        - Si va a crear columnas, es recomendable rellenarlas con un único valor, para no introducir ruido en el dataset.

## Petición: Mejor no tocar el codigo hasta que no se indique. Por temas de consistencia.

In [13]:
import pandas as pd

In [None]:
name_dataset = "wine_dataset_3"

#### Nota: Para reiniciar el preprocesamiento, simplemente cargue el dataset de nuevo lanzando el siguiente bloque de código.

In [32]:
dataset = pd.read_csv(f"data/datasets_to_register/{name_dataset}.csv", index_col=0)
y = dataset.pop("label")
# y = y.apply(str)
X = dataset.copy()

### Preprocessing (Nota: El preprocesamiento se define en la plataforma, y esta lo realiza automaticamente. Las funciones aqui se encuentran meramente de documentación.)

En el siguiente bloque, se proveen ejemplos de como llamar a las funciones para preprocesar el dataset.Cada función de preprocesamiento esta pensada para un tipo de dato, ya sea numérico o categórico. Para poder usarla, aparte de la columna a procesar, se requiere información adicional en cada función. La lista es la siguiente:
- *Min max scaler* (numérico): Toda la información se reescala en base al valor mínimo y máximo de la columna, pasando el valor máximo a ser 1, y el mínimo 0.
    - Ejemplo: [0, 1, 2] -> [0, 0.5, 1]
    - Input: Column (X), minimum global value, maximum global value.
- *Label Encoder* (categórico): A cada valor categórico se le asigna un valor númerico equivalente, partiendo de 0 hasta considerar todas las categorías. Importante: Este encoder genera una lista que se puede interpretar como un order jerarquico.
    - Ejemplo: [rojo, azul, verde] -> [0, 1, 2]
    - Input: Columna (X), lista con todas las categorias.
- *One hot encoder* (categórico): Por cada valor categórico se genera un vector de N dimensiones, siendo N el número de categorias que se encuentran en la columna. El vector tiene todos los valores a 0 exceptuando el de la categoría original, que se encuentra a 1.
    - Ejemplo: [rojo, azul, verde] -> [[1, 0, 0], [0, 1, 0], [0, 0, 1]]
    - Input: Columna, lista con todas las categorias.

### Funciones adicionales de preprocesamiento

Ordenar columnas: Para ordenar columnas del dataframe o dataset, simplemente seleccione las columnas en el orden necesario. Para ello, seleccione las columnas de las siguiente forma: X[[primera_columna, segunda_columna, ...]].

Eliminar columnas: Para ello, simplemente no la incluya en la lista para ordenar.

Crear columnas: Para crear una columna, simplemente seleccione el dataset y la columna, e introduzca el valor de la siguiente forma:
X["columna"] = valor

Cambiar valores de categorias en la columna:
X["columna"] = X["columna"].map{"categoria_original_1": "categoria_a_cambiar_1", "categoria_original_2": "categoria_a_cambiar_2", ...}


In [None]:
# X = X[["color_intensity", "hue"]]

In [None]:
#display(X)

## En esta sección es donde se espera que escribais algo de código. Habrá una indicación al final de la misma.

En esta parte del código, se espera que el alumno preprocese los datos para el entrenamiento. Debido a que la información que cada silo (participante dentro del grupo) contiene es diferente, es necesario que intercambieis cierta información antes de procesar los datos, para no generar inconsistencias.

Para la parte de la plataforma, solo es necesario modificar el dataset a nivel de crear o eliminar columnas. El preprocesamiento es realizado por la plataforma.

**Nota: Las clases (label) ya se han proporcionado en la parte superior del notebook.**

Podeis usar esta función para comprobar como se ven los datos de una columna. dataframe["nombre de columna"].head() muestra los primeros 5 valores de la columna "nombre de columna" para el dataframe. (Reemplazar "nombre de columna" por la columna que se desea consultar)

In [None]:
display(X["nombre de columna"].head())

## Final de la sección de código a modificar.

El ultimo procesamiento necesario es incluir el dataframe en la carpeta para registrar. Para ello combinamos el campo y con las columnas creadas en X. El dataset tendrá el nombre de final_dataset. Este dataset es el que debe seleccionarse en la plataforma.

In [18]:
X["label"] = y[:]
X.to_csv(f"data/datasets_to_register/" + "final_dataset.csv")