# Importaciones

In [16]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# Scaler:Normalización y estandarización variables continuas: Notas medias.

La `normalización` transforma los datos para que estén en un rango específico, generalmente entre 0 y 1. Esto es útil para algoritmos que no suponen ninguna distribución particular de los datos y son sensibles a la escala, como redes neuronales o métodos de optimización.

La `estandarización` transforma los datos para que tengan una media de 0 y una desviación estándar de 1. Esto es especialmente útil para algoritmos que asumen que los datos están distribuidos normalmente o que son sensibles a la escala de los datos, como los métodos basados en distancia (e.g., K-Nearest Neighbors, K-Means) o los modelos de regresión lineal.

Campos a normalizar y estandarizar: VARIABLES CONTINUAS (FLOAT)

`1ESO_MEDIA_1EV, 1ESO_MEDIA_2EV, 1ESO_MEDIA_EVF, 2ESO_MEDIA_1EV, 2ESO_MEDIA_2EV, 2ESO_MEDIA_EVF, 1FPB_MEDIA_1EV, 1FPB_MEDIA_2EV, 1FPB_MEDIA_EVF`: Notas medias en distintas evaluaciones.

Métodos:

    -Min Max Scaler (Normalization)
    
    -Standard Scaler (Standardization)

In [17]:
# Cargar el dataset
data = pd.read_csv(r'DATA_UNIDO_FINAL_INPUTADOH_ENCODED_NOOUTLIERS.csv')

In [18]:
#Estandarizar
columns_to_stan_norm = [
    '1ESO_MEDIA_1EV', '1ESO_MEDIA_2EV', '1ESO_MEDIA_EVF', 
    '2ESO_MEDIA_1EV', '2ESO_MEDIA_2EV', '2ESO_MEDIA_EVF', 
    '1FPB_MEDIA_1EV', '1FPB_MEDIA_2EV', '1FPB_MEDIA_EVF'
]

# Comprobar si las columnas existen en el DataFrame
missing_columns = [col for col in columns_to_stan_norm if col not in data.columns]

if missing_columns:
    print(f"Las siguientes columnas no se encuentran en el DataFrame: {missing_columns}")
else:
    # Crear una instancia del StandardScaler
    scaler = StandardScaler()

    # Aplicar la estandarización solo a las columnas especificadas
    data[columns_to_stan_norm] = scaler.fit_transform(data[columns_to_stan_norm])

    # Verificar el resultado
    print(data[columns_to_stan_norm])

    1ESO_MEDIA_1EV  1ESO_MEDIA_2EV  1ESO_MEDIA_EVF  2ESO_MEDIA_1EV  \
0        -0.223161       -0.502519        0.054233       -0.414513   
1        -0.223161        1.055290        0.054233        0.870478   
2        -0.223161       -0.502519        0.054233       -0.414513   
3        -0.223161       -0.502519        0.054233        0.870478   
4        -0.223161       -0.502519        0.054233       -0.414513   
5         1.160437        1.055290        0.054233       -0.414513   
6         2.544035        2.613098        1.735444        0.870478   
7        -0.223161       -0.502519        0.054233       -0.414513   
8        -2.990356       -0.502519       -1.626978       -0.414513   
9        -0.223161       -0.502519        0.054233       -0.414513   
10       -0.223161       -0.502519        0.054233        0.870478   
11       -0.223161       -0.502519        0.054233        0.870478   
12        1.160437        1.055290        0.054233        2.155469   
13       -0.223161  

In [19]:
# Normalizar

# Comprobar si las columnas existen en el DataFrame
missing_columns = [col for col in columns_to_stan_norm if col not in data.columns]

if missing_columns:
    print(f"Las siguientes columnas no se encuentran en el DataFrame: {missing_columns}")
else:
    # Crear una instancia del MinMaxScaler
    scaler = MinMaxScaler()

    # Aplicar la normalización solo a las columnas especificadas
    data[columns_to_stan_norm] = scaler.fit_transform(data[columns_to_stan_norm])

    # Añadir un pequeño valor para evitar ceros
    #epsilon = 1e-10
    #data[columns_to_normalize] += epsilon
    
    # Verificar el resultado
    print(data[columns_to_stan_norm])

    1ESO_MEDIA_1EV  1ESO_MEDIA_2EV  1ESO_MEDIA_EVF  2ESO_MEDIA_1EV  \
0             0.50        0.333333             0.5            0.50   
1             0.50        0.666667             0.5            0.75   
2             0.50        0.333333             0.5            0.50   
3             0.50        0.333333             0.5            0.75   
4             0.50        0.333333             0.5            0.50   
5             0.75        0.666667             0.5            0.50   
6             1.00        1.000000             1.0            0.75   
7             0.50        0.333333             0.5            0.50   
8             0.00        0.333333             0.0            0.50   
9             0.50        0.333333             0.5            0.50   
10            0.50        0.333333             0.5            0.75   
11            0.50        0.333333             0.5            0.75   
12            0.75        0.666667             0.5            1.00   
13            0.50  

# Guardado del nuevo dataset normalizado en csv como 'DATA_UNIDO_FINAL_INPUTADOH_ENCODED_NOOUTLIERS_NORM.csv'

In [20]:
# Guarda el DataFrame en un archivo CSV
archivo_csv = 'DATA_UNIDO_FINAL_INPUTADOH_ENCODED_NOOUTLIERS_NORM.csv'
data.to_csv(archivo_csv, index=False)