# PL02. Normalización y Estandarización del Conjunto de Datos _Pingüinos de Palmer_

## Realizada por Víctor Vega Sobral
__Borja González Seoane. Aprendizaje Automático. Curso 2024-25__

Para este ejercicio se volverá a emplear, al igual que en la PL01, el conjunto de datos _Pingüinos de Palmer_. Encontrará el CSV `palmer_penguins.csv` en el Campus Virtual. Este conjunto de datos contiene información sobre pingüinos de varias especies diferentes. 

En este ejercicio, teniendo en consideración los análisis del EDA de la PL01, se deberá trabajar con Scikit-Learn para normalizar y estandarizar las columnas numéricas del conjunto de datos. Probablemente sea de utilidad emplear visualizaciones de datos para observar los cambios de las transformaciones aplicadas.


In [23]:
import matplotlib.pyplot as plt
import pandas as pd
import plotly.express as px
import seaborn as sns

from sklearn.preprocessing import StandardScaler, MinMaxScaler

## Carga del conjunto de datos

In [24]:
CSV_FILE = "palmer_penguins.csv"

df = pd.read_csv(CSV_FILE)

## Normalización

In [25]:
# Selección de una variable numérica
columnas_numericas = ["bill_depth_mm","flipper_length_mm","body_mass_g"]

In [26]:
# Comprobamos que no esté normalizada
for columna in columnas_numericas:
    print("""COLUMNA ACTUAl:""", columna)
    print(f"Máximo: {df[columna].max()}")
    print(f"Media: {df[columna].mean()}")
    print(f"Mínimo: {df[columna].min()}")

COLUMNA ACTUAl: bill_depth_mm
Máximo: 21.5
Media: 17.151169590643274
Mínimo: 13.1
COLUMNA ACTUAl: flipper_length_mm
Máximo: 231.0
Media: 200.91520467836258
Mínimo: 172.0
COLUMNA ACTUAl: body_mass_g
Máximo: 6300.0
Media: 4201.754385964912
Mínimo: 2700.0


In [27]:
# Inicialización del escalador 
scaler = MinMaxScaler()

for columna in columnas_numericas:
    if columna in df.columns:
        print(f"La columna actual es: {columna.upper()}")
        # Normalizar la columna
        df[f'{columna}_norm_sklearn'] = scaler.fit_transform(df[[columna]])
        print("VALORES NORMALIZADOS:")
        print(f"Máximo: {df[f'{columna}_norm_sklearn'].max()}")
        print(f"Media: {df[f'{columna}_norm_sklearn'].mean()}")
        print(f"Mínimo: {df[f'{columna}_norm_sklearn'].min()}")

La columna actual es: BILL_DEPTH_MM
VALORES NORMALIZADOS:
Máximo: 1.0
Media: 0.48228209412419953
Mínimo: 0.0
La columna actual es: FLIPPER_LENGTH_MM
VALORES NORMALIZADOS:
Máximo: 1.0
Media: 0.4900882148875014
Mínimo: 0.0
La columna actual es: BODY_MASS_G
VALORES NORMALIZADOS:
Máximo: 1.0
Media: 0.4171539961013645
Mínimo: 0.0


In [28]:
print(f"Mínimo almacenado en el objeto scaler: {scaler.data_min_}")
print(f"Máximo almacenado en el objeto scaler: {scaler.data_max_}")

Mínimo almacenado en el objeto scaler: [2700.]
Máximo almacenado en el objeto scaler: [6300.]


## Estandarización

In [29]:
# Función para estandardizar directamente 
# con la fórmula de las transparencias
def estandarizar(df):
    return (df - df.mean()) / df.std()

for columna in columnas_numericas:
    df[f"{columna}_estandar_formula"] = estandarizar(df[columna])

# Estandarización por z score


In [36]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

columnas_numericas = ["bill_depth_mm", "flipper_length_mm", "body_mass_g"]
# Crear una instancia de StandardScaler
scaler = StandardScaler()
# Ajustar el scaler a las columnas numéricas y transformarlas
df_scaled = scaler.fit_transform(df[columnas_numericas])
# Convertir el resultado de vuelta a un DataFrame
df_scaled_df = pd.DataFrame(df_scaled, columns=columnas_numericas)
# Reemplazar las columnas originales con las normalizadas en el DataFrame original
df[columnas_numericas] = df_scaled_df
# Imprimir estadísticas del DataFrame original
print("Estadísticas del DataFrame original:")
print("Medias:\n", df[columnas_numericas].mean())
print("Desviaciones estándar:\n", df[columnas_numericas].std())
# Imprimir estadísticas del DataFrame normalizado
print("\nEstadísticas del DataFrame normalizado:")
print("Medias:\n", df_scaled_df.mean())
print("Desviaciones estándar:\n", df_scaled_df.std())

Estadísticas del DataFrame original:
Medias:
 bill_depth_mm       -0.001041
flipper_length_mm   -0.002759
body_mass_g         -0.002925
dtype: float64
Desviaciones estándar:
 bill_depth_mm        1.001872
flipper_length_mm    1.000626
body_mass_g          0.997604
dtype: float64

Estadísticas del DataFrame normalizado:
Medias:
 bill_depth_mm        4.155221e-16
flipper_length_mm   -8.310441e-16
body_mass_g          8.310441e-17
dtype: float64
Desviaciones estándar:
 bill_depth_mm        1.001465
flipper_length_mm    1.001465
body_mass_g          1.001465
dtype: float64


## Conclusiones


...

La normalización y la estandarización son técnicas clave para preprocesar datos antes de aplicar algoritmos de aprendizaje automático. Estas técnicas permiten mejorar el rendimiento y la precisión de los modelos al asegurar que las distintas características de los datos estén en una escala comparable.

Seleccionando las columnas numericas en una lista y usando bucles podemos normalizar y estandarizar todas estas en muchas menos líneas.