<a href="https://colab.research.google.com/github/Kevin2558/Data_Science_Borrador/blob/main/02_Preprocesamiento/Scalers_Encoder.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Escalamiento y Codificación de Variables

En los modelos de ML, la calidad de los datos de entrada es tan importante como el modelo en sí mismo. Por esto, se hace necesario el preprocesamiento de los datos mediante técnicas como el escalamiento de variables numéricas y la codificación de variables categóricas.

Veamos como se realiza este proceso

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, RobustScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

Procedamos a crear un dataset de ejemplo para ver los preprocesamientos en acción. Construiremos dos variables numéricas (edad, ingreso) y una variables categóricas (ciudad).

In [3]:
data = pd.DataFrame({
    'edad': [25, 32, 47, 51, 62],
    'ingreso': [50000, 60000, 80000, 120000, 150000],
    'ciudad': ['Santiago', 'Valparaíso', 'Santiago', 'Temuco', 'Temuco']
})

print(data)

   edad  ingreso      ciudad
0    25    50000    Santiago
1    32    60000  Valparaíso
2    47    80000    Santiago
3    51   120000      Temuco
4    62   150000      Temuco


Procedamos a separar las variables por tipo.

In [4]:
numeric_features = ['edad', 'ingreso']
categorical_features = ['ciudad']

# Escaladores y codificador

- StandardScaler
  
  Centra los datos (media = 0) y escala para que la desviación estándar sea 1. Se usa cuando los datos están distribuidos normalmente (sin muchos outliers).

- RobustScaler

  Escala según la mediana y el rango intercuartil (IQR), lo que lo hace resistente a la presencia de outliers. Útil cuando hay valores extremos que puedes distorsionar el modelo.

- OneHotEncoder

  Convierte las variables categóricas a columnas dummy (0/1). Importante cuando los modelos no pueden manejar texto directamente.

# ColumnTransformer

  Con esto podemos combinar los transformadores para aplicar escalado a las variables numéricas y one hot encoding a las variables numéricas.

Veamos lo anterior en acción.

In [5]:
standard_scaler = StandardScaler()
robust_scaler = RobustScaler()
one_hot_encoder = OneHotEncoder(drop='first')

In [6]:
# Opción A: StandardScaler
preprocessor_std = ColumnTransformer(
    transformers=[
        ('num', standard_scaler, numeric_features),
        ('cat', one_hot_encoder, categorical_features)
    ])

# Opción B: RobustScaler
preprocessor_robust = ColumnTransformer(
    transformers=[
        ('num', robust_scaler, numeric_features),
        ('cat', one_hot_encoder, categorical_features)
    ])

Ahora apliquemos las transformaciones a nuestro dataset de juguete.

In [7]:
X_std = preprocessor_std.fit_transform(data)
X_robust = preprocessor_robust.fit_transform(data)

Por último, visualicemos las primeras filas a los datos ya preprocesados.

In [8]:
print("\n✅ Escalado con StandardScaler + OneHotEncoder:")
print(pd.DataFrame(X_std.toarray() if hasattr(X_std, 'toarray') else X_std))

print("\n✅ Escalado con RobustScaler + OneHotEncoder:")
print(pd.DataFrame(X_robust.toarray() if hasattr(X_robust, 'toarray') else X_robust))


✅ Escalado con StandardScaler + OneHotEncoder:
          0         1    2    3
0 -1.382872 -1.116137  0.0  0.0
1 -0.856780 -0.850390  0.0  1.0
2  0.270562 -0.318896  0.0  0.0
3  0.571186  0.744092  1.0  0.0
4  1.397904  1.541333  1.0  0.0

✅ Escalado con RobustScaler + OneHotEncoder:
          0         1    2    3
0 -1.157895 -0.500000  0.0  0.0
1 -0.789474 -0.333333  0.0  1.0
2  0.000000  0.000000  0.0  0.0
3  0.210526  0.666667  1.0  0.0
4  0.789474  1.166667  1.0  0.0
