# Para prevenir que las dimensiones afecten la salida se hace el escalamiento.
¿Qué es el Escalamiento?
El escalamiento implica transformar los valores de las características de tu dataset para que tengan un rango o escala similar. Esto es fundamental porque muchas técnicas de machine learning (como la regresión logística, los algoritmos de k-vecinos más cercanos, y las redes neuronales) utilizan medidas de distancia (como la distancia euclidiana) para evaluar la similitud entre puntos de datos. Si una característica tiene un rango de valores mucho mayor que otra, puede dominar el cálculo de distancias y, por lo tanto, influir desproporcionadamente en el modelo.

Ejemplo de Problemas por Diferencias de Escalas
Imagina un dataset que contiene dos características:

Edad (rango: 0 a 100)
Ingresos (rango: 0 a 100,000)
En este caso, la característica de ingresos tendrá una magnitud mucho mayor que la de la edad. Si no escalamos estas características, el modelo podría dar más importancia a los ingresos simplemente debido a su mayor rango, ignorando la información que aporta la edad.

In [1]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.datasets import fetch_california_housing
import pandas as pd

data = fetch_california_housing(as_frame=True)
df = data.frame
X = data.frame.drop(columns=["MedHouseVal"]) # Eliminar la columna objetivo
y = data.frame["MedHouseVal"]

transformer = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), X.select_dtypes(include=['float64','int']).columns),
        ('cat', OneHotEncoder(), X.select_dtypes(include=['category','object']).columns)
    ],
    remainder="passthrough", # Si hay un tipo fuera de los indicados, no tocar, dejarlas tal cual.
    n_jobs=-1, # Usar todos los nucleos disponibles para el procesamiento.
    verbose=True, # Imprimir informacion sobre el progreso
    sparse_threshold=0.3 # umbral para crear matrices dispersas
)
X_transformed = transformer.fit_transform(X)

In [2]:
df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
...,...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09,0.781
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21,0.771
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22,0.923
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32,0.847


In [3]:
X

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32


In [4]:
y

0        4.526
1        3.585
2        3.521
3        3.413
4        3.422
         ...  
20635    0.781
20636    0.771
20637    0.923
20638    0.847
20639    0.894
Name: MedHouseVal, Length: 20640, dtype: float64

In [5]:
transformer

In [6]:
X_transformed

array([[ 2.34476576,  0.98214266,  0.62855945, ..., -0.04959654,
         1.05254828, -1.32783522],
       [ 2.33223796, -0.60701891,  0.32704136, ..., -0.09251223,
         1.04318455, -1.32284391],
       [ 1.7826994 ,  1.85618152,  1.15562047, ..., -0.02584253,
         1.03850269, -1.33282653],
       ...,
       [-1.14259331, -0.92485123, -0.09031802, ..., -0.0717345 ,
         1.77823747, -0.8237132 ],
       [-1.05458292, -0.84539315, -0.04021111, ..., -0.09122515,
         1.77823747, -0.87362627],
       [-0.78012947, -1.00430931, -0.07044252, ..., -0.04368215,
         1.75014627, -0.83369581]])

# Introducción a ColumnTransformer

In [9]:
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

# Datos de ejemplo
X = [[1, 'rojo', 10],
     [2, 'azul', None],
     [None, 'verde', 12],
     [4, 'rojo', 8]]

# Definir las columnas numéricas y categóricas
numeric_features = [0, 2]
categorical_features = [1]

# Crear transformadores para cada subconjunto de columnas
numeric_transformer = SimpleImputer(strategy='mean')
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# Crear un ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Aplicar el preprocesamiento
X_transformed = preprocessor.fit_transform(X)
print("Tiene 5 columnas, 2 por los numeros y agrego 3 nuevas por las categoricas al aplicar")
print("la transformacion categorica para cada color, azul, rojo y verde")
print(X_transformed)

Tiene 5 columnas, 2 por los numeros y agrego 3 nuevas por las categoricas al aplicar
la transformacion categorica para cada color, azul, rojo y verde
[[ 1.         10.          0.          1.          0.        ]
 [ 2.         10.          1.          0.          0.        ]
 [ 2.33333333 12.          0.          0.          1.        ]
 [ 4.          8.          0.          1.          0.        ]]


In [28]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_openml
from sklearn.metrics import accuracy_score


# Cargar el conjunto de datos
X, y = fetch_openml('titanic', version=1, as_frame=True, return_X_y=True)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Definir las columnas numéricas y categóricas
numeric_features = ['age', 'fare']
categorical_features = ['embarked', 'sex', 'pclass']

# Crear transformadores para cada subconjunto de columnas
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# Crear un ColumnTransformer
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])

# Crear un Pipeline completo
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression())
])

# Ajustar el Pipeline a los datos de entrenamiento
pipeline.fit(X_train, y_train)

# Hacer predicciones utilizando el Pipeline
y_pred = pipeline.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2f}")

Precisión del modelo: 0.81


Resumen

En esta sección, exploramos ColumnTransformer y Pipeline de Scikit-learn, dos herramientas poderosas para automatizar y simplificar el flujo de trabajo de aprendizaje automático.

ColumnTransformer nos permite aplicar diferentes transformaciones a diferentes subconjuntos de columnas, lo cual es especialmente útil cuando tenemos conjuntos de datos con columnas heterogéneas.

Pipeline nos permite encadenar múltiples pasos de preprocesamiento y estimadores en un solo objeto, lo que simplifica el proceso de ajuste, transformación y predicción.

Al combinar ColumnTransformer y Pipeline, podemos crear flujos de trabajo automatizados que manejan el preprocesamiento específico de columnas y el ajuste del modelo en un solo paso.

Estas herramientas no solo hacen que nuestro código sea más conciso y legible, sino que también reducen las posibilidades de errores y facilitan la reutilización de los pasos de preprocesamiento en diferentes conjuntos de datos y modelos.

En las próximas secciones, utilizaremos ColumnTransformer y Pipeline en nuestros proyectos de aprendizaje automático para automatizar y simplificar nuestros flujos de trabajo.