# Scikit-learn - Preprocesamiento de Datos

Este notebook cubre las técnicas de preprocesamiento de datos en scikit-learn: escalado, normalización, codificación de variables categóricas y manejo de valores faltantes.

## Importar Módulos


In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, Normalizer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder
from sklearn.preprocessing import PolynomialFeatures
from sklearn.impute import SimpleImputer
import numpy as np
import pandas as pd


## Escalado de Datos


In [None]:
# Datos de ejemplo
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# StandardScaler: estandarización (media=0, desv. estándar=1)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print("StandardScaler:")
print(f"Media: {X_scaled.mean(axis=0)}")
print(f"Desv. estándar: {X_scaled.std(axis=0)}")

# MinMaxScaler: normalización a rango [0, 1]
minmax = MinMaxScaler()
X_minmax = minmax.fit_transform(X)
print("\nMinMaxScaler (rango [0,1]):")
print(X_minmax)

# RobustScaler: usa mediana y rango intercuartílico (robusto a outliers)
robust = RobustScaler()
X_robust = robust.fit_transform(X)
print("\nRobustScaler:")
print(X_robust)

# Normalizer: normaliza cada muestra (fila) a norma unitaria
normalizer = Normalizer()
X_norm = normalizer.fit_transform(X)
print("\nNormalizer (norma unitaria por fila):")
print(X_norm)


## Codificación de Variables Categóricas


In [None]:
# LabelEncoder: codifica etiquetas a números (0, 1, 2, ...)
labels = ['rojo', 'verde', 'azul', 'rojo', 'verde']
le = LabelEncoder()
labels_encoded = le.fit_transform(labels)
print("LabelEncoder:")
print(f"Original: {labels}")
print(f"Codificado: {labels_encoded}")
print(f"Clases: {le.classes_}")

# OneHotEncoder: codificación one-hot (binaria)
categories = [['A', 'B', 'C'], ['X', 'Y']]
ohe = OneHotEncoder()
data_cat = [['A', 'X'], ['B', 'Y'], ['C', 'X']]
data_encoded = ohe.fit_transform(data_cat).toarray()
print("\nOneHotEncoder:")
print(data_encoded)
print(f"Nombres de características: {ohe.get_feature_names_out()}")

# OrdinalEncoder: codificación ordinal (similar a LabelEncoder pero para múltiples columnas)
oe = OrdinalEncoder()
data_ordinal = oe.fit_transform(data_cat)
print("\nOrdinalEncoder:")
print(data_ordinal)


## Manejo de Valores Faltantes


In [None]:
# Datos con valores faltantes
X_missing = np.array([[1, 2, np.nan], [4, np.nan, 6], [7, 8, 9]])

# SimpleImputer: imputación de valores faltantes
# Estrategias: 'mean', 'median', 'most_frequent', 'constant'
imputer_mean = SimpleImputer(strategy='mean')
X_imputed = imputer_mean.fit_transform(X_missing)
print("SimpleImputer (media):")
print(X_imputed)

imputer_median = SimpleImputer(strategy='median')
X_imputed_median = imputer_median.fit_transform(X_missing)
print("\nSimpleImputer (mediana):")
print(X_imputed_median)

imputer_constant = SimpleImputer(strategy='constant', fill_value=0)
X_imputed_const = imputer_constant.fit_transform(X_missing)
print("\nSimpleImputer (constante=0):")
print(X_imputed_const)


## Transformaciones Polinómicas


In [None]:
# PolynomialFeatures: genera características polinómicas
X = np.array([[2, 3], [4, 5]])

# Grado 2
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)
print("PolynomialFeatures (grado 2):")
print(f"Original shape: {X.shape}")
print(f"Polinómico shape: {X_poly.shape}")
print(X_poly)
print(f"Nombres: {poly.get_feature_names_out()}")

# Con sesgo (bias)
poly_bias = PolynomialFeatures(degree=2, include_bias=True)
X_poly_bias = poly_bias.fit_transform(X)
print("\nCon bias (columna de unos):")
print(X_poly_bias)


## Pipeline de Preprocesamiento


In [None]:
from sklearn.pipeline import Pipeline

# Crear un pipeline de preprocesamiento
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
    ('poly', PolynomialFeatures(degree=2, include_bias=False))
])

# Aplicar pipeline
X_example = np.array([[1, 2], [3, np.nan], [5, 6]])
X_processed = pipeline.fit_transform(X_example)
print("Pipeline de preprocesamiento:")
print(f"Shape original: {X_example.shape}")
print(f"Shape procesado: {X_processed.shape}")
print(X_processed)
