### **Transformación de Datos en Machine Learning con Python**

Antes de aplicar algoritmos de Machine Learning, es crucial preparar y transformar los datos para mejorar la calidad y el rendimiento del modelo. La transformación de datos incluye técnicas para convertir datos categóricos a numéricos, manejar valores faltantes, normalizar o estandarizar los datos, entre otras. Estas técnicas aseguran que los modelos de ML reciban datos en un formato que maximice su precisión y eficiencia.

En este contenido, usaremos un dataset de **Scikit-Learn** y aplicaremos técnicas clásicas de transformación de datos como:

1. **One-Hot Encoding**: Convertir variables categóricas en variables binarias.
2. **Manejo de Valores Faltantes**: Rellenar o eliminar valores ausentes.
3. **Estandarización y Normalización**: Ajustar las características para que tengan una escala similar.
4. **Escalado de Características**: Normalización y estandarización.
5. **Transformación Logarítmica**: Transformar características sesgadas.

### **Dataset Utilizado: Diabetes de Scikit-Learn**

Utilizaremos el dataset de **Diabetes** de **Scikit-Learn**, que es un conjunto de datos conocido para problemas de regresión. Este dataset contiene información sobre pacientes y varias características médicas utilizadas para predecir la progresión de la diabetes.

In [2]:
from sklearn.datasets import load_diabetes
import pandas as pd
import numpy as np

# Cargar el dataset de diabetes
data = load_diabetes()
X = pd.DataFrame(data.data, columns=data.feature_names)  # Variables independientes
y = pd.Series(data.target, name='Progression')  # Variable dependiente

# Mostrar los primeros registros del dataset
X.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641


### **1. One-Hot Encoding (Codificación One-Hot)**

La codificación One-Hot convierte variables categóricas en variables binarias. Para demostrar esta técnica, usaremos un ejemplo simulado.

**Ejemplo: Aplicar One-Hot Encoding a una Variable Categórica Simulada**

In [3]:
from sklearn.preprocessing import OneHotEncoder

# Crear una variable categórica simulada
X['Category'] = np.random.choice(['A', 'B', 'C'], size=len(X))

# Aplicar One-Hot Encoding usando OneHotEncoder de sklearn
encoder = OneHotEncoder(sparse_output=False)
category_encoded = encoder.fit_transform(X[['Category']])

# Convertir a DataFrame y concatenar con los datos originales
category_encoded_df = pd.DataFrame(category_encoded, columns=encoder.get_feature_names_out(['Category']))
X = pd.concat([X, category_encoded_df], axis=1).drop(columns=['Category'])

# Mostrar los datos transformados
X.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,Category_A,Category_B,Category_C
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,1.0,0.0,0.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,0.0,0.0,1.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,1.0,0.0,0.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,0.0,0.0,1.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,0.0,1.0,0.0


### **2. Manejo de Valores Faltantes (Handling Missing Values)**

El manejo de valores faltantes es esencial para evitar que los modelos de ML arrojen errores o produzcan resultados sesgados. Los métodos comunes incluyen la imputación de valores (relleno) y la eliminación de filas o columnas con datos faltantes.

**Ejemplo: Imputación de Valores Faltantes**

Supongamos que algunos valores en el dataset están faltando. Vamos a generar valores faltantes intencionalmente para demostrar cómo manejarlos:

In [4]:
from sklearn.impute import SimpleImputer

# Introducir valores faltantes intencionalmente
X.loc[::10, 'bmi'] = np.nan  # Introducir NaN en cada décima fila de la columna 'bmi'

# Crear un imputador que reemplaza los valores faltantes con la media
imputer = SimpleImputer(strategy='mean')
X['bmi'] = imputer.fit_transform(X[['bmi']])

# Mostrar los datos transformados
X.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,Category_A,Category_B,Category_C
0,0.038076,0.05068,-0.001126,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,1.0,0.0,0.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,0.0,0.0,1.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,1.0,0.0,0.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,0.0,0.0,1.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,0.0,1.0,0.0


### **3. Estandarización y Normalización (Standardization and Normalization)**

**Estandarización** y **normalización** son técnicas para escalar las características de los datos a una escala similar, lo que puede mejorar el rendimiento de muchos algoritmos de ML.

- **Estandarización**: Ajusta las características para que tengan una media de 0 y una desviación estándar de 1.
- **Normalización**: Escala las características en un rango específico, normalmente de 0 a 1.

**Ejemplo: Estandarización de Datos**

In [5]:
from sklearn.preprocessing import StandardScaler

# Crear un escalador estándar
scaler = StandardScaler()

# Aplicar la estandarización a las características
X_scaled = scaler.fit_transform(X)

# Convertir el resultado a DataFrame
X_scaled_df = pd.DataFrame(X_scaled, columns=X.columns)

# Mostrar los datos estandarizados
X_scaled_df.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,Category_A,Category_B,Category_C
0,0.8005,1.065488,4.811607e-18,0.459841,-0.929746,-0.732065,-0.912451,-0.054499,0.418531,-0.370989,1.423867,-0.670209,-0.749558
1,-0.039567,-0.938537,-1.117196,-0.553505,-0.177624,-0.402886,1.564414,-0.830301,-1.436589,-1.938479,-0.702313,-0.670209,1.334119
2,1.793307,1.065488,1.01135,-0.119214,-0.958674,-0.718897,-0.680245,-0.054499,0.060156,-0.545154,1.423867,-0.670209,-0.749558
3,-1.872441,-0.938537,-0.2322948,-0.77065,0.256292,0.525397,-0.757647,0.721302,0.476983,-0.196823,-0.702313,-0.670209,1.334119
4,0.113172,-0.938537,-0.7823684,0.459841,0.082726,0.32789,0.171178,-0.054499,-0.672502,-0.980568,-0.702313,1.492072,-0.749558


### **4. Escalado de Características (Feature Scaling)**

El escalado de características ayuda a alinear diferentes características a la misma escala y es especialmente importante para algoritmos sensibles a la escala, como la regresión logística o los SVM.

**Ejemplo: Normalización Min-Max de Datos**


In [6]:
from sklearn.preprocessing import MinMaxScaler

# Crear un escalador Min-Max
scaler = MinMaxScaler()

# Aplicar la normalización a las características
X_normalized = scaler.fit_transform(X)

# Convertir el resultado a DataFrame
X_normalized_df = pd.DataFrame(X_normalized, columns=X.columns)

# Mostrar los datos normalizados
X_normalized_df.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,Category_A,Category_B,Category_C
0,0.666667,1.0,0.341789,0.549296,0.294118,0.256972,0.207792,0.282087,0.562217,0.439394,1.0,0.0,0.0
1,0.483333,0.0,0.14876,0.352113,0.421569,0.306773,0.623377,0.141044,0.222437,0.166667,0.0,0.0,1.0
2,0.883333,1.0,0.516529,0.43662,0.289216,0.258964,0.246753,0.282087,0.496578,0.409091,1.0,0.0,0.0
3,0.083333,0.0,0.301653,0.309859,0.495098,0.447211,0.233766,0.423131,0.572923,0.469697,0.0,0.0,1.0
4,0.516667,0.0,0.206612,0.549296,0.465686,0.417331,0.38961,0.282087,0.362385,0.333333,0.0,1.0,0.0


### **5. Transformación Logarítmica (Log Transformation)**

La transformación logarítmica se utiliza para reducir la asimetría (skewness) de las características numéricas. Es útil cuando los datos tienen una distribución muy sesgada.

**Ejemplo: Transformación Logarítmica de una Característica**

In [7]:
# Aplicar una transformación logarítmica a la columna 's1'
X['s1_log'] = np.log1p(X['s1'])  # np.log1p() aplica log(1 + x) para manejar ceros

# Mostrar los datos transformados
print(X[['s1', 's1_log']].head())

         s1    s1_log
0 -0.044223 -0.045231
1 -0.008449 -0.008485
2 -0.045599 -0.046672
3  0.012191  0.012117
4  0.003935  0.003927


### **Uso de `Pipeline` de Scikit-Learn para Transformación de Datos**

El **`Pipeline`** de **Scikit-Learn** permite encadenar varias transformaciones de datos (como One-Hot Encoding, manejo de valores faltantes, escalado de características) y, finalmente, aplicar un estimador (modelo de ML). El `Pipeline` asegura que todas las transformaciones se apliquen de manera consistente a los datos de entrenamiento y de prueba.

### **Ejemplo: Usando `Pipeline` para Encadenar Transformaciones de Datos**

Vamos a utilizar el dataset de **Diabetes** de **Scikit-Learn** y aplicar múltiples técnicas de preprocesamiento utilizando `Pipeline`.

In [9]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Cargar el dataset de diabetes
data = load_diabetes()
X = pd.DataFrame(data.data, columns=data.feature_names)  # Variables independientes
y = pd.Series(data.target, name='Progression')  # Variable dependiente

# Introducir una columna categórica simulada
X['Category'] = np.random.choice(['A', 'B', 'C'], size=len(X))

# Dividir el dataset en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
# Definir el preprocesamiento para características numéricas
numeric_features = X.select_dtypes(include=['float64', 'int']).columns
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Manejo de valores faltantes
    ('scaler', StandardScaler())  # Estandarización
])

# Definir el preprocesamiento para características categóricas
categorical_features = ['Category']
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))  # One-Hot Encoding
])

# Crear un transformador de columnas (ColumnTransformer) que aplica las transformaciones por tipo de dato
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Crear un Pipeline que aplica el preprocesador seguido de un modelo de regresión lineal
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', LinearRegression())
])

# Entrenar el Pipeline en el conjunto de entrenamiento
pipeline.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = pipeline.predict(X_test)

# Evaluar el modelo

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse}")
print(f"Coefficient of Determination (R^2 Score): {r2}")

Mean Squared Error (MSE): 2912.9207449826313
Coefficient of Determination (R^2 Score): 0.4502005825336727


### **Explicación del Código:**

1. **División del Dataset**: Dividimos los datos en conjuntos de entrenamiento y prueba utilizando `train_test_split`.

2. **Transformador de Características Numéricas**: Definimos un `Pipeline` llamado `numeric_transformer` que maneja los valores faltantes utilizando la media y estandariza las características numéricas.

3. **Transformador de Características Categóricas**: Definimos un `Pipeline` llamado `categorical_transformer` que aplica **One-Hot Encoding** a las características categóricas.

4. **ColumnTransformer**: Usamos `ColumnTransformer` para aplicar diferentes transformaciones a las características numéricas y categóricas. Esto nos permite transformar tanto datos numéricos como categóricos en un solo paso.

5. **Pipeline Completo**: Creamos un `Pipeline` completo que aplica las transformaciones de preprocesamiento (definidas por `preprocessor`) y luego entrena un modelo de regresión lineal (`LinearRegression`).

6. **Entrenamiento y Predicción**: Entrenamos el `Pipeline` con los datos de entrenamiento y luego realizamos predicciones en los datos de prueba.

7. **Evaluación del Modelo**: Evaluamos el rendimiento del modelo utilizando el error cuadrático medio (MSE) y el coeficiente de determinación (R²).

### **Beneficios de Usar `Pipeline` de Scikit-Learn:**

- **Simplicidad y Limpieza del Código**: Permite aplicar varias transformaciones y estimadores en una cadena limpia y clara.
- **Consistencia**: Asegura que todas las transformaciones se aplican de la misma manera a los datos de entrenamiento y de prueba.
- **Repetibilidad**: Facilita la replicación del flujo de trabajo para nuevos datos.
- **Facilidad de Ajuste de Hiperparámetros**: Facilita el uso de herramientas de búsqueda de hiperparámetros como `GridSearchCV`.

### **Conclusión**

El uso de `Pipeline` en Scikit-Learn es fundamental para construir flujos de trabajo de Machine Learning eficientes y reproducibles. Encadenar transformaciones de datos y modelos en un solo objeto asegura que todas las transformaciones se apliquen de manera consistente, mejorando así la calidad del modelo y simplificando el código.