### **Transformación de Datos en Machine Learning con Python**

Antes de aplicar algoritmos de Machine Learning, es crucial preparar y transformar los datos para mejorar la calidad y el rendimiento del modelo. La transformación de datos incluye técnicas para convertir datos categóricos a numéricos, manejar valores faltantes, normalizar o estandarizar los datos, entre otras. Estas técnicas aseguran que los modelos de ML reciban datos en un formato que maximice su precisión y eficiencia.

En este contenido, usaremos un dataset de **Scikit-Learn** y aplicaremos técnicas clásicas de transformación de datos como:

1. **One-Hot Encoding**: Convertir variables categóricas en variables binarias.
2. **Manejo de Valores Faltantes**: Rellenar o eliminar valores ausentes.
3. **Estandarización y Normalización**: Ajustar las características para que tengan una escala similar.
4. **Escalado de Características**: Normalización y estandarización.
5. **Transformación Logarítmica**: Transformar características sesgadas.

### **Dataset Utilizado: Diabetes de Scikit-Learn**

Utilizaremos el dataset de **Diabetes** de **Scikit-Learn**, que es un conjunto de datos conocido para problemas de regresión. Este dataset contiene información sobre pacientes y varias características médicas utilizadas para predecir la progresión de la diabetes.

In [2]:
from sklearn.datasets import load_diabetes
import pandas as pd
import numpy as np

# Cargar el dataset de diabetes
data = load_diabetes()
X = pd.DataFrame(data.data, columns=data.feature_names)  # Variables independientes
y = pd.Series(data.target, name='Progression')  # Variable dependiente

# Mostrar los primeros registros del dataset
X.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641


### **1. One-Hot Encoding (Codificación One-Hot)**

La codificación One-Hot convierte variables categóricas en variables binarias. Para demostrar esta técnica, usaremos un ejemplo simulado.

**Justificación del método One-Hot Encoding**

Cuando entrenas un modelo de machine learning, este modelo trabaja con números y matemáticas. Si dejas una variable categórica (como “color” con valores como “rojo”, “verde” o “azul”) tal cual, el modelo no entendería su significado porque esas palabras no tienen un valor numérico que pueda usar en sus cálculos.

Ahora, podrías pensar en convertir esos valores a números (por ejemplo, “rojo” = 1, “verde” = 2, “azul” = 3), pero esto introduciría un problema. El modelo podría asumir que hay una relación o un orden entre esos números, como si “verde” (2) fuese mayor o más importante que “rojo” (1), y “azul” (3) fuese aún mayor. Sin embargo, en realidad, “rojo”, “verde” y “azul” son categorías sin orden inherente.

Aquí es donde entra el “one hot encoding”. Con esta técnica, creas una columna separada para cada valor posible de la variable categórica, donde pones un “1” para indicar la presencia de ese valor y “0” para su ausencia. Así, para “color”, tendrías:

- Una columna para “rojo” (1 si es rojo, 0 si no lo es)
- Una columna para “verde” (1 si es verde, 0 si no lo es)
- Una columna para “azul” (1 si es azul, 0 si no lo es)

Esto permite que el modelo entienda cada categoría como algo independiente, sin suponer que hay una relación o jerarquía entre ellas. De este modo, puede aprender correctamente a partir de los datos.

**Ejemplo: Aplicar One-Hot Encoding a una Variable Categórica Simulada**

In [3]:
from sklearn.preprocessing import OneHotEncoder

# Crear una variable categórica simulada
X['Category'] = np.random.choice(['A', 'B', 'C'], size=len(X))

# Aplicar One-Hot Encoding usando OneHotEncoder de sklearn
encoder = OneHotEncoder(sparse_output=False)
category_encoded = encoder.fit_transform(X[['Category']])

# Convertir a DataFrame y concatenar con los datos originales
category_encoded_df = pd.DataFrame(category_encoded, columns=encoder.get_feature_names_out(['Category']))
X = pd.concat([X, category_encoded_df], axis=1).drop(columns=['Category'])

# Mostrar los datos transformados
X.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,Category_A,Category_B,Category_C
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,1.0,0.0,0.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,0.0,0.0,1.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,1.0,0.0,0.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,0.0,0.0,1.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,0.0,1.0,0.0


### **2. Manejo de Valores Faltantes (Handling Missing Values)**

El manejo de valores faltantes es esencial para evitar que los modelos de ML arrojen errores o produzcan resultados sesgados. Los métodos comunes incluyen la imputación de valores (relleno) y la eliminación de filas o columnas con datos faltantes.

**Justificación de manejo de valores faltantes**

Los valores faltantes en un dataset pueden ser problemáticos para entrenar modelos de machine learning porque los modelos dependen de los datos completos para aprender correctamente. Aquí te explico por qué:

1. **Modelos necesitan datos completos para los cálculos**: Los modelos de machine learning hacen cálculos matemáticos con los datos. Si hay valores faltantes (como "NaN" o "null"), el modelo no sabe qué hacer con ellos y no puede completar los cálculos necesarios. Por ejemplo, si falta el valor de una característica importante (como la edad o el ingreso), el modelo no puede incluir esa información en su proceso de aprendizaje, lo que puede llevar a errores o resultados inexactos.

2. **Valores faltantes pueden distorsionar el entrenamiento**: Si hay muchos valores faltantes, el modelo puede no aprender correctamente la relación entre las diferentes variables del dataset. Esto es como intentar resolver un rompecabezas con piezas perdidas; es mucho más difícil ver la imagen completa.

3. **Los valores faltantes pueden introducir sesgos**: Si algunas categorías o grupos de datos tienen más valores faltantes que otros, el modelo puede volverse sesgado. Por ejemplo, si faltan más datos de un grupo específico (como las edades de un cierto rango), el modelo puede aprender patrones incorrectos o ser menos preciso para ese grupo.

Para evitar estos problemas, normalmente se deben **eliminar las filas con valores faltantes** o, más comúnmente, **rellenar los valores faltantes** con técnicas como la media, la mediana, o un valor más común, para que el modelo tenga un dataset completo y pueda aprender de manera más efectiva.

**Extra: Método de indicador de valores faltantes**

Se utiliza para que el modelo de machine learning pueda **aprender** que, en ciertos casos, los valores faltantes también pueden contener información útil. Esta técnica combina dos pasos:

1. **Rellenar los valores faltantes con un número (como 0):** Esto permite que el modelo siga funcionando sin problemas matemáticos, porque todos los datos están completos.

2. **Agregar una columna adicional (indicador de faltantes):** Esta columna será 1 si el valor original estaba faltante y 0 si no. De esta manera, el modelo sabe que, en esa fila específica, hubo un valor que originalmente estaba ausente.

### ¿Por qué se utiliza esta técnica?

1. **Captura información adicional**: A veces, el hecho de que un valor esté faltando puede ser relevante por sí mismo. Por ejemplo, si estás trabajando con datos médicos y un paciente no proporciona cierta información, eso podría ser indicativo de algo importante (como que no se hizo una prueba, o no quiso dar un dato específico). Al agregar la columna de indicador, le estás diciendo al modelo: "Toma en cuenta que este dato estaba originalmente ausente".

2. **Mejora la precisión del modelo**: En lugar de simplemente eliminar los valores faltantes (lo que podría llevar a una pérdida de información valiosa) o rellenarlos con una media o mediana (lo que puede diluir los datos), el indicador de valores faltantes ayuda al modelo a captar patrones relacionados con la ausencia de datos, lo que puede mejorar su precisión.

3. **Mantiene la mayor cantidad de datos posible**: Esta técnica permite usar todo el dataset sin tener que eliminar filas, lo cual es especialmente útil cuando el dataset no es muy grande o cuando eliminar datos podría llevar a un sesgo.

**Ejemplo: Imputación de Valores Faltantes**

Supongamos que algunos valores en el dataset están faltando. Vamos a generar valores faltantes intencionalmente para demostrar cómo manejarlos:

In [4]:
from sklearn.impute import SimpleImputer

# Introducir valores faltantes intencionalmente
X.loc[::10, 'bmi'] = np.nan  # Introducir NaN en cada décima fila de la columna 'bmi'

# Crear un imputador que reemplaza los valores faltantes con la media
imputer = SimpleImputer(strategy='mean')
X['bmi'] = imputer.fit_transform(X[['bmi']])

# Mostrar los datos transformados
X.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,Category_A,Category_B,Category_C
0,0.038076,0.05068,-0.001126,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,1.0,0.0,0.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,0.0,0.0,1.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,1.0,0.0,0.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,0.0,0.0,1.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,0.0,1.0,0.0


### **3. Estandarización y Normalización (Standardization and Normalization)**

**Estandarización** y **normalización** son técnicas para escalar las características de los datos a una escala similar, lo que puede mejorar el rendimiento de muchos algoritmos de ML.

**Justificación de la estandarización y normalización**

La **estandarización** y la **normalización** son técnicas utilizadas para transformar los datos de manera que los modelos de machine learning puedan aprender mejor de ellos. Aunque parecen similares, tienen propósitos y aplicaciones ligeramente diferentes.

### 1. ¿Por qué son necesarias?

Los modelos de machine learning hacen muchos cálculos matemáticos usando los datos. Si las variables (o columnas) del dataset tienen escalas muy diferentes, pueden crear problemas:

- **Impacto desproporcionado**: Variables con valores más grandes pueden dominar el proceso de entrenamiento del modelo. Por ejemplo, si tienes dos variables, "edad" (que varía entre 0 y 100) y "ingresos" (que puede variar entre 0 y 100,000), el modelo podría darle más importancia a "ingresos" solo porque sus números son más grandes, aunque ambas variables sean igualmente importantes.

- **Mejora de la eficiencia del entrenamiento**: Muchos algoritmos de machine learning (como regresión logística, máquinas de soporte vectorial (SVM), redes neuronales, etc.) funcionan mejor cuando los datos están en una escala similar. Esto ayuda a que el modelo converja (aprenda) más rápidamente y de manera más estable.

### 2. ¿Qué es la estandarización?

**Estandarización** significa transformar los datos para que tengan una **media (promedio) de 0 y una desviación estándar de 1**. Esto se hace restando la media de cada valor y luego dividiendo por la desviación estándar. 

- **¿Cuándo utilizarla?**: 
  - Cuando los datos siguen (o aproximadamente siguen) una distribución normal (campana de Gauss).
  - Es útil para algoritmos que asumen que los datos están distribuidos normalmente o que son sensibles a las escalas, como regresión lineal, SVM, y redes neuronales.

### 3. ¿Qué es la normalización?

**Normalización** significa escalar los datos para que caigan en un rango específico, generalmente de **0 a 1**. Esto se hace restando el valor mínimo de cada valor y luego dividiendo por el rango (valor máximo - valor mínimo).

- **¿Cuándo utilizarla?**: 
  - Cuando los datos no siguen una distribución normal y pueden tener diferentes escalas.
  - Es especialmente útil en algoritmos que miden distancias entre puntos, como K-Nearest Neighbors (KNN) o algoritmos de clustering (agrupamiento).

### 4. Diferencias clave entre estandarización y normalización

- **Estandarización** es útil cuando queremos que los datos tengan una media de 0 y una desviación estándar de 1, manteniendo la forma de la distribución original.
- **Normalización** es útil cuando queremos limitar el rango de los datos a un intervalo específico, como 0 a 1, lo que puede ser necesario para algoritmos sensibles a la magnitud de los valores.

### Resumen

- **Estandarización**: Para datos con distribución normal o cuando el algoritmo asume una distribución normal.
- **Normalización**: Para datos con diferentes escalas o cuando el algoritmo se basa en distancias.

Ambas técnicas ayudan a que los modelos aprendan de manera más eficiente y precisa, evitando que ciertas variables dominen el entrenamiento solo por su escala o rango.

**Ejemplo: Estandarización de Datos**

In [5]:
from sklearn.preprocessing import StandardScaler

# Crear un escalador estándar
scaler = StandardScaler()

# Aplicar la estandarización a las características
X_scaled = scaler.fit_transform(X)

# Convertir el resultado a DataFrame
X_scaled_df = pd.DataFrame(X_scaled, columns=X.columns)

# Mostrar los datos estandarizados
X_scaled_df.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,Category_A,Category_B,Category_C
0,0.8005,1.065488,4.811607e-18,0.459841,-0.929746,-0.732065,-0.912451,-0.054499,0.418531,-0.370989,1.423867,-0.670209,-0.749558
1,-0.039567,-0.938537,-1.117196,-0.553505,-0.177624,-0.402886,1.564414,-0.830301,-1.436589,-1.938479,-0.702313,-0.670209,1.334119
2,1.793307,1.065488,1.01135,-0.119214,-0.958674,-0.718897,-0.680245,-0.054499,0.060156,-0.545154,1.423867,-0.670209,-0.749558
3,-1.872441,-0.938537,-0.2322948,-0.77065,0.256292,0.525397,-0.757647,0.721302,0.476983,-0.196823,-0.702313,-0.670209,1.334119
4,0.113172,-0.938537,-0.7823684,0.459841,0.082726,0.32789,0.171178,-0.054499,-0.672502,-0.980568,-0.702313,1.492072,-0.749558


**Ejemplo: Normalización Min-Max de Datos**

In [1]:
from sklearn.preprocessing import MinMaxScaler

# Crear un escalador Min-Max
scaler = MinMaxScaler()

# Aplicar la normalización a las características
X_normalized = scaler.fit_transform(X)

# Convertir el resultado a DataFrame
X_normalized_df = pd.DataFrame(X_normalized, columns=X.columns)

# Mostrar los datos normalizados
X_normalized_df.head()

NameError: name 'X' is not defined

### **5. Transformación Logarítmica (Log Transformation)**

La transformación logarítmica se utiliza para reducir la asimetría (skewness) de las características numéricas. Es útil cuando los datos tienen una distribución muy sesgada.

**Justificación de transformación logaritmica**

La **transformación logarítmica** es una técnica que se utiliza en machine learning y estadísticas para modificar la escala de los datos, especialmente cuando estos tienen una distribución sesgada o valores extremos (outliers).

### ¿Por qué es necesaria la transformación logarítmica?

1. **Reducir la asimetría (skewness) de los datos**: Si los datos tienen una distribución muy sesgada (por ejemplo, muchos valores pequeños y unos pocos valores muy grandes), puede ser difícil para el modelo de machine learning aprender patrones adecuados. La transformación logarítmica "aplana" esta distribución, haciendo que sea más simétrica y más fácil de manejar para los modelos.

2. **Reducir el impacto de valores extremos**: Si hay algunos valores extremadamente altos (outliers) en los datos, estos pueden dominar el entrenamiento del modelo y llevar a predicciones menos precisas. La transformación logarítmica reduce el efecto de estos valores extremos, haciendo que el modelo sea más robusto y menos sensible a ellos.

3. **Mejorar la relación entre características**: Algunas veces, las relaciones entre variables se vuelven más lineales después de aplicar una transformación logarítmica. Dado que muchos algoritmos de machine learning (como la regresión lineal) asumen que las relaciones entre las variables son lineales, aplicar una transformación logarítmica puede ayudar a mejorar el rendimiento del modelo.

### ¿Cuándo utilizar la transformación logarítmica?

La transformación logarítmica es útil en los siguientes casos:

- **Cuando los datos están sesgados a la derecha**: Es decir, cuando hay muchos valores pequeños y pocos valores extremadamente grandes (como ingresos o precios).
- **Cuando hay outliers positivos**: Valores muy altos que podrían distorsionar el entrenamiento del modelo.
- **Cuando la relación entre las variables es multiplicativa o exponencial**: En estos casos, la transformación logarítmica puede convertir esta relación en una más lineal.

### ¿Cómo funciona la transformación logarítmica?

Aplicar una transformación logarítmica significa reemplazar cada valor \(x\) por su logaritmo \(\log(x)\). 

- Para datos positivos, suele usarse el logaritmo natural (base e) o logaritmo base 10.
- La transformación logarítmica comprime los rangos grandes y expande los rangos pequeños. Por ejemplo, pasa de valores como [1, 10, 100, 1000] a valores más manejables como [0, 1, 2, 3].

**Ejemplo: Transformación Logarítmica de una Característica**

In [7]:
# Aplicar una transformación logarítmica a la columna 's1'
X['s1_log'] = np.log1p(X['s1'])  # np.log1p() aplica log(1 + x) para manejar ceros

# Mostrar los datos transformados
print(X[['s1', 's1_log']].head())

         s1    s1_log
0 -0.044223 -0.045231
1 -0.008449 -0.008485
2 -0.045599 -0.046672
3  0.012191  0.012117
4  0.003935  0.003927


### **Uso de `Pipeline` de Scikit-Learn para Transformación de Datos**

El **`Pipeline`** de **Scikit-Learn** permite encadenar varias transformaciones de datos (como One-Hot Encoding, manejo de valores faltantes, escalado de características) y, finalmente, aplicar un estimador (modelo de ML). El `Pipeline` asegura que todas las transformaciones se apliquen de manera consistente a los datos de entrenamiento y de prueba.

### **Ejemplo: Usando `Pipeline` para Encadenar Transformaciones de Datos**

Vamos a utilizar el dataset de **Diabetes** de **Scikit-Learn** y aplicar múltiples técnicas de preprocesamiento utilizando `Pipeline`.

In [9]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Cargar el dataset de diabetes
data = load_diabetes()
X = pd.DataFrame(data.data, columns=data.feature_names)  # Variables independientes
y = pd.Series(data.target, name='Progression')  # Variable dependiente

# Introducir una columna categórica simulada
X['Category'] = np.random.choice(['A', 'B', 'C'], size=len(X))

# Dividir el dataset en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
# Definir el preprocesamiento para características numéricas
numeric_features = X.select_dtypes(include=['float64', 'int']).columns
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Manejo de valores faltantes
    ('scaler', StandardScaler())  # Estandarización
])

# Definir el preprocesamiento para características categóricas
categorical_features = ['Category']
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))  # One-Hot Encoding
])

# Crear un transformador de columnas (ColumnTransformer) que aplica las transformaciones por tipo de dato
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Crear un Pipeline que aplica el preprocesador seguido de un modelo de regresión lineal
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', LinearRegression())
])

# Entrenar el Pipeline en el conjunto de entrenamiento
pipeline.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = pipeline.predict(X_test)

# Evaluar el modelo

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error (MSE): {mse}")
print(f"Coefficient of Determination (R^2 Score): {r2}")

Mean Squared Error (MSE): 2912.9207449826313
Coefficient of Determination (R^2 Score): 0.4502005825336727


### **Explicación del Código:**

1. **División del Dataset**: Dividimos los datos en conjuntos de entrenamiento y prueba utilizando `train_test_split`.

2. **Transformador de Características Numéricas**: Definimos un `Pipeline` llamado `numeric_transformer` que maneja los valores faltantes utilizando la media y estandariza las características numéricas.

3. **Transformador de Características Categóricas**: Definimos un `Pipeline` llamado `categorical_transformer` que aplica **One-Hot Encoding** a las características categóricas.

4. **ColumnTransformer**: Usamos `ColumnTransformer` para aplicar diferentes transformaciones a las características numéricas y categóricas. Esto nos permite transformar tanto datos numéricos como categóricos en un solo paso.

5. **Pipeline Completo**: Creamos un `Pipeline` completo que aplica las transformaciones de preprocesamiento (definidas por `preprocessor`) y luego entrena un modelo de regresión lineal (`LinearRegression`).

6. **Entrenamiento y Predicción**: Entrenamos el `Pipeline` con los datos de entrenamiento y luego realizamos predicciones en los datos de prueba.

7. **Evaluación del Modelo**: Evaluamos el rendimiento del modelo utilizando el error cuadrático medio (MSE) y el coeficiente de determinación (R²).

### **Beneficios de Usar `Pipeline` de Scikit-Learn:**

- **Simplicidad y Limpieza del Código**: Permite aplicar varias transformaciones y estimadores en una cadena limpia y clara.
- **Consistencia**: Asegura que todas las transformaciones se aplican de la misma manera a los datos de entrenamiento y de prueba.
- **Repetibilidad**: Facilita la replicación del flujo de trabajo para nuevos datos.
- **Facilidad de Ajuste de Hiperparámetros**: Facilita el uso de herramientas de búsqueda de hiperparámetros como `GridSearchCV`.

### **Conclusión**

El uso de `Pipeline` en Scikit-Learn es fundamental para construir flujos de trabajo de Machine Learning eficientes y reproducibles. Encadenar transformaciones de datos y modelos en un solo objeto asegura que todas las transformaciones se apliquen de manera consistente, mejorando así la calidad del modelo y simplificando el código.