## Imputación

In [None]:
# Importar las bibliotecas necesarias
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Cargar un conjunto de datos de ejemplo (usaremos Iris)
data = load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name="target")

# Simular valores faltantes en el conjunto de datos
# Esto es solo un ejemplo, en la práctica los datos pueden estar incompletos
# Aquí vamos a reemplazar algunos valores con NaN (Not-a-Number) de manera artificial
X.iloc[10:15, 0] = X.iloc[20:25, 1] = X.iloc[30:35, 2] = X.iloc[40:45, 3] = float("NaN")

# Explicación: Hasta aquí hemos importado las bibliotecas, cargado un conjunto de datos de ejemplo (Iris) y simulado valores faltantes en el conjunto de datos.

# Imprimir los datos originales con valores faltantes
print("Datos originales con valores faltantes:")
print(X.head(15))

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Explicación: Dividimos el conjunto de datos en conjuntos de entrenamiento y prueba para evaluar el modelo más adelante.

# Imputar los valores faltantes en el conjunto de entrenamiento
# Utilizaremos la estrategia de imputación de la media
imputer = SimpleImputer(strategy="mean")
X_train_imputed = imputer.fit_transform(X_train)

# Explicación: Utilizamos la estrategia de imputación de la media para llenar los valores faltantes en el conjunto de entrenamiento. La media se calcula para cada característica.

# Imprimir los datos de entrenamiento imputados
print("\nDatos de entrenamiento imputados:")
print(pd.DataFrame(X_train_imputed, columns=X.columns).head(15))

# Entrenar un modelo de Machine Learning (usaremos un clasificador RandomForest)
model = RandomForestClassifier(random_state=42)
model.fit(X_train_imputed, y_train)

# Explicación: Hemos entrenado un modelo de clasificación Random Forest en los datos de entrenamiento imputados.

# Imputar los valores faltantes en el conjunto de prueba
X_test_imputed = imputer.transform(X_test)

# Explicación: Utilizamos la misma estrategia de imputación de la media para llenar los valores faltantes en el conjunto de prueba.

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test_imputed)

# Explicación: Hemos realizado predicciones en el conjunto de prueba utilizando el modelo entrenado.

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("\nPrecisión del modelo en el conjunto de prueba:", accuracy)

# Explicación: Hemos calculado la precisión del modelo comparando las predicciones con los valores reales en el conjunto de prueba.

**1. Imputación de la media (Mean Imputation):**
La imputación de la media consiste en reemplazar los valores faltantes por la media de la característica (columna) correspondiente en los datos.

In [None]:
from sklearn.impute import SimpleImputer

# Crear un imputador de media
imputer = SimpleImputer(strategy='mean')

# Imputar los valores faltantes en un conjunto de datos (X)
X_train_imputed  = imputer.fit_transform(X)

**2. Imputación de la mediana (Median Imputation):**
En lugar de la media, podemos utilizar la mediana para imputar los valores faltantes. La mediana es menos sensible a valores atípicos.

In [None]:
from sklearn.impute import SimpleImputer

# Crear un imputador de mediana
imputer = SimpleImputer(strategy='median')

# Imputar los valores faltantes en un conjunto de datos (X)
X_train_imputed  = imputer.fit_transform(X)


**3. Imputación de valores constantes (Constant Imputation):**
En ocasiones, se prefiere imputar los valores faltantes con un valor constante. Esto puede ser útil en situaciones donde los valores faltantes tienen un significado específico.

In [None]:
from sklearn.impute import SimpleImputer

# Crear un imputador con valor constante (por ejemplo, 0)
imputer = SimpleImputer(strategy='constant', fill_value=0)

# Imputar los valores faltantes en un conjunto de datos (X)
X_train_imputed = imputer.fit_transform(X)


**4. Imputación por regresión (Regression Imputation):**
En algunos casos, es útil utilizar un modelo de regresión para predecir los valores faltantes en función de las demás características.

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# Crear un imputador de regresión (usaremos el IterativeImputer)
imputer = IterativeImputer(max_iter=10, random_state=0)

# Imputar los valores faltantes en un conjunto de datos (X)
X_train_imputed  = imputer.fit_transform(X)


**5. Imputación por K-vecinos más cercanos (K-Nearest Neighbors Imputation):**
Este método reemplaza los valores faltantes por los valores de K-vecinos más cercanos en función de una métrica de similitud.

In [None]:
from sklearn.impute import KNNImputer

# Crear un imputador de K-vecinos más cercanos
imputer = KNNImputer(n_neighbors=2)

# Imputar los valores faltantes en un conjunto de datos (X)
X_train_imputed  = imputer.fit_transform(X)


**6. Imputación de valores más frecuentes (Most Frequent Imputation):**
Esta estrategia imputa los valores faltantes con el valor más frecuente (modal) de la característica correspondiente.

In [None]:
from sklearn.impute import SimpleImputer

# Crear un imputador con el valor más frecuente
imputer = SimpleImputer(strategy='most_frequent')

# Imputar los valores faltantes en un conjunto de datos (X)
X_train_imputed  = imputer.fit_transform(X)


**7. Imputación por interpolación (Interpolation Imputation):**
La imputación por interpolación se utiliza para rellenar los valores faltantes basándose en la interpolación de los valores existentes en la secuencia de datos.

In [None]:
import pandas as pd

# Realizar interpolación lineal en un DataFrame de Pandas
X.interpolate(method='linear', axis=0, inplace=True)


**8. Imputación con valores generados aleatoriamente (Random Imputation):**
En algunos casos, puedes optar por imputar valores faltantes con valores generados aleatoriamente.

In [None]:
import numpy as np

# Reemplazar los valores faltantes con valores aleatorios en un rango específico
X[X.isnull()] = np.random.randint(1, 100, size=X.isnull().sum().sum())

**9. Imputación basada en el contexto (Contextual Imputation):**
Este método implica imputar valores faltantes basándose en el contexto y la relación entre diferentes características. Es altamente personalizado y depende del conocimiento del dominio.

In [None]:
# Ejemplo personalizado basado en el contexto
X['feature_to_impute'] = X.apply(lambda row: custom_imputation_logic(row), axis=1)


**10. Imputación secuencial (Sequential Imputation):**
La imputación secuencial se utiliza cuando los datos tienen una secuencia temporal, como series temporales. Puedes imputar valores faltantes en función de los valores anteriores o posteriores.

In [None]:
# Imputar valores faltantes en función de los valores anteriores en una serie temporal
X['feature_to_impute'].fillna(method='ffill', inplace=True)

**Nota:** La elección del método de imputación depende de la naturaleza de los datos y el contexto del problema. Es importante evaluar y comparar los resultados de diferentes estrategias de imputación en función de los objetivos y el rendimiento del modelo de Machine Learning que se construye.