# (Extra) Imputacion de data y analisis de Valores Nulls

In [None]:
import pandas as pd
import numpy as np

In [None]:
URL_DATASET:str = r"https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"

In [None]:
_columns:list[str] = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
columns_clean:list[str] = map( lambda x: x.lower(), _columns)

df = pd.read_csv(URL_DATASET, header=None, sep=",",names=list(columns_clean))

In [None]:
df.replace(0,np.nan, inplace=True)

In [None]:
(df.isna().mean() * 100).round(2).sort_values(ascending=False)

In [None]:
df.info()

## Analisiside cantidad de nulls

In [None]:
df.describe().T

## Imputacion por la mediana
- Mediana vs Media(Promedio)

Para un proyecto de machine learning, la elecci√≥n entre media, moda y mediana depende del tipo de datos y del contexto espec√≠fico. Te explico cu√°ndo usar cada una:

## **Media (Promedio)**
**Cu√°ndo usarla:**
- Con datos num√©ricos continuos sin valores at√≠picos extremos
- Cuando la distribuci√≥n es aproximadamente normal
- Para variables como edad, ingresos, temperatura, etc. (sin outliers)

**Ejemplo:** Si tienes edades como [25, 28, 30, 32, 35], la media (30) representa bien el conjunto.

## **Mediana**
**Cu√°ndo usarla:**
- Con datos num√©ricos que tienen valores at√≠picos (outliers)
- Cuando la distribuci√≥n es sesgada
- Para datos ordinales
- Es m√°s robusta ante valores extremos

**Ejemplo:** En ingresos como [30K, 35K, 40K, 45K, 500K], la mediana (40K) es m√°s representativa que la media (130K).

## **Moda**
**Cu√°ndo usarla:**
- Con datos categ√≥ricos (texto, etiquetas)
- Con datos num√©ricos discretos donde buscas el valor m√°s frecuente
- Para variables como g√©nero, pa√≠s, categor√≠a de producto, etc.

**Ejemplo:** En una columna de pa√≠ses [M√©xico, Argentina, M√©xico, Brasil, M√©xico], la moda es "M√©xico".

## **Recomendaciones pr√°cticas:**

1. **Analiza primero la distribuci√≥n** de tus datos con histogramas o boxplots
2. **Detecta outliers** antes de decidir
3. **Considera el contexto del negocio** - ¬øqu√© medida tiene m√°s sentido para tu problema?
4. **Prueba diferentes enfoques** y eval√∫a el impacto en tu modelo


In [None]:
import matplotlib.pyplot as plt

def generar_distribuciones(df: pd.DataFrame) -> None:
    fig = plt.figure(figsize=(16, 9))
    df.hist(bins=20, figsize=(16, 9), layout=(3, 3), color='skyblue', alpha=0.7, edgecolor='black')
    plt.suptitle('Distribuciones ', fontsize=16, y=1.02)
    plt.tight_layout()
    plt.show()

In [None]:
medianas = df.median()

In [None]:
df_imputada_mediana = df.fillna(medianas)

In [None]:
# generar_distribuciones(df_imputada_mediana)

## Usando tecnicas mas eficientes dado a la cantidad de datos nulls

## Missing Data Imputation

Cuando tienes valores nulos (`NaN`) en un dataset, la **imputaci√≥n** busca reemplazarlos con estimaciones razonables para que los modelos de machine learning o an√°lisis estad√≠sticos no se rompan ni sesguen.

El **objetivo** es hacerlo de una forma que mantenga las **relaciones (correlaciones)** entre variables y **minimice el sesgo**.

---

## M√©todos comunes de imputaci√≥n en Scikit-Learn

### A. `SimpleImputer`

**Idea:** reemplaza los valores faltantes con una **constante**, **media**, **mediana** o **moda** de la columna.

```python
from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "edad": [25, np.nan, 30, 40],
    "ingreso": [50000, 60000, np.nan, 80000]
})

imputer = SimpleImputer(strategy='median')
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
```

* **Ventajas:** simple, r√°pido, √∫til cuando los datos son poco correlacionados.
* **Desventajas:** ignora la relaci√≥n entre columnas; cada columna se imputa de forma independiente.

>  Si tus variables est√°n correlacionadas (por ejemplo, edad e ingreso), este m√©todo puede introducir sesgos.

---

### B. `KNNImputer`

**Idea:** usa los **vecinos m√°s cercanos** (por distancia eucl√≠dea entre filas completas) para imputar los valores faltantes.
Si dos filas son similares en otras variables, se asume que el valor faltante tambi√©n ser√° similar.

```python
from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=5)
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
```

*  **Ventajas:**

  * Tiene en cuenta **correlaciones impl√≠citas** entre columnas.
  * Es **no param√©trico** (no asume distribuci√≥n).
*  **Desventajas:**

  * Costoso en datasets grandes.
  * Puede ser inestable si hay ruido o si los vecinos no son representativos.

> üí° Si tus variables tienen una correlaci√≥n significativa, este m√©todo suele funcionar mejor que `SimpleImputer`.

---

### C. `IterativeImputer` (basado en MICE)

**Idea:** este es el m√©todo m√°s avanzado ‚Äî usa un **modelo iterativo** para predecir los valores faltantes de cada columna **en funci√≥n de las dem√°s**.

El algoritmo m√°s com√∫n es **MICE (Multiple Imputation by Chained Equations)**:

1. Inicializa los `NaN` (por ejemplo, con medias).
2. Toma una columna con valores faltantes y la trata como ‚Äúvariable objetivo‚Äù.
3. Usa las otras columnas como features para entrenar un modelo (por ejemplo, regresi√≥n lineal o `BayesianRidge`).
4. Predice los valores faltantes y los reemplaza.
5. Repite para cada columna con nulos, y hace m√∫ltiples iteraciones hasta converger.

```python
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import BayesianRidge

imputer = IterativeImputer(estimator=BayesianRidge(), max_iter=10, random_state=42)
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
```

*  **Ventajas:**

  * Captura la **correlaci√≥n entre variables**.
  * Proporciona imputaciones m√°s **coherentes y realistas**.
  * Compatible con modelos diferentes al lineal (puedes usar √°rboles, etc.).
*  **Desventajas:**

  * M√°s lento.
  * Supone que las relaciones entre columnas son **predecibles y estables**.

> üí° Si tus columnas tienen correlaci√≥n significativa (edad ‚Üî ingreso, educaci√≥n ‚Üî gasto, etc.), **IterativeImputer** es el m√°s adecuado.

---

## 3. Imputaci√≥n m√∫ltiple (`Multiple Imputation`)

**IterativeImputer ‚â† Multiple Imputation**, aunque MICE naci√≥ de ese concepto.

### üîç Idea:

La imputaci√≥n m√∫ltiple reconoce que **hay incertidumbre** en los valores imputados.
En lugar de generar una sola versi√≥n del dataset imputado, genera **m√∫ltiples datasets** con distintas imputaciones plausibles.

1. Se crean **m** datasets con imputaciones diferentes (por ejemplo, 5 versiones).
2. Se entrena el modelo en cada dataset.
3. Se combinan los resultados (por ejemplo, promediando los coeficientes o predicciones).

Esto permite:

* Capturar la **variabilidad debida a la imputaci√≥n**.
* Evitar sobreconfianza en los valores estimados.

En Python puedes hacerlo con **`statsmodels`**, **`miceforest`** o **`autoimpute`**.

Ejemplo usando [`miceforest`](https://pypi.org/project/miceforest/):

```python
import miceforest as mf
import pandas as pd

# Creamos el kernel (modelo base para imputaci√≥n m√∫ltiple)
kernel = mf.ImputationKernel(df, save_all_iterations=True, random_state=42)

# Ejecutamos el proceso MICE (crea m√∫ltiples datasets)
kernel.mice(5)

# Recuperamos las versiones imputadas
imputed_datasets = [kernel.complete_data(i) for i in range(5)]
```

* ‚úÖ **Ventajas:**

  * Captura la **incertidumbre** en la imputaci√≥n.
  * Mejores inferencias estad√≠sticas.
* **Desventajas:**

  * M√°s complejo de implementar y combinar.
  * No siempre necesario para tareas puramente predictivas.

---

## 4. ¬øCu√°ndo usar cada uno?

| M√©todo                         | Usa correlaci√≥n | Nivel de complejidad | Mejor para                                       |
| :----------------------------- | :-------------: | :------------------: | :----------------------------------------------- |
| **SimpleImputer**              |        ‚ùå        |         Bajo         | Variables independientes o sin mucha correlaci√≥n |
| **KNNImputer**                 |  ‚úÖ (impl√≠cita)  |         Medio        | Datasets medianos, correlaci√≥n no lineal         |
| **IterativeImputer**           |  ‚úÖ (expl√≠cita)  |         Alto         | Datasets correlacionados, predictivos            |
| **Multiple Imputation (MICE)** |        ‚úÖ‚úÖ       |       Muy alto       | An√°lisis estad√≠stico con incertidumbre medida    |

---

## 5. Recomendaci√≥n pr√°ctica

Si tu foco es **modelado predictivo (ML)**:

* Empieza con `IterativeImputer` (con `BayesianRidge` o `RandomForestRegressor`).
* Eval√∫a la mejora frente a `SimpleImputer`.

Si tu foco es **an√°lisis estad√≠stico riguroso** (inferencia o papers):

* Usa **Multiple Imputation (MICE)** con librer√≠as como `miceforest` o `autoimpute`.

In [None]:
from sklearn.experimental import enable_iterative_imputer

from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import BayesianRidge


In [None]:
# Imputacion por medio de Simple Imputer
columna_simple_imputer = ['BMI']
columnas_knn_imputer = ['Glucose', 'BloodPressure', 'Outcome']
columnas_iterative_imputer = ['Pregnancies', 'SkinThickness', 'Insulin', ]

In [None]:
# Identificar patrones de missingness primero
missing_patterns = df.isnull().mean().sort_values(ascending=False)
print("Porcentaje de valores faltantes por columna:")
print(missing_patterns[missing_patterns > 0])


In [None]:
# Elegir m√©todo basado en el an√°lisis
if missing_patterns.max() < 0.05:  # Pocos missing
    imputer = SimpleImputer(strategy='median')
else:  # Patrones complejos
    imputer = IterativeImputer(random_state=42)

# Crear nuevo DataFrame con las mismas columnas
imputed_data = imputer.fit_transform(df)
df_imputed = pd.DataFrame(imputed_data, columns=df.columns, index=df.index)


In [None]:
generar_distribuciones(df)

In [None]:
generar_distribuciones(df_imputed)

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# Cargar tu dataset (asumiendo que ya est√° cargado como df)
# df = pd.read_csv('data.csv')  # Si necesitas cargarlo

print("Dataset original - Valores faltantes por columna:")
print(df.isnull().sum())

# Definimos cu√°ntas imputaciones queremos

n_imputations = 10
imputed_dfs = []

print(f"\nGenerando {n_imputations} imputaciones m√∫ltiples...")

for i in range(n_imputations):

    imputer = IterativeImputer(
        random_state=i, 
        max_iter=10,
        sample_posterior=True  # Muestrea de la distribuci√≥n posterior
    )

    df_imputed = pd.DataFrame(
        imputer.fit_transform(df), 
        columns=df.columns,
        index=df.index  # Mantener el √≠ndice original
    )

    imputed_dfs.append(df_imputed)
    print(f"Imputaci√≥n {i+1}/{n_imputations} completada")

# Promediamos las versiones imputadas
df_mean = pd.concat(imputed_dfs).groupby(level=0).mean()
df_mean.head()

In [None]:
generar_distribuciones(df_mean)

In [None]:

def compare_imputation(original_df, imputed_df, columns_to_compare=None):
    
    if columns_to_compare is None:
        columns_to_compare = original_df.columns
    
    print("COMPARACI√ìN DE ESTAD√çSTICAS:")
    
    for col in columns_to_compare:
        if col in original_df.select_dtypes(include=[np.number]).columns:
            orig_mean = original_df[col].mean()
            orig_std = original_df[col].std()
            imp_mean = imputed_df[col].mean()
            imp_std = imputed_df[col].std()
            
            print(f"\n{col}:")
            print(f"  Media: {orig_mean:.2f} ‚Üí {imp_mean:.2f} (Œî: {imp_mean-orig_mean:+.2f})")
            print(f"  Std:   {orig_std:.2f} ‚Üí {imp_std:.2f} (Œî: {imp_std-orig_std:+.2f})")


In [None]:
compare_imputation(df, df_mean)

# Ejemplo Simple


#  1. Tipos de mecanismos de datos faltantes

| Tipo                                    | Significado                                                                                        | Ejemplo                                                    | Efecto                                                                                           |
| --------------------------------------- | -------------------------------------------------------------------------------------------------- | ---------------------------------------------------------- | ------------------------------------------------------------------------------------------------ |
| **MCAR** (Missing Completely At Random) | Los valores faltan completamente al azar. No dependen ni de otras variables ni de su propio valor. | Faltan filas por un error de carga o desconexi√≥n.          | üîπ **P√©rdida de eficiencia**, pero sin **sesgo**.                                                |
| **MAR** (Missing At Random)             | Los valores faltan en funci√≥n de **otras variables observadas**, no de la variable faltante.       | Faltan ‚ÄúJob performance‚Äù m√°s frecuentemente para IQ bajos. | ‚ö†Ô∏è **Introduce sesgo**, pero puede corregirse con t√©cnicas modernas (IterativeImputer, MICE).    |
| **MNAR** (Missing Not At Random)        | Los valores faltan **por la propia variable faltante**.                                            | Si personas con mal desempe√±o no reportan su resultado.    | ‚ùå **Sesgo fuerte**, dif√≠cil de corregir (se usan *selection models* o *pattern mixture models*). |


In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "IQ": [78, 82, 86, 90, 94, 98, 102, 106, 110, 114],
    "JobPerformance": [7.693428, np.nan, np.nan, np.nan, 8.631693, 9.231726, 13.458426, 12.434869, 10.561051, 13.185120]
})

In [None]:
from sklearn.impute import SimpleImputer

simple_imputer = SimpleImputer(strategy='mean')
df_simple = df.copy()
df_simple['JobPerformance'] = simple_imputer.fit_transform(df[['JobPerformance']])

# Imputa con la **media global**, sin usar IQ.
# No respeta correlaci√≥n IQ‚ÄìPerformance.

In [None]:
from sklearn.impute import KNNImputer

knn_imputer = KNNImputer(n_neighbors=3)
df_knn = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)

# Usa IQ y JobPerformance juntos para encontrar los vecinos m√°s cercanos y estimar el valor faltante.
# Preserva la correlaci√≥n de manera **no lineal**

In [None]:
from sklearn.impute import KNNImputer

knn_imputer = KNNImputer(n_neighbors=3)
df_knn = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import BayesianRidge

iter_imputer = IterativeImputer(estimator=BayesianRidge(), random_state=42)
df_iter = pd.DataFrame(iter_imputer.fit_transform(df), columns=df.columns)

# Predice los valores faltantes de JobPerformance en funci√≥n de IQ mediante regresi√≥n bayesiana iterativa.
# Excelente para **datos MAR** con correlaci√≥n fuerte.


In [None]:
from sklearn.experimental import enable_iterative_imputer  # habilita el imputer experimental
from sklearn.impute import IterativeImputer

# Definimos cu√°ntas imputaciones queremos
n_imputations = 10
imputed_dfs = []

# Repetimos el proceso con distintas semillas

for i in range(n_imputations):
    imputer = IterativeImputer(random_state=i, max_iter=10)
    df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
    imputed_dfs.append(df_imputed)

# Promediamos las versiones imputadas (solo num√©ricas)
df_mean = pd.concat(imputed_dfs).groupby(level=0).mean()

df_mean
