# Notebook 03 - PARTE 1: Limpieza y Tratamiento de Missing Values


## Índice (Parte 1)
1. [Objetivo](#objetivo)
2. [Carga de Datos](#carga)
3. [Identificación de Valores Imposibles](#valores-imposibles)
4. [Reemplazo de Ceros por NaN](#reemplazo)
5. [Análisis de Patrones de Missing](#patron-missing)
6. [Estrategias de Imputación](#imputacion)
   - 6.1 [Imputación por Media/Mediana](#media-mediana)
   - 6.2 [Imputación por KNN](#knn)
   - 6.3 [Comparación de Métodos](#comparacion)
7. [Validación de Imputación](#validacion)
8. [Guardar Datos Limpios](#guardar)

**NOTA:** Este notebook se divide en 2 partes:
- **PARTE 1 (este archivo):** Limpieza y missing values
- **PARTE 2 (siguiente archivo):** Transformaciones, normalización y splits


**¿Qué haremos en esta parte?**
- Correguir el problema crítico identificado en EDA: **ceros imposibles**
- Decidir estrategia de imputación óptima
- Implementar imputación con múltiples métodos
- Comparar resultados y elejir mejor enfoque
- Preparar dataset limpio para transformaciones

**Recordatorio del EDA:**
- Insulin: 48.7% ceros (CRITÍCO)
- SkinThickness: 29.6% ceros
- BloodPressure: 4.6% ceros
- BMI: 1.4% ceros
- Glucose: 0.6% ceros

**Decisión clave:** ¿Imputar o eliminar?
- Eliminar -> perdemos ~50% de datos (inaceptable)
- Imputar -> mantenemos información, introducimos estimaciones

In [1]:
# Manipulación de datos
import pandas as pd
import numpy as np

# Visualización 
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.gridspec import GridSpec

# Imputación
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.experimental import enable_iterative_imputer # Necesario para IterativeImputer
from sklearn.impute import IterativeImputer

# Estadística
from scipy import stats

# Utilidades 
import warnings
from pathlib import Path
import copy

# Configuarción
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 3)

# Estilo visual
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('husl')
plt.rcParams['figure.figsize'] = (14,6)
plt.rcParams['font.size'] = 11

#Crear directorios
FIGURES_DIR = Path('../reports/figures')
DATA_PROCESSED = Path('../data/processed')
FIGURES_DIR.mkdir(parents=True, exist_ok=True)
DATA_PROCESSED.mkdir(parents=True, exist_ok=True)

print("Librerías importadas correctamente!")
print(f"Directorios creados: {FIGURES_DIR}, {DATA_PROCESSED}")

Librerías importadas correctamente!
Directorios creados: ..\reports\figures, ..\data\processed


In [None]:
# CARGA DEL DATASET ORIGINAL
df_original = pd.read_csv('../data/raw/diabetes.csv')

print("=" * 80)
print("DATASET ORIGINAL CARGADO")
print("=" * 80)
print(f'\nDimenciones: {df_original.shape[0]} filas x {df_original[1]} columnas')

# Crear copia para trabajar (matener original intacto)
df = df_original.copy()

# Separar features y target 
features_cols = [col for col in df.columns if col != 'Outcome']
target_col = 'Outcome'

print(f'Features: {len(features_cols)}')
print(f'Target: {target_col}')

display(df.head())