## 🧩 Fase 4 – ETL (Limpieza de Datos)
•	Eliminar duplicados
•	Rellenar valores nulos en campos de transporte o destino
•	Formatear fechas
•	Validar tipos de datos
Guardar como pacientes_clean.csv.

In [6]:
import pandas as pd
from pathlib import Path

data_path = Path.home() / "Documents" / "SaludDigital_E1" / "data"
database_path = Path.home() / "Documents" / "SaludDigital_E1" / "database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "atenciones.csv"
output_file = database_path / "pacientes_clean.csv"

# Leer el archivo CSV original
df = pd.read_csv(input_file)

# Mostrar cantidad de valores nulos antes
print("Valores nulos antes de la limpieza:")
print(df.isin(["", "NA", "null", "N/D"]).sum() + df.isnull().sum())

# Reemplazar valores nulos o inconsistentes
df.replace({"": pd.NA, "NA": pd.NA, "null": pd.NA, "N/D": pd.NA}, inplace=True)

# Reemplazar nulos en columnas clave
df["nombre"] = df["nombre"].fillna("SinNombre")
df["edad"] = pd.to_numeric(df["edad"], errors="coerce")
df["edad"] = df["edad"].fillna(df["edad"].median())
df["sexo"] = df["sexo"].fillna("N/D")
df["distrito"] = df["distrito"].fillna("Desconocido")
df["servicio"] = df["servicio"].fillna("SinServicio")
df["fecha_atencion"] = df["fecha_atencion"].fillna("01/01/2015")
df["monto"] = df["monto"].fillna(0.0)

# Eliminar filas completamente vacías o duplicadas
df.dropna(how="all", inplace=True)
df.drop_duplicates(inplace=True)

# Mostrar resumen después de la limpieza
print("\nDespués de la limpieza:")
print(df.isnull().sum())

# Guardar el nuevo archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\nArchivo limpio guardado en: {output_file}")
print(f"Total de registros limpios: {len(df)}")

Valores nulos antes de la limpieza:
id_paciente         0
nombre            298
edad              324
sexo              306
distrito          305
servicio          315
fecha_atencion    298
monto             299
dtype: int64

Después de la limpieza:
id_paciente       0
nombre            0
edad              0
sexo              0
distrito          0
servicio          0
fecha_atencion    0
monto             0
dtype: int64

Archivo limpio guardado en: C:\Users\ALEXANDER\Documents\SaludDigital_E1\database\pacientes_clean.csv
Total de registros limpios: 3000
