🧩 Fase 4 – ETL (Limpieza de Datos)
•	Eliminar duplicados
•	Rellenar valores nulos en campos de transporte o destino
•	Formatear fechas
•	Validar tipos de datos
Guardar como pacientes_clean.csv.

In [1]:
import pandas as pd
from pathlib import Path

# 1️⃣ Definir rutas
data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

# 2️⃣ Leer el archivo CSV original
df = pd.read_csv(input_file)

# 3️⃣ Mostrar cantidad de valores nulos antes
print("🔍 Valores nulos antes de la limpieza:")
print(df.isnull().sum())

# 4️⃣ Reemplazar valores nulos o "NA" en columnas clave
df.replace("NA", pd.NA, inplace=True)

# Rellenar valores vacíos con valores por defecto o marcadores válidos
df["nombre"] = df["nombre"].fillna("SIN NOMBRE")
df["edad"] = df["edad"].fillna(df["edad"].median())
df["sexo"] = df["sexo"].fillna("ND")  # ND = No definido
df["distrito"] = df["distrito"].fillna("Desconocido")
df["servicio"] = df["servicio"].fillna("Sin servicio")
df["fecha_atencion"] = df["fecha_atencion"].fillna("01/01/2020")
df["monto"] = df["monto"].fillna(0)

# 5️⃣ Corregir inconsistencias comunes
# Edades negativas o mayores de 120
df.loc[(df["edad"] < 0) | (df["edad"] > 120), "edad"] = df["edad"].median()

# Montos negativos o nulos
df.loc[df["monto"] <= 0, "monto"] = df["monto"].median()

# Fechas futuras (posteriores a 2025)
df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], errors="coerce", dayfirst=True)
df.loc[df["fecha_atencion"] > pd.Timestamp("2025-12-31"), "fecha_atencion"] = pd.Timestamp("2025-12-31")

# 6️⃣ Eliminar filas completamente vacías o duplicadas
df.dropna(how="all", inplace=True)
df.drop_duplicates(inplace=True)

# 7️⃣ Mostrar resumen después de la limpieza
print("\n✅ Después de la limpieza:")
print(df.isnull().sum())

# 8️⃣ Guardar el nuevo archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\n📁 Archivo limpio guardado en: {output_file}")
print(f"📊 Total de registros finales: {len(df)}")


🔍 Valores nulos antes de la limpieza:
id_paciente          0
nombre             208
edad               171
sexo              1136
distrito           575
servicio           564
fecha_atencion     194
monto              194
dtype: int64

✅ Después de la limpieza:
id_paciente       0
nombre            0
edad              0
sexo              0
distrito          0
servicio          0
fecha_atencion    0
monto             0
dtype: int64

📁 Archivo limpio guardado en: c:\Users\John_\documents\CentroMédico_2025\scripts\..\database\pacientes_clean.csv
📊 Total de registros finales: 2999
