# Fase 4 – ETL (Limpieza de Datos)
•	Eliminar duplicados
•	Rellenar valores nulos en campos de transporte o destino
•	Formatear fechas
•	Validar tipos de datos

In [1]:
import pandas as pd
from pathlib import Path

# 1️⃣ Definir rutas
data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

# 2️⃣ Leer el archivo CSV original
df = pd.read_csv(input_file)

# 3️⃣ Mostrar cantidad de valores nulos antes
print("🔍 Valores nulos antes de la limpieza:")
print(df.isnull().sum())

# 4️⃣ Reemplazar valores nulos y "NA" en las columnas (igual que el banco)
df["distrito"] = df["distrito"].fillna("No especificado")
df["distrito"] = df["distrito"].replace("NA", "No especificado")

df["servicio"] = df["servicio"].fillna("Medicina General")
df["servicio"] = df["servicio"].replace("NA", "Medicina General")

# 5️⃣ Eliminar filas completamente vacías o duplicadas
df.dropna(how="all", inplace=True)
df.drop_duplicates(inplace=True)

# 6️⃣ Mostrar resumen después de la limpieza
print("\n✅ Después de la limpieza:")
print(df.isnull().sum())

# 7️⃣ Guardar el nuevo archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\n📁 Archivo limpio guardado en: {output_file}")

🔍 Valores nulos antes de la limpieza:
id_paciente         0
nombre              0
edad                0
sexo                0
distrito          278
servicio          254
fecha_atencion      0
monto               0
dtype: int64

✅ Después de la limpieza:
id_paciente       0
nombre            0
edad              0
sexo              0
distrito          0
servicio          0
fecha_atencion    0
monto             0
dtype: int64

📁 Archivo limpio guardado en: c:\Users\EVE\documents\SaludDigitalA_E1\scripts\..\database\pacientes_clean.csv
