## Fase 4 – ETL (Limpieza de Datos)

In [5]:
import pandas as pd
from pathlib import Path

data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

df = pd.read_csv(input_file, na_values=["NA", ""])

print("Valores nulos antes de la limpieza:")
print(df.isnull().sum())

df["nombre"] = df["nombre"].fillna("Sin Nombre")
df["edad"] = df["edad"].fillna(df["edad"].median())
df["sexo"] = df["sexo"].fillna("No especificado")
df["distrito"] = df["distrito"].fillna("Desconocido")
df["servicio"] = df["servicio"].fillna("Sin Servicio")
df["fecha_atencion"] = df["fecha_atencion"].fillna("01/01/2024")
df["monto"] = df["monto"].fillna(0)

df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], format="%d/%m/%Y", errors="coerce")
df["edad"] = pd.to_numeric(df["edad"], errors="coerce").astype("Int64")
df["monto"] = pd.to_numeric(df["monto"], errors="coerce").round(2)

df.dropna(how="all", inplace=True)
df.drop_duplicates(inplace=True)

print("\nDespués de la limpieza:")
print(df.isnull().sum())

df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\nArchivo limpio guardado en: {output_file.resolve()}")


Valores nulos antes de la limpieza:
id_paciente         0
nombre             81
edad              132
sexo              137
distrito          157
servicio          151
fecha_atencion     71
monto             181
dtype: int64

Después de la limpieza:
id_paciente       0
nombre            0
edad              0
sexo              0
distrito          0
servicio          0
fecha_atencion    0
monto             0
dtype: int64

Archivo limpio guardado en: C:\Users\balfa\Documents\SaludDigitalB_E1\database\pacientes_clean.csv
