#### Fase 4 – ETL (Limpieza de Datos)
#### •	Eliminar duplicados
#### •	Rellenar valores nulos en campos de transporte o destino
#### •	Formatear fechas
#### •	Validar tipos de datos

#### Guardar como pacientes_clean.csv.

In [1]:
import pandas as pd
from pathlib import Path

# 1️⃣ Definir rutas
data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

# 2️⃣ Leer el archivo CSV original
df = pd.read_csv(input_file)

# 3️⃣ Mostrar cantidad de valores nulos antes
print("🔍 Valores nulos antes de la limpieza:")
print(df.isnull().sum())

# 4️⃣ Reemplazar valores nulos o vacíos en columnas clave
df["distrito"] = df["distrito"].fillna("Desconocido").replace(["", "NA"], "Desconocido")
df["servicio"] = df["servicio"].fillna("General").replace(["", "NA"], "General")

# 5️⃣ Formatear fechas correctamente
df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], errors="coerce")
df["fecha_atencion"] = df["fecha_atencion"].dt.strftime("%Y-%m-%d")

# 6️⃣ Validar tipos de datos
df["edad"] = pd.to_numeric(df["edad"], errors="coerce").fillna(0).astype(int)
df["monto"] = pd.to_numeric(df["monto"], errors="coerce").fillna(0.0).astype(float)

# 7️⃣ Eliminar filas completamente vacías o duplicadas
df.dropna(how="all", inplace=True)
df.drop_duplicates(inplace=True)

# 8️⃣ Mostrar resumen después de la limpieza
print("\n✅ Después de la limpieza:")
print(df.isnull().sum())

# 9️⃣ Guardar el nuevo archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\n📁 Archivo limpio guardado en: {output_file}")
print(f"📊 Total de registros limpios: {len(df)}")

🔍 Valores nulos antes de la limpieza:
id_paciente          0
nombre               0
edad              1962
sexo               999
distrito           352
servicio           519
fecha_atencion       0
monto             2054
dtype: int64

✅ Después de la limpieza:
id_paciente         0
nombre              0
edad                0
sexo              999
distrito            0
servicio            0
fecha_atencion      0
monto               0
dtype: int64

📁 Archivo limpio guardado en: c:\Users\diego\documents\SaludDigitalB_E1\scripts\..\database\pacientes_clean.csv
📊 Total de registros limpios: 3000
