# 🧩 Fase 4 – ETL (Limpieza de Datos)

In [2]:
import pandas as pd
from pathlib import Path

# 1️⃣ Definir rutas
data_path = Path.cwd() / "../data"         # Carpeta donde está pacientes.csv
database_path = Path.cwd() / "../database" # Carpeta donde se guardará pacientes_clean.csv
database_path.mkdir(parents=True, exist_ok=True)  # Crea la carpeta si no existe

archivo_entrada = data_path / "pacientes.csv"
archivo_salida = database_path / "pacientes_clean.csv"

# 2️⃣ Cargar datos
df = pd.read_csv(archivo_entrada, encoding="utf-8")

print("✅ Archivo cargado correctamente desde:", archivo_entrada)
print("📊 Registros originales:", len(df))

# 3️⃣ --- ETL: Limpieza de Datos ---

# 🔹 a) Eliminar duplicados
df = df.drop_duplicates()
print("🧹 Duplicados eliminados. Registros actuales:", len(df))

# 🔹 b) Rellenar valores nulos en los campos con posibles vacíos
if "distrito" in df.columns:
    df["distrito"] = df["distrito"].fillna("Sin distrito")
if "servicio" in df.columns:
    df["servicio"] = df["servicio"].fillna("Sin servicio")
if "monto" in df.columns:
    df["monto"] = df["monto"].fillna(df["monto"].mean())

# 🔹 c) Formatear fechas (asegurar formato YYYY-MM-DD)
if "fecha_atencion" in df.columns:
    df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], errors="coerce").dt.strftime("%Y-%m-%d")

# 🔹 d) Validar tipos de datos
df["edad"] = pd.to_numeric(df["edad"], errors="coerce").fillna(df["edad"].median())
df["monto"] = pd.to_numeric(df["monto"], errors="coerce").fillna(df["monto"].mean())

# 4️⃣ Guardar archivo limpio en la carpeta "database"
df.to_csv(archivo_salida, index=False, encoding="utf-8")

print("✅ Limpieza completada correctamente.")
print("💾 Archivo limpio guardado en:", archivo_salida)
print("📂 Total de registros finales:", len(df))
print("\n📈 Vista previa de los primeros registros limpios:")
print(df.head())


✅ Archivo cargado correctamente desde: c:\Users\fchav\documents\SaludDigitalB_E1\scripts\..\data\pacientes.csv
📊 Registros originales: 3000
🧹 Duplicados eliminados. Registros actuales: 3000
✅ Limpieza completada correctamente.
💾 Archivo limpio guardado en: c:\Users\fchav\documents\SaludDigitalB_E1\scripts\..\database\pacientes_clean.csv
📂 Total de registros finales: 3000

📈 Vista previa de los primeros registros limpios:
  id_paciente          nombre  edad sexo      distrito      servicio  \
0       P0001  Carlos Ramírez    54    F        Callao   Cardiología   
1       P0002     Lucía Pérez    90    F  Sin distrito   Ginecología   
2       P0003     Carlos Díaz    59    M    San Isidro  Dermatología   
3       P0004  Andrés Cabrera    60    M         Lince  Dermatología   
4       P0005      Luis Rojas    51    M  Sin distrito     Pediatría   

  fecha_atencion       monto  
0     2021-09-04  366.000000  
1     2022-04-05  251.000000  
2     2024-12-21  387.000000  
3     2020-06-05  