# Haciendo el ETL

In [1]:
#Fase 4: ETL - Limpieza de datos
import pandas as pd
from pathlib import Path

#1. Definir rutas
data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

#2. Leer el archivo CSV original
df = pd.read_csv(input_file)

#3. Mostrar cantidad de valores nulos antes
print("üîç Valores nulos antes de la limpieza:")
print(df.isnull().sum())

# 4. Rellenar valores nulos/NA
df["edad"] = df["edad"].fillna(df["edad"].median())  # Rellenar edad con mediana
df["sexo"] = df["sexo"].replace("NA", "Desconocido")
df["servicio"] = df["servicio"].replace("NA", "General")
df["fecha_atencion"] = df["fecha_atencion"].fillna("2024-01-01")  # Fecha por defecto
df["monto"] = df["monto"].fillna(df["monto"].mean())  # Rellenar monto con promedio
df["nombre"] = df["nombre"].fillna("Desconocido")

#5. Eliminar duplicados y filas completamente vac√≠as
df.dropna(how="all", inplace=True)
df.drop_duplicates(inplace=True)

# 6. Formatear fechas (asegurar formato YYYY-MM-DD)
df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], errors='coerce').dt.strftime("%Y-%m-%d")

# 7. Validar tipos de datos
df["edad"] = df["edad"].astype(int)
df["monto"] = df["monto"].astype(float)

# 8. Mostrar resumen despu√©s de la limpieza
print("\n Despu√©s de la limpieza:")
print(df.isnull().sum())

#9.  Guardar el nuevo archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\n Archivo limpio guardado en: {output_file}")

üîç Valores nulos antes de la limpieza:
id_paciente         0
nombre              0
edad              130
sexo              981
Distrito            0
servicio          593
fecha_atencion    163
monto             154
dtype: int64

 Despu√©s de la limpieza:
id_paciente         0
nombre              0
edad                0
sexo              981
Distrito            0
servicio          593
fecha_atencion      0
monto               0
dtype: int64

 Archivo limpio guardado en: c:\Users\MilderGonzalez\documents\SaludDigitalA_2025\scripts\..\database\pacientes_clean.csv
