In [5]:
import pandas as pd
from pathlib import Path

# 1️⃣ Definir rutas
data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

# 2️⃣ Leer el archivo CSV original
df = pd.read_csv(input_file)

# 3️⃣ Mostrar cantidad de valores nulos antes
print("🔍 Valores nulos antes de la limpieza:")
print(df.isnull().sum())

# 4️⃣ Reemplazar valores nulos o vacíos en columnas clave
columnas_texto = ["Nombre", "Apellido", "Sexo", "Diagnostico", "Distrito"]

for col in columnas_texto:
    if col in df.columns:
        df[col] = df[col].fillna("NO ESPECIFICADO").replace(["NA", ""], "NO ESPECIFICADO")

# 5️⃣ Limpiar y capitalizar textos (por ejemplo: "maria" → "Maria")
for col in columnas_texto:
    if col in df.columns:
        df[col] = df[col].astype(str).str.strip().str.title()

# 6️⃣ Validar y limpiar edades
if "Edad" in df.columns:
    df["Edad"] = pd.to_numeric(df["Edad"], errors="coerce")  # convierte a número
    df["Edad"] = df["Edad"].fillna(df["Edad"].median())       # reemplaza nulos con la mediana

# 7️⃣ Formatear fechas correctamente
for col in df.columns:
    if "fecha" in col.lower():
        df[col] = pd.to_datetime(df[col], errors="coerce").dt.strftime("%Y-%m-%d")

# 8️⃣ Eliminar filas duplicadas o completamente vacías
df.drop_duplicates(inplace=True)
df.dropna(how="all", inplace=True)

# 9️⃣ Mostrar resumen después de la limpieza
print("\n✅ Después de la limpieza:")
print(df.isnull().sum())

# 10️⃣ Guardar el nuevo archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\n📁 Archivo limpio guardado en: {output_file}")


🔍 Valores nulos antes de la limpieza:
Paciente_ID        0
Nombre           108
Apellido         118
Edad             668
Sexo             492
Diagnostico      207
Distrito         225
Fecha_Ingreso      0
dtype: int64

✅ Después de la limpieza:
Paciente_ID      0
Nombre           0
Apellido         0
Edad             0
Sexo             0
Diagnostico      0
Distrito         0
Fecha_Ingreso    0
dtype: int64

📁 Archivo limpio guardado en: c:\Users\Xiomara\Documents\SaludDigitalB_E1\scripts\..\database\pacientes_clean.csv


  df[col] = pd.to_datetime(df[col], errors="coerce").dt.strftime("%Y-%m-%d")
