In [None]:
import pandas as pd
from pathlib import Path
import os

base_dir = Path().resolve().parent  
data_dir = base_dir / "data"
database_dir = base_dir / "database"
os.makedirs(database_dir, exist_ok=True)

archivo_entrada = data_dir / "pacientes.csv"
archivo_salida = database_dir / "pacientes_clean.csv"

df = pd.read_csv(archivo_entrada)
print(f"Registros originales: {len(df)}")

df = df.drop_duplicates(subset=["id_paciente"])
print(f"Registros tras eliminar duplicados: {len(df)}")

campos_texto = ["sexo", "distrito", "servicio"]
for campo in campos_texto:
    df[campo] = df[campo].replace(["NA", " ", "", None], pd.NA)
    df[campo] = df[campo].fillna("Desconocido")

df["edad"] = pd.to_numeric(df["edad"], errors="coerce")
df["edad"] = df["edad"].fillna(df["edad"].median())

df["monto"] = pd.to_numeric(df["monto"], errors="coerce")
df["monto"] = df["monto"].fillna(df["monto"].mean())

df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], errors="coerce")
df["fecha_atencion"] = df["fecha_atencion"].dt.strftime("%Y-%m-%d")

print("\nTipos de datos después de limpieza:")
print(df.dtypes)

df.to_csv(archivo_salida, index=False, encoding="utf-8")
print(f"\nArchivo limpio guardado como: {archivo_salida}")
print(f"Total de registros limpios: {len(df)}")


Registros originales: 3002
Registros tras eliminar duplicados: 3002

📋 Tipos de datos después de limpieza:
id_paciente        object
nombre             object
edad              float64
sexo               object
distrito           object
servicio           object
fecha_atencion     object
monto             float64
dtype: object

✅ Archivo limpio guardado como: C:\Users\steve\Documents\CentroMedico_2025A\database\pacientes_clean.csv
Total de registros limpios: 3002
