In [1]:
import pandas as pd
from pathlib import Path

# Rutas
data_path = Path.cwd().parent / "data"
database_path = Path.cwd().parent / "database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

# Leer archivo CSV
df = pd.read_csv(input_file)

print("✅ Archivo cargado correctamente")
print("📌 Registros iniciales:", len(df))

# Limpieza de datos
# Reemplazar NA o vacío
df.replace(["NA", "na", ""], pd.NA, inplace=True)

# Llenar valores nulos
df["sexo"].fillna("No especificado", inplace=True)
df["distrito"].fillna("No registrado", inplace=True)
df["servicio"].fillna("No asignado", inplace=True)
df["edad"].fillna(df["edad"].median(), inplace=True)  # rellenamos con mediana
df["monto"].fillna(df["monto"].mean(), inplace=True)

# Convertir tipos de datos
df["edad"] = df["edad"].astype(int)
df["monto"] = df["monto"].astype(float)

# Formato de fechas
df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], errors='coerce')

# Eliminar duplicados
df.drop_duplicates(inplace=True)

# Eliminar registros sin fecha válida
df.dropna(subset=["fecha_atencion"], inplace=True)

# Guardar archivo limpio
df.to_csv(output_file, index=False)
print("✅ Archivo limpio guardado como:", output_file)
print("📌 Registros finales:", len(df))


✅ Archivo cargado correctamente
📌 Registros iniciales: 3000
✅ Archivo limpio guardado como: c:\Users\51935\documents\SaludDigital_2025\database\pacientes_clean.csv
📌 Registros finales: 3000


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["sexo"].fillna("No especificado", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["distrito"].fillna("No registrado", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are sett