In [None]:
import pandas as pd
from pathlib import Path

# Definir rutas
data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)
input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

# Leer el archivo CSV original
df = pd.read_csv(input_file)

# Mostrar cantidad de valores nulos antes
print("Valores nulos antes de la limpieza:")
print(df.isnull().sum())

# Reemplazar valores nulos o 'NA' en columnas clave
df.replace(["NA", "na", "Na"], pd.NA, inplace=True)
df["edad"] = pd.to_numeric(df["edad"], errors="coerce")
df["edad"].fillna(df["edad"].median(), inplace=True)
df["sexo"].fillna("F", inplace=True)
df["distrito"].fillna("Desconocido", inplace=True)
df["servicio"].fillna("General", inplace=True)
df["monto"] = pd.to_numeric(df["monto"], errors="coerce")
df["monto"].fillna(df["monto"].mean(), inplace=True)
df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], errors="coerce").dt.strftime("%Y-%m-%d")

# Eliminar filas completamente vacías o duplicadas
df.dropna(how="all", inplace=True)
df.drop_duplicates(inplace=True)

# Mostrar resumen después de la limpieza
print("\n Después de la limpieza:")
print(df.isnull().sum())

# Guardar el nuevo archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\n Archivo limpio guardado en: {output_file}")

Valores nulos antes de la limpieza:
id_paciente          0
nombre               0
edad              1975
sexo              1515
distrito           883
servicio           812
fecha_atencion       0
monto             1969
dtype: int64

✅ Después de la limpieza:
id_paciente       0
nombre            0
edad              0
sexo              0
distrito          0
servicio          0
fecha_atencion    0
monto             0
dtype: int64

 Archivo limpio guardado en: c:\Users\sdfhe\documents\SaludDigitalB_E1\Scripts\..\database\pacientes_clean.csv


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["edad"].fillna(df["edad"].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["sexo"].fillna("F", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values alw