In [1]:
import pandas as pd
from pathlib import Path

data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "base.csv"
output_file = database_path / "pacientes_clean.csv"

df = pd.read_csv(input_file)

print("Valores nulos antes de la limpieza:")
print(df.isnull().sum())

if 'servicio' in df.columns:
    df["servicio"] = df["servicio"].fillna("Consulta Externa")
    
if 'sexo' in df.columns:
    df["sexo"] = df["sexo"].fillna("M")  

if 'distrito' in df.columns:
    df["distrito"] = df["distrito"].fillna("Surco")  

if 'edad' in df.columns:
    df["edad"] = df["edad"].fillna(df["edad"].median())
    
if 'monto' in df.columns:
    df["monto"] = df["monto"].fillna(df["monto"].median())

if 'nombre' in df.columns:
    df["nombre"] = df["nombre"].fillna("Paciente No Identificado")

df.dropna(how='all', inplace=True)

df.drop_duplicates(inplace=True)

if 'edad' in df.columns:
    df["edad"] = df["edad"].clip(lower=0, upper=120) 

if 'monto' in df.columns:
    df["monto"] = df["monto"].clip(lower=0)

print("\nDespués de la limpieza:")
print(df.isnull().sum())

print("\nEstadísticas del dataset limpio:")
print(f"Total de registros: {len(df)}")
print(f"Total de columnas: {len(df.columns)}")

if 'edad' in df.columns:
    print(f"\nEstadísticas de edad:")
    print(f"Edad mínima: {df['edad'].min()} años")
    print(f"Edad máxima: {df['edad'].max()} años")
    print(f"Edad promedio: {df['edad'].mean():.1f} años")

if 'monto' in df.columns:
    print(f"\nEstadísticas de montos:")
    print(f"Monto mínimo: S/ {df['monto'].min():.2f}")
    print(f"Monto máximo: S/ {df['monto'].max():.2f}")
    print(f"Monto promedio: S/ {df['monto'].mean():.2f}")

df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\nArchivo limpio guardado en: {output_file}")
print(f"Columnas disponibles: {list(df.columns)}")

Valores nulos antes de la limpieza:
id_paciente       0
nombre            0
edad              0
sexo              0
distrito          0
servicio          0
fecha_atencion    0
monto             0
dtype: int64

Después de la limpieza:
id_paciente       0
nombre            0
edad              0
sexo              0
distrito          0
servicio          0
fecha_atencion    0
monto             0
dtype: int64

Estadísticas del dataset limpio:
Total de registros: 0
Total de columnas: 8

Estadísticas de edad:
Edad mínima: nan años
Edad máxima: nan años
Edad promedio: nan años

Estadísticas de montos:
Monto mínimo: S/ nan
Monto máximo: S/ nan
Monto promedio: S/ nan

Archivo limpio guardado en: c:\Users\andda\Documents\SaludDigitalA_E1\scripts\..\database\pacientes_clean.csv
Columnas disponibles: ['id_paciente', 'nombre', 'edad', 'sexo', 'distrito', 'servicio', 'fecha_atencion', 'monto']
