In [2]:
# 4_proceso_etl.py
import pandas as pd
from pathlib import Path
from dateutil import parser
import numpy as np

# 1Ô∏è‚É£ Definir rutas
data_path = Path.cwd().parent / "data"
database_path = Path.cwd().parent / "database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

# 2Ô∏è‚É£ Leer el archivo CSV original
df = pd.read_csv(input_file)

# 3Ô∏è‚É£ Mostrar cantidad de valores nulos antes de la limpieza
print("üîç Valores nulos antes de la limpieza:")
print(df.isnull().sum())
print(f"\nTotal de registros originales: {len(df)}")

# 4Ô∏è‚É£ Reemplazar valores nulos o 'NA' en columnas clave
df.replace(["NA", "N/A", ""], [np.nan, np.nan, np.nan], inplace=True)

# Rellenar valores vac√≠os
df["distrito"] = df["distrito"].fillna("Desconocido")
df["servicio"] = df["servicio"].fillna("Desconocido")
df["sexo"] = df["sexo"].fillna("ND")

# 5Ô∏è‚É£ Formatear fechas (intenta convertir distintos formatos)
def convertir_fecha(valor):
    try:
        return parser.parse(str(valor), dayfirst=False).strftime("%Y-%m-%d")
    except Exception:
        try:
            return parser.parse(str(valor), dayfirst=True).strftime("%Y-%m-%d")
        except Exception:
            return None

df["fecha_atencion"] = df["fecha_atencion"].apply(convertir_fecha)
df.dropna(subset=["fecha_atencion"], inplace=True)

# 6Ô∏è‚É£ Convertir tipos de datos num√©ricos y limpiar inconsistencias
df["edad"] = pd.to_numeric(df["edad"], errors="coerce")
df.loc[(df["edad"] < 0) | (df["edad"] > 120), "edad"] = np.nan

df["monto"] = pd.to_numeric(df["monto"], errors="coerce")

# 7Ô∏è‚É£ Eliminar filas completamente vac√≠as o duplicadas
df.dropna(how="all", inplace=True)
df.drop_duplicates(inplace=True)

# 8Ô∏è‚É£ Mostrar resumen despu√©s de la limpieza
print("\n‚úÖ Despu√©s de la limpieza:")
print(df.isnull().sum())
print(f"\nTotal de registros limpios: {len(df)}")

# 9Ô∏è‚É£ Guardar el nuevo archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")
print(f"\nüìÅ Archivo limpio guardado en: {output_file}")


üîç Valores nulos antes de la limpieza:
id_paciente         0
nombre              0
edad               95
sexo              247
distrito          110
servicio          145
fecha_atencion      0
monto             116
dtype: int64

Total de registros originales: 1000

‚úÖ Despu√©s de la limpieza:
id_paciente         0
nombre              0
edad               95
sexo                0
distrito            0
servicio            0
fecha_atencion      0
monto             116
dtype: int64

Total de registros limpios: 1000

üìÅ Archivo limpio guardado en: e:\SaludDigitalBD_E1\database\pacientes_clean.csv
