In [None]:
# scripts/4_Proceso_ETL.ipynb

import pandas as pd
from pathlib import Path

# Definir rutas
input_file = Path.cwd().parent / "data" / "pacientes.csv"
output_file = Path.cwd().parent / "database" / "pacientes_clean.csv"

# Leer el CSV
df = pd.read_csv(input_file)

print("Datos antes de la limpieza:")
print(df.info())
print("\nValores nulos antes:")
print(df.isnull().sum())

# 1. Eliminar duplicados
df.drop_duplicates(inplace=True)

# 2. Rellenar valores nulos (NA y None)
# Para 'sexo', usamos 'No especificado'
df['sexo'].fillna('No especificado', inplace=True)
df['sexo'] = df['sexo'].replace('NA', 'No especificado')
# Para 'servicio', usamos 'Consulta General'
df['servicio'].fillna('Consulta General', inplace=True)
df['servicio'] = df['servicio'].replace('NA', 'Consulta General')

# 3. Formatear fechas (si es necesario)
df['fecha_atencion'] = pd.to_datetime(df['fecha_atencion'])

# 4. Validar tipos de datos
df['edad'] = df['edad'].astype(int)
df['monto'] = df['monto'].astype(float)

print("\nDatos después de la limpieza:")
print(df.info())
print("\nValores nulos después:")
print(df.isnull().sum())

# 5. Guardar el archivo limpio
df.to_csv(output_file, index=False, encoding='utf-8')

print(f"\nArchivo limpio guardado en: {output_file}")