# Fase 4 – ETL (Limpieza de Datos)

En esta fase se realiza el **proceso ETL (Extract, Transform, Load)** sobre el archivo `pacientes.csv`.  
Se aplican las siguientes transformaciones:

- Eliminar registros duplicados  
- Rellenar valores nulos o vacíos en campos clave  
- Formatear las fechas  
- Validar tipos de datos (edad y monto numéricos)  
- Guardar el resultado limpio como `pacientes_clean.csv` dentro de la carpeta `database/`

In [None]:
# ==========================================
# FASE 4 – ETL (Limpieza de Datos)
# ==========================================

import pandas as pd
from pathlib import Path
import numpy as np

# 1️⃣ Definir rutas
data_path = Path.cwd() / "../data"
database_path = Path.cwd() / "../database"
database_path.mkdir(parents=True, exist_ok=True)

input_file = data_path / "pacientes.csv"
output_file = database_path / "pacientes_clean.csv"

# Leer el archivo CSV original
df = pd.read_csv(input_file, encoding="utf-8")

print("Archivo leído correctamente:")
print(f"Total de registros: {len(df)}\n")

# Mostrar valores nulos o 'NA' antes de la limpieza
print("Valores nulos antes de la limpieza:")
print(df.isnull().sum(), "\n")
print("Conteo de valores 'NA' explícitos:")
print((df == "NA").sum(), "\n")

# Reemplazar 'NA', vacíos y None por NaN de Pandas
df.replace(["NA", "na", "", "None", "none"], np.nan, inplace=True)

# Eliminar duplicados
df.drop_duplicates(inplace=True)

# Rellenar valores nulos en columnas clave
df["sexo"].fillna("No especificado", inplace=True)
df["distrito"].fillna("Desconocido", inplace=True)
df["servicio"].fillna("Consulta General", inplace=True)

# Formatear fechas (asegurar formato YYYY-MM-DD)
df["fecha_atencion"] = pd.to_datetime(df["fecha_atencion"], errors="coerce").dt.strftime("%Y-%m-%d")

# Validar tipos de datos: convertir edad y monto a numéricos
df["edad"] = pd.to_numeric(df["edad"], errors="coerce").fillna(df["edad"].median())
df["monto"] = pd.to_numeric(df["monto"], errors="coerce").fillna(0)

# Mostrar resumen después de la limpieza
print("Después de la limpieza:")
print(df.info(), "\n")

# Guardar archivo limpio
df.to_csv(output_file, index=False, encoding="utf-8")

print(f"Archivo limpio guardado correctamente en: {output_file}")
print(f"Total de registros finales: {len(df)}")


📄 Archivo leído correctamente:
Total de registros: 3000

🔍 Valores nulos antes de la limpieza:
id_paciente          0
nombre               0
edad                82
sexo              1785
distrito             0
servicio             0
fecha_atencion       0
monto             1768
dtype: int64 

🔍 Conteo de valores 'NA' explícitos:
id_paciente       0
nombre            0
edad              0
sexo              0
distrito          0
servicio          0
fecha_atencion    0
monto             0
dtype: int64 

✅ Después de la limpieza:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_paciente     3000 non-null   object 
 1   nombre          3000 non-null   object 
 2   edad            3000 non-null   float64
 3   sexo            3000 non-null   object 
 4   distrito        3000 non-null   object 
 5   servicio        3000 non-null   object 
 6

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["sexo"].fillna("No especificado", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["distrito"].fillna("Desconocido", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are settin