In [46]:
# Limpieza de datos de pacientes
import os
import pandas as pd

## 1. Configuración de rutas

In [47]:
# Configuración de rutas
DATA_DIR = "data"  # sin barra al inicio
CSV_FILE = os.path.join(DATA_DIR, "datos_salud.csv")

## 2. Carga de datos

In [48]:
# Cargar el CSV
df = pd.read_csv(CSV_FILE)

In [49]:
# Ver las primeras filas
df.head()

Unnamed: 0,paciente_id,timestamp,ritmo_cardiaco,spo2,temperatura,frecuencia_respiratoria,presion_sistolica,presion_diastolica,actividad,pasos,estado_animo
0,1,2025-05-27T14:16:29.012514,71,95.8,36.2,12,114,70,moderado,106,feliz
1,2,2025-05-27T14:16:29.020687,100,96.3,36.2,20,120,73,intenso,117,feliz
2,3,2025-05-27T14:16:29.029203,90,96.0,37.3,15,121,66,intenso,50,feliz
3,4,2025-05-27T14:16:29.037006,75,96.5,37.4,19,115,68,reposo,195,feliz
4,5,2025-05-27T14:16:29.043889,93,99.1,37.2,14,107,75,reposo,109,cansado


## 3. Eliminar duplicados

Primero visualizamos si hay valores nulos

Eliminamos los posibles valores duplicados que se hayan podido generar

In [50]:
df.drop_duplicates(inplace=True)

## 4. Eliminar valores nulos

Para visualizar cuántos nulos hay antes de eliminarlos

In [51]:
df.isnull().sum() 

paciente_id                0
timestamp                  0
ritmo_cardiaco             0
spo2                       0
temperatura                0
frecuencia_respiratoria    0
presion_sistolica          0
presion_diastolica         0
actividad                  0
pasos                      0
estado_animo               0
dtype: int64

Borramos los valores nulos que se han generado en caso de haberlos

In [52]:
df.dropna(inplace=True)

## 5. Convertir la columna de fecha a tipo datetime

In [53]:
df["timestamp"] = pd.to_datetime(df["timestamp"])

## 6. Asegurar tipos numéricos en columnas clave

In [54]:
numerical_fields = [
    "ritmo_cardiaco", "spo2", "temperatura", "frecuencia_respiratoria",
    "presion_sistolica", "presion_diastolica", "pasos"
]

df[numerical_fields] = df[numerical_fields].apply(pd.to_numeric, errors='coerce')

## 7. Filtrar valores extremos (outliers)

In [55]:
df = df[df["ritmo_cardiaco"].between(20, 250)]
df = df[df["spo2"].between(50, 150)]
df = df[df["temperatura"].between(20, 50)]
df = df[df["frecuencia_respiratoria"].between(2, 45)]
df = df[df["presion_sistolica"].between(50, 220)]
df = df[df["presion_diastolica"].between(30, 140)]
df = df[df["pasos"] >= 0]

## 8. Guardar el DataFrame limpio en un nuevo archivo CSV

In [56]:
df.to_csv(os.path.join(DATA_DIR, "datos_salud_limpios.csv"), index=False)