## **Ejercicio práctico: Limpieza y transformación de un dataset biosanitario**  

#### **Tema 3: Aplicación de aspectos avanzados de procesamiento de datos en Python**  

### **Objetivo práctico**  
Aplicar técnicas de limpieza y preprocesamiento de datos para preparar un conjunto de datos para su análisis.  

### **Descripción**  
En este ejercicio, vais a trabajar con un conjunto de datos sintéticos biosanitarios contenido en un único archivo CSV titulado **`pacientes_sintetico.csv`**.  

Este dataset simula registros de pacientes con columnas como:  
- **Edad**  
- **Presión arterial**  
- **Niveles de colesterol**  
- **Frecuencia cardíaca máxima**  

El archivo ha sido diseñado para incluir **imperfecciones comunes**:  
- **Valores nulos**  
- **Duplicados**  
- **Columnas numéricas que necesitan normalización**  

### **Actividades a realizar**  
Vuestra tarea consiste en usar este archivo CSV y realizar las siguientes actividades utilizando **Python** y bibliotecas como **pandas, numpy y sklearn**:  

#### 1️⃣ **Imputar valores nulos**  
- Identificad las columnas con valores faltantes (por ejemplo, **"colesterol"** o **"presión arterial"**) y rellenadlos utilizando:  
  - **Promedio** → Para datos continuos  
  - **Mediana** → Para datos con distribuciones no uniformes  

#### 2️⃣ **Eliminar duplicados**  
- Buscad y eliminad cualquier **fila duplicada** en el dataset para asegurar que cada paciente esté representado una sola vez.  

#### 3️⃣ **Normalizar una columna numérica**  
- Elegid una columna numérica del CSV (como **"edad"** o **"colesterol"**) y aplicad la técnica de **min-max scaling** para escalar sus valores al rango **[0, 1]**.  

## **Instrucciones**  
- 📂 Usad el archivo **`pacientes_sintetico.csv`** que se os proporcionará (o generadlo con el código de ejemplo que se incluye más abajo).  
- 🐍 Cargad el archivo en **Python**, limpiadlo y transformadlo.  
- 📝 Documentad vuestros pasos en el código con **comentarios** que expliquen **qué hacéis y por qué**.  

## **Entregable**  
🔹 **Un script de Python** con el código completo que realice las tres tareas a partir del archivo CSV.  
🔹 **Un resumen breve** (puede ser en comentarios en el código) donde indiquéis:  
   - 🏷️ **Qué columnas tenían valores nulos** y cómo las tratasteis.  
   - 🔄 **Cuántos duplicados eliminasteis**.  
   - 📊 **Qué significa un valor normalizado** (por ejemplo, **0 o 1**) en la columna que elegisteis.  

## **Contexto**  
📌 Imaginad que sois **analistas de datos en un hospital** preparando un archivo CSV con información clínica simulada para un **estudio piloto sobre factores de riesgo cardiovascular**.  

✅ **La calidad de los datos es clave** para obtener resultados fiables, ¡así que aseguraos de que el dataset esté bien limpio y listo para el análisis!  


In [None]:
# Importar las biblotecas
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

In [None]:
# Paso 1: cargar archivo csv
df = pd.read_csv('pacientes_sintetico.csv')
print('Imprimir el dataset')
print(df.shape)

Imprimir el dataset
(5050, 5)


In [None]:
# Exploración inicial: revisamos las primeras filas
print('\nImprimir las primeras filas')
print(df.head())
print('\nInformación del dataset')
df.info()
print('\nImprimir la estadisticas descriptiva')
df.describe()


Imprimir las primeras filas
   id_paciente  edad  presion_arterial  colesterol  frec_cardiaca_max
0            1    56              74.7       245.5                106
1            2    69             122.8       216.0                 64
2            3    46             147.0       212.4                121
3            4    32               NaN       154.9                143
4            5    60             123.1       153.7                192

Información del dataset
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5050 entries, 0 to 5049
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id_paciente        5050 non-null   int64  
 1   edad               5050 non-null   int64  
 2   presion_arterial   4578 non-null   float64
 3   colesterol         5050 non-null   float64
 4   frec_cardiaca_max  5050 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 197.4 KB

Imprimir la estadisticas descri

Unnamed: 0,id_paciente,edad,presion_arterial,colesterol,frec_cardiaca_max
count,5050.0,5050.0,4578.0,5050.0,5050.0
mean,2502.759406,48.739604,119.533443,199.524055,129.802178
std,1444.776986,17.912767,15.155113,38.398698,40.413782
min,1.0,18.0,72.3,43.1,60.0
25%,1252.25,34.0,109.3,176.3,95.0
50%,2504.5,49.0,119.5,199.524055,130.0
75%,3754.75,64.0,129.8,223.4,165.0
max,5000.0,79.0,178.9,335.1,199.0


In [None]:
# Imputar los vaores nulos
print('\nValores nulos por columnas')
print(df.isnull().sum())

# Imputamos los valores nulos del colesterol con el promedio
colesterol_mean = df['colesterol'].mean()
df.fillna({'colesterol': colesterol_mean}, inplace=True)
print('\nValores nulos del colesterol imputados con el promedio', colesterol_mean)

# Imputamos los valores nulos de la presión arterial con el promedio
"""
Comentario de varias
líneas de código
"""
presion_arterial_mean = df['presion_arterial'].mean()
df.fillna({'presion_arterial': presion_arterial_mean}, inplace=True)
print('\nValores nulos del colesterol imputados con el promedio', presion_arterial_mean)

print('\nValores nulos después de imputación')
print(df.isnull().sum())



Valores nulos por columnas
id_paciente          0
edad                 0
presion_arterial     0
colesterol           0
frec_cardiaca_max    0
dtype: int64

Valores nulos del colesterol imputados con el promedio 199.52405505789818

Valores nulos del colesterol imputados con el promedio 119.53344255133246

Valores nulos después de imputación
id_paciente          0
edad                 0
presion_arterial     0
colesterol           0
frec_cardiaca_max    0
dtype: int64
