### Ejercicio práctico: Limpieza y transformación de un dataset biosanitario


Tema 3: Aplicación de aspectos avanzados de procesamiento de datos en Python

- Objetivo práctico: Aplicar técnicas de limpieza y preprocesamiento de datos para preparar un conjunto de datos para su análisis.

### Descripción

- En este ejercicio, vais a trabajar con un conjunto de datos sintéticos
biosanitarios contenido en un único archivo CSV titulado
pacientes_sintetico.csv. Este dataset simula registros de pacientes con
columnas como edad, presión arterial, niveles de colesterol y frecuencia
cardíaca máxima. El archivo ha sido diseñado para incluir imperfecciones
comunes: valores nulos, duplicados y columnas numéricas que necesitan
normalización.

### Vuestra tarea consiste en usar este archivo CSV y realizar las siguientes actividades utilizando Python y bibliotecas como pandas, numpy y sklearn:


In [7]:
# Importar pandas, numoy, sklearn
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler 
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
import seaborn as sns

In [14]:
ruta = 'pacientes_sintetico.csv'
data = pd.read_csv(ruta)

1. Imputar valores nulos:
Identificad las columnas con valores faltantes (por ejemplo,
"colesterol" o "presión arterial") y rellenadlos utilizando el promedio
(para datos continuos) o la mediana (para datos con distribuciones no
uniformes).

In [15]:
# Identificar columnas con valores nulos
columnas_nulas = data.columns[data.isnull().any()]
print(f'\nEstas son las columnas nulas: {columnas_nulas}')

# Función para imputar valores nulos
def imputar_valores_nulos(data):
    for columna in columnas_nulas:
        if data[columna].dtype in ['float64', 'int64']:
            media = data[columna].mean()
            data[columna] = data[columna].fillna(media)
        else:  # Para datos categóricos
            moda = data[columna].mode()[0]
            data[columna] = data[columna].fillna(moda)
    return data

# Imputar valores nulos
data = imputar_valores_nulos(data)

print("Valores nulos después de la imputación:")
print(data.isnull().sum())


Estas son las columnas nulas: Index(['presion_arterial', 'colesterol'], dtype='object')
Valores nulos después de la imputación:
id_paciente          0
edad                 0
presion_arterial     0
colesterol           0
frec_cardiaca_max    0
dtype: int64


2. Eliminar duplicados:
Buscad y eliminad cualquier fila duplicada en el dataset para asegurar
que cada paciente esté representado una sola vez.


In [16]:
data_sin_duplicados = data.drop_duplicates()

3. Normalizar una columna numérica:
Elegid una columna numérica del CSV (como "edad" o "colesterol") y
aplicad la técnica de min-max scaling para escalar sus valores al rango
[0, 1].


In [18]:
columna_a_normalizar = 'edad'  # Cambia esto por la columna que desees
# Aplicar min-max scaling
min_val = data[columna_a_normalizar].min()
max_val = data[columna_a_normalizar].max()
# Normalizar los valores
data[columna_a_normalizar] = (data[columna_a_normalizar] - min_val) / (max_val - min_val)
# Mostrar el DataFrame con la columna normalizada
print(data.head())

# Guardar el DataFrame con la columna normalizada
ruta_normalizado = 'pacientes_normalizado.csv'
data.to_csv(ruta_normalizado, index=False)

   id_paciente      edad  presion_arterial  colesterol  frec_cardiaca_max
0            1  0.622951         74.700000       245.5                106
1            2  0.836066        122.800000       216.0                 64
2            3  0.459016        147.000000       212.4                121
3            4  0.229508        119.533443       154.9                143
4            5  0.688525        123.100000       153.7                192


### Instrucciones

- Usad el archivo pacientes_sintetico.csv que se os proporcionará (o
generadlo con el código de ejemplo que se incluye más abajo).
- Cargad el archivo en Python, limpiadlo y transformadlo.
- Documentad vuestros pasos en el código con comentarios que expliquen qué
hacéis y por qué.

### Entregable

- Un script de Python con el código completo que realice las tres tareas a
partir del archivo CSV.
- Un resumen breve (puede ser en comentarios en el código) donde
indiquéis:
    - Qué columnas tenían valores nulos y cómo las tratasteis.
    - Cuántos duplicados eliminasteis.
    - Qué significa un valor normalizado (por ejemplo, 0 o 1) en la columna que elegisteis.



### Contexto

Imaginad que sois analistas de datos en un hospital preparando un archivo CSV
con información clínica simulada para un estudio piloto sobre factores de
riesgo cardiovascular. La calidad de los datos es clave para obtener
resultados fiables, ¡así que aseguraos de que el dataset esté bien limpio y
listo para el análisis!