**texto en negrita**# **Ejercicio pr√°ctico: Limpieza y transformaci√≥n de un dataset biosanitario**  

## **Tema 3: Aplicaci√≥n de aspectos avanzados de procesamiento de datos en Python**  

### **Objetivo pr√°ctico**  
Aplicar t√©cnicas de limpieza y preprocesamiento de datos para preparar un conjunto de datos para su an√°lisis.  

## **Descripci√≥n**  
En este ejercicio, vais a trabajar con un conjunto de datos sint√©ticos biosanitarios contenido en un √∫nico archivo CSV titulado **`pacientes_sintetico.csv`**.  

Este dataset simula registros de pacientes con columnas como:  
- **Edad**  
- **Presi√≥n arterial**  
- **Niveles de colesterol**  
- **Frecuencia card√≠aca m√°xima**  

El archivo ha sido dise√±ado para incluir **imperfecciones comunes**:  
- **Valores nulos**  
- **Duplicados**  
- **Columnas num√©ricas que necesitan normalizaci√≥n**  

### **Actividades a realizar**  
Vuestra tarea consiste en usar este archivo CSV y realizar las siguientes actividades utilizando **Python** y bibliotecas como **pandas, numpy y sklearn**:  

#### 1Ô∏è‚É£ **Imputar valores nulos**  
- Identificad las columnas con valores faltantes (por ejemplo, **"colesterol"** o **"presi√≥n arterial"**) y rellenadlos utilizando:  
  - **Promedio** ‚Üí Para datos continuos  
  - **Mediana** ‚Üí Para datos con distribuciones no uniformes  

#### 2Ô∏è‚É£ **Eliminar duplicados**  
- Buscad y eliminad cualquier **fila duplicada** en el dataset para asegurar que cada paciente est√© representado una sola vez.  

#### 3Ô∏è‚É£ **Normalizar una columna num√©rica**  
- Elegid una columna num√©rica del CSV (como **"edad"** o **"colesterol"**) y aplicad la t√©cnica de **min-max scaling** para escalar sus valores al rango **[0, 1]**.  

## **Instrucciones**  
- üìÇ Usad el archivo **`pacientes_sintetico.csv`** que se os proporcionar√° (o generadlo con el c√≥digo de ejemplo que se incluye m√°s abajo).  
- üêç Cargad el archivo en **Python**, limpiadlo y transformadlo.  
- üìù Documentad vuestros pasos en el c√≥digo con **comentarios** que expliquen **qu√© hac√©is y por qu√©**.  

## **Entregable**  
üîπ **Un script de Python** con el c√≥digo completo que realice las tres tareas a partir del archivo CSV.  
üîπ **Un resumen breve** (puede ser en comentarios en el c√≥digo) donde indiqu√©is:  
   - üè∑Ô∏è **Qu√© columnas ten√≠an valores nulos** y c√≥mo las tratasteis.  
   - üîÑ **Cu√°ntos duplicados eliminasteis**.  
   - üìä **Qu√© significa un valor normalizado** (por ejemplo, **0 o 1**) en la columna que elegisteis.  

## **Contexto**  
üìå Imaginad que sois **analistas de datos en un hospital** preparando un archivo CSV con informaci√≥n cl√≠nica simulada para un **estudio piloto sobre factores de riesgo cardiovascular**.  

‚úÖ **La calidad de los datos es clave** para obtener resultados fiables, ¬°as√≠ que aseguraos de que el dataset est√© bien limpio y listo para el an√°lisis!  


In [2]:
# Importar las biblotecas
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

In [3]:
# Paso 1: cargar archivo csv
df = pd.read_csv('pacientes_sintetico.csv')
print('Imprimir el dataset')
print(df.shape)

Imprimir el dataset
(5050, 5)


In [4]:
# Exploraci√≥n inicial: revisamos las primeras filas
print('\nImprimir las primeras filas')
print(df.head())
print('\nInformaci√≥n del dataset')
df.info()
print('\nImprimir la estadisticas descriptiva')
df.describe()


Imprimir las primeras filas
   id_paciente  edad  presion_arterial  colesterol  frec_cardiaca_max
0            1    56              74.7       245.5                106
1            2    69             122.8       216.0                 64
2            3    46             147.0       212.4                121
3            4    32               NaN       154.9                143
4            5    60             123.1       153.7                192

Informaci√≥n del dataset
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5050 entries, 0 to 5049
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id_paciente        5050 non-null   int64  
 1   edad               5050 non-null   int64  
 2   presion_arterial   4578 non-null   float64
 3   colesterol         4577 non-null   float64
 4   frec_cardiaca_max  5050 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 197.4 KB

Imprimir la estadisticas descr

Unnamed: 0,id_paciente,edad,presion_arterial,colesterol,frec_cardiaca_max
count,5050.0,5050.0,4578.0,4577.0,5050.0
mean,2502.759406,48.739604,119.533443,199.524055,129.802178
std,1444.776986,17.912767,15.155113,40.334454,40.413782
min,1.0,18.0,72.3,43.1,60.0
25%,1252.25,34.0,109.3,172.9,95.0
50%,2504.5,49.0,119.5,199.3,130.0
75%,3754.75,64.0,129.8,226.1,165.0
max,5000.0,79.0,178.9,335.1,199.0


In [5]:
# Imputar los vaores nulos
print('\nValores nulos por columnas')
print(df.isnull().sum())

# Imputamos los valores nulos del colesterol con el promedio
colesterol_mean = df['colesterol'].mean()
df.fillna({'colesterol': colesterol_mean}, inplace=True)
print('\nValores nulos del colesterol imputados con el promedio', colesterol_mean)

# Imputamos los valores nulos de la presi√≥n arterial con el promedio
"""
Comentario de varias
l√≠neas de c√≥digo
"""
presion_arterial_mean = df['presion_arterial'].mean()
df.fillna({'presion_arterial': presion_arterial_mean}, inplace=True)
print('\nValores nulos del colesterol imputados con el promedio', presion_arterial_mean)

print('\nValores nulos despu√©s de imputaci√≥n')
print(df.isnull().sum())



Valores nulos por columnas
id_paciente            0
edad                   0
presion_arterial     472
colesterol           473
frec_cardiaca_max      0
dtype: int64

Valores nulos del colesterol imputados con el promedio 199.52405505789815

Valores nulos del colesterol imputados con el promedio 119.53344255133248

Valores nulos despu√©s de imputaci√≥n
id_paciente          0
edad                 0
presion_arterial     0
colesterol           0
frec_cardiaca_max    0
dtype: int64


In [6]:
# Eliminar los duplicados
duplicados = df.duplicated().sum()
print('\n N√∫mero de filas duplicadas antes de eliminarlas')
print(duplicados)

df.drop_duplicates(inplace=True)
duplicados2 = df.duplicated().sum()
print('\n N√∫mero de filas duplicadas despu√©s de eliminarlas')
print(duplicados2)


 N√∫mero de filas duplicadas antes de eliminarlas
50

 N√∫mero de filas duplicadas despu√©s de eliminarlas
0


In [7]:
# Normalizar una columna num√©rica
scaler = MinMaxScaler()
df['colesterol_normalizado'] = scaler.fit_transform(df[['colesterol']])
print('Mostramos las primeras filas para verificar la normalizaci√≥n')
print(df[['colesterol', 'colesterol_normalizado']].head())

# Estadistica despu√©s de la normalizaci√≥n para confirmar el rango
print('Estadistica del Colesterol Normalizado')
print(df['colesterol_normalizado'].describe())

Mostramos las primeras filas para verificar la normalizaci√≥n
   colesterol  colesterol_normalizado
0       245.5                0.693151
1       216.0                0.592123
2       212.4                0.579795
3       154.9                0.382877
4       153.7                0.378767
Estadistica del Colesterol Normalizado
count    5000.000000
mean        0.535605
std         0.131328
min         0.000000
25%         0.455822
50%         0.535699
75%         0.617466
max         1.000000
Name: colesterol_normalizado, dtype: float64


In [8]:
# Resumen final
print('\Resumen del procesamiento')
print(f"- Columnas con valores nulos tratadas: 'colesterol' (promedio) y 'presion_arterial'(mediana)")
print(f"- Columnas duplicadas eliminadas: {duplicados}")
print(f"- Columna 'colesterol' normalizada al rango [0,1]")

print('\nDataset limpio y transformado. Dimensiones finales', df.shape)




\Resumen del procesamiento
- Columnas con valores nulos tratadas: 'colesterol' (promedio) y 'presion_arterial'(mediana)
- Columnas duplicadas eliminadas: 50
- Columna 'colesterol' normalizada al rango [0,1]

Dataset limpio y transformado. Dimensiones finales (5000, 6)


  print('\Resumen del procesamiento')
