# Parte 5: Limpieza y preparación de datos

Una vez cargado el csv mediante el request anterior, realizar lo siguiente:
***

In [34]:
import pandas as pd

In [35]:
# Cargado de archivo csv como un DadaFrame pera procesarlo
df = pd.read_csv('.\\heart_failure_clinical_records_dataset.csv')
df

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.00,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.00,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.00,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.00,2.7,116,0,0,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62.0,0,61,1,38,1,155000.00,1.1,143,1,1,270,0
295,55.0,0,1820,0,38,0,270000.00,1.2,139,0,0,271,0
296,45.0,0,2060,1,60,0,742000.00,0.8,138,0,0,278,0
297,45.0,0,2413,0,38,0,140000.00,1.4,140,1,1,280,0


1. Verificar que no existan valores faltantes

In [36]:
# Verifica valores faltantes
valores_faltantes = df.isnull().sum()

# Sumar el total de valores faltantes en todas las columnas
total_valores_faltantes = valores_faltantes.sum()

# Comprobación de valores falantes
if total_valores_faltantes == 0:
    print('No hay valores faltantes en la base de datos.')
else:
    print(f'Existente {total_valores_faltantes} valores faltantes en la base de datos.')

# Visualización de base de datos, True='Valor faltante', False='No valor faltante'
df.isna()

No hay valores faltantes en la base de datos.


Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,False,False,False,False,False,False,False,False,False,False,False,False,False
295,False,False,False,False,False,False,False,False,False,False,False,False,False
296,False,False,False,False,False,False,False,False,False,False,False,False,False
297,False,False,False,False,False,False,False,False,False,False,False,False,False


2. Verifica que no existan filas repetidas

In [37]:
# Verificación de valores duplicados en la base de datos
if df.duplicated().any():
    print('Existe valores faltantes en la base de datos')
else:
    print('No existe valores falantes en la base de datos.')

# Visualización de base de datos, True='Valor duplicados', False='No valor duplicados'
df.duplicated()

No existe valores falantes en la base de datos.


0      False
1      False
2      False
3      False
4      False
       ...  
294    False
295    False
296    False
297    False
298    False
Length: 299, dtype: bool

3. Verifica si existe valores atípicos y eliminados

In [38]:
# Metodo de comparacion intercuartil para detectar valores atípicos
# Calcular el rango intercuartílico para cada columna numérica
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

# Filtrar filas que no sean valores atípicos
df_normalizada = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)].copy()

# Mostrar las filas eliminadas
filas_eliminadas = df.shape[0] - df_normalizada.shape[0]
print(f'Se eliminaron {filas_eliminadas} filas con valores atípicos.')

# Nueva base de datos con falores atípicos eliminados
df_normalizada

Se eliminaron 75 filas con valores atípicos.


Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.0,1.9,130,1,0,4,1
2,65.0,0,146,0,20,0,162000.0,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.0,1.9,137,1,0,7,1
5,90.0,1,47,0,40,1,204000.0,2.1,132,1,1,8,1
6,75.0,1,246,0,15,0,127000.0,1.2,137,1,0,10,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
291,60.0,0,320,0,35,0,133000.0,1.4,139,1,0,258,0
292,52.0,0,190,1,38,0,382000.0,1.0,140,1,1,258,0
293,63.0,1,103,1,35,0,179000.0,0.9,136,1,1,270,0
294,62.0,0,61,1,38,1,155000.0,1.1,143,1,1,270,0


4. Crear una columna que categorice por edades
    * 0-12: Niño
    * 13-19: Adolescente
    * 20-39: Jóvenes adulto
    * 40-59: Adulto
    * 60-...: Adulto mayor

In [39]:
# Definición de parámetros para nueva columna
rango = [0, 12, 19, 39, 59, float('inf')]
categoria = ['Niño', 'Adolescente', 'Joven adulto', 'Adulto', 'Adulto mayor']

# Creación de nueva columna basada en los rangos definidos
df_normalizada['categoria_edad'] = pd.cut(df_normalizada['age'], bins=rango, labels=categoria, right=False)

# Visualización de base de datos normalizada
df_normalizada

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT,categoria_edad
0,75.0,0,582,0,20,1,265000.0,1.9,130,1,0,4,1,Adulto mayor
2,65.0,0,146,0,20,0,162000.0,1.3,129,1,1,7,1,Adulto mayor
3,50.0,1,111,0,20,0,210000.0,1.9,137,1,0,7,1,Adulto
5,90.0,1,47,0,40,1,204000.0,2.1,132,1,1,8,1,Adulto mayor
6,75.0,1,246,0,15,0,127000.0,1.2,137,1,0,10,1,Adulto mayor
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
291,60.0,0,320,0,35,0,133000.0,1.4,139,1,0,258,0,Adulto mayor
292,52.0,0,190,1,38,0,382000.0,1.0,140,1,1,258,0,Adulto
293,63.0,1,103,1,35,0,179000.0,0.9,136,1,1,270,0,Adulto mayor
294,62.0,0,61,1,38,1,155000.0,1.1,143,1,1,270,0,Adulto mayor


5. Guardar el resultado como csv

In [40]:
# Guardar la base de datos normalizada con la nueva columna de categoria de edades
df_normalizada.to_csv('db_normalizada.csv', index=False)