In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv("../data/Metabolic_Syndrome_raw.csv")
df.sample(5)

Unnamed: 0,seqn,Age,Sex,Marital,Income,Race,WaistCirc,BMI,Albuminuria,UrAlbCr,UricAcid,BloodGlucose,HDL,Triglycerides,MetabolicSyndrome
2304,71497,71,Female,Divorced,800.0,White,107.2,29.3,1,167.74,5.1,88,54,78,0
2364,71785,64,Male,Divorced,,Black,102.1,28.4,0,6.06,6.0,100,43,70,1
2323,71605,38,Female,,2000.0,White,86.2,26.4,0,3.37,5.5,85,47,144,0
35,62291,56,Male,Married,8200.0,Other,104.5,29.9,0,5.57,4.6,103,43,54,0
1996,70264,23,Female,Single,,Asian,72.0,18.7,0,6.11,4.0,93,71,47,0


In [3]:
# Vemos la información general del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2401 entries, 0 to 2400
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   seqn               2401 non-null   int64  
 1   Age                2401 non-null   int64  
 2   Sex                2401 non-null   object 
 3   Marital            2193 non-null   object 
 4   Income             2284 non-null   float64
 5   Race               2401 non-null   object 
 6   WaistCirc          2316 non-null   float64
 7   BMI                2375 non-null   float64
 8   Albuminuria        2401 non-null   int64  
 9   UrAlbCr            2401 non-null   float64
 10  UricAcid           2401 non-null   float64
 11  BloodGlucose       2401 non-null   int64  
 12  HDL                2401 non-null   int64  
 13  Triglycerides      2401 non-null   int64  
 14  MetabolicSyndrome  2401 non-null   int64  
dtypes: float64(5), int64(7), object(3)
memory usage: 281.5+ KB


In [4]:
# Obtenemos los valores de las columnas tipo string, para traducirlos al español más adelante:
df.Sex.value_counts()

Sex
Female    1211
Male      1190
Name: count, dtype: int64

In [5]:
df.Marital.value_counts()

Marital
Married      1192
Single        498
Divorced      242
Widowed       166
Separated      95
Name: count, dtype: int64

In [6]:
df.Race.value_counts()

Race
White          933
Black          548
Asian          349
Hispanic       257
MexAmerican    253
Other           61
Name: count, dtype: int64

In [7]:
# Traducimos todas las columnas al español:
columnas_español = ["Id", "Edad", "Sexo", "EstadoCivil", "Ingresos", "Etnia", "CircunferenciaCintura", "IMC", "Albuminuria", "CACu", "AcidoUrico", "GlucosaSangre", "HDL", "Trigliceridos", "SindromeMetabolico"]
df.columns = columnas_español

# Traducimos todos las columnas con valores string:
df.loc[df["Sexo"] == "Male", "Sexo"] = "Hombre"
df.loc[df["Sexo"] == "Female", "Sexo"] = "Mujer"

df.loc[df["EstadoCivil"] == "Married", "EstadoCivil"] = "Casado"
df.loc[df["EstadoCivil"] == "Single", "EstadoCivil"] = "Soltero"
df.loc[df["EstadoCivil"] == "Divorced", "EstadoCivil"] = "Separado"
df.loc[df["EstadoCivil"] == "Separated", "EstadoCivil"] = "Separado" # Juntamos Divorced + Separated, vamos a considerarlos como iguales
df.loc[df["EstadoCivil"] == "Widowed", "EstadoCivil"] = "Viudo"

df.loc[df["Etnia"] == "White", "Etnia"] = "Blanca"
df.loc[df["Etnia"] == "Black", "Etnia"] = "Negra"
df.loc[df["Etnia"] == "Asian", "Etnia"] = "Asiatica"
df.loc[df["Etnia"] == "Hispanic", "Etnia"] = "Hispana"
df.loc[df["Etnia"] == "MexAmerican", "Etnia"] = "Norteamericana"
df.loc[df["Etnia"] == "Other", "Etnia"] = "Otra"

# Observamos cómo ha quedado nuestro dataframe:
df.sample(5)

Unnamed: 0,Id,Edad,Sexo,EstadoCivil,Ingresos,Etnia,CircunferenciaCintura,IMC,Albuminuria,CACu,AcidoUrico,GlucosaSangre,HDL,Trigliceridos,SindromeMetabolico
1281,67390,56,Mujer,Separado,5400.0,Blanca,71.4,18.2,0,23.6,3.9,95,84,95,0
1003,66235,33,Mujer,Casado,2000.0,Asiatica,83.2,22.8,0,10.17,4.7,109,45,115,0
1637,68845,75,Mujer,Viudo,1000.0,Blanca,113.8,37.2,0,6.52,4.4,99,50,154,1
2225,71157,26,Mujer,Casado,2500.0,Negra,105.7,35.7,0,6.81,4.7,84,68,98,0
2069,70543,78,Mujer,Casado,2500.0,Negra,,40.2,1,108.33,7.9,225,53,151,0


In [8]:
# Comprobamos cuántos valores nulos hay y en qué columnas están:
df.isna().sum() / len(df) * 100

Id                       0.000000
Edad                     0.000000
Sexo                     0.000000
EstadoCivil              8.663057
Ingresos                 4.872970
Etnia                    0.000000
CircunferenciaCintura    3.540192
IMC                      1.082882
Albuminuria              0.000000
CACu                     0.000000
AcidoUrico               0.000000
GlucosaSangre            0.000000
HDL                      0.000000
Trigliceridos            0.000000
SindromeMetabolico       0.000000
dtype: float64

Tenemos 4 columnas con valores nulos, 1 de ellas con un 8,7% de nulos:
1. EstadoCivil: podemos crear una nueva categoría que sea *Desconocido*.

Las otras 3, tienen menos de un 5%, así que vamos a rellenarlas con la mediana o con la media:
1. Ingresos
1. CircunferenciaCintura
1. IMC

In [9]:
df.describe()

Unnamed: 0,Id,Edad,Ingresos,CircunferenciaCintura,IMC,Albuminuria,CACu,AcidoUrico,GlucosaSangre,HDL,Trigliceridos,SindromeMetabolico
count,2401.0,2401.0,2284.0,2316.0,2375.0,2401.0,2401.0,2401.0,2401.0,2401.0,2401.0,2401.0
mean,67030.674302,48.691795,4005.25394,98.307254,28.702189,0.154102,43.626131,5.489046,108.247813,53.369429,128.125364,0.342357
std,2823.565114,17.632852,2954.032186,16.252634,6.662242,0.42278,258.272829,1.439358,34.820657,15.185537,95.322477,0.474597
min,62161.0,20.0,300.0,56.2,13.4,0.0,1.4,1.8,39.0,14.0,26.0,0.0
25%,64591.0,34.0,1600.0,86.675,24.0,0.0,4.45,4.5,92.0,43.0,75.0,0.0
50%,67059.0,48.0,2500.0,97.0,27.7,0.0,7.07,5.4,99.0,51.0,103.0,0.0
75%,69495.0,63.0,6200.0,107.625,32.1,0.0,13.69,6.4,110.0,62.0,150.0,1.0
max,71915.0,80.0,9000.0,176.0,68.7,2.0,5928.0,11.3,382.0,156.0,1562.0,1.0


En CircunferenciaCintura y en IMC, la media y mediana se parecen mucho, así que da igual cuál utilizar. Sin embargo, en Ingresos hay bastante diferencia, así que vamos a utilizar la mediana, que parece más representativa.


Tenemos que tener en cuenta que esto va a generar un pequeño sesgo.

In [10]:
# Rellenamos los valores nulos de EstadoCivil con la categoría Desconocido:
df.loc[df["EstadoCivil"].isna(), "EstadoCivil"] = "Desconocido"

# Completamos los valores nulos de Ingresos, CircunferenciaCintura e IMC con la mediana:
df.loc[df["Ingresos"].isna(), "Ingresos"] = df.Ingresos.median()
df.loc[df["CircunferenciaCintura"].isna(), "CircunferenciaCintura"] = df.CircunferenciaCintura.median()
df.loc[df["IMC"].isna(), "IMC"] = df.IMC.median()

In [11]:
# Vamos a ver cómo está ahora nuestro dataframe con el método info():
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2401 entries, 0 to 2400
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Id                     2401 non-null   int64  
 1   Edad                   2401 non-null   int64  
 2   Sexo                   2401 non-null   object 
 3   EstadoCivil            2401 non-null   object 
 4   Ingresos               2401 non-null   float64
 5   Etnia                  2401 non-null   object 
 6   CircunferenciaCintura  2401 non-null   float64
 7   IMC                    2401 non-null   float64
 8   Albuminuria            2401 non-null   int64  
 9   CACu                   2401 non-null   float64
 10  AcidoUrico             2401 non-null   float64
 11  GlucosaSangre          2401 non-null   int64  
 12  HDL                    2401 non-null   int64  
 13  Trigliceridos          2401 non-null   int64  
 14  SindromeMetabolico     2401 non-null   int64  
dtypes: f

Ya no tenemos nulos y todas las columnas tienen un dtype adecuado para los datos que recogen.

In [12]:
# Guardamos nuestros datos limpios en un csv nuevo:
df.to_csv("../data/Metabolic_Syndrome_clean.csv")