In [1]:
#### Importamos las librerias que se utilizaran:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns

In [2]:
# Leer el archivo CSV
# data: https://archive.ics.uci.edu/ml/datasets/heart+disease
heart = pd.read_csv("../data/cleveland-data.csv")


### 1. Inspección inicial

Antes de comenzar con la limpieza, es importante conocer bien los datos.

In [5]:
# Exploramos las primeros 5 registros.
heart.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,heart_disease
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


In [6]:
# Muestra los tipos de datos
heart.dtypes

age              float64
sex              float64
cp               float64
trestbps         float64
chol             float64
fbs              float64
restecg          float64
thalach          float64
exang            float64
oldpeak          float64
slope            float64
ca                object
thal              object
heart_disease      int64
dtype: object

In [7]:
# Visualizamos un resumen estadistico de los datos
heart.describe(include="all")

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,heart_disease
count,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0
unique,,,,,,,,,,,,5.0,4.0,
top,,,,,,,,,,,,0.0,3.0,
freq,,,,,,,,,,,,176.0,166.0,
mean,54.438944,0.679868,3.158416,131.689769,246.693069,0.148515,0.990099,149.607261,0.326733,1.039604,1.60066,,,0.937294
std,9.038662,0.467299,0.960126,17.599748,51.776918,0.356198,0.994971,22.875003,0.469794,1.161075,0.616226,,,1.228536
min,29.0,0.0,1.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,1.0,,,0.0
25%,48.0,0.0,3.0,120.0,211.0,0.0,0.0,133.5,0.0,0.0,1.0,,,0.0
50%,56.0,1.0,3.0,130.0,241.0,0.0,1.0,153.0,0.0,0.8,2.0,,,0.0
75%,61.0,1.0,4.0,140.0,275.0,0.0,2.0,166.0,1.0,1.6,2.0,,,2.0


In [8]:
# Mostramos información general sobre el DataFrame
heart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   age            303 non-null    float64
 1   sex            303 non-null    float64
 2   cp             303 non-null    float64
 3   trestbps       303 non-null    float64
 4   chol           303 non-null    float64
 5   fbs            303 non-null    float64
 6   restecg        303 non-null    float64
 7   thalach        303 non-null    float64
 8   exang          303 non-null    float64
 9   oldpeak        303 non-null    float64
 10  slope          303 non-null    float64
 11  ca             303 non-null    object 
 12  thal           303 non-null    object 
 13  heart_disease  303 non-null    int64  
dtypes: float64(11), int64(1), object(2)
memory usage: 33.3+ KB



Al explorar los datos, observamos que la gran mayoría de las columnas contienen valores numéricos. Sin embargo, según la documentación del dataset, sabemos que hay 5 variables categóricas. Es importante revisar cómo están almacenados estos datos y asegurarnos de que no haya valores inesperados o nulos en estas columnas.

### 2. Identificación, manejo de valores nulos e inesperados

In [10]:
# Verificamos si hay valores nulos 
heart.isnull().sum()

age              0
sex              0
cp               0
trestbps         0
chol             0
fbs              0
restecg          0
thalach          0
exang            0
oldpeak          0
slope            0
ca               0
thal             0
heart_disease    0
dtype: int64

In [11]:
# Verificamos valores unicos en las variables categoricas
heart["sex"].value_counts( dropna = False)

sex
1.0    206
0.0     97
Name: count, dtype: int64

In [12]:
heart["cp"].value_counts( dropna = False)

cp
4.0    144
3.0     86
2.0     50
1.0     23
Name: count, dtype: int64

In [13]:
heart["restecg"].value_counts( dropna = False)

restecg
0.0    151
2.0    148
1.0      4
Name: count, dtype: int64

In [14]:
heart["slope"].value_counts( dropna = False)

slope
1.0    142
2.0    140
3.0     21
Name: count, dtype: int64

In [15]:
heart["thal"].value_counts( dropna = False)

thal
3.0    166
7.0    117
6.0     18
?        2
Name: count, dtype: int64

In [16]:
heart["heart_disease"].value_counts( dropna = False)

heart_disease
0    164
1     55
2     36
3     35
4     13
Name: count, dtype: int64

**Encontramos un "?" como dato dentro de la variable "thal".**

In [18]:
heart[heart.thal == "?"]

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,heart_disease
87,53.0,0.0,3.0,128.0,216.0,0.0,2.0,115.0,0.0,0.0,1.0,0.0,?,0
266,52.0,1.0,4.0,128.0,204.0,1.0,0.0,156.0,1.0,1.0,2.0,0.0,?,2


**Es posible que los valores vacíos o nulos estén almacenados como un signo de "?" en el dataset. Además, hemos notado que la variable "thal", a pesar de contener valores numéricos, está almacenada como un tipo de dato object, probablemente debido a la presencia de dicho signo de "?" en algunas filas.**


In [20]:
# Reemplazamos todos los valores = "?" dentro de nuestro dataset en valores nulos.
heart = heart.replace("?", np.nan)

In [21]:
# Verificamos nuevamente si hay valores nulos 
heart.isnull().sum()

age              0
sex              0
cp               0
trestbps         0
chol             0
fbs              0
restecg          0
thalach          0
exang            0
oldpeak          0
slope            0
ca               4
thal             2
heart_disease    0
dtype: int64

**Dado que las variables categóricas contienen un número muy pequeño de valores nulos, he decidido reemplazarlos con la moda de cada columna, ya que esto mantiene la coherencia de los datos sin alterar significativamente la distribución de las categorías.**

In [23]:
heart["thal"].value_counts(dropna = False)

thal
3.0    166
7.0    117
6.0     18
NaN      2
Name: count, dtype: int64

In [24]:
# Verificamos que la "moda" de la columna "thal" es "3.0"
mode_thal = heart["thal"].mode()
print(mode_thal)

0    3.0
Name: thal, dtype: object


In [25]:
# Reemplazamos los valores
heart["thal"] = heart['thal'].fillna(mode_thal[0])

In [26]:
# Verificamos que se hayan reemplazado los valores
heart["thal"].value_counts(dropna = False)

thal
3.0    168
7.0    117
6.0     18
Name: count, dtype: int64

In [27]:
# Realizamos los mismo pasos con la columna "ca"
mode_ca = heart["ca"].mode()
print(mode_ca)

0    0.0
Name: ca, dtype: object


In [28]:
# Verificamos
heart["ca"].value_counts(dropna = False)

ca
0.0    176
1.0     65
2.0     38
3.0     20
NaN      4
Name: count, dtype: int64

In [29]:
# Reemplazamos los valores
heart["ca"] = heart['ca'].fillna(mode_ca[0])

In [30]:
# Verificamos nuevamente si hay valores nulos 
heart.isnull().sum()

age              0
sex              0
cp               0
trestbps         0
chol             0
fbs              0
restecg          0
thalach          0
exang            0
oldpeak          0
slope            0
ca               0
thal             0
heart_disease    0
dtype: int64

### 3. Revisión y conversión de tipos de datos
La mayoría de los datos son de tipo numérico (float), sin embargo, varias columnas categóricas, que están representadas numéricamente, se encuentran almacenadas como tipo 'object'. Procederemos a realizar la conversión a su tipo adecuado.

In [32]:
heart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   age            303 non-null    float64
 1   sex            303 non-null    float64
 2   cp             303 non-null    float64
 3   trestbps       303 non-null    float64
 4   chol           303 non-null    float64
 5   fbs            303 non-null    float64
 6   restecg        303 non-null    float64
 7   thalach        303 non-null    float64
 8   exang          303 non-null    float64
 9   oldpeak        303 non-null    float64
 10  slope          303 non-null    float64
 11  ca             303 non-null    object 
 12  thal           303 non-null    object 
 13  heart_disease  303 non-null    int64  
dtypes: float64(11), int64(1), object(2)
memory usage: 33.3+ KB


In [33]:
heart["ca"] = heart['ca'].astype("float")
heart["thal"] = heart['thal'].astype("float")

In [34]:
heart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   age            303 non-null    float64
 1   sex            303 non-null    float64
 2   cp             303 non-null    float64
 3   trestbps       303 non-null    float64
 4   chol           303 non-null    float64
 5   fbs            303 non-null    float64
 6   restecg        303 non-null    float64
 7   thalach        303 non-null    float64
 8   exang          303 non-null    float64
 9   oldpeak        303 non-null    float64
 10  slope          303 non-null    float64
 11  ca             303 non-null    float64
 12  thal           303 non-null    float64
 13  heart_disease  303 non-null    int64  
dtypes: float64(13), int64(1)
memory usage: 33.3 KB


### 4. Conversión a etiquetas descriptivas de variables categóricas: 
Después de haber manejado los valores nulos y la conversión de tipos de datos, ahora podemos proceder a reemplazar los valores numéricos en las columnas categóricas (como cp, restecg, exang, etc.) por sus descripciones correspondientes.

In [36]:
# "sex" cuenta con los siguientes valores:
# - 0.0 : female
# - 1.0 : male

heart["sex"] = heart["sex"].replace({0.0: 'female', 1.0:'male'})

In [37]:
# "cp" cuenta con los siguientes valores:
# - 1.0 : typical angina
# - 2.0 : atypical angina
# - 3.0 : non-anginal pain
# - 4.0 : asymptomatic

heart["cp"] = heart["cp"].replace({1.0: 'typical angina', 2.0:'atypical angina', 3.0: 'non-anginal pain', 4.0: 'asymptomatic'})

In [38]:
# "slope" cuenta con los siguientes valores:
# 1.0 : upsloping
# 2.0 : flat
# 3.0 : downsloping

heart["slope"] = heart["slope"].replace({1.0 : "upsloping", 2.0 : "flat", 3.0 : "downsloping" })

In [39]:
# Al ser una variable categorica ordinal, podemos definir que tiene cierto orden.
# Trasformamos la columna "slope" en una de tipo categorica y definimos el orden correspondiente.

heart["slope"] = pd.Categorical(heart["slope"], ['upsloping', 'flat', 'downsloping'], ordered = True )

In [40]:
heart["restecg"] = heart["restecg"].replace({0.0: 'normal', 1.0:'ST-T wave abnormality', 2.0: 'left ventricular hypertrophy'})

In [41]:
heart["thal"] = heart["thal"].replace({3.0:'normal', 6.0:'fixed defect', 7.0:'reversable defect'})


**Tratamiento de la variable heart_disease**
La variable heart_disease en el conjunto de datos representa el diagnóstico de la presencia de enfermedad cardíaca en los pacientes. Originalmente, se encuentra codificada con valores enteros entre 0 y 4, donde:

0 indica ausencia de enfermedad cardíaca (menos del 50% de estrechamiento de las arterias).
1 a 4 indican diferentes grados de presencia de enfermedad cardíaca (más del 50% de estrechamiento en las arterias).
Para simplificar el análisis y facilitar la clasificación en el modelo de machine learning, decidí transformar la variable heart_disease en binaria. En este caso, la presencia de enfermedad cardíaca se codifica como 'presence' y la ausencia como 'absence'. De esta manera, el valor 0 se asigna a 'absence', y todos los valores mayores a 0 se asignan a 'presence'.

Esta transformación permite enfocar el análisis en la presencia o ausencia de enfermedad cardíaca, lo que es generalmente más relevante para los modelos de clasificación que buscan identificar si un paciente tiene o no enfermedad. Esta conversión mejora la claridad del análisis y simplifica la interpretación de los resultados, alineándose con los objetivos clínicos de diagnóstico.

In [43]:
heart["heart_disease"] = np.where(heart["heart_disease"] == 0, 'absence', 'presence')

In [44]:
heart.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,heart_disease
0,63.0,male,typical angina,145.0,233.0,1.0,left ventricular hypertrophy,150.0,0.0,2.3,downsloping,0.0,fixed defect,absence
1,67.0,male,asymptomatic,160.0,286.0,0.0,left ventricular hypertrophy,108.0,1.0,1.5,flat,3.0,normal,presence
2,67.0,male,asymptomatic,120.0,229.0,0.0,left ventricular hypertrophy,129.0,1.0,2.6,flat,2.0,reversable defect,presence
3,37.0,male,non-anginal pain,130.0,250.0,0.0,normal,187.0,0.0,3.5,downsloping,0.0,normal,absence
4,41.0,female,atypical angina,130.0,204.0,0.0,left ventricular hypertrophy,172.0,0.0,1.4,upsloping,0.0,normal,absence


In [45]:
# Verificamos que todas nuestras variables tengan los tipos de datos correctos.
heart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   age            303 non-null    float64 
 1   sex            303 non-null    object  
 2   cp             303 non-null    object  
 3   trestbps       303 non-null    float64 
 4   chol           303 non-null    float64 
 5   fbs            303 non-null    float64 
 6   restecg        303 non-null    object  
 7   thalach        303 non-null    float64 
 8   exang          303 non-null    float64 
 9   oldpeak        303 non-null    float64 
 10  slope          303 non-null    category
 11  ca             303 non-null    float64 
 12  thal           303 non-null    object  
 13  heart_disease  303 non-null    object  
dtypes: category(1), float64(8), object(5)
memory usage: 31.3+ KB


In [46]:
# guardamos en un archivo CSV, nuestro dataframe limpio.
heart.to_csv("../data/processed-cleveland-data-cleaned.csv", index=False)  # index=False evita que se guarde la columna de índices