# Proyecto Machine Learning sobre predicción de deficiencia cardiaca

![](https://nexxto.com/wp-content/uploads/2021/01/6-tecnologias-para-saude-2021-scaled.jpg)

## Introducción

Las enfermedades del corazón son un problema grave. Detectarlas a tiempo es vital. Este proyecto usa machine learning para predecir si una persona tiene o no problemas cardíacos, buscando una forma más rápida y precisa de ayudar a la gente.

## Objetivo

Este proyecto de machine learning se centra en la predicción de enfermedades cardíacas utilizando exclusivamente datos clínicos. Hemos desarrollado modelos capaces de determinar si un paciente presenta o no riesgo de padecer estas afecciones, basándonos únicamente en información clínica relevante.

## Hipótesis

Se explora la viabilidad de predecir la enfermedad cardíaca a partir de la información contenida en datos clínicos.

# Preparación y carga de datos

## Librerias

In [22]:
import pandas as pd
import numpy as np
import os
import sys
from pathlib import Path

In [23]:
# Creando ruta absoluta de la carpeta del proyecto
root_path = Path(os.getcwd()).resolve().parent
sys.path.append(str(root_path))

In [24]:
# Importación de funciones auxiliares del script AutoImporter
from src.utils.auto_importer import AutoImporter, DataFrameDescriber, CompleteDescribeTable

## Carga de datos

In [25]:
# Cargando los datos del archivo descargado del sitio Kaggle
df = pd.read_csv("../data/raw/heart_attack_prediction_dataset.csv")

## Primera exploración

In [26]:
df

Unnamed: 0,Edad,Sexo,TipoDolorTorax,PresionArterialReposo,Colesterol,GlucosaEnAyunas,ECGReposo,FreqCardiacaMaxima,AnginaDeEsfuerzo,DescensoST,PendienteST,EnfermedadCardiaca
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0
...,...,...,...,...,...,...,...,...,...,...,...,...
1191,42,F,ASY,159,463,0,ST,99,N,0.3,Down,1
1192,30,F,ASY,173,356,0,Normal,186,Y,3.7,Down,1
1193,34,M,TA,177,432,1,LVH,136,N,5.2,Up,0
1194,54,M,NAP,122,540,0,ST,113,N,0.5,Down,1


In [27]:
# Creando la copia del conjunto de datos para trabajar sobre la copia y mantener los datos originales intactos para futuras consultas si es necesario

data = df.copy()

In [28]:
# Instanciando funciones importadas del script para hacer la primer análisis de los datos

primera_inspeccion = AutoImporter(data)
descripcion_data = DataFrameDescriber(data)
tabla_completa = CompleteDescribeTable(data)

In [29]:
primera_inspeccion.inspeccion_inicial()

=== TAMAÑO Y ESTRUCTURA DE LOS DATOS ===
Número total de registros: 1196
Número de columnas: 12
Uso de memoria: 112.25 KB


=== TIPOS DE DATOS Y NOMBRES DE COLUMNAS ===
Edad                       int64
Sexo                      object
TipoDolorTorax            object
PresionArterialReposo      int64
Colesterol                 int64
GlucosaEnAyunas            int64
ECGReposo                 object
FreqCardiacaMaxima         int64
AnginaDeEsfuerzo          object
DescensoST               float64
PendienteST               object
EnfermedadCardiaca         int64
dtype: object


Información detallada del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1196 entries, 0 to 1195
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Edad                   1196 non-null   int64  
 1   Sexo                   1196 non-null   object 
 2   TipoDolorTorax         1196 non-null   object 
 3   PresionArt

In [30]:
descripcion_data.describe_numerico()

Unnamed: 0,Edad,PresionArterialReposo,Colesterol,GlucosaEnAyunas,FreqCardiacaMaxima,DescensoST,EnfermedadCardiaca
count,1196.0,1196.0,1196.0,1196.0,1196.0,1196.0,1196.0
mean,53.341137,134.70903,230.504181,0.229097,136.806856,1.367057,0.588629
std,10.776964,22.492932,127.480572,0.420428,28.893056,1.525927,0.492288
min,28.0,0.0,0.0,0.0,60.0,-2.6,0.0
25%,46.0,120.0,182.75,0.0,116.0,0.0,0.0
50%,54.0,130.0,233.0,0.0,138.0,1.0,1.0
75%,61.0,146.25,291.0,0.0,159.0,2.0,1.0
max,77.0,200.0,603.0,1.0,202.0,6.2,1.0


In [31]:
descripcion_data.describe_categorico()

Unnamed: 0,Sexo,TipoDolorTorax,ECGReposo,AnginaDeEsfuerzo,PendienteST
count,1196,1196,1196,1196,1196
unique,2,4,3,2,3
top,M,ASY,Normal,N,Flat
freq,863,576,640,697,548


In [32]:
tabla_completa.describe_complete()

In [33]:
tabla_completa.get_describe_complete()

Unnamed: 0_level_0,tipo de dato,tipo de variable,cardinalidad abs,cardinalidad %,distribucion,% missing,% Outliers,rango,moda,mediana,media,desv estandar,Q1,Q3,asimetria,curtosis,Valor estad.,Valor de P,prueba normalidad,tipo asimetria
variable,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Edad,int64,numerica,50,4.180602,No Gaussiana,0.0,0.0,"(28, 77)",54.0,54.0,53.341137,10.776964,46.0,61.0,-0.180064,-0.484127,0.988921,7.354098e-08,No normal,negativa
Sexo,object,categorica,2,0.167224,,0.0,,,,,,,,,,,,,,
TipoDolorTorax,object,categorica,4,0.334448,,0.0,,,,,,,,,,,,,,
PresionArterialReposo,int64,numerica,112,9.364548,No Gaussiana,0.0,3.43,"(0, 200)",120.0,130.0,134.70903,22.492932,120.0,146.25,0.481763,1.208164,0.961075,2.4227480000000002e-17,No normal,positiva
Colesterol,int64,numerica,316,26.421405,No Gaussiana,0.0,20.57,"(0, 603)",0.0,233.0,230.504181,127.480572,182.75,291.0,-0.026715,0.267151,0.93332,1.089876e-22,No normal,negativa
GlucosaEnAyunas,int64,numerica,2,0.167224,No Gaussiana,0.0,22.91,"(0, 1)",0.0,0.0,0.229097,0.420428,0.0,0.0,1.290861,-0.33424,0.519698,5.977235e-49,No normal,negativa
ECGReposo,object,categorica,3,0.250836,,0.0,,,,,,,,,,,,,,
FreqCardiacaMaxima,int64,numerica,134,11.204013,No Gaussiana,0.0,0.0,"(60, 202)",150.0,138.0,136.806856,28.893056,116.0,159.0,-0.084418,-0.603523,0.991337,1.720561e-06,No normal,negativa
AnginaDeEsfuerzo,object,categorica,2,0.167224,,0.0,,,,,,,,,,,,,,
DescensoST,float64,numerica,72,6.020067,No Gaussiana,0.0,3.34,"(-2.6, 6.2)",0.0,1.0,1.367057,1.525927,0.0,2.0,1.075968,0.525425,0.866547,1.003658e-30,No normal,positiva


## Conclusion

El dataset inicial comprendió 1196 muestras y 12 features, con 'EnfermedadCardiaca' como target binario. Se realizó una verificación de la calidad de los datos, confirmando la ausencia de duplicados y valores nulos.

Puntos clave a resaltar:

* Tamaño del dataset: 1196 observaciones y 12 columnas.
* Variable objetivo: 'EnfermedadCardiaca' (binaria: 1 = enfermedad, 0 = ausencia).
* Calidad de los datos: Sin duplicados ni valores nulos.

------------------------------------------

# Limpieza de los datos

Se ha identificado una anomalía en la columna 'PresionArterialReposo': la presencia de valores mínimos iguales a cero, lo cual es fisiológicamente improbable. Para determinar la mejor estrategia de tratamiento de estos datos, se procederá a cuantificar la frecuencia de estas incidencias.

In [34]:
data[data['PresionArterialReposo'] == 0]

Unnamed: 0,Edad,Sexo,TipoDolorTorax,PresionArterialReposo,Colesterol,GlucosaEnAyunas,ECGReposo,FreqCardiacaMaxima,AnginaDeEsfuerzo,DescensoST,PendienteST,EnfermedadCardiaca
449,55,M,NAP,0,0,0,Normal,155,N,1.5,Flat,1


Tras la identificación de un único registro con un valor de cero en la columna 'PresionArterialReposo', se ha decidido eliminar dicha observación. Dado que se trata de un caso aislado, su eliminación no afectará significativamente la representatividad del conjunto de datos para el análisis.

In [35]:
data = data.loc[data['PresionArterialReposo'] != 0]

Vamos hacer la misma comprobacion en la columna Colesterol

In [36]:
data[data['Colesterol'] == 0].shape[0]

171

In [37]:
# grouped_means = df.groupby(['Edad', 'Sexo'])['Colesterol'].transform('mean')
data['Colesterol'].replace(0, np.nan, inplace=True);

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Colesterol'].replace(0, np.nan, inplace=True);
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['Colesterol'].replace(0, np.nan, inplace=True);


In [38]:
# Creando las variables que almacenan los valores de la media para cada género
gender_means = data.groupby('Sexo')['Colesterol'].mean().round()

In [39]:
gender_means

Sexo
F    289.0
M    260.0
Name: Colesterol, dtype: float64

In [40]:
data['Colesterol'] = data.apply(
    lambda row: gender_means[row['Sexo']] if pd.isna(row['Colesterol']) else row['Colesterol'], axis=1
)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['Colesterol'] = data.apply(


In [41]:
data['Colesterol'].isna().value_counts()

Colesterol
False    1195
Name: count, dtype: int64

Al analizar la columna ``Colesterol``, observamos una cantidad considerable de valores cero, lo cual era inconsistente con la realidad biológica. Debido al elevado número de estos valores, la eliminación no fue una opción viable, ya que habría afectado la representatividad de los datos. Por lo tanto, procedimos a imputar los valores faltantes utilizando la media de la columna. Para asegurar una media no sesgada, primero convertimos los valores cero a ``NaN`` y luego calculamos la media excluyendo estos valores. Además, dado que los niveles de colesterol tendían a variar con la edad y el sexo, realizamos una imputación estratificada, agrupando los datos por estas dos variables. Este enfoque nos permitió obtener una estimación más precisa y realista de los valores de colesterol

----------------------------------------

Guardar archivo procesado tras los tratamientos realizados en los datos

In [42]:
# Guardando archivo con las actualizaciones realizadas en los datos

data.to_csv("../data/processed/heart_disease_dataset_new.csv", index=False)

-----------------------------------