# *HEART-DISEASE-ML-SYSTEM*

## Comprensión del negocio - Business Understanding

El proyecto se centra en la Unidad de Cuidados Intensivos del hospital de Cleveland.

En este hospital están siendo frecuentes las afecciones cardíacas entre los pacientes de UCI.

Con este proyecto se busca clasificar correctamente a los pacientes, para predecir si estos pueden tener problemas cardíacos o no. Esto supone un avance en el tratamiento de los pacientes y en la gestión/logística del hospital.

Por lo tanto, el objetivo del proyecto es resolver un problema de clasificación binaria.

Las métricas principales serán las referentes al desempeño de los modelos predictivos entrenados.

En la actualidad, esta tarea se realiza de forma manual, intentando anticipar acontecimientos, deduciendo afecciones según criterio clínico y experiencia previa.

Con el uso de datos de pacientes anonimizados, se busca, cumpliendo los criterios legales y de protección de datos, anticipar estas decisiones e intentar reducir el número de falsos positivos sin comprometer la detección temprana de casos reales.



## Comprensión de los datos - Data Understanding

Los datos proceden de una base de datos pública:

_Janosi, A., Steinbrunn, W., Pfisterer, M. y Detrano, R. (1989). Enfermedad cardíaca [Conjunto de datos]. Repositorio de aprendizaje automático de la UCI. https://doi.org/10.24432/C52P4X._

### Análisis Exploratorio y Descriptivo de los Datos - EDA

In [5]:
import pandas as pd
from ucimlrepo import fetch_ucirepo 

In [None]:
# fetch dataset 
heart_disease = fetch_ucirepo(id=45) 
  
# data (as pandas dataframes)
X = heart_disease.data.features 
y = heart_disease.data.targets

# Juntar dataset en un DataFrame para análisis
df = pd.concat([X,y], axis=1)

# Visualizar los 5 primeros registros
df.head(5)

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
0,63,1,1,145,233,1,2,150,0,2.3,3,0.0,6.0,0
1,67,1,4,160,286,0,2,108,1,1.5,2,3.0,3.0,2
2,67,1,4,120,229,0,2,129,1,2.6,2,2.0,7.0,1
3,37,1,3,130,250,0,0,187,0,3.5,3,0.0,3.0,0
4,41,0,2,130,204,0,2,172,0,1.4,1,0.0,3.0,0


El dataset cuenta con 303 filas y 14 columnas

In [9]:
df.shape

(303, 14)

In [10]:
df.dtypes

age           int64
sex           int64
cp            int64
trestbps      int64
chol          int64
fbs           int64
restecg       int64
thalach       int64
exang         int64
oldpeak     float64
slope         int64
ca          float64
thal        float64
num           int64
dtype: object

In [11]:
df.describe()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
count,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,299.0,301.0,303.0
mean,54.438944,0.679868,3.158416,131.689769,246.693069,0.148515,0.990099,149.607261,0.326733,1.039604,1.60066,0.672241,4.734219,0.937294
std,9.038662,0.467299,0.960126,17.599748,51.776918,0.356198,0.994971,22.875003,0.469794,1.161075,0.616226,0.937438,1.939706,1.228536
min,29.0,0.0,1.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,1.0,0.0,3.0,0.0
25%,48.0,0.0,3.0,120.0,211.0,0.0,0.0,133.5,0.0,0.0,1.0,0.0,3.0,0.0
50%,56.0,1.0,3.0,130.0,241.0,0.0,1.0,153.0,0.0,0.8,2.0,0.0,3.0,0.0
75%,61.0,1.0,4.0,140.0,275.0,0.0,2.0,166.0,1.0,1.6,2.0,1.0,7.0,2.0
max,77.0,1.0,4.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,3.0,3.0,7.0,4.0


In [12]:
df.isnull().sum()

age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          4
thal        2
num         0
dtype: int64