# INFORMACIÓN DEL PROYECTO

### TÍTULO

Aplicación de Machine Learning en la Predicción de Fallos Cardíacos

### TEMA

El proyecto se centra en el desarrollo de un modelo predictivo para la identificación temprana de fallos cardíacos utilizando técnicas de machine learning. A través del análisis de datos clínicos y demográficos de los pacientes, se pretende identificar patrones y factores de riesgo asociados con los fallos cardíacos. El proyecto incluye un análisis exploratorio de datos (EDA) para comprender mejor la estructura y características del dataset, seguido del entrenamiento y evaluación de múltiples modelos de machine learning. El objetivo final es seleccionar el modelo que ofrezca la mejor precisión y robustez para predecir fallos cardíacos, optimizando los hiperparámetros mediante Grid Search.

### PROBLEMAS A SOLUCIONAR O DE MERCADO

Detección temprana de fallos cardíacos para así reducir los costos médicos y mejorar la calidad de vida, ya que una prevención temprana permite intervenciones que pueden mejorar la longevidad y el bienestar general del paciente.

## OBTENCIÓN DE LOS DATOS

### DATASETS Y FUENTES ALTERNATIVAS DE DATOS

Incluye aquí una vista del dataset o datasets de los que partirás para poder evaluar tu hipótesis. <br>
También incluye el origen de estos datos y su fuente.

In [1]:
import pandas as pd

# guarda en variables los datasets y su fuente
data_1 = pd.read_csv('data\heart_disease_uci.csv')
fuente_1 = "https://www.kaggle.com/datasets/redwankarimsony/heart-disease-data/data"

data_2 = pd.read_csv('data\heart.csv')
fuente_2 = "https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction/data"

Muestra mediante un head() los principales datasets con los que vas a trabajar

**Descripción de columnas de data_1:**  
id (Unique id for each patient)  
age (Age of the patient in years)  
origin (place of study)  
sex (Male/Female)  
cp chest pain type ([typical angina, atypical angina, non-anginal, asymptomatic])  
trestbps resting blood pressure (resting blood pressure (in mm Hg on admission to the hospital))  
chol (serum cholesterol in mg/dl)  
fbs (if fasting blood sugar > 120 mg/dl)  
restecg (resting electrocardiographic results)  
-- Values: [normal, stt abnormality, lv hypertrophy]
thalach: maximum heart rate achieved  
exang: exercise-induced angina (True/ False)  
oldpeak: ST depression induced by exercise relative to rest  
slope: the slope of the peak exercise ST segment  
ca: number of major vessels (0-3) colored by fluoroscopy  
thal: [normal; fixed defect; reversible defect]  
num: the predicted attribute

In [2]:
data_1.head()

Unnamed: 0,id,age,sex,dataset,cp,trestbps,chol,fbs,restecg,thalch,exang,oldpeak,slope,ca,thal,num
0,1,63,Male,Cleveland,typical angina,145.0,233.0,True,lv hypertrophy,150.0,False,2.3,downsloping,0.0,fixed defect,0
1,2,67,Male,Cleveland,asymptomatic,160.0,286.0,False,lv hypertrophy,108.0,True,1.5,flat,3.0,normal,2
2,3,67,Male,Cleveland,asymptomatic,120.0,229.0,False,lv hypertrophy,129.0,True,2.6,flat,2.0,reversable defect,1
3,4,37,Male,Cleveland,non-anginal,130.0,250.0,False,normal,187.0,False,3.5,downsloping,0.0,normal,0
4,5,41,Female,Cleveland,atypical angina,130.0,204.0,False,lv hypertrophy,172.0,False,1.4,upsloping,0.0,normal,0


In [8]:
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 920 entries, 0 to 919
Data columns (total 16 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   id        920 non-null    int64  
 1   age       920 non-null    int64  
 2   sex       920 non-null    object 
 3   dataset   920 non-null    object 
 4   cp        920 non-null    object 
 5   trestbps  861 non-null    float64
 6   chol      890 non-null    float64
 7   fbs       830 non-null    object 
 8   restecg   918 non-null    object 
 9   thalch    865 non-null    float64
 10  exang     865 non-null    object 
 11  oldpeak   858 non-null    float64
 12  slope     611 non-null    object 
 13  ca        309 non-null    float64
 14  thal      434 non-null    object 
 15  num       920 non-null    int64  
dtypes: float64(5), int64(3), object(8)
memory usage: 115.1+ KB


El primer dataset necesita una limpieza ya que aparecen varios nulos

**Descripción de columnas de data_2:**  
Age: age of the patient [years]  
Sex: sex of the patient [M: Male, F: Female]  
ChestPainType: chest pain type [TA: Typical Angina, ATA: Atypical Angina, NAP: Non-Anginal Pain, ASY: Asymptomatic]  
RestingBP: resting blood pressure [mm Hg]  
Cholesterol: serum cholesterol [mm/dl]  
FastingBS: fasting blood sugar [1: if FastingBS > 120 mg/dl, 0: otherwise]  
RestingECG: resting electrocardiogram results [Normal: Normal, ST: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV), LVH: showing probable or definite left ventricular hypertrophy by Estes' criteria]  
MaxHR: maximum heart rate achieved [Numeric value between 60 and 202]  
ExerciseAngina: exercise-induced angina [Y: Yes, N: No]  
Oldpeak: oldpeak = ST [Numeric value measured in depression]  
ST_Slope: the slope of the peak exercise ST segment [Up: upsloping, Flat: flat, Down: downsloping]  
HeartDisease: output class [1: heart disease, 0: Normal]

In [3]:
data_2.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0


In [9]:
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB


El segundo dataset está limpio y listo para usarse. Pero antes de ello, hay que preparar los datos del dataset 1 para poder unirlos

## Conclusión
Este proyecto no solo busca desarrollar un modelo predictivo eficaz, sino también contribuir a la mejora de la atención médica y la calidad de vida de los pacientes mediante la aplicación de técnicas avanzadas de análisis de datos y machine learning. La implementación de estos modelos puede tener un impacto significativo en la práctica clínica y en la gestión de salud pública.