<a href="https://colab.research.google.com/github/gdflores93/Heart-Disease-Prediction/blob/main/Hearth_Disease_Prediction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Predicción de Ataques Cardiacos / Infarto (Heart Disease)

## Introducción
Las enfermedades cardiovasculares suponen la principal causa de muertes en el mundo. Estas enfermedades constituyen un conjunto de enfermedades que pueden en la mayoría de sus casos ser silenciosas pero a la ves mortales.

## Metodología de análisis de datos

El desarrollo del presente proyecto se realizará empleando la metodología CRISP-DM la cual cuenta con las siguientes etapas:


1.   Entendimiento del Negocio (Business Understanding)
2.   Entendimiento de los datos (Data Understanding)
3.   Preparación de los datos (Data Preparation)
4.   Modelamiento (Modeling)
5.   Evaluation (Evaluación)
6.   Implementación (Deployment)





# Entendimiento del Negocio (Business Understanding)

# Entendimiento de los datos (Data Understanding)
Para analizar este caso vamos a utilizar una base de datos libre desde www.kaggle.com.

Las variables que contiene esta base de datos son las siguientes:

*   Age: Edad del paciente [Años]
*   Sex: Sexo del paciente [M: Masculino o F: Femenino]
*   ChestPainType: Tipo de dolor de pecho [TA: Angina típica, ATA: Angina atípica, NAP: Dolor no anginoso, ASY: Asintomático]
*   RestingBP: Presión de descanso o Diastólica [mm Hg]
*   Cholesterol: Colesteról total [mg/dl]
*   FastingBS: Glucemia en ayunas [1: Glucemia en ayunas >120, 0: Normal]
*   RestingECG: Electrocardiograma [Normal: Normal, ST: Anormalidad en onda ST-T (La onda T está invertida y/o ST cuenta con pendiente positiva o negativa mayor a 0.05 mV), LVH: Left Ventricular Hypertrophy o Hipertropía Ventricular Izquierda por Estres]
*   MaxHR: Nivel máximo de frecuencia cardiaca alcanzado
*   ExerciseAngina: Si el ejercicio físico indujo angina/ataque [Y: Yes, N: No]
*   Oldpeak: oldpeak = S [Numeric value measured in depression]
*   ST_Slope: the slope of the peak exercise ST segment [Up: upsloping, Flat: flat, Down: downsloping]
*   HeartDisease: Resultado o Salida [1: Tuvo ataque cardiaco, 0: Normal/No tuvo ataque cardíaco]


Para poder entender mejor la cantidad y la calidad de los datos que tenemos es necesario hacer uso de todas las herramientas/librerías que sean necesarias tanto para el proceso de Data Acquisition, Data Wrangling y posteriormente para iniciar con el modelo.

### Importamos Librerías y Cargamos Dataset

In [None]:
import os
import numpy as np 
import pandas as pd
import pandas_profiling as pp
import warnings
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
warnings.filterwarnings("ignore")
pd.set_option("display.max_rows",None)
from sklearn import preprocessing
import matplotlib 
matplotlib.style.use('ggplot')
from sklearn.preprocessing import LabelEncoder
df = pd.read_csv("./heart.csv")

### Análisis de los datos: Cantidad y Calidad.

In [None]:
# Primero realizaremos una breve observación de los datos para entender mejor que tenemos.
df.head(10)

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195,0,Normal,122,N,0.0,Up,0
5,39,M,NAP,120,339,0,Normal,170,N,0.0,Up,0
6,45,F,ATA,130,237,0,Normal,170,N,0.0,Up,0
7,54,M,ATA,110,208,0,Normal,142,N,0.0,Up,0
8,37,M,ASY,140,207,0,Normal,130,Y,1.5,Flat,1
9,48,F,ATA,120,284,0,Normal,120,N,0.0,Up,0


In [None]:
# Realizaremos una visualización mas detallada para comprender que tipo de dato contiene cada columna.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918 entries, 0 to 917
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             918 non-null    int64  
 1   Sex             918 non-null    object 
 2   ChestPainType   918 non-null    object 
 3   RestingBP       918 non-null    int64  
 4   Cholesterol     918 non-null    int64  
 5   FastingBS       918 non-null    int64  
 6   RestingECG      918 non-null    object 
 7   MaxHR           918 non-null    int64  
 8   ExerciseAngina  918 non-null    object 
 9   Oldpeak         918 non-null    float64
 10  ST_Slope        918 non-null    object 
 11  HeartDisease    918 non-null    int64  
dtypes: float64(1), int64(6), object(5)
memory usage: 86.2+ KB


In [None]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,918.0,53.510893,9.432617,28.0,47.0,54.0,60.0,77.0
RestingBP,918.0,132.396514,18.514154,0.0,120.0,130.0,140.0,200.0
Cholesterol,918.0,198.799564,109.384145,0.0,173.25,223.0,267.0,603.0
FastingBS,918.0,0.233115,0.423046,0.0,0.0,0.0,0.0,1.0
MaxHR,918.0,136.809368,25.460334,60.0,120.0,138.0,156.0,202.0
Oldpeak,918.0,0.887364,1.06657,-2.6,0.0,0.6,1.5,6.2
HeartDisease,918.0,0.553377,0.497414,0.0,0.0,1.0,1.0,1.0


In [None]:
df.isnull().sum()

# Observamos que el dataset se encuentra limpio de valores nulos.

Age               0
Sex               0
ChestPainType     0
RestingBP         0
Cholesterol       0
FastingBS         0
RestingECG        0
MaxHR             0
ExerciseAngina    0
Oldpeak           0
ST_Slope          0
HeartDisease      0
dtype: int64

Conclusión:

*   Cantidad  de columnas: 12.
*   Cantidad de filas: 918.
*   Valores nulos: 0.
*   Tipos de valores en base de datos: Int64, Object, Float64

A primera vista estamos trabajando con una base de datos que se encuentra limpia de valores nulos, por lo tanto, habrá menos esfuerzo por realizar en el momento de depurar la base de datos. 

Si existen distintos tipos de valores de datos lo que presupone que tendremos que realizar algunas transformaciones para ordenar y estandarizar la base de datos. Esto es absolutamente necesario para poder trabajar de forma cómoda y sin posibles errores en el camino.




# Preparación de los datos (Data Preparation)

In [None]:
pp.ProfileReport(df)

TypeError: ignored