# Análisis de datos para la creación de un modelo de predicción de enfermedades cardíacas

Iniciaremos la exploración de este [conjunto de datos](https://archive.ics.uci.edu/ml/datasets/Heart+Disease) encontrado en el repositorio de Machine Learning de la [UCI](https://archive.ics.uci.edu/ml/index.html) recabado por:
- Hungarian Institute of Cardiology. Budapest: Andras Janosi, M.D.
- University Hospital, Zurich, Switzerland: William Steinbrunn, M.D.
- University Hospital, Basel, Switzerland: Matthias Pfisterer, M.D.
- V.A. Medical Center, Long Beach and Cleveland Clinic Foundation: Robert Detrano, M.D., Ph.D.

Donado por:
- David W. Aha, Email: aha@ics.uci.edu, Telefono: (714) 856-8779

El conjunto incluye datos original contenia 76 atributos, sin embargo, luego de varios trabajos publicados experimentando con este conjunto, se llegó a la conclusión de que solo 14 de ellos son realmente significativos.

## Descripción de los datos

Hay 3 tipos diferentes de características de entrada:
* Objetiva: información objetiva.
* Revisión: resultados de una revisión médica.
* Subjetiva: información dada por el paciente.

### Características:
|Característica|Tipo de Característica|Nombre en el Dataset|Unidad|
|:--------------------------|:---------|:--------|:-----------:|
|Edad                       | Objetiva |age      | int (años)  |
|Peso                       | Objetiva |sex      | int (cm)    |
|Tipo de dolor en el pecho  | Objetiva |cp       | float (kg)  |
|Presión arterial en reposo | Objetiva |trestbps | int (mmHg)  |
|Nivel sérico de colesterol | Revisión |chol     | int (mg/dl) |
|Glucemia en ayunas > 120 mg/dl           | Revisión | fbs     | binario     |
|Resultado de electrocardiográma en reposo| Revisión | restecg | 0,1,2 |
|Frecuencia cardíaca máxima alcanzada     | Revisión | thalach | int (bpm) |
|Angina inducida por ejercicio            | Revisión | exang   | binario |
|Depresión del ST inducida por el ejercicio en relación con el reposo | Subjetiva | oldpeak | float (mm) |
|La pendiente del segmento ST de ejercicio pico | Subjetiva | slope   |  |
| | Subjetiva | ca      |  |
| | Subjetiva | thal    |  |
| | Variable objetivo | num | binario |

## Conociendo y limpiando los datos

In [1]:
# importando librerías
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from warnings import filterwarnings
filterwarnings('ignore')

In [2]:
# importando el dataset
# en este caso el carácter que delimita es ';'
data = pd.read_csv("heart.csv", delimiter = ',')
data.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [3]:
x = data.drop(['target'], axis=1,inplace=False)
y = data['target']

In [4]:
from sklearn.model_selection import train_test_split
x_train,x_test, y_train, y_test = train_test_split(x,y,test_size=0.2,random_state=42)

In [5]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score

dec = DecisionTreeClassifier()
ran = RandomForestClassifier(n_estimators=10)
knn = KNeighborsClassifier(n_neighbors=10)
svm = SVC(random_state=1)
naive = GaussianNB()

models = {"Decision tree" : dec,
          "Random forest" : ran,
          "KNN" : knn,
          "SVM" : svm,
          "Naive bayes" : naive}

scores= { }

for key, value in models.items():    
    model = value
    model.fit(x_train, y_train)
    #scores[key] = model.score(x_test, y_test)
    score = cross_val_score(model,x_test,y_test,cv=5)
    scores[key] = ("%0.2f accuracy with a standard deviation of %0.2f" % (score.mean(), score.std()))

# mostrando resultados
scores_frame = pd.DataFrame(scores, index=["Accuracy Score"]).T
scores_frame.sort_values(by=["Accuracy Score"], axis=0 ,ascending=False, inplace=True)
scores_frame

Unnamed: 0,Accuracy Score
Naive bayes,0.84 accuracy with a standard deviation of 0.09
Random forest,0.80 accuracy with a standard deviation of 0.08
Decision tree,0.74 accuracy with a standard deviation of 0.13
KNN,0.69 accuracy with a standard deviation of 0.15
SVM,0.67 accuracy with a standard deviation of 0.08
