# Predicción de enfermedades cardíacas mediante el aprendizaje automático

Este cuaderno presenta conceptos básicos de aprendizaje automático y ciencia de datos mediante la exploración del problema de la **clasificación** de las enfermedades cardíacas.

Pretende ser un ejemplo completo de cómo podría ser una **prueba de concepto** de ciencia de datos y aprendizaje automático.


## 1. Definición del problema
El problema que exploraremos es la **clasificación binaria** (una muestra solo puede ser una de dos cosas).

Esto se debe a que vamos a utilizar una serie de **características** diferentes sobre una persona para predecir si tiene una enfermedad cardíaca o no.

En una oracion,

> Dados los parámetros clínicos de un paciente, ¿podemos predecir si tiene o no una cardiopatía?


## 2. Datos

Los datos originales provienen de la [base de datos de Cleveland] (https://archive.ics.uci.edu/ml/datasets/heart+Disease) del repositorio de aprendizaje automático de UCI.

Sin embargo, lo hemos descargado de forma formateada desde [Kaggle](https://www.kaggle.com/ronitf/heart-disease-uci/).

La base de datos original contiene 76 atributos, pero aquí solo se utilizarán 14 atributos. **Atributos** (también llamados **características**) son las variables que usaremos para predecir nuestra **variable objetivo**.

Los atributos y características también se conocen como **variables independientes** y una variable de destino se puede denominar **variable dependiente**.

> Usamos las variables independientes para predecir nuestra variable dependiente.

O en nuestro caso, las variables independientes son los diferentes atributos médicos de un paciente y la variable dependiente es si tiene o no una enfermedad cardíaca.

## 3. Evaluación

La métrica de evaluación es algo que puede definir al comienzo de un proyecto.

Dado que el aprendizaje automático es muy experimental, podría decir algo como:

> Si podemos alcanzar un 95 % de precisión en la predicción de si un paciente tiene o no una enfermedad cardíaca durante la prueba de concepto, realizaremos este proyecto.

La razón por la que esto es útil es que proporciona un objetivo aproximado para que trabaje un ingeniero de aprendizaje automático o un científico de datos.

Sin embargo, debido a la naturaleza de la experimentación, la métrica de evaluación puede cambiar con el tiempo.

## 4. Características

Aquí es donde obtendrá información diferente sobre cada una de las características de sus datos. Puede hacer esto haciendo su propia investigación (como mirar los enlaces anteriores) o hablando con un experto en la materia (alguien que conoce el conjunto de datos).

**Crear diccionario de datos**

1. edad - edad en años
2. sexo - (1 = masculino; 0 = femenino)
3. cp - tipo de dolor en el pecho
    * 0: Angina típica: dolor torácico relacionado con disminución del suministro de sangre al corazón
    * 1: Angina atípica: dolor torácico no relacionado con el corazón
    * 2: Dolor no anginoso: típicamente espasmos esofágicos (no relacionados con el corazón)
    * 3: Asintomático: dolor torácico sin signos de enfermedad
4. trestbps: presión arterial en reposo (en mm Hg en el momento de la admisión al hospital) cualquier valor por encima de 130-140 suele ser motivo de preocupación
5. chol - colestoral sérico en mg/dl
    * suero = LDL + HDL + .2 * triglicéridos
    * por encima de 200 es motivo de preocupación
6. fbs - (azúcar en sangre en ayunas > 120 mg/dl) (1 = verdadero; 0 = falso)
    * '>126' mg/dL indica diabetes
7. retecg - resultados electrocardiográficos en reposo
    * 0: Nada a destacar
    * 1: anormalidad de onda ST-T
        * puede variar desde síntomas leves hasta problemas graves
        * señala latidos cardíacos anormales
    * 2: hipertrofia ventricular izquierda posible o definitiva
        * Cámara de bombeo principal del corazón agrandada
8. thalach - frecuencia cardíaca máxima alcanzada
9. exang - angina inducida por el ejercicio (1 = sí; 0 = no)
10. Oldpeak: la depresión del ST inducida por el ejercicio en relación con el reposo observa el estrés del corazón durante el ejercicio. El corazón no saludable se estresará más.
11. pendiente: la pendiente del segmento ST del ejercicio máximo
    * 0: Upsloping: mejor frecuencia cardíaca con ejercicio (poco común)
    * 1: Flatsloping: cambio mínimo (típico corazón sano)
    * 2: Downslopins: signos de corazón no saludable
12. ca - número de vasos principales (0-3) coloreados por fluoroscopia
    * vaso de color significa que el médico puede ver la sangre que pasa
    * cuanto más movimiento de sangre mejor (sin coágulos)
13. thal - resultado de estrés de talio
    * 1,3: normales
    * 6: defecto fijo: solía ser un defecto pero ahora está bien
    * 7: defecto reversible: no hay circulación sanguínea adecuada al hacer ejercicio
14. objetivo - tiene enfermedad o no (1=sí, 0=no) (= el atributo predicho)

## Preparando las herramientas

Pandas, Matplotlib y NumPy para el análisis y la manipulación de datos.

In [None]:
# pip install seaborn


In [None]:
# Importar todas las herramientas que necesitamos

# EDA regular (análisis exploratorio de datos) y bibliotecas de gráficos

from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# Modelos de Scikit-Learn

# Evaluaciones de modelos


## Cargar los Datos

In [None]:
df = pd.read_csv("data/heart-disease.csv")


In [None]:
df.shape


## Exploración de datos.

El objetivo aquí es obtener más información sobre los datos .

1. ¿Qué pregunta(s) está tratando de resolver (o demostrar que está equivocado)?
2. ¿Qué tipo de datos tiene y cómo trata los diferentes tipos?
3. ¿Qué falta en los datos y cómo se maneja?
4. ¿Dónde están los valores atípicos y por qué debería preocuparse por ellos?
5. ¿Cómo puede agregar, cambiar o eliminar funciones para sacar más provecho de sus datos?

In [None]:
df.head()


In [None]:
df.tail()


In [None]:
# CUANTAS MUESTRAS POSITIVAS (1) Y NEGATIVAS (0) TENEMOS EN EL DF
df["target"].value_counts()


In [None]:
# En formato porcentaje
df["target"].value_counts(normalize=True)


Podemos graficar los recuentos de valores de la columna target llamando a la función plot() y diciéndole qué tipo de gráfico nos gustaría, en este caso, la barra es buena.

In [None]:
# Grafica los valores en barras
df["target"].value_counts().plot(kind="bar", color=["salmon", "lightblue"])


`df.info()` muestra una visión rápida de la cantidad de valores faltantes que tiene y con qué tipo de datos está trabajando.

Para este caso, no faltan valores y todas nuestras columnas son de naturaleza numérica.

In [None]:
df.info()


In [None]:
# ¿Hay valores faltantes?
df.isna().sum()


Otra forma de obtener información rápida sobre su marco de datos es usar `df.describe()` muestra una variedad de métricas diferentes sobre sus columnas numéricas, como la media, el máximo y la desviación estándar.

In [None]:
df.describe()


### Frecuencia de enfermedades cardíacas según sexo

Se compara la columna objetivo con la columna de sexo.

Recuerde de nuestro diccionario de datos, para la columna objetivo, 1 = enfermedad cardíaca presente, 0 = sin enfermedad cardíaca. Y para el sexo, 1 = masculino, 0 = femenino.

In [None]:
df["sex"].value_counts()


In [None]:
pd.crosstab(df["target"], df["sex"])


¿Qué podemos inferir de esto? 

Dado que hay alrededor de 100 mujeres y 72 de ellas tienen un valor positivo de enfermedad cardíaca presente, podríamos inferir, según esta variable, si la participante es una mujer, hay un 75 % de probabilidad de que tenga una enfermedad cardíaca.

En cuanto a los hombres, hay alrededor de 200 en total y alrededor de la mitad indica la presencia de una enfermedad cardíaca. Así que podríamos predecir, si el participante es hombre, el 50% de las veces tendrá una enfermedad cardíaca.

### Tabulación cruzada
Se puede trazar la tabulación cruzada usando la función `plot()` y pasándole algunos parámetros como `kind` (el tipo de gráfico que desea), `figsize=(longitud, ancho)` y `color=[color_1, color_2]` (los diferentes colores que le gustaría usar).

In [None]:
pd.crosstab(df["target"], df["sex"]).plot(kind="bar", figsize=(8, 5), color=["salmon", "lightblue"])

plt.title("Frecuencia de enfermedades del corazón para el sexo")
plt.xlabel("0 = Sin enfermedad, 1 = Enfermedad")
plt.ylabel("Cantidad")
plt.legend(["Feminino", "Masculino"])
plt.xticks(rotation=0)


### Edad v/s a frecuencia cardíaca máxima(thalach ) para enfermedades cardíacas
Intentemos combinar un par de variables independientes, como la edad y el thalach (frecuencia cardíaca máxima) y luego comparémoslas con nuestra enfermedad cardíaca variable objetivo.

Debido a que hay tantos valores diferentes para la edad y el thalach, usaremos un diagrama de dispersión.

In [None]:
# Creo la Figura
plt.figure(figsize=(7, 5))

# Comience con ejemplos positivos
plt.scatter(df.age[df.target == 1], df.thalach[df.target == 1], c="salmon")

# Ahora, para los ejemplos negativos, los queremos en el mismo gráfico, por lo que llamamos plt nuevamente
plt.scatter(df.age[df.target == 0], df.thalach[df.target == 0], c="lightblue")   # eje siempre viene como (x, y)

# Agreguemos información útil
plt.title("Enfermedad Cardiaca en función de la Edad y la frecuencia cardiaca Maxima")
plt.xlabel("Edad")
plt.ylabel("Ritmo Cardiaco Máximo")
plt.legend(["Enfermedad", "Sin Enfermedad"])


¿Qué se puede inferir de esto?

Parece que cuanto más joven es una persona, mayor es su frecuencia cardíaca máxima (los puntos están más arriba a la izquierda del gráfico) y cuanto mayor es una persona, más puntos verdes hay. Pero esto puede deberse a que hay más puntos todos juntos en el lado derecho del gráfico (participantes mayores).

Observación de la **distribución** de edad.

In [None]:
# Los histogramas son una excelente manera de verificar la distribución de una variable
df["age"].plot.hist()


Podemos ver que es una [**distribución normal**](https://en.wikipedia.org/wiki/Normal_distribution) pero ligeramente oscilante hacia la derecha, lo que se refleja en el diagrama de dispersión anterior.

### Frecuencia de enfermedades cardíacas por tipo de dolor torácico

Probemos con otra variable independiente. Esta vez, `cp` (dolor en el pecho).

Usaremos el mismo proceso que hicimos antes con `sex`.

cp - tipo de dolor en el pecho

* 0: Angina típica: dolor torácico relacionado con disminución del suministro de sangre al corazón
* 1: Angina atípica: dolor torácico no relacionado con el corazón
* 2: Dolor no anginoso: típicamente espasmos esofágicos (no relacionados con el corazón)
* 3: Asintomático: dolor torácico sin signos de enfermedad

In [None]:
pd.crosstab(df["cp"], df["target"])


In [None]:
# Hacer crosstab mas Visual
pd.crosstab(df["cp"], df["target"]).plot(kind="bar",figsize=(7, 5),color=["salmon", "lightblue"])
plt.title("Frecuencia de enfermedades del Corazon - Tipo de dolor en el Pecho")
plt.xlabel("Tipo de Dolor en el Pecho")
plt.ylabel("Cantidad")
plt.legend(["Sin Enfermedad", "Enfermedad"])
plt.xticks(rotation=0)


¿Qué podemos inferir de esto?

Los diferentes niveles de dolor torácico.

3. cp - tipo de dolor en el pecho
    * 0: Angina típica: dolor torácico relacionado con disminución del suministro de sangre al corazón
    * 1: Angina atípica: dolor torácico no relacionado con el corazón
    * 2: Dolor no anginoso: típicamente espasmos esofágicos (no relacionados con el corazón)
    * 3: Asintomático: dolor torácico sin signos de enfermedad
    
Es interesante que la agina atípica (valor 1) indique que no está relacionada con el corazón, pero parece tener una mayor proporción de participantes con enfermedades cardíacas que no.

In [None]:
df.head()


### Correlación entre variables independientes

Finalmente, comparamos todas las variables independientes de una sola vez.

¿Por qué?

Se puede dar una idea de qué variables independientes pueden o no tener un impacto en nuestra variable objetivo.

Podemos hacer esto usando `df.corr()` que creará una [**matriz de correlación**](https://www.statisticshowto.datasciencecentral.com/correlation-matrix/) una gran tabla de números que nos dice qué tan relacionada está cada variable con la otra.

In [None]:
corr_matrix = df.corr()
corr_matrix


In [None]:
fig, ax = plt.subplots(figsize=(10, 6))
ax = sns.heatmap(corr_matrix, annot=True, linewidths=0.5, fmt=".2f", cmap="YlGnBu")

# Para que se vea el grafico completo ... la cabecera
bottom, top = ax.get_ylim()
ax.set_ylim(bottom + 0.5, top - 0.5)


Un valor positivo alto significa una correlación positiva (aumento) y un valor negativo alto significa una correlación negativa (disminución).