## **PREDICCION DE ENFERMEDAD CARDIACA**


Uso del  Heart Disease Data Set para ejercicio de prediccion


#### IMPORTACION DE LIBRERIAS Y DATASET

IMPORTACION DE DEPENDENCIAS

In [1]:
import pandas as pd 
from pandas import read_csv

###### IMPORTACION DEL DATASET Y AGREGAR NOMBRE DE COLUMNAS

In [2]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data"
names =["EDAD", "SEXO", "TD", "PSD", "COL","AZA", "ELE", "FCO","AIE", "DST","PEN", "VAS", "TAL", "RES"]
dataset = pd.read_csv(url, names=names)

##### INSPECCION PRIMEROS 5 DATOS

In [3]:
dataset.head(5)

Unnamed: 0,EDAD,SEXO,TD,PSD,COL,AZA,ELE,FCO,AIE,DST,PEN,VAS,TAL,RES
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


#### DIMENSION DEL DATASET

In [4]:
dataset.shape

(303, 14)

##### Inspeccion de tipo de datos de cada columna.

In [5]:
dataset.dtypes

EDAD    float64
SEXO    float64
TD      float64
PSD     float64
COL     float64
AZA     float64
ELE     float64
FCO     float64
AIE     float64
DST     float64
PEN     float64
VAS      object
TAL      object
RES       int64
dtype: object

##### Se sospecha que las columnas VAS, y TAL podrian contener datos faltantes

In [6]:
cols = dataset.columns[dataset.dtypes.eq(object)]
cols

Index(['VAS', 'TAL'], dtype='object')

##### Se convierte los datos de las columnas VAS, y TAL en valores numericos; cualquier dato que no se pueda convertir se transforma en un NaN

In [7]:
dataset[cols] = dataset[cols].apply(pd.to_numeric, errors='coerce')
dataset.dtypes

EDAD    float64
SEXO    float64
TD      float64
PSD     float64
COL     float64
AZA     float64
ELE     float64
FCO     float64
AIE     float64
DST     float64
PEN     float64
VAS     float64
TAL     float64
RES       int64
dtype: object

##### Verificar existencia si hubo datos faltantes.

In [8]:
dataset.isnull().values.any()

True

##### Cantidad de datos faltantes

In [9]:
dataset.isnull().values.sum()

6

###### Como el resultado es 6, se opta por eliminar esos datos.

In [10]:
dataset = dataset.dropna()

###### Verificación de la dimension

In [11]:
dataset.shape

(297, 14)

##### Las variable RES muestra la condicion cardiaca de la muestra. Un valor 0 indica que la persona tiene enfermedad cardiaca, valores 1,2,3 y 4 indican que no posee esa condicion. Los datos se consolidan para que muestren 0 si es positivo para enfermedad y si los datos son 1,2,3 y 4 mostrara un 1, indicando negativo para enfermedad cardiaca.

In [12]:
dataset.loc[dataset['RES'] == 0, 'RES'] = 0
dataset.loc[(dataset['RES'] >0), 'RES'] = 1

###### Inspeccion despues del proceso de agrupacion.

In [13]:
dataset.head(10)

Unnamed: 0,EDAD,SEXO,TD,PSD,COL,AZA,ELE,FCO,AIE,DST,PEN,VAS,TAL,RES
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,1
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0
5,56.0,1.0,2.0,120.0,236.0,0.0,0.0,178.0,0.0,0.8,1.0,0.0,3.0,0
6,62.0,0.0,4.0,140.0,268.0,0.0,2.0,160.0,0.0,3.6,3.0,2.0,3.0,1
7,57.0,0.0,4.0,120.0,354.0,0.0,0.0,163.0,1.0,0.6,1.0,0.0,3.0,0
8,63.0,1.0,4.0,130.0,254.0,0.0,2.0,147.0,0.0,1.4,2.0,1.0,7.0,1
9,53.0,1.0,4.0,140.0,203.0,1.0,2.0,155.0,1.0,3.1,3.0,0.0,7.0,1


## PREPARACION DE LOS DATOS

 DESCRIPCION DE LAS VARIABLES

1.   EDAD : Edad del individuo
2.   SEX : Sexo del individuo
3.   TD: Tipo de dolor de pecho 1-tipico, 2-No tipico, 3-No dolor, 4 -Asintomatico
4.   PSD : Presion arterial en reposo
5.   COL : Nivel de colesterol
6.   AZA: Nivel de azucar en la sangre en ayuno 1-Si es superior a 120mg/dl, 0-Si es inferior
7.   ELE: Eletrocardiograma 0-Normal, 1 y 2 Anormal
8.   FCO: Frecuencia cardiaca objetivo
9.   AIE:  Angina inducida por el ejercicio 1-Si, 0-No
10. DST: Depresion en el segmento ST Electrocardiograma 
11.  PEN: Pendiente de segmento ST en ejercicio 1-Sube, 2-Plano, 3-Baja.
12.  VAS: Numero de vasos (0-3) coloreados por fluoroscopia
13. TAL: Talasemia 3-Normal, 6-Defecto permanente, 7-Defecto reversible
14.  RES: Enfermedad cardiaca.  Mayor a 0 no hay enfermedad cardiaca



#### Los datos de las colummas TAL y REA son numéricos, deben convertirse a float

In [14]:
cols = dataset.columns[dataset.dtypes.eq(object)]
cols

Index([], dtype='object')

##### Comprobación del tipo de datos

In [15]:
dataset[cols] = dataset[cols].apply(pd.to_numeric, errors='coerce')
dataset.dtypes

EDAD    float64
SEXO    float64
TD      float64
PSD     float64
COL     float64
AZA     float64
ELE     float64
FCO     float64
AIE     float64
DST     float64
PEN     float64
VAS     float64
TAL     float64
RES       int64
dtype: object

##### Comprobar NaN

In [16]:
dataset.isnull().values.any()


False

### PROCESADO DE LA VARIABLE QUE DEFINE LOS RESULTADOS

Las variable RES muestra la condicion cardiaca de la muestra.  Un valor 0 indica que la persona tiene enfermedad cardiaca,  valores 1,2,3 y 4 indican que no posee esa condicion.    Los datos se consolidan para que muestren 0 si es positivo para enfermedad y si los datos son 1,2,3 y 4 mostrara un 1, indicando negativo para enfermedad cardiaca.

In [17]:
#AGRUPANDO DATOS DE SALIDA

dataset.loc[dataset['RES'] == 0, 'RES'] = 0
dataset.loc[(dataset['RES'] >0), 'RES'] = 1

#### Verificando si los datos han sido categorizados

In [18]:
dataset.RES.head(10)

0    0
1    1
2    1
3    0
4    0
5    0
6    1
7    0
8    1
9    1
Name: RES, dtype: int64

# APLICACION DE MODELOS DE APRENDIZAJE AUTOMATICO


#### Seleccion de variables y etiqueta

Se parte de una hipotesis de que con tres variables se puede llegar a un resultado razonablemente preciso.  El resultado del Electrocardiograma (ELE),  Colesterol (COL) y la Depresion en el segmento T (DST) son las variables seleccionadas inicialmente.

Con esas 3 variables, se obtiene una precision del 52%.   Para mejorar el resultado se agregan las variables: Edad, Presion, Tipo Dolor Pecho y Talasemia (EDAD, PSD, TD, TAL)
 


In [19]:
features = dataset[['EDAD','PSD','ELE','DST','COL','TD','TAL']]
labels = dataset['RES']

#### Muestra de los datos a usar en el modelo

In [20]:
features.head(10)

Unnamed: 0,EDAD,PSD,ELE,DST,COL,TD,TAL
0,63.0,145.0,2.0,2.3,233.0,1.0,6.0
1,67.0,160.0,2.0,1.5,286.0,4.0,3.0
2,67.0,120.0,2.0,2.6,229.0,4.0,7.0
3,37.0,130.0,0.0,3.5,250.0,3.0,3.0
4,41.0,130.0,2.0,1.4,204.0,2.0,3.0
5,56.0,120.0,0.0,0.8,236.0,2.0,3.0
6,62.0,140.0,2.0,3.6,268.0,4.0,3.0
7,57.0,120.0,0.0,0.6,354.0,4.0,3.0
8,63.0,130.0,2.0,1.4,254.0,4.0,7.0
9,53.0,140.0,2.0,3.1,203.0,4.0,7.0


#### Se dividen los datos en conjuntos de entrenamiento y prueba:


In [21]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(features,labels, random_state=13)

#### Verificacion de dimensiones de los conjuntos de prueba y entrenamiento:



In [22]:
print ("Dim X_Train:",X_train.shape)
print ("Dim y_Train:",y_train.shape)
print ("Dim X_Test:",X_test.shape)
print ("Dim y_Test:",y_test.shape)

Dim X_Train: (222, 7)
Dim y_Train: (222,)
Dim X_Test: (75, 7)
Dim y_Test: (75,)


### CLASIFICADOR No1 - DECISION TREE

#### IMPORTACION DE LIBRERIAS

In [23]:
# IMPORTACION LIBRERIAS
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

####  APLICACION DEL MODELO

In [24]:
#NIVEL DE PROFUNDIDAD 2
DecisionTreeModel = DecisionTreeClassifier(max_depth = 2)

#EJECUCION DEL ENTRENAMIENTO
DecisionTreeModel.fit(X_train,y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

#### SE APLICA EL MODELO A LOS VALORES DE PRUEBA

In [25]:
y_predict = DecisionTreeModel.predict(X_test)

##### EVALUACION DE LA PRECISION DEL MODELO

In [26]:
dt1 = accuracy_score(y_test, y_predict)
dt1

0.7733333333333333

### CONCLUSIONES
Se encontraron las siguientes dificultados con la aplicación de este modelo:

1. Las variables seleccionadas inicialmente no permitían un resultado preciso.  Se trabajó con tres variables y apenas se logró un 52% de precisión.    Se tuve que incrementar a 7 variables para llegar a un 77.3%


2. Inicialmente se trabajó el modelo con la variable de salida tal y como viene en el dataset, con valores enteros 0 a 4.  Cero es positivo y 1,2,3 y 4 negativo para la enfermedad.  Cuando se categorizó esa variable a solo dos valores 0 y 1,  los resultados mejoraron significativamente.





# METODOS DE ENSAMBLE

En Aprendizaje Automático se conocen como métodos de esamble,  aquellos métodos que hacen uso de varios algoritmos combinados.  Esto para obtener un desempeño superior al que puede obtenerse con cada algoritmo individual.
![texto alternativo](http://www.cs.us.es/~fsancho/images/2018-12/ensemble.png)


En general,  los métodos de ensamble emplean estrategias denominadas: bagging,  boosting, o stacking.

Bagging esta basado en agregación.  Combina multiples algoritmos para reducir la varianza de las predicciones. Uno de estos métodos es Randam Forest que entrena N arboles de decisiones con diferentes subconjuntos de datos, y al final se hace una votación para obtener la predicción final.  Bagging es un meta-algoritmo diseñado para conseguir combinaciones de modelos a partir de una familia inicial, provocando una disminución de la varianza y evitando el sobreajuste. Aunque lo más común es aplicarlo con los métodos basados en árboles de decisión, se puede usar con cualquier familia.

Boosting emplea clasificadores simples de poca precisión para crear un clasificador más preciso. En este método no se crean versiones del conjunto de entrenamiento, sino que se trabaja siempre con el conjunto completo de entrada, y se manipulan los pesos de los datos para generar modelos distintos. La idea es que en cada iteración se incremente el peso de los objetos mal clasificados por el predictor en esa iteración, por lo que en la construcción del próximo predictor estos objetos serán más importantes y será más probable clasificarlos bien.



La técnica de Stacking utiliza varios modelos para generar un nuevo set de datos que será empleado como datos de entrada para otro clasificador.






## MODELO ADABOOST


Adaboost combina multiples clasificadores para incrementar la precisión de la clasificación.  Es un método de esamble iterativo que emplea como base el asuste de los pesos de los clasificadores y el entrenamiento del modelo con los datos de prueba en cada interación.  Cualquier algoritmo que acepte pesos en el conjunto de entranamiento puede ser usado como algoritmo base.

![texto alternativo](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1542651255/image_3_nwa5zf.png)

Pasos del modelo:

1.Inicialmente, a todos los datos del conjunto de entrenamiento se les asigna un peso idéntico, wi=1n, donde n es el tamaño del conjunto de datos.

2.Se entrena el modelo usando el conjunto de entrenamiento.

3.Se calcula el error del modelo en el conjunto de entrenamiento, se cuentan cuántos objetos han sido mal clasificados y se identifican cuáles son.

4.Se incrementan los pesos en aquellos casos de entrenamiento en los que el modelo anterior ha dado resultados erróneos.

5.Se entrena un nuevo modelo usando el conjunto de pesos modificados.

6.Volver al punto 3 (y se repite el proceso hasta el número de iteraciones fijadas inicialmente).

El modelo final se consigue por votación ponderada usando los pesos de todos los modelos.


![texto alternativo](http://www.cs.us.es/~fsancho/images/2018-12/boosting.png
)


# EJEMPLO DE USO DE ADABOOST

Los parámetros más importantes para el uso del modelo son:  base_estimator, n_estimators, y learning_rate." 

base_estimator:  Algoritmo usado como base para entrenar   el modelo.  Como default emplea Decision Tree,  pero es posible especificar otros algoritmos.  

n_estimators:  Número de  algoritmos que se van a entrenar en forma iterativa

learning_rate:  Factor de variación de los pesos de los algoritmos base.

### USO DE ADABOOST CON EL MISMO SET DE DATOS

Se emplean los mismos datos de entrenamiento y prueba que se han utilizado en los demás ejercicios.



#### IMPORTACION DE LIBRERIA

In [27]:
from sklearn.ensemble import AdaBoostClassifier

##### APLICACION DEL META ALGORITMO
Se hacen varios ensayos con diferentes n_estimators y learning_rate.  Estos son los valores que mostraron mejores resultados:

In [28]:
abc = AdaBoostClassifier(n_estimators=8,
                         learning_rate=.7)

#### Entrenamiento del modelo

In [29]:
model = abc.fit(X_train, y_train)

#### EVALUACION DE LA PRECISION DEL MODELO

In [30]:
y_pred = model.predict(X_test)
dt2=accuracy_score(y_test, y_pred)
dt2

0.8133333333333334

### CONCLUSIONES

Se ensayaron diferentes valores para los parametros n_estimators, en donde se probó desde 3 hasta 25 con los mejores resultados en 0.7

El Learning_rate debe ser 1,  valores mayores dan muy pobres resultados.

Posiblemente por ser un caso muy sencillo,  el incremento en el rendimiento por el uso de este algoritmo versus uno simple, es de un 5% (77,3% vrs 81,3%)