# **Propuesta de trabajo: Dataset Heart Failure** 

### **Integrantes**

- Cloe Romero
- Macarena Rojas
- Benjamin Giacomini

### **Librerias** 

In [1]:
import matplotlib.pyplot as plt
import altair as alt
import pandas as pd
import numpy as np
import os

from sklearn.preprocessing import StandardScaler

## **Presentación de los datos** 
Vamos a trabajar con el dataset _[Heart Failure](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data)_ que contiene 12 características para predecir la mortalidad por insuficiencia cardíaca. 

In [2]:
heart_failure = (
    pd.read_csv(os.path.join("heart_failure_clinical_records_dataset.csv"))
    .rename(columns=lambda x: x.replace(" ", "").replace(".", "_").lower())
)
                                                                                               
heart_failure.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,death_event
0,75.0,0,582,0,20,1,265000.0,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.0,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.0,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.0,2.7,116,0,0,8,1


## **Definición de variables**

* __Edad__: 
    - Descripción: Edad de los pacientes. 
    - Tipo: _float_
    - Observaciones: No deberían encontrarse valores _float_, por lo que se realizara un pre-procesamiento. 
* __Anemia__:  
    - Descripción: Disminución de glóbulos rojos o hemoglobina. 
    - Tipo: _int_
    - Observaciones: Valores binarios, 1 si tiene anemia o 0 si no tiene anemia. 
* __Creatinina Fosfoquinasa__:   
    - Descripción: Nivel de la enzima CPK en sangre (mcg/L). 
    - Tipo: _int_
    - Observaciones: Podrian encontrarse valores _float_. 
* __Diabetes__: 
    - Descripción: Si el paciente tiene diabetes. 
    - Tipo: _int_
    - Observaciones: Valores binarios, 1 si tiene diabetes o 0 si no tiene diabetes. 
* __Fracción de Eyección__: 
    - Descripción: Porcentaje de sangre que sale del corazón en cada contracción. 
    - Tipo: _int_
    - Observaciones: No deberían encontrarse valores mayores a 100 o menores a 0. 
* __Hipertensión__: 
    - Descripción: Si el paciente tiene hipertensión.
    - Tipo: _int_
    - Observaciones: Valores binarios, 1 si tiene hipertension o 0 si no tiene hipertension.
* __Plaquetas__:  
    - Descripción: Plaquetas en la sangre (kiloplaquetas/mL).
    - Tipo: _float_
    - Observaciones: El rango normal es de 150000 a 400000 (kiloplaquetas/mL). 
* __Suero de Creatinina__:   
    - Descripción: Nivel de creatinina sérica en sangre (mg/dL). 
    - Tipo: _float_
    - Observaciones: El rango normal es de 0.7 a 1.3 (mg/dL) para los hombres y 0.6 a 1.1 (mg/dL) para las mujeres.   
* __Sodio Sérico__:  
    - Descripción: Nivel de sodio sérico en sangre (mEq/L). 
    - Tipo: _float_
    - Observaciones: El rango normal es de 135 a 145 (mEq/L).
* __Sexo__: 
    - Descripción: Sexo del paciente. 
    - Tipo: _int_
    - Observaciones: Valores binarios, 1 si es hombre o 0 si es mujer. 
* __Fumador__: 
    - Descripción: Si el paciente fuma. 
    - Tipo: _int_
    - Observaciones: Valores binarios, 1 si fuma o 0 si no fuma.
* __Tiempo__:
    - Descripción: Periodo de seguimiento del paciente. 
    - Tipo: _int_
    - Observaciones: Se mide en dias. 
* __Evento de Muerte__: 
    - Descripción: Si la persona muere durante el periodo de seguimiento.  
    - Tipo: _int_
    - Observaciones: Valores binarios, 1 si muere o 0 si no muere. 

## **Contexto de la problemática** 

En el mundo, el 31% de las muertes se deben a enfermedades cardiovasculares, es decir, son casi 17,9 millones de muertes al año. Esto se puede prevenir controlando los factores de riesgo como fumar, la obesidad, el alcohol o la mala dieta que posea esa persona. Ademas, si la persona posee una enfermedad aparte como diabetes, hipertension, etc. necesitan de mayor ayuda para poder prevenir una posible muerte. Para esto, es importante tener un modelo de aprendizaje donde la obtencion de resultados sea facil y lo mas precisa posible, aumentando en rendimiento de los posibles tratamientos y del personal de la salud.

## **¿Cuál es la pregunta que desean resolver?**

#### ¿Es posible predecir la mortalidad por enfermedades cardiovasculares dado un conjunto de variables?

## **Análisis estadístico de los datos**

In [3]:
heart_failure.describe(include="all").T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,299.0,60.833893,11.894809,40.0,51.0,60.0,70.0,95.0
anaemia,299.0,0.431438,0.496107,0.0,0.0,0.0,1.0,1.0
creatinine_phosphokinase,299.0,581.839465,970.287881,23.0,116.5,250.0,582.0,7861.0
diabetes,299.0,0.41806,0.494067,0.0,0.0,0.0,1.0,1.0
ejection_fraction,299.0,38.083612,11.834841,14.0,30.0,38.0,45.0,80.0
high_blood_pressure,299.0,0.351171,0.478136,0.0,0.0,0.0,1.0,1.0
platelets,299.0,263358.029264,97804.236869,25100.0,212500.0,262000.0,303500.0,850000.0
serum_creatinine,299.0,1.39388,1.03451,0.5,0.9,1.1,1.4,9.4
serum_sodium,299.0,136.625418,4.412477,113.0,134.0,137.0,140.0,148.0
sex,299.0,0.648829,0.478136,0.0,0.0,1.0,1.0,1.0


## **Visualización de variables**

In [4]:
heart_failure.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   age                       299 non-null    float64
 1   anaemia                   299 non-null    int64  
 2   creatinine_phosphokinase  299 non-null    int64  
 3   diabetes                  299 non-null    int64  
 4   ejection_fraction         299 non-null    int64  
 5   high_blood_pressure       299 non-null    int64  
 6   platelets                 299 non-null    float64
 7   serum_creatinine          299 non-null    float64
 8   serum_sodium              299 non-null    int64  
 9   sex                       299 non-null    int64  
 10  smoking                   299 non-null    int64  
 11  time                      299 non-null    int64  
 12  death_event               299 non-null    int64  
dtypes: float64(3), int64(10)
memory usage: 30.5 KB


In [5]:
for col in heart_failure:
    print(f"La columna {col} posee los siguientes valores únicos:\n {heart_failure[col].sort_values().unique()}\n\n")

La columna age posee los siguientes valores únicos:
 [40.    41.    42.    43.    44.    45.    46.    47.    48.    49.
 50.    51.    52.    53.    54.    55.    56.    57.    58.    59.
 60.    60.667 61.    62.    63.    64.    65.    66.    67.    68.
 69.    70.    72.    73.    75.    77.    78.    79.    80.    81.
 82.    85.    86.    87.    90.    94.    95.   ]


La columna anaemia posee los siguientes valores únicos:
 [0 1]


La columna creatinine_phosphokinase posee los siguientes valores únicos:
 [  23   30   47   52   53   54   55   56   57   58   59   60   61   62
   63   64   66   68   69   70   72   75   76   78   80   81   84   86
   88   90   91   92   93   94   95   96   97   99  101  102  103  104
  109  110  111  112  113  115  118  119  121  122  123  124  125  127
  128  129  130  131  132  133  135  143  144  145  146  148  149  151
  154  156  157  159  160  161  166  167  168  170  171  176  180  185
  190  191  193  196  198  200  203  207  211  212  213  

In [6]:
alt.Chart(heart_failure).mark_circle(opacity=0.5).encode(
    alt.X(alt.repeat("column"),type='quantitative'),
    alt.Y(alt.repeat("row"),type='quantitative'),
    color=alt.Color('death_event:N',
        scale=alt.Scale(scheme='category10'))
).properties(
    width=200,
    height=200
).repeat(
    row=['age', 'anaemia', 'creatinine_phosphokinase', 'diabetes', 
         'ejection_fraction','high_blood_pressure', 'platelets', 
         'serum_creatinine', 'serum_sodium', 'sex', 'smoking', 
         'time', 'death_event'],
    column=['age', 'anaemia', 'creatinine_phosphokinase', 'diabetes', 
            'ejection_fraction', 'high_blood_pressure', 'platelets', 
            'serum_creatinine', 'serum_sodium', 'sex', 'smoking', 
            'time', 'death_event']
)

## **Preprocesamiento**

* En la columna `age` se presenta la siguiente anomalía:
    * Hay un valor flotante.

In [7]:
heart_failure["age"] = np.array(list(map(lambda x: int(x), heart_failure["age"].values)))

* En la columna `platelets` se presenta la siguiente anomalía:
    * Hay un valor flotante.

In [8]:
heart_failure["platelets"] = np.array(list(map(lambda x: int(x), heart_failure["platelets"].values)))

* Además, se realizará una estandarización de los datos, ya que se tiene magnitudes de $10^{-1}$ en la columna `serum_creatinine` versus una magnitud de $10^5$ en la columna `platelets`.

In [9]:
X = heart_failure[heart_failure.columns[0:-1]]
y = heart_failure["death_event"]

In [10]:
std_transformer = StandardScaler()
X_array = std_transformer.fit_transform(X.values)
X_scaled = pd.DataFrame(X_array, index=X.index, columns=X.columns)
X_scaled

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time
0,1.193302,-0.871105,0.000166,-0.847579,-1.530560,1.359272,1.681651e-02,0.490057,-1.504036,0.735688,-0.687682,-1.629502
1,-0.490896,-0.871105,7.514640,-0.847579,-0.007077,-0.735688,-2.740240e-07,-0.284552,-0.141976,0.735688,-0.687682,-1.603691
2,0.351203,-0.871105,-0.449939,-0.847579,-1.530560,-0.735688,-1.038073e+00,-0.090900,-1.731046,0.735688,1.454161,-1.590785
3,-0.911945,1.147968,-0.486071,-0.847579,-1.530560,-0.735688,-5.464741e-01,0.490057,0.085034,0.735688,-0.687682,-1.590785
4,0.351203,1.147968,-0.435486,1.179830,-1.530560,-0.735688,6.517986e-01,1.264666,-4.682176,-1.359272,-0.687682,-1.577879
...,...,...,...,...,...,...,...,...,...,...,...,...
294,0.098573,-0.871105,-0.537688,1.179830,-0.007077,1.359272,-1.109765e+00,-0.284552,1.447094,0.735688,1.454161,1.803451
295,-0.490896,-0.871105,1.278215,-0.847579,-0.007077,-0.735688,6.802474e-02,-0.187726,0.539054,-1.359272,-0.687682,1.816357
296,-1.332995,-0.871105,1.525979,1.179830,1.854958,-0.735688,4.902082e+00,-0.575031,0.312044,-1.359272,-0.687682,1.906697
297,-1.332995,-0.871105,1.890398,-0.847579,-0.007077,-0.735688,-1.263389e+00,0.005926,0.766064,0.735688,1.454161,1.932509


## **¿Hay que realizar inputación de datos faltantes?**

No hay datos faltantes en ninguna columna por lo que no se debe realizar imputacion.

## **¿Hay que realizar balanceo de datos?**

In [11]:
print(heart_failure.shape)

(299, 13)


In [12]:
print(heart_failure.value_counts(heart_failure['death_event'], sort = True))

death_event
0    203
1     96
dtype: int64


No se debe realizar un balanceo de datos ya que un tercio de los datos, aproximadamente, corresponde a la gente que murio.

## **Propuesta de cuatro modelos y sus hiperparámetros asociados**

### **Regresion Logistica**
La _[Regresion Logistica](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)_ es un algoritmo de aprendizaje supervisado que intenta predecir los parametros de una regresion Logistica.

Una Regresion Logistica consiste en asumi que el logaritmo de la cuota estadistica (esto es, la probabilidad de un evento dividido la probabilidad de que no ocurra) se puede predecir por una combinacion lineal de los paramatros independientes, y de eso predecir la probabilidad de un evento en base a ello; a ese logaritmo de cuotas se le suele llamar Logit, mientras que su funcion inversa es la funcion logistica, la que da las probabilidades mismas dada la combinacion lineal de parametros independientes. De ahi su nombre, regresion logistica o regresion logit.

<img src=https://static.javatpoint.com/tutorial/machine-learning/images/logistic-regression-in-machine-learning.png width="500">

Ventajas del algoritmo:
* Generalmente Estable
* Funciona bien con variables independientes binarias

Desventaja del algoritmo:

* Suceptibilidad a overfitting por excesso de parametros
* Suceptibilidad a overfitting por excesiva correlacion entre parametros
* Necesarias varias muestras por cada parametro.

### **Hiperparametros**
Los hiperparametrso de la Regresion Logaritmica tienden a relacionarse con la forma de optimizar los parametros de la misma; destacan en esta categoria:
* **C**: Hiperparametro de regularizacion. Identico a el caso de SVM.
* **penalty**: Funcion de penalizacion en la optimizacion; usualmente l1 o l2.
* **solver**: Algoritmo con el cual estimar parametros (para el caos de la regresion logistica, es un problema abierto).

### **K Nearest Neighbours (kNN)** 

El algortimo _[k Nearest Neighbors](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)_ es un algoritmo de aprendizaje supervisado de clasificación que basa su funcionamiento en la suposición de que las cosas similares están cerca una de la otra. Este algoritmo clasifica cada nuevo dato calculando la distancia de ese dato con todos los del conjunto. La clase predicha para este nuevo dato vendrá dada por la clase a la que pertenezcan los datos más cercanos, el valor de la $k$ es el que determina en cuantos vecinos se fija para predecir la clase. Así, con un valor de $k = 1$, la clase predicha para cada nuevo dato será la clase a la que pertenezca el dato más cercano del conjunto.

Los pasos que sigue son:

   1. Calcular la distancia entre el item a clasificar y el resto de items del dataset de entrenamiento.
   2. Seleccionar los “k” elementos más cercanos (con menor distancia, según la función que se use)
   3. Realizar una “votación de mayoría” entre los k puntos: los de la clase/etiqueta más popular decidirán su clasificación final.

<img src="https://cdn-images-1.medium.com/max/800/0*QmLAPLYUDcpJYwvo.png" width="500">

El valor de $k$ variará dependiendo del conjunto de dato estudiado, pero en caso de que sea par y ocupar un empate existen formas de desempatar, por ejemplo:

* Elegir la etiqueta del vecino más cercano (problema: no garantiza solución).
* Elegir la etiqueta de menor valor (problema: arbitrario).
* Elegir la etiqueta que se obtendría con $k+1$ o $k-1$ (problema: no garantiza solución, aumenta tiempo de cálculo).

Para encontrar los puntos similares más cercanos, se utilizan medidas de distancias. Una opción popular es la distancia euclidiana, pero también hay otras medidas que pueden ser más adecuadas para un entorno dado, por ejemplo, la distancia de Mahattan y Minkowski.

<img src="https://live.staticflickr.com/65535/40733598823_0eede41717_b.jpg" width="800">

#### **Hiperparámetro**:

En este algoritmo el parámetro que varía con el fin de mejorar la clasificación es el $k$, valores cercanos a $1$ generan predicciones menos estables, mientras que a la inversa, a medida que se aumenta el valor de $k$, las predicciones se vuelven más estables, y por lo tanto, más probabilidades de hacer predicciones más precisas (hasta cierto punto). Eventualmente, se comienza a presenciar un número creciente de errores. Es en este punto que se ha llevado el valor de $k$ demasiado lejos.


[Fuente 1](https://aoguedao.github.io/mat281_2020S2/lessons/M4L04_classification_nonparametric.html), [Fuente 2](https://www.kdnuggets.com/2019/07/classifying-heart-disease-using-k-nearest-neighbors.html), [Fuente 3](https://academica-e.unavarra.es/xmlui/bitstream/handle/2454/29112/Memoria.pdf?sequence=2&isAllowed=y), [Fuente 4](https://www.aprendemachinelearning.com/clasificar-con-k-nearest-neighbor-ejemplo-en-python/).

### **Support Vector Machine (SVM)**

El _[Support Vector Machine](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC)_ es un algoritmo de machine learning principalmente de clasificación, aunque también puede ser utilizado para problemas de regresión. Este modelo construye un hiperplano en un espacio multidimensional para separar las diferentes clases. Genera un hiperplano óptimo de forma iterativa, que se utiliza para minimizar un error. La idea central de SVM es encontrar un hiperplano marginal máximo que mejor divida el conjunto de datos en clases.

<img src="https://live.staticflickr.com/65535/32848644557_b257479baa_b.jpg" width="500">

Los elementos en esta imagen son:

* **_Vectores de Soporte_**: son los puntos de datos más cercanos al hiperplano. Estos puntos definirán mejor la línea de separación calculando los márgenes. Estos puntos son más relevantes para la construcción del clasificador.

* **_Hiperplano_**: es un plano de decisión que separa entre un conjunto de objetos que tienen membresía de clase diferentes.

* **_Margen_**: es un espacio entre las dos líneas en los puntos más cercanos de la clase. Se calcula como la distancia perpendicular desde la línea hasta los vectores de soporte o puntos más cercanos. Si el margen es mayor entre las clases, entonces se considera un buen margen, un margen menor es un mal margen.

Si los datos son 'linealmente separables', es decir, se pueden separar por un hiperplano, el algoritmo probará con distintos hiperplanos para econtrar con el que se obtenga el mayor margen. 

<img src="https://live.staticflickr.com/65535/40825833393_8d30433ec5_b.jpg" width="500">

Sin embargo, si los datos no lo son, el algoritmo empleará la técnica llamada kernel. Estas son funciones que toman un espacio de entrada de baja dimensión y lo transforman en un espacio dimensional más alto, es decir, convierte el problema no separable en un problema separable. Esto lo hace a través de medidas de similitud, que en este caso significa cierto grado de cercanía. 

<img src="https://live.staticflickr.com/65535/32848644217_a25a2e3211_b.jpg" width="500"><img src="https://live.staticflickr.com/65535/47792129611_0e71237d4f_b.jpg" width="500">

#### **Hiperparámentros**:

En caso de que los datos sean linealmente separables, el parámetro a ajustar es  

* **C**: Este parámetro agrega una penalización por cada punto de datos mal clasificado. Si c es pequeño, la penalización por puntos mal clasificados es baja, por lo que se elige un límite de decisión con un gran margen a expensas de un mayor número de errores de clasificación. Si c es grande, SVM intenta minimizar el número de ejemplos clasificados erróneamente debido a una penalización alta que da como resultado un límite de decisión con un margen más pequeño. La penalización no es la misma para todos los ejemplos clasificados erróneamente. Es directamente proporcional a la distancia al límite de decisión.

En caso de que no lo sean, se agrega un nuevo parámetro que interviene en la función kernel:

* **Gamma**: Los valores bajos de gamma indican una gran radio de similitud que da como resultado que se agrupen más puntos. Para valores altos de gamma, los puntos deben estar muy cerca entre sí para ser considerados en el mismo grupo (o clase). Por lo tanto, los modelos con valores gamma muy grandes tienden a sobreajustarse.

<img src="https://miro.medium.com/max/522/1*5HfMQaH2m3xFy_6aJdTyHw.png" width="400"> <img src="https://miro.medium.com/max/542/1*HJULljMrR2a5cjnlaVz5RA.png" width="400">


[Fuente 1](https://towardsdatascience.com/hyperparameter-tuning-for-support-vector-machines-c-and-gamma-parameters-6a5097416167), [Fuente 2](https://aprendeia.com/maquinas-vectores-de-soporte-clasificacion-teoria/).

### **Decision Tree Classifier (DT)**

_[Decision Tree Classifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)_ es un algoritmo de aprendizaje que se utiliza para clasificacion y regresion. Posee las propiedades de manejar valores de atributos predictivos redundantes e irrelevantes, tener un bajo costo computacional, un tiempo de ejecucion rapido y tambien predictores robustos, lo que lo hace uno de los algoritmos mas utilizados para predecir datos.   

Este modelo identifica la variable mas significativa y divide los datos en dos o mas conjuntos homogeneos basados en ella. Es decir, todos los datos de entrada y todos los puntos de division se evaluan para elegir con cual obtendremos un mejor resultado.

<img src="https://ligdigonzalez.com/wp-content/uploads/2018/03/Decision-Tree-Classification-1.png" width="500">

En la imagen podemos ver elementos como:

* **_Hojas_**: Etiquetas de clase.
* **_Ramas_**: Conjunciones de características que conducen a esas etiquetas de clase.

Ventajas del algoritmo:

* Facil de entender.
* Útil en la exploracion de datos.
* Sirve para datos numericos y categoricos.
* Requiere menos limpieza de datos.
* No se influencia por valores atipicos o faltantes.
* Es un metodo no parametrico, es decir, no requiere de suposiciones sobre la distribucion.

Desventajas del algoritmo:

* Sobreajuste.
* No trabaja bien con datos muy dispersos.
* Pueden ser inestables.
* Los datos de entrenamiento pueden crean arboles sesgados si no se equilibran los conjuntos de datos.

#### **Hiperparámentros**:

* **Min_impurity_decrease**: Este parametro busca disminuir las impurezas. Mientras menos impurezas, mejor se divide el arbol, y a medida que el arbol se hace mas profundo, se obtienen menos impurezas.  

* **Max_depth**: El arbol deja de dividirse cuando alcanza el max_depend. Si no se le otorga un valor, deja de dividirse cuando todas las hojas sean puras.  

* **Min_samples_leaf**: Numero minimo de muestras para estar en una hoja.

* **Max_features**: Cantidad de caracteristicas a considerar para la division, evita que el modelo se sobreajuste. Como valor predeterminado tiene todas las caracteristicas. Elige que caracteristicas utilizar de forma aleatoria.


