<!--Información del curso-->
<img align="left" style="padding-right:10px;" src="figuras/logo_ciencia_datos.png">

<center><h1 style="font-size:2em;color:RED">Enfermedades del corazón </h1></center>

# Proyecto de Machine Learning

	
En la siguiente lección se realizará un proyecto de ejemplo de principio a fin. Estos son los pasos principales que deberá seguir:

1. Mira el panorama general y entienda el problema.
* Obtenga los datos.
* Descubra y visualice los datos para obtener información.
* Prepare los datos para los algoritmos de Machine Learning.
* Seleccione un modelo y realice el entrenamiento (train).
* Afina(fine tune) el modelo.
* Presente su solución.
* Inicie (Launch), monitoree y mantenga su sistema

[Documento extendido](https://bit.ly/2Sqtfhl)


## 1. Mira el panorama general y entienda el problema.

<center><h1 style="font-size:2em;color:#2467C0">Caso de estudio: Enfermedades del corazón </h1></center>
<br>
<table>
<col width="550">
<col width="450">
<tr>
    
    
<td><img src="figuras/corazon.jpg" align="middle" style="width:550px;"/></td>
<td>
    
Las enfermedades cardiovasculares representan una amenaza real para los sistemas de salud de muchos países, debido a que se han convertido en uno de los diagnósticos que cobra un número significativo de vidas en el mundo entero. De acuerdo a los datos emitidos por la Organización Mundial de la Salud (OMS) las enfermedades cardiovasculares son una causa importante de muertes, se estima que 9.4 millones y medio de muertes, es decir, el 16,5% de las muertes anuales, son atribuibles a la hipertensión únicamente. Esto incluye el 51% de las muertes por accidentes cardiovasculares cerebrales (AVC) y el 45% de las muertes por cardiopatía coronaria. De acuerdo a lo anteriormente mencionado, el análisis de este tipo de enfermedades se ha convertido en un factor común de investigación, la aplicación de sistemas informáticos inteligentes brinda la posibilidad de identificar de forma anticipada los pacientes que puedan padecer dicha enfermedad.

    
<br>
</td>
</tr>
</table>

**Problema**

A través del análisis de los datos se identificarán factores de riesgos que están asociados con enfermedades cardiovasculares como la edad, la presión arterial, el hábito de fumar, altos niveles de colesterol, diabetes, entre otras variables con la finalidad de ayudar al profesional de la salud a identificar si en un paciente existe riesgo de enfermedad cardiovascular.



## 2.  Obtenga los datos

Se utilizará un conjunto de datos provenientes de 4 diferentes hospitales que hacen referencia a enfermedades cardiovasculares a través del repositorio de Machine Learning UCI. El conjunto de datos cuenta con 14 atributos y 303
registros así:
1. Edad: en años
2. Sexo: masculino y femenino (tomando como valor numérico el 1 y 0 respectivamente).
3. Tipo dolor de pecho:
    * Valor1: Angina típica
    * Valor2: Angina atípica
    * Valor3: Otro dolor
    * Valor4: Asintomático
4. Presión arterial en reposo: En mmHgen la admisión al hospital.
5. Colesterol: mg/dl
6. Nivel de azúcar>120mg/dl: verdadero o falso (tomando como valor numérico el 1 y 0 respectivamente).
7. Resultado electrocardiograma:
    * Valor0: Normal
    * Valor1: Anomalías
    * Valor2: Hipertrofia ventricular
8. Frecuencia cardiaca máxima alcanzada.
9. Ejercicio de inducción de angina: sí o no (tomando como valor numérico el 1 y 0 respectivamente)
10. Depresión inducida.
11. Pendiente curva máxima del ejercicio.
12. Número de vasos mayores (0-3).
13. Thal (Trastorno sanguíneo llamado talasemia):
    * 3: Normal
    * 6: Defecto fijo
    * 7: Defecto reversible
14. Diagnóstico de enfermedad cardiaca (estado de enfermedad hagiográfica): menor 50% o mayor 50% (tomando como valor numérico el 0 y 1 respectivamente).

https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/

https://archive.ics.uci.edu/ml/datasets/Heart+Disease

Datos: **datos/heart_disease.csv**

In [None]:
# Módulos importantes
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [None]:
# Cargamos el archivo 'datos/heart_disease.csv' en un dataframe
df = pd.read_csv('datos/heart_disease.csv')
df.head(2)

## 3. Descubra y visualice los datos para obtener información.

In [None]:
# Mostrar los primeras filas
df.head(5)

In [None]:
# Mostrar las columnas
df.columns

In [None]:
# Mostrar el número de filas y columnas
df.shape

In [None]:
# Mostrar el tipo de variables
df.dtypes

In [None]:
# Hacer un histograma de la edad
df['age'].hist()

In [None]:
# Hacer un histograma de todas las variables numericas
df.hist(figsize=(15,15))

In [None]:
#Hacer diagramas de correlación
from pandas.plotting import scatter_matrix
# 'age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
#       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'],
atributos = [  'age' , 'chol' , 'thalach' , 'trestbps' ]
scatter_matrix( df[ atributos] , figsize=(12,8) )


###  Coeficiente de correlación de Pearson

<img  align="middle" style="width:850px;" src="figuras/pearson.png">

In [None]:
# Matriz correlación númerica
df[atributos].corr(method='pearson').round(2)

In [None]:
# Matriz correlación visual


In [None]:
#Instalación de seaborn
#pip install seaborn
#https://matplotlib.org/tutorials/colors/colormaps.html
import seaborn as sn
corrMatrix=df[atributos].corr().round(2)
sn.heatmap(  corrMatrix  , annot=True , cmap='coolwarm'   )
plt.show()

## 4. Prepare los datos para los algoritmos de Machine Learning.

<img  align="middle" style="width:550px;" src="figuras/ml_diagrama3.jpg">

División general de los datos
* **X**: Datos sin el diagnostico es decir sin la columna "target"
* **y**: Datos con el diagnostico es decir con la columna "target"

Muestras de entrenamiento y prueba
* **X_train**: este será el grupo de entrenamiento
* **X_test**: este será el  grupo de prueba
* **y_train**: este será el target para el grupo de entrenamiento
* **y_test**: este será el target para el grupo de prueba


In [None]:
df.shape

In [None]:
# Crear X (Quitar la columna o campo de "target")
X=df.drop('target',axis=1)
X.head(2)

In [None]:
# Crear y (Valor de de la columna "target")
y = df['target']
y

In [None]:
df.shape
303*0.8

In [None]:
# Dividir los datos para entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.8)

In [None]:
# Revise  el tamaño de cada muestra
X_train.shape, X_test.shape, y_train.shape, y_test.shape

#### Pipeline

La función pipeline permite juntar varios trasformaciones secuenciales que se requieren ejecutar a un conjunto de datos.

**Pipeline(steps=[('titulo trasnformación1', trasnformación1), ('titulo trasnformación2', trasnformación2),...])**




In [None]:
#Modulos importantes
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

In [None]:
#mostrar las columnas 

In [None]:
# Crear la lista de  viriables numericas  numeric_list 


In [None]:
# Crear el pipeline de preprocesamiento para datos numéricos  


In [None]:
# Definir los transformadores


## 5A .  Seleccione un modelo y realice el entrenamiento (train).


<img  align="middle" style="width:750px;" src="figuras/imagesTree.jpg">



###  Árbol de decisión

In [None]:
## Módulos del Modelo: Arboles de decision 
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score

In [None]:
# modelo DecisionTreeClassifier llamado DT_Classifier


In [None]:
#Definir el modelo_DT con su pipeline


In [None]:
# Ajuste del modelo


In [None]:
# Predicción


In [None]:
# Prueba en y_test


In [None]:
# Comparación


In [None]:
# Score


## Cross validation


In [None]:
# Definir los parametros con el diccionario params utilizando:
# max_depth=[2,4,6,8,10]
# min_samples_leaf=[2,4,6,8,10,12,14]


## 6A .  Afina(fine tune) el modelo.


In [None]:
# Ajuste de los parametros max_depth y min_samples_leaf con  GridSearchCV
# Utilizamos la función GridSearchCV para encontrar los valores optimos
from sklearn.model_selection import GridSearchCV



In [None]:
# Ajuste del modelo usando todas las posibles combinaciones de parametros 



In [None]:
#Encontrar los mejores parametros con best_params_


In [None]:
#1 Ajustar el modelo con los nuevos parametros nombrandolo como  DT_Classifier_tunned



In [None]:
#2. Definir el Pipeline : Transformación  + modelo


In [None]:
#3. Ajustar el modelo


In [None]:
#4 Score


In [None]:
#Evaluacion
# Calcular el score con la validación cruzada CV=5
from sklearn.model_selection import cross_val_score


In [None]:
def display_scores( scores) :
    print('Scores:', scores)
    print('Mean:', scores.mean())
    print('Standard Deviation:', scores.std())

In [None]:
# 5. Realizar el cambio de signo y sacar la raiz


In [None]:
# 6. Mostrar el resultado usando la funcion display_scores


## 7. Presente su solución

| Modelo o clasificador   |  Mean  | SD  | Parametros de ajuste  |
|---|---|---|---|
|  Decision Tree Classifier  |         |         |   max_depth=   , min_samples_leaf=  
