# OBLIGATORIO DE ML 2
* 42987844 - Carlos Piriz

---
# Entendimiento del negocio (Business Understanding)
---

## Contexto
En base a los crecientes casos de personas que sufren ataques al corazon, el Hospital de Clínicas pretende llevar a cabo un trabajo que permita identificar de manera preventiva y con la mayor antelacion posible, probables casos de personas predispuestas a sufrir dichos ataques.
De esta manera, se puede hacer un seguimiento de estos pacientes y una mejor prevencion. Redundando esto en, mejor calidad de servicio, mayor proteccion de la vida de los pacientes, probable ahorro en tratamientos y procedimientos de emergencia ocasionados por el tratamiento de los pacientes que sufren ataques. Permitiendo una mejor planificacion y uso, tanto de personal, como de instrumental y recursos con los que cuenta el hospital.

### Motivacion
Es en el contexto de lo explicado anteriormente, es que, surge la motivacion de crear una forma rapida, generalizable, rentable y confiable de lograr determinar los pacientes a cuales diferenciar en su tratamiento, con la identificacion temprana.


## Alcance
En base a este contexto y motivacion, es que se plantea la realizacion de una proceso que permita identificar de manera asertiva y rapida la predisposicion a los ataques cardiacos.  En este sentido, como primera instancia se plantea la realizacion de un modelo de datos para poder predecir o clasificar rapidamente, en base a algunos datos de entrada, la predisposicion a un ataque para un paciente dado.
Este proceso, en esta instancia, implica:
* La generacion de un modelo correcto y conveniente. Que permita resolver o responder, qué personas son propensas o tienen mayor probabilidad a tener un ataque cardiaco.
* La puesta a disposicion del modelo para su uso por parte del personal del hospital. Identificando alguna manera de aplicacion viable.
Cabe aclarar, que un buen metodo propio, podria favorecer a toda la salud en general, brindando metodos generales o centralizados para poder replicar el modelo para otras organizaciones de la salud, por ejemplo.
Independientemente de esto, entendemos que cualquier mejora o logro con este alcance, redundara en una mejor atencion de la salud en general, con un impacto positivo en todos los sentidos.


## Criterios de exito
Si bien, en base al contexto, se pretende lograr segun este proceso, mejora en la atencion, prevencion, gestion de los recursos, etc. Implicando esto, mejoras en la gestion de la atencion al paciente, concretamente para este alcance deseado, se tomaran como criterios de exito:
* Que se logre realizar un modelo adecuado, validando segun las metricas correspondientes.
* Que el modelo pueda generalizar adecuadamente con datos no conocidos.
* Establecer un criterio de aceptacion de eficacia del modelo.
    * En cuanto a este criterio de aceptacion de exito, dependera, pero en general se toma que un 80% de aciertos parece razonable.

## Viabilidad
Para la realizacion de este proyecto, entendemos necesaria la disponibilidad de datos, asi como del equipamiento necesario para la realizacion de las tareas necesarias.
En base a estos requerimientos, se plantean ciertas cuestiones que suponen algun riesgo.
### Riesgos
* Falta de datos para el analisis y la generacion del modelo: Esto es, que no se disponga de los datos necesarios ya sea en calidad como en cantidad. Para mitigar o solventar este riesgo, si no es posible obtener los datos necesarios de los pacientes propios, se recurrira a un conjunto de datos equivalentes( o que pudieran servir al proposito).
* Falta de equipamiento necesario: Esto se refiere tanto al equipamiento para la obtencion de los datos, como tambien para su procesamiento y generacion de modelo resultante. En este sentido, suponemos que los datos ya fueron tomados, necesitariamos equipamiento de computos para el procesamiento. Esto se puede obtener de recursos propios, asi como tambien usando plataformas online pagas por ejemplo.  
### Soluciones existentes
* Si bien, existen generaciones de modelos como el que se plantea realizar, la finalidad del proceso implica, tener metodos y procesos propios que puedan servir como insumo para los fines mas generales y que a su vez estos  metodos y procesos puedan ser controlados y corregidos segun necesidades. Por tal razon, se justifica este proyecto.

## Entregables e hitos
### Entregables
Se pretende dividir el proceso de la generacion del modelo en los siguientes pasos:
* Entregable 1: Obtencion de los datos.
* Entregable 2: Analisis de los datos.
* Entregable 3: Limpieza y preparacion de los datos.
* Entregable 4: Generacion del modelo adecuado.
* Entregable 5: Disponibilidad del modelo para su uso.
### Plazos
En cuanto a los plazos, se plantea el siguiente cronograma segun la secuencia de los entregables:
* Entregable 1: 3 dias
* Entregable 2: 5 dias
* Entregable 3: 10 dias
* Entregable 4: 4 dias
* Entregable 5: 4 dias
* Margen: 2 dias.
### Metodologias
En cuanto a las metodologias a utilizar, seran las metodologias correspondientes y necesarias, como:
* Obtencion y/o extraccion de datos.
* Normalizacion y homogenizacion de los datos.
* Limpieza y analisis de los datos.
* Limpieza y preparacion de los datos.
* Analisis y generacion de un modelo que cumpla las espectativas.
* Secuenciacion de tareas para poder generar procesos reproducibles.





    
    

In [None]:
############################################################################################################################################################
# IMPORTACIONES 
############################################################################################################################################################
#Sistema
import warnings
import os
#DB
from sqlalchemy import create_engine, text

import logging
logging.basicConfig()
logging.disable(logging.INFO)
logging.getLogger('sqlalchemy').setLevel(logging.ERROR)

#Datos, procesamiento
import pandas as pd
import numpy as np

#Fechas
import datetime as dt
from datetime import datetime, date, time, timedelta
import calendar

#Visualizacion
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
#%matplotlib inline
import plotly.io as pio
import dash_bootstrap_components as dbc
import plotly.express as px
import plotly.graph_objs as go
from dash import Dash
from dash import dcc
from dash import html
from dash import ctx,callback
from dash.dependencies import Input, Output, State
stylesheet = [dbc.themes.BOOTSTRAP]

# Otras importaciones
from matplotlib import ticker
from matplotlib.ticker import FuncFormatter
from babel.numbers import format_currency

#PDF
#rom weasyprint import HTML, CSS
#from weasyprint.text.fonts import FontConfiguration

#Requests
import requests as req


# Para configuraciones locales
import locale
#locale.setlocale(locale.LC_ALL, '')
#locale._override_localeconv["thousands_sep"] = "."
#locale._override_localeconv["decimal_point"] = ","
#print (locale.atof('123.456,78'))
#print(locale.currency(12345.67))

warnings.filterwarnings("ignore")

---
# Entendimiento de los datos (Data Understanding)
---
## Dataset
### Origen
Para este primer acercamiento se utilizara el dataset, obtenido desde:
* https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset

### Columnas - Nombres y significado
Las columnas iniciales del dataset son:

* age : Edad del paciente
* sex : Sexo del paciente
	* Valor 0: Femenino
	* Valor 1: Masculino
* cp : Tipo de dolor en el pecho
    *  Valor 1: Angina tipica
	*  Valor 2: Angina atipica
	*  Valor 3: Dolor no anginal
	*  Value 0: Asintomatico
* trtbps : Presion arterial en reposo (in mm Hg)
* chol : Colesterol(colestoral) en mg/dl obtenido a través del sensor de IMC
* fbs : Azucar en la sangre en ayunas > 120 mg/dl
	* 1 = Verdadero
	* 0 = Falso
* restecg : Resultados electrocardiograficos en reposo.
	* Valor 0: Normal
	* Valor 1: Teniendo anomalía de la onda ST-T (inversiones de la onda T y/o elevación o depresión del ST > 0,05 mV)
	* Valor 2: Mostrando hipertrofia ventricular izquierda probable o definitiva según los criterios Valorthalach de Estes: frecuencia cardíaca máxima valor alcanzado
* thalachh : Frecuencia cardíaca máxima alcanzada
* exng: Angina inducida por el ejercicio 
	* 1 = Si
	* 0 = No
* oldpeak: Pico anterior
* slp: Pendiente (Medida del cambio en el segmento ST en relación con el aumento de la frecuencia cardíaca durante el ejercicio)
* caa: Número de vasos importantes Aorta,vena pulmonar, vena cava, tronco pulmonar)
* thall: El estado del corazón obtenido de la prueba de talio 
	1: Normal,
	2: Defecto fijo
	3: Defecto reversible
	0: No detectado
* target : 
	* 0= Menos posibilidades de sufrir un ataque cardíaco
	* 1= Mayores posibilidades de sufrir u**n ataque cardíaco


### Carga del dataset y vistazo general

In [None]:
# Carga del archivo
df_heart = pd.read_csv('./datos/heart.csv')

In [None]:
# Verificacion de las columnas
df_heart.columns

In [None]:
# Columnas y sus tipos de datos
df_heart.dtypes

In [None]:
# Verificacion de la carga
df_heart.head()

In [None]:
# Otra verificacion de la carga
df_heart.sample(10)

In [None]:
# Cantidades, dimensiones
df_heart.shape

## Analisis de los datos

### Analisis de valores importantes de los datos

In [None]:
# Valores estadisticos generales
df_heart.describe()

In [None]:
# Informacion de las columas
df_heart.info()

### Duplicados

In [None]:
# Verificacion de duplicados
df_heart.duplicated(keep='first').unique()

In [None]:
# Verificacion de duplicados
print(df_heart.duplicated().sum())

In [None]:
# listar duplicados
df_heart.loc[df_heart.duplicated(keep='first')]

In [None]:
# Verificacion de duplicados
df_heart.nunique()

In [None]:
df_heart.loc[(df_heart['age']==38) & (df_heart['trtbps']==138)]

### Valores nulos

In [None]:
df_heart.isnull().sum()

In [None]:
df_heart.info()

### Verificacion de valores por columnas

In [None]:
for c in df_heart:
    print("** Columna: "+ c+ " **")
    print(df_heart[c].unique())
    print("--------------------------------------------")
    print(df_heart[c].nunique())
    print()

In [None]:
# Renombramos las columnas
df_heart.columns = ['edad','sexo','tipo_dolor','presion_arterial_reposo','colesterol','azucar_en_sangre','res_electrocardiograficos','frec_cardiaca_max','angina_ind_ejercicio','pico_anterior','pend_frec_ejercicio','num_vasos','estado_corazon','propenso']

In [None]:
#Verificamos columnas
df_heart.sample()

### EDA

##### Verificamos las correlaciones con la matriz

In [None]:
# Calculamos la matris de correlacion
corrmat = df_heart.corr()
# Establecer la mascara para mostrar segun indices
mask= np.zeros_like(corrmat)
mask[np.triu_indices_from(mask)] = True

# Establecer el tamaño del grafico
plt.figure(figsize=(12, 10))

# Crear el heatmap con Seaborn, ajustando la paleta de colores
sns.heatmap(corrmat,
            vmax=1, vmin=-1,
            annot=True, annot_kws={'fontsize':7},
            mask=mask,
            cmap=sns.diverging_palette(20,220,as_cmap=True))

# Mostrar el gráfico
plt.title('Matriz de Correlación (parte inferior)')
plt.show()

#### Observacion 1
La matriz de correlaciones:
* Muestra correlaciones debiles en general. No existiendo alguna correlacion fuerte presente
* Dentro de las correlaciones mas fuertes destacamos:
    * Positivas:
        * Tipo de dolor - Propenso
        * Frecuencia cardiaca maxima - Propenso
        * Pendiente de frecuencia de ejercicio - Frecuencia cardiaca maxima
        * Pendiente de frecuencia de ejercicio - Propenso
    * Negativas:
        * Pendiente de frecuencia de ejercicio - Pico anterior
        * Dolor inducido por ejercicio - Propenso
        * Pico anterior - Propenso
        * Numero de vasos - Propenso

Estas correlaciones destacadas parecerian coherentes ya que:
* Pudieran haber dolores caracteristicos que pudieran ayudar a caracterizar de alguna manera esa propension.
* Pareceria tener sentido que la frecuencia cardiaca maxima, pudiera tener injerencia en si es propenso o no.
* Que los valores de pendiente de frecuencia de ejercicio, puede dar informacion sobre esa propension.
* Por lo mismo, tendria sentido que exista algun nivel de correlacion entre el Pico anterior y Numero de vasos con la columna de Propenso.

##### Verificamos las distribuciones de a pares de variables

In [None]:
fig = sns.pairplot(df_heart)

In [None]:
# Observamos las densidades por pares de variables,segun valor de propenso o no
fig = sns.pairplot(df_heart,hue='propenso',markers=["o", "s"])

In [None]:
df_heart.hist(figsize=(20,15))
plt.show()

#### Observacion 2
Segun los datos de los graficos anteriores podemos notar que:
* Hay mas muestras de usuarios masculinos.
* Pareciera ser que los datos indican mayor tendencia al ataque cardiaco en el caso de mujeres.
* La mayoria de las muestras no tienen azucar en la sangre.
* Al parecer hay mas muestras de pacientes con dolores producidos por el ejercicio
* La mayoria de las muestras son de personas entre edades de 35-75 al parecer.
    
    

## Revision de outliers

In [None]:
plt.figure(figsize=(15, 15))
for i, col in enumerate(df_heart.columns):
    plt.subplot(4, 4, i+1)
    sns.boxplot(x=col, data=df_heart)
plt.show()

#### Analisis de columnas con outliers
Para las columnas con outliers, vamos a analizar su distribucion:

In [None]:
# Columna: presion_arterial_reposo
sns.distplot(df_heart['presion_arterial_reposo'], hist=True, kde=True, rug=True)

In [None]:
# Columna: colesterol
sns.distplot(df_heart['colesterol'],hist=True, kde=True, rug=True)

In [None]:
# Columna: azucar_en_sangre
sns.distplot(df_heart['azucar_en_sangre'],hist=True, kde=True, rug=True)

In [None]:
# Columna: frec_cardiaca_max
sns.distplot(df_heart['frec_cardiaca_max'], hist=True, kde=True, rug=True)

In [None]:
# Columna: pico_anterior
sns.distplot(df_heart['pico_anterior'],hist=True, kde=True, rug=True)

In [None]:
# Columna: num_vasos
sns.distplot(df_heart['num_vasos'],hist=True, kde=True, rug=True)

In [None]:
# Columna: estado_corazon
sns.distplot(df_heart['estado_corazon'],hist=True, kde=True, rug=True)

### Vamos a ver cuales son los outliers

In [None]:
# Outliers para la columna: presion_arterial_reposo
Q1 = df_heart['presion_arterial_reposo'].quantile(0.25)
Q3 = df_heart['presion_arterial_reposo'].quantile(0.75)
IQR = Q3 - Q1

# Identificacion de outliers
limite = 1.5
outliers_presion_arterial_reposo_menores = df_heart[(df_heart['presion_arterial_reposo'] < Q1 - limite * IQR)]
outliers_presion_arterial_reposo_mayores = df_heart[(df_heart['presion_arterial_reposo'] > Q3 + limite * IQR)]

In [None]:
# Outliers para la columna: colesterol
Q1 = df_heart['colesterol'].quantile(0.25)
Q3 = df_heart['colesterol'].quantile(0.75)
IQR = Q3 - Q1

# Identificacion de outliers
limite = 1.5
outliers_colesterol_menores = df_heart[(df_heart['colesterol'] < Q1 - limite * IQR)]
outliers_colesterol_mayores = df_heart[(df_heart['colesterol'] > Q3 + limite * IQR)]

In [None]:
# Outliers para la columna: azucar_en_sangre
Q1 = df_heart['azucar_en_sangre'].quantile(0.25)
Q3 = df_heart['azucar_en_sangre'].quantile(0.75)
IQR = Q3 - Q1

# Identificacion de outliers
limite = 1.5

outliers_azucar_en_sangre_menores = df_heart[(df_heart['azucar_en_sangre'] < Q1 - limite * IQR)]
outliers_azucar_en_sangre_mayores = df_heart[(df_heart['azucar_en_sangre'] > Q3 + limite * IQR)]


In [None]:
# Outliers para la columna: frec_cardiaca_max
Q1 = df_heart['frec_cardiaca_max'].quantile(0.25)
Q3 = df_heart['frec_cardiaca_max'].quantile(0.75)
IQR = Q3 - Q1

# Identificacion de outliers
limite = 1.5

outliers_frec_cardiaca_max_menores = df_heart[(df_heart['frec_cardiaca_max'] < Q1 - limite * IQR)]
outliers_frec_cardiaca_max_mayores = df_heart[(df_heart['frec_cardiaca_max'] > Q3 + limite * IQR)]

In [None]:
# Outliers para la columna: pico_anterior
Q1 = df_heart['pico_anterior'].quantile(0.25)
Q3 = df_heart['pico_anterior'].quantile(0.75)
IQR = Q3 - Q1

# Identificacion de outliers
limite = 1.5

outliers_pico_anterior_menores = df_heart[(df_heart['pico_anterior'] < Q1 - limite * IQR)]
outliers_pico_anterior_mayores = df_heart[(df_heart['pico_anterior'] > Q3 + limite * IQR)]

In [None]:
# Outliers para la columna: num_vasos
Q1 = df_heart['num_vasos'].quantile(0.25)
Q3 = df_heart['num_vasos'].quantile(0.75)
IQR = Q3 - Q1

# Identificacion de outliers
limite = 1.5

outliers_num_vasos_menores = df_heart[(df_heart['num_vasos'] < Q1 - limite * IQR)]
outliers_num_vasos_mayores = df_heart[(df_heart['num_vasos'] > Q3 + limite * IQR)]

In [None]:
# Outliers para la columna: estado_corazon
Q1 = df_heart['estado_corazon'].quantile(0.25)
Q3 = df_heart['estado_corazon'].quantile(0.75)
IQR = Q3 - Q1

# Identificacion de outliers
limite = 1.5

outliers_estado_corazon_menores = df_heart[(df_heart['estado_corazon'] < Q1 - limite * IQR)]
outliers_estado_corazon_mayores = df_heart[(df_heart['estado_corazon'] > Q3 + limite * IQR)]

In [None]:
data=[
    ['presion_arterial_reposo', outliers_presion_arterial_reposo_menores.shape[0],
        outliers_presion_arterial_reposo_mayores.shape[0]],
    ['colesterol',outliers_colesterol_menores.shape[0],outliers_colesterol_mayores.shape[0]],
    ['azucar_en_sangre', outliers_azucar_en_sangre_menores.shape[0], outliers_azucar_en_sangre_mayores.shape[0]],
    ['frec_cardiaca_max', outliers_frec_cardiaca_max_menores.shape[0],outliers_frec_cardiaca_max_mayores.shape[0]],
    ['pico_anterior', outliers_pico_anterior_menores.shape[0],outliers_pico_anterior_mayores.shape[0]],
    ['num_vasos',outliers_num_vasos_menores.shape[0],outliers_num_vasos_mayores.shape[0]],
    ['estado_corazon', outliers_estado_corazon_menores.shape[0],
        outliers_estado_corazon_mayores.shape[0]]
]
columns = ['Columna','#Menores','#Mayores']
df_outliers = pd.DataFrame(data,columns=columns)

In [None]:
df_outliers

#### Observacion 3
Segun los datos anteriores podemos notar que:
* Son muchos los valores que tienen outliers en comparacion con los datos. Por este motivo, seria inconveniente borrar todos los registros de outliers. En su lugar, podemos aplicar por ejemplo una transformacion logaritmica a esas columnas.
* Y luego para las restantes variables podriamos aplicar una normalizacion , utilizando Standar Scaler

## HIPOTESIS INICIALES 

* En primera instancia, tenemos un conjunto de datos que, "pensamos que correspondiente y valido" para la generacion del modelo. Pero la idea es verificar si esa hipotesis es correcta, es decir:
Cuán valida, util y determinante pueden ser las variables o datos que tenemos inicialmente para poder llegar al resultado objetivo? Esto es:
    * Que injerencia, preponderancia y/o grado de aporte al modelo tiene cada una de las variables.
    Por ejemplo:
        * Existe alguna relacion entre la edad del paciente y la probabilidad de un ataque cardiaco?
        * El hecho de ser de sexo masculino, aumenta el riesgo de ser mas propenso a tener un ataque cardiaco?
        * Segun los tipos de dolores, se puede decir si tiene riesgo de un ataque cardiaco?
        * El hecho de tener una presion arterial alta, aumenta el riesgo de ser propenso a un ataque cardiaco?
        * El hecho de tener un valor de colesterol, aumenta el riesgo de ser propenso a un ataque cardiaco?
        * Tener azucar en la sangre o no, influye en ser propenso a un ataque cardiaco?
        * Son utiles los resultados electrocardiograficos para determinar la probabilidad de que tenga un ataque cardiaco?
        * Que la frecuencia cardiaca maxima sea alta, influye en la probabilida de que tenga un ataque?
        * El hecho de presentar o no un delor basado en el ejercicio, tiene un significado para la probabilidad de tener un ataque cardiaco?
        * El valor de pico anterior influye en la probabilidad de tener ataque cardiaco?
        * Tiene algun sentido considerar la pendiente de frecuncia de ejercicio para la probabilidad de tener un ataque cardiaco?
        * El valor de numero de vasos importantes tiene alguna implicacion para el modelo a generar?
        * Pareceria logico que el valor del estado del corazon pudiera ser pertinente a considerar por tener alguna injerencia. Sera asi?

### Analisis de la variable objetivo segun las demas variables
Si bien vimos la distribucion segun los pares agrupados, vamos a hacer un analisis, variable por variable. Esto nos podria ayudar a encontrar  cierta relacion mas claramente.

In [None]:
edad_minima = df_heart['edad'].min()
edad_maxima = df_heart['edad'].max()
bins = np.arange(edad_minima, edad_maxima + 5, 5)

labels = [f'{i}-{i+5}' for i in bins[:-1]]
df_heart['cat_edad'] = pd.cut(df_heart['edad'], bins=bins, labels=labels, include_lowest=True)

pd.crosstab(df_heart.cat_edad, df_heart.propenso).plot(kind="bar", figsize=(10, 6))
plt.title('Frecuencia de propenso por edad')
plt.xlabel('Rangos de edad')
plt.xticks(rotation=45)
plt.ylabel('Frecuencia')
plt.show()

#### Observacion 4
Podriamos decir que entre 39 y 49 años son mas propensos a ataques cardiacos?

In [None]:
# Relacion de propensos y no propensos segun sexo
fig, (ax, ax2) = plt.subplots(1, 2, figsize=(8, 6), sharey=True)
fig.suptitle('Distribución - Sexo')
(df_heart[df_heart['propenso'] == 0]['sexo']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax, kind='bar', color="yellow"))
ax.set_xlabel('No Propenso', size=10)
ax.set_xticklabels(["F", 'M'])

(df_heart[df_heart['propenso'] == 1]['sexo']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax2, kind='bar', color="blue"))
ax2.set_xlabel('Propenso', size=10)
ax2.set_xticklabels(["F", 'M'])
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['sexo']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['sexo']
 .value_counts(1)
 .sort_index(),2))

#### Observacion 5
Podriamos decir que:
* Dentro de los propensos, la distribucion es similar?
* Dentro de los no propensos, la mayoria son hombres?


In [None]:
# Relacion de propensos y no propensos segun tipo_dolor
fig, (ax, ax2) = plt.subplots(1, 2, figsize=(8, 6), sharey=True)
fig.suptitle('Distribución - Tipo dolor')
(df_heart[df_heart['propenso'] == 0]['tipo_dolor']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax, kind='bar', color="yellow"))
ax.set_xlabel('No Propenso', size=10)
ax.set_xticklabels(["Asintomatico", 'Angina tipica',
                   'Angina atipica', 'Dolor no anginal'])

(df_heart[df_heart['propenso'] == 1]['tipo_dolor']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax2, kind='bar', color="blue"))
ax2.set_xlabel('Propenso', size=10)
ax2.set_xticklabels(["Asintomatico", 'Angina tipica',
                   'Angina atipica', 'Dolor no anginal'])
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['tipo_dolor']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['tipo_dolor']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 6
Podriamos decir que:
* Dentro de los no propensos, la mayoria son asintomaticos?
* Dentro de los propensos, el dolor de angina atipica es un indicativo en cierta medida?


In [None]:
par_minima = df_heart['presion_arterial_reposo'].min()
par_maxima = df_heart['presion_arterial_reposo'].max()
bins = np.arange(par_minima, par_maxima + 5, 5)

labels = [f'{i}-{i+5}' for i in bins[:-1]]
df_heart['cat_par'] = pd.cut(
    df_heart['presion_arterial_reposo'], bins=bins, labels=labels, include_lowest=True)

pd.crosstab(df_heart.cat_par, df_heart.propenso).plot(
    kind="bar", figsize=(10, 6))
plt.title('Frecuencia de propenso por presion arterial en reposo')
plt.xlabel('Rangos de de presion')
plt.xticks(rotation=45)
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['cat_par']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['cat_par']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 7
Podriamos decir que:
* Dentro de los no propensos, despues del valor 144 es menos probable?
* Dentro de los propensos, para valores entre 119 y 144 es mayor la probabilidad?

In [None]:
col_minima = df_heart['colesterol'].min()
col_maxima = df_heart['colesterol'].max()
bins = np.arange(col_minima, col_maxima + 10, 10)

labels = [f'{i}-{i+10}' for i in bins[:-1]]
df_heart['cat_col'] = pd.cut(
    df_heart['colesterol'], bins=bins, labels=labels, include_lowest=True)

pd.crosstab(df_heart.cat_col, df_heart.propenso).plot(
    kind="bar", figsize=(10, 6))
plt.title('Frecuencia de propenso segun colesterol')
plt.xlabel('Rangos de de colesterol')
plt.xticks(rotation=45)
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['cat_col']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['cat_col']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 8
Podriamos decir que:
* Dentro de los no propensos, sera posible que la franja de valores para el colesterol entre 196 y 276 pueda ser un indicativo para ?
* Dentro de los propensos, para valores entre 119 y 144 es mayor la probabilidad de infarto de corazon?

In [None]:
# Relacion de propensos y no propensos segun tipo_dolor
fig, (ax, ax2) = plt.subplots(1, 2, figsize=(8, 6), sharey=True)
fig.suptitle('Distribución - Azucar en sangre')
(df_heart[df_heart['propenso'] == 0]['azucar_en_sangre']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax, kind='bar', color="yellow"))
ax.set_xlabel('No Propenso', size=10)
ax.set_xticklabels(["No", 'Si'])

(df_heart[df_heart['propenso'] == 1]['azucar_en_sangre']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax2, kind='bar', color="blue"))
ax2.set_xlabel('Propenso', size=10)
ax2.set_xticklabels(["No", 'Si'])
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['azucar_en_sangre']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['azucar_en_sangre']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 9
Podriamos decir que:
* Independientemente de las muestras, las proporciones parecen ser similares. Independientemente de si se tratan de propensos o no a un ataque cardiaco.

In [None]:
# Relacion de propensos y no propensos segun resultados electrocardiologicos
fig, (ax, ax2) = plt.subplots(1, 2, figsize=(8, 6), sharey=True)
fig.suptitle('Distribución - Resultados electrocardiologicos')
(df_heart[df_heart['propenso'] == 0]['res_electrocardiograficos']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax, kind='bar', color="yellow"))
ax.set_xlabel('No Propenso', size=10)
ax.set_xticklabels(["Normal", 'Anomalía ST-T','Hipertrofia ventricular',])

(df_heart[df_heart['propenso'] == 1]['res_electrocardiograficos']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax2, kind='bar', color="blue"))
ax2.set_xlabel('Propenso', size=10)
ax2.set_xticklabels(["Normal", 'Anomalía ST-T','Hipertrofia ventricular',])
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['res_electrocardiograficos']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['res_electrocardiograficos']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 10
Podriamos decir que:
* Pareciera que para el caso de no propensos, el porcentaje de muestras "Normal" es mayor. Por lo cual, podria ser que esta variable pueda ayudar a predecir?
* Por otro lado, para el caso de propensos a un infarto, los casos que presentan resultados de "Anomalia ST-T" son un poquito mayores. Por lo cual, podria ser que esta variable pueda ayudar a predecir?

In [None]:
# Relacion de propensos y no propensos segun resultados frecuencia cardiaca maxima
fc_minima = df_heart['frec_cardiaca_max'].min()
fc_maxima = df_heart['frec_cardiaca_max'].max()
bins = np.arange(fc_minima, fc_maxima + 5, 5)

labels = [f'{i}-{i+5}' for i in bins[:-1]]
df_heart['cat_fcm'] = pd.cut(
    df_heart['frec_cardiaca_max'], bins=bins, labels=labels, include_lowest=True)

pd.crosstab(df_heart.cat_fcm, df_heart.propenso).plot(
    kind="bar", figsize=(10, 6))
plt.title('Frecuencia de propenso segun frecuancia cardiaca maxima')
plt.xlabel('Rangos de de frecuancia cardiaca maxima')
plt.xticks(rotation=45)
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['cat_fcm']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['cat_fcm']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 11
Podriamos decir que:
* Dentro de los no propensos, sera posible que la franja de valores para la frecuencia cardiaca maxima menores que 141 pueda ser un indicativo?
* Dentro de los propensos, para valores mayores que 141 es mayor la probabilidad de infarto de corazon?

In [None]:
# Relacion de propensos y no propensos segun resultados angina producida por ejercicio
fig, (ax, ax2) = plt.subplots(1, 2, figsize=(8, 6), sharey=True)
fig.suptitle('Distribución - Resultados angina inducida por ejercicio')
(df_heart[df_heart['propenso'] == 0]['angina_ind_ejercicio']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax, kind='bar', color="yellow"))
ax.set_xlabel('No Propenso', size=10)
ax.set_xticklabels(['No','Si',])

(df_heart[df_heart['propenso'] == 1]['angina_ind_ejercicio']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax2, kind='bar', color="blue"))
ax2.set_xlabel('Propenso', size=10)
ax2.set_xticklabels(['No','Si',])
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['angina_ind_ejercicio']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['angina_ind_ejercicio']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 12
Podriamos decir que:
* Sera que el valor de angina producida por ejercicio, no es indicativo de que un paciente es propenso?

In [None]:
# Relacion de propensos y no propensos segun resultados frecuencia cardiaca maxima
pa_minima = df_heart['pico_anterior'].min()
pa_maxima = df_heart['pico_anterior'].max()
bins = np.arange(pa_minima, pa_maxima + 2, 2)

labels = [f'{i}-{i+2}' for i in bins[:-1]]
df_heart['cat_pa'] = pd.cut(
    df_heart['pico_anterior'], bins=bins, labels=labels, include_lowest=True)

pd.crosstab(df_heart.cat_pa, df_heart.propenso).plot(
    kind="bar", figsize=(10, 6))
plt.title('Frecuencia de propenso segun pico anterior')
plt.xlabel('Rangos de de frecuancia pico anterior')
plt.xticks(rotation=45)
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['cat_pa']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['cat_pa']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 13
Podriamos decir que:
* Pareceria no haber una conjetura de clasificacion. Excepto que para valores pequeños de pico anterior se dan la mayor cantidad de muestras, tanto para propensos como para no propensos.

In [None]:
# Relacion de propensos y no propensos segun resultados pendiente frecuencia ejercicio
fig, (ax, ax2) = plt.subplots(1, 2, figsize=(8, 6), sharey=True)
fig.suptitle('Distribución - Resultados pendiente frecuencia ejercicio')
(df_heart[df_heart['propenso'] == 0]['pend_frec_ejercicio']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax, kind='bar', color="yellow"))
ax.set_xlabel('No Propenso', size=10)
ax.set_xticklabels(["0", '1','2',])

(df_heart[df_heart['propenso'] == 1]['pend_frec_ejercicio']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax2, kind='bar', color="blue"))
ax2.set_xlabel('Propenso', size=10)
ax2.set_xticklabels(["0", '1','2',])
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['pend_frec_ejercicio']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['pend_frec_ejercicio']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 14
Podriamos decir que:
* De los valores registrados, en los no propensos, el valor 1 es el preponderante.
* De los valores registrados, en los propensos, el valor 2 es el preponderante.

In [None]:
# Relacion de propensos y no propensos segun numero de vasos
fig, (ax, ax2) = plt.subplots(1, 2, figsize=(8, 6), sharey=True)
fig.suptitle('Distribución - Resultados numero de vasos')
(df_heart[df_heart['propenso'] == 0]['num_vasos']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax, kind='bar', color="yellow"))
ax.set_xlabel('No Propenso', size=10)
ax.set_xticklabels(['0', '1', '2', '3','4'])

(df_heart[df_heart['propenso'] == 1]['num_vasos']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax2, kind='bar', color="blue"))
ax2.set_xlabel('Propenso', size=10)
ax2.set_xticklabels(['0', '1', '2', '3','4'])
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['num_vasos']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['num_vasos']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 15
Podriamos decir que:
* Pareceria haber un valor preponderante dentro de las muestras en general, siendo en el caso de los propensos el valor 0 un valor significativo y que podria ayudar a identificar en primera instancia.

In [None]:
# Relacion de propensos y no propensos segun estado del corazon
fig, (ax, ax2) = plt.subplots(1, 2, figsize=(8, 6), sharey=True)
fig.suptitle('Distribución - Resultados estado del corazon')
(df_heart[df_heart['propenso'] == 0]['estado_corazon']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax, kind='bar', color="yellow"))
ax.set_xlabel('No Propenso', size=10)
ax.set_xticklabels(['0', '1', '2', '3'])

(df_heart[df_heart['propenso'] == 1]['estado_corazon']
 .value_counts(1)
 .sort_index()
 .plot(ax=ax2, kind='bar', color="blue"))
ax2.set_xlabel('Propenso', size=10)
ax2.set_xticklabels(['0', '1', '2', '3'])
plt.show()

In [None]:
# Porcentajes
print('Porporciones no propensos')
print(round(df_heart[df_heart['propenso'] == 0]['estado_corazon']
            .value_counts(1)
            .sort_index(), 2))
print('Porporciones propensos')
print(round(df_heart[df_heart['propenso'] == 1]['estado_corazon']
            .value_counts(1)
            .sort_index(), 2))

#### Observacion 16
Podriamos decir que:
* Para los no propensos, el valor 3 pareceria tener mayor prevalecencia.
* Paa los propensos, el valor 2 se encuentra en mayor proporcion.
* Podrian llegar a ser valores que ayuden a la deteccion.

### RESUMEN DE ENTENDIMIENTO DEL NEGOCIO Y DATOS

*   En cuanto al estado, salud y calidad de los datos (inicial):
    * Pareciera ser que los datos estan bastante organizados.
    * No se encuentran incoherencias en los valores, como ser negativos, etc.
    * Es un conjunto de datos manejables.
    * Los tipos de datos iniciales, parecen logicos.
    * En general no se encuentran relaciones fuertes entre las variables independientes y la dependiente.
    * Ya que:
        *   El objetivo del modelo es poder determinar un valor verdadero/falso o si/no.
        *   Contamos con una variable objetivo o etiqueta de valor resultante. Por lo cual utilizariamos un modelo de algoritmo supervisado.
        *   ## Vamos a usar un modelo de clasificacion logica
*   En cuanto a algunos tratamientos a realizar,si corresponden:
    *   Registros duplicados
        *   Eliminar registros duplicados
    *   Valores nulos
        * No hay
    *   Columnas derivadas de categoricas
        *   Aunque no existen columnas categoricas en si, entendemos ciertas columnas tienen un origen categorico. Por lo cual se podrian haber tratado con un enfoque mas general, como que las columnas:
            *   sexo
            *   tipo_dolor
            *   axucar_en_sangre
            *   res_electrocardiograficos
            *   angina_ind_ejercicio
            *   num_vasos
            *   estado_corazon


---
# Preparacion de los datos (Data Preparation)
---

---
# Modeling (Modeling)
---

---
# Evaluacion (Evaluation)
---

---
# Deployment (Despliegue)
---