# OBLIGATORIO DE ML 2
* 42987844 - Carlos Piriz

---
# Entendimiento del negocio (Business Understanding)
---

## Contexto
En base a los crecientes casos de personas que sufren ataques al corazon el Hospital de Clínicas, pretende llevar a cabo un trabajo que permita identificar de manera preventiva y con la mayor antelacion posible, probables casos de personas predispuestas a sufrir dichos ataques.
De esta manera, se puede hacer un seguimiento de estos pacientes, una mejor prevencion. Redundando esto en, mejor calidad de servicio, mayor proteccion de la vida de los pacientes, probable ahorro en tratamientos y procedimientos de emergencia ocasionados por el tratamiento de los pacientes que sufren ataques. Permitiendo una mejor planificacion y uso, tanto de personal, como de instrumental y recursos con los que cuenta el hospital.

## Alcance
En base a este contexto, es que plantea la realizacion de una proceso que permita identificar de manera asertiva y rapida la predisposicion a los ataques cardiacos.  En este sentido, como primera instancia se plantea la realizacion de un modelo de datos para poder predecir o clasificar rapidamente, en base a algunos datos, la predisposicion a un ataque para un paciente.
Este proceso, en esta instancia, implica:
* La generacion de un modelo correcto y conveniente.
* La puesta a disposicion del modelo para su uso por parte del personal del hospital.

## Criterios de exito
Si bien, en base al contexto, se pretende lograr segun este proceso, mejora en la atencion, prevencion, gestion de los recursos, etc. Implicando esto mejoras en la gestion de la atencion al paciente, concretamente para este alcance deseado, se tomaran como criterios de exito:
* Que se logre realizar un modelo adecuado, validando segun las metricas correspondientes.
* Que el modelo pueda generalizar adecuadamente con datos no conocidos.
* Establecer un criterio de aceptacion de eficacia del modelo.

## Viabilidad
Para la realizacion de este proyecto, entendemos necesaria la disponibilidad de datos, asi como del equipamiento necesario para la realizacion de las tareas necesarias.
En base a estos requerimientos, se plantean ciertas cuestiones que suponen algun riesgo.
### Riesgos
* Falta de datos para el analisis y la generacion del modelo: Esto es, que no se disponga de los datos necesarios ya sea en calidad como en cantidad. Para mitigar o solventar este riesgo, si no es posible obtener los datos necesarios de los pacientes propios, se recurrira a un conjunto de datos equivalentes( o que pudieran servir al proposito).
* Falta de equipamiento necesario: Esto se refiere tanto al equipamiento para la obtencion de los datos, como tambien para su procesamiento y generacion de modelo resultante. En este sentido, suponemos que los datos ya fueron tomados, necesitariamos equipamiento de computos para el procesamiento. Esto se puede obtener de recursos propios, asi como tambien usando plataformas online pagas por ejemplo.  
### Soluciones existentes
* Si bien, existen generaciones de modelos como el que se plantea realizar, la finalidad del proceso implica, tener metodos y procesos propios que puedan servir como insumo para los fines mas generales y que a su vez estos  metodos y procesos puedan ser controlados y corregidos segun necesidades. Por tal razon, se justifica este proyecto.

## Entregables e hitos
### Entregables
Se pretende dividir el proceso de la generacion del modelo en los siguientes pasos:
* Entregable 1: Obtencion de los datos.
* Entregable 2: Analisis de los datos.
* Entregable 3: Limpieza y preparacion de los datos.
* Entregable 4: Generacion del modelo adecuado.
* Entregable 5: Disponibilidad del modelo para su uso.
### Plazos
En cuanto a los plazos, se plantea el siguiente cronograma segun la secuencia de los entregables:
* Entregable 1: 3 dias
* Entregable 2: 5 dias
* Entregable 3: 10 dias
* Entregable 4: 4 dias
* Entregable 5: 4 dias
* Margen: 2 dias.
### Metodologias
En cuanto a las metodologias a utilizar, seran las metodologias correspondientes y necesarias, como:
* Obtencion y/o extraccion de datos.
* Normalizacion y homogenizacion de los datos.
* Limpieza y analisis de los datos.
* Limpieza y preparacion de los datos.
* Analisis y generacion de un modelo que cumpla las espectativas.
* Secuencacion de tareas para poder generar procesos reproducibles.





    
    

In [1]:
############################################################################################################################################################
# IMPORTACIONES 
############################################################################################################################################################
#Sistema
import os
#DB
from sqlalchemy import create_engine, text

import logging
logging.basicConfig()
logging.disable(logging.INFO)
logging.getLogger('sqlalchemy').setLevel(logging.ERROR)

#Datos, procesamiento
import pandas as pd
import numpy as np

#Fechas
import datetime as dt
from datetime import datetime, date, time, timedelta
import calendar

#Visualizacion
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
#%matplotlib inline
import plotly.io as pio
import dash_bootstrap_components as dbc
import plotly.express as px
import plotly.graph_objs as go
from dash import Dash
from dash import dcc
from dash import html
from dash import ctx,callback
from dash.dependencies import Input, Output, State
stylesheet = [dbc.themes.BOOTSTRAP]

# Otras importaciones
from matplotlib import ticker
from matplotlib.ticker import FuncFormatter
from babel.numbers import format_currency

#PDF
#rom weasyprint import HTML, CSS
#from weasyprint.text.fonts import FontConfiguration

#Requests
import requests as req


# Para configuraciones locales
import locale
#locale.setlocale(locale.LC_ALL, '')
#locale._override_localeconv["thousands_sep"] = "."
#locale._override_localeconv["decimal_point"] = ","
#print (locale.atof('123.456,78'))
#print(locale.currency(12345.67))


---
# Entendimiento de los datos (Data Understanding)
---
## Dataset
### Origen
Para este primer acercamiento se utilizara el dataset, obtenido desde:
* https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis-prediction-dataset

### Columnas
Las columnas iniciales del dataset son:
* Age : Edad del paciente
* Sex : Sexo del paciente
* exang: Angina inducida por el ejercicio (1 = si; 0 = no)
* ca: Numero de vasos mayores (0-3)
* cp : Tipo de dolor en el pecho
    *	Valor 1: Angina tipica
	*  Valor 2: Angina atipica
	*  Valor 3: Dolor no anginal
	*  Value 4: Asintomatico
* trtbps : Presion arterial en reposos (in mm Hg)
* chol : Colesterol(colestoral) en mg/dl obtenido a través del sensor de IMC
* fbs : (Azucar en la sangre en ayunas > 120 mg/dl) (1 = verdadero; 0 = falso)
* rest_ecg : Resultados electrocardiograficos en reposo.
	* Valor 0: Normal
	* Valor 1: Teniendo anomalía de la onda ST-T (inversiones de la onda T y/o elevación o depresión del ST > 0,05 mV)
	* Valor 2: Mostrando hipertrofia ventricular izquierda probable o definitiva según los criterios Valorthalach de Estes: frecuencia cardíaca máxima valor alcanzado
* target : 
	* 0= Menos posibilidades de sufrir un ataque cardíaco
	* 1= Mayores posibilidades de sufrir un ataque cardíaco


In [None]:
# Carga del archivo
df_heart = pd.read_csv('./datos/heart.csv')

In [None]:
# Verificacion de la carga
df_heart.head()

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


## Analisis de los datos

### Vistazo general

In [6]:
# Cantidades, dimensiones
df_heart.shape

(303, 14)

In [5]:
# Valores estadisticos generales
df_heart.describe()

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
count,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0
mean,54.366337,0.683168,0.966997,131.623762,246.264026,0.148515,0.528053,149.646865,0.326733,1.039604,1.39934,0.729373,2.313531,0.544554
std,9.082101,0.466011,1.032052,17.538143,51.830751,0.356198,0.52586,22.905161,0.469794,1.161075,0.616226,1.022606,0.612277,0.498835
min,29.0,0.0,0.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,47.5,0.0,0.0,120.0,211.0,0.0,0.0,133.5,0.0,0.0,1.0,0.0,2.0,0.0
50%,55.0,1.0,1.0,130.0,240.0,0.0,1.0,153.0,0.0,0.8,1.0,0.0,2.0,1.0
75%,61.0,1.0,2.0,140.0,274.5,0.0,1.0,166.0,1.0,1.6,2.0,1.0,3.0,1.0
max,77.0,1.0,3.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,2.0,4.0,3.0,1.0


### Duplicados

In [20]:
# Verificacion de duplicados
df_heart.duplicated(keep='first').unique()

array([False,  True])

In [21]:
# listar duplicados
df_heart.loc[df_heart.duplicated(keep='first')]

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,output
164,38,1,2,138,175,0,1,173,0,0.0,2,4,2,1


### Valores na

In [25]:
df_heart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    int64  
 1   sex       303 non-null    int64  
 2   cp        303 non-null    int64  
 3   trtbps    303 non-null    int64  
 4   chol      303 non-null    int64  
 5   fbs       303 non-null    int64  
 6   restecg   303 non-null    int64  
 7   thalachh  303 non-null    int64  
 8   exng      303 non-null    int64  
 9   oldpeak   303 non-null    float64
 10  slp       303 non-null    int64  
 11  caa       303 non-null    int64  
 12  thall     303 non-null    int64  
 13  output    303 non-null    int64  
dtypes: float64(1), int64(13)
memory usage: 33.3 KB


---
# Preparacion de los datos (Data Preparation)
---

---
# Modeling (Modeling)
---

---
# Evaluacion (Evaluation)
---

---
# Deployment (Despliegue)
---