<a href="https://colab.research.google.com/github/lbattioni/DS_coder_house/blob/main/ProyectoDS_parteI_Battioni.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto DS parte 1.
###  **Alumno**: Luciano Battioni
---
## Abstract

Las enfermedades cardiovasculares son la principal causa de muerte a nivel mundial. Dentro de estas la enfermedad coronaria (EC) es la más frecuente.Su importancia global a llevado a investigadores del siglo XX ha desarrollar numerosos modelos predictores de eventos cardiovasculares (infarto agudo de miocardio, accidente cerebrovacular, muerte de causa vascular), tanto para la población general como para poblaciones particularmente vulnerables (pacientes diabéticos, pacientes con enfermedad renal crónica, etc.) con la esperanza de poder intervenir terapeúticamente y poder prevenirlos. Sin embargo, su validez externa y generalizabilidad han demostrado tener importantes limitaciones. Esto se ha debido, entre otras causas, a que se derivaron de cohortes de bajo número de pacientes, poco representativas de determinadas etnias o se construyeron pensando en la factibilidad de ser usados en consultorio por lo que solo utilizan variables seleccionadas, comprometiendo, tal vez, parte su precisión.

Las tecnicas de *Machine learning* (ML) procesan gran cantidad de variables sin necesidad de intervención de un clínico. Esto haría factible la implementación de modelos más precisos, dezplegables en ámbitos como EHR (*Electronic Health Records*) que permitan la estimación de riesgo cardiovascular en base a la información proporcionada por el sistema de manera automática.

El objetivo final del presente trabajo es generar un ML que permita predecir el evento de infarto agudo de miocardio en base a las variables de esta base sintética.

Para el primer entregable trabajaremos e intentaremos comprobar las siguientes hipótesis:

1. Relacionar los factores de riesgo cardiovacular con la cantidad de hs de ejercicio y sedentarismo. Entendiendo que es más probable que los pacientes con mayores factores de riesgo son los más sedentarios.
1. Relacionar los niveles de tensión arterial sistólica y diastólica con los niveles de Stress
1. Relacionar país, región y continente con la presencia de factores de riesgo y la dieta. Entendiendo que la idiosincracia local afecta hábitos alimenticios, conductuales y en consecuencia los niveles y presencia de factores de riesgo.

Fuente de la base sintética [link](https://www.kaggle.com/datasets/iamsouravbanerjee/heart-attack-prediction-dataset)

## Glosario de variables


Variable  | Descripción
-------------------|------------------
1.	Patient ID| texto, identificador del caso
2.	Age| numérica edad del paciente
3.	Sex| dicotómica (Male/Female)
4.	Cholesterol| numérica, nivel de colesterol en mg/dl
5.	Blood Pressure| texto, contiene tanto diastólica como sistólica separadas por barra invertida.
6.	Heart Rate| numérica, frecuencia cardíaca
7.	Diabetes| dicotómica, si el paciente tiene diabetes
8.	Family History| dicotómica, si tiene antecedentes familiares de enfermedad cardíaca (1: Yes, 0: No)
9.	Smoking| dicotómica, si el paciente fuma actualmente (1: Smoker, 0: Non-smoker)
10.	Obesity | dicotómica, si el paciente es obeso (1: Obese, 0: Not obese)
11.	Alcohol Consumption | categórica, el nivel de consume de alcohol.(None/Yes)
12.	Exercise Hours Per Week| numérica, número de horas de actividad física por semana
13.	Diet| categórica, hábitos dietarios(Healthy/Average/Unhealthy)
14.	Previous Heart Problems| dicotómica, antecedentes de problemas cardíacos del paciente (1: Yes, 0: No)
15.	Medication Use| dicotómica, si el paciente usa medicación (1: Yes, 0: No)
16.	Stress Level| categórica, nivel de stress del paciente(1-10)
17.	Sedentary Hours Per Day| numérica, horas de actividad Sedentaria por día
18.	Income| numérica, ingresos anuales en USD
17.	BMI| numérica, el resultado de dividir peso/altura**2
19.	Triglycerides| numérica, nivel de triglicéridos en mg/dl
20.	Physical Activity Days Per Week| numérica, días de actividad física por semana
21.	Sleep Hours Per Day|numérica, número de horas de sueño por día
22.	Country| nominal, procedencia del paciente
23.	Continent| nominal, continente del país de procedencia
24.	Hemisphere| nominal, Hemisferio del continente del país de procedencia
25.	Heart Attack Risk| dicotómica, presencia de riesgo de infarto (1: Yes, 0: No)

# Importo paquetes

In [150]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
pd.set_option("display.max_columns",30)

In [148]:
# cargo data frame desde mi repositorio en GitHub
df_raw=pd.read_csv('https://raw.githubusercontent.com/lbattioni/DS_coder_house/main/heart_attack_prediction_dataset.csv',sep=';')

# ETL

In [149]:
#veo head del df para entender los datos
'''
veo que hay varias variables que necesitan ajustar sus valores como excersice HPW, sedentary HPD, BMI etc.
en principio también voy a poner _ entre los espacios libres de las variables y
 voy a poner todo en minuscula para que sea más facil acceder a los valores
 '''
df_raw.head()


Unnamed: 0,Patient ID,Age,Sex,Cholesterol,Blood Pressure,Heart Rate,Diabetes,Family History,Smoking,Obesity,Alcohol Consumption,Exercise Hours Per Week,Diet,Previous Heart Problems,Medication Use,Stress Level,Sedentary Hours Per Day,Income,BMI,Triglycerides,Physical Activity Days Per Week,Sleep Hours Per Day,Country,Continent,Hemisphere,Heart Attack Risk
0,BMW7812,67,Male,208,158/88,72,0,0,1,0,0,4.168189,Average,0,0,9,6.615001,261404,31.251233,286,0,6,Argentina,South America,Southern Hemisphere,0
1,CZE1114,21,Male,389,165/93,98,1,1,1,1,1,1.813242,Unhealthy,1,0,1,4.963459,285768,27.194973,235,1,7,Canada,North America,Northern Hemisphere,0
2,BNI9906,21,Female,324,174/99,72,1,0,0,0,0,2.078353,Healthy,1,1,9,9.463426,235282,28.176571,587,4,4,France,Europe,Northern Hemisphere,0
3,JLN3497,84,Male,383,163/100,73,1,1,1,0,1,9.82813,Average,1,0,9,7.648981,125640,36.464704,378,3,4,Canada,North America,Northern Hemisphere,0
4,GFO8847,66,Male,318,91/88,93,1,1,1,1,0,5.804299,Unhealthy,1,0,6,1.514821,160555,21.809144,231,1,5,Thailand,Asia,Northern Hemisphere,0


In [152]:
#cambio a minuscula los nombres de las columnas y cambio los espacios por _
df_raw.columns=df_raw.columns.str.replace(' ','_')
df_raw.columns=df_raw.columns.str.lower()
df_raw.columns

Index(['patient_id', 'age', 'sex', 'cholesterol', 'blood_pressure',
       'heart_rate', 'diabetes', 'family_history', 'smoking', 'obesity',
       'alcohol_consumption', 'exercise_hours_per_week', 'diet',
       'previous_heart_problems', 'medication_use', 'stress_level',
       'sedentary_hours_per_day', 'income', 'bmi', 'triglycerides',
       'physical_activity_days_per_week', 'sleep_hours_per_day', 'country',
       'continent', 'hemisphere', 'heart_attack_risk'],
      dtype='object')

In [159]:
#chequeo los dtypes (necesitan ajustarse) y veo valores NaN (ya se que no hay porque la descripción del DF así lo indica)
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8763 entries, 0 to 8762
Data columns (total 28 columns):
 #   Column                           Non-Null Count  Dtype   
---  ------                           --------------  -----   
 0   patient_id                       8763 non-null   object  
 1   age                              8763 non-null   int8    
 2   sex                              8763 non-null   category
 3   cholesterol                      8763 non-null   int32   
 4   blood_pressure                   8763 non-null   object  
 5   heart_rate                       8763 non-null   int8    
 6   diabetes                         8763 non-null   category
 7   family_history                   8763 non-null   category
 8   smoking                          8763 non-null   category
 9   obesity                          8763 non-null   category
 10  alcohol_consumption              8763 non-null   category
 11  exercise_hours_per_week          8763 non-null   float32 
 12  diet  

In [158]:
#dejo patient_id como object
df_raw.age=df_raw.age.astype('int8')
df_raw.sex=df_raw.sex.astype('category')
df_raw.cholesterol=df_raw.cholesterol.astype('int32')
#blood_pressure la cambio despues porque la tengo que dividir
df_raw.heart_rate=df_raw.heart_rate.astype('int8')
df_raw.diabetes=df_raw.diabetes.astype('category')
df_raw.family_history=df_raw.family_history.astype('category')
df_raw.smoking=df_raw.smoking.astype('category')
df_raw.obesity=df_raw.obesity.astype('category')
df_raw.alcohol_consumption=df_raw.alcohol_consumption.astype('category')
df_raw.exercise_hours_per_week=round(df_raw.exercise_hours_per_week,2).astype('float32')
df_raw.diet=df_raw.diet.astype('category')
df_raw.diet=df_raw.diet.cat.reorder_categories(['Healthy', 'Average', 'Unhealthy'], ordered=True)
df_raw.previous_heart_problems=df_raw.previous_heart_problems.astype('category')
df_raw.medication_use=df_raw.medication_use.astype('category')
df_raw.stress_level=df_raw.stress_level.astype('category')
df_raw.stress_level=df_raw.stress_level.cat.reorder_categories([1,2,3,4,5,6,7,8,9,10], ordered=True)
df_raw.bmi=round(df_raw.bmi,2).astype('float32')
df_raw.income=df_raw.income.astype('int32')
df_raw.sedentary_hours_per_day=round(df_raw.sedentary_hours_per_day,2).astype('float32')
df_raw.triglycerides=df_raw.triglycerides.astype('int32')
df_raw.physical_activity_days_per_week=df_raw.physical_activity_days_per_week.astype('category')
df_raw.physical_activity_days_per_week=df_raw.physical_activity_days_per_week.cat.reorder_categories([0,1,2,3,4,5,6,7], ordered=True)
df_raw.sleep_hours_per_day=df_raw.sleep_hours_per_day.astype('int8')
df_raw.country=df_raw.country.astype('category')
df_raw.continent=df_raw.continent.astype('category')
df_raw.hemisphere=df_raw.hemisphere.astype('category')
df_raw.heart_attack_risk=df_raw.heart_attack_risk.astype('category')

# pendiente arreglar  BP,


In [155]:
#creo una variable para presión sistólica y otra para diastólica
df_raw['bps']=[pd.to_numeric(i.split('/')[0],downcast='integer') for i in df_raw.blood_pressure]
df_raw['bpd']=[pd.to_numeric(i.split('/')[1],downcast='integer') for i in df_raw.blood_pressure]
#saco la columna blood_pressure ya que no la voy a usar
df_raw.drop(columns='blood_pressure')

Unnamed: 0,patient_id,age,sex,cholesterol,heart_rate,diabetes,family_history,smoking,obesity,alcohol_consumption,exercise_hours_per_week,diet,previous_heart_problems,medication_use,stress_level,sedentary_hours_per_day,income,bmi,triglycerides,physical_activity_days_per_week,sleep_hours_per_day,country,continent,hemisphere,heart_attack_risk,bps,bpd
0,BMW7812,67,Male,208,72,0,0,1,0,0,4.170000,Average,0,0,9,6.62,261404,31.250000,286,0,6,Argentina,South America,Southern Hemisphere,0,158,88
1,CZE1114,21,Male,389,98,1,1,1,1,1,1.810000,Unhealthy,1,0,1,4.96,285768,27.190001,235,1,7,Canada,North America,Northern Hemisphere,0,165,93
2,BNI9906,21,Female,324,72,1,0,0,0,0,2.080000,Healthy,1,1,9,9.46,235282,28.180000,587,4,4,France,Europe,Northern Hemisphere,0,174,99
3,JLN3497,84,Male,383,73,1,1,1,0,1,9.830000,Average,1,0,9,7.65,125640,36.459999,378,3,4,Canada,North America,Northern Hemisphere,0,163,100
4,GFO8847,66,Male,318,93,1,1,1,1,0,5.800000,Unhealthy,1,0,6,1.51,160555,21.809999,231,1,5,Thailand,Asia,Northern Hemisphere,0,91,88
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8758,MSV9918,60,Male,121,61,1,1,1,0,1,7.920000,Healthy,1,1,8,10.81,235420,19.660000,67,7,7,Thailand,Asia,Northern Hemisphere,0,94,76
8759,QSV6764,28,Female,120,73,1,0,0,1,0,16.559999,Healthy,0,0,8,3.83,217881,23.990000,617,4,9,Canada,North America,Northern Hemisphere,0,157,102
8760,XKA5925,47,Male,250,105,0,1,1,1,1,3.150000,Average,1,0,5,2.38,36998,35.410000,527,4,4,Brazil,South America,Southern Hemisphere,1,161,75
8761,EPE6801,36,Male,178,60,1,0,1,0,0,3.790000,Unhealthy,1,1,5,0.03,209943,27.290001,114,2,8,Brazil,South America,Southern Hemisphere,0,119,67
