# Projeto 2 - Ciência dos Dados


Nome: Beatriz Bobrow Bozzo
    
Nome: Mariana Cézar

Nome: Rodrigo Nigri Griner

Nome: Thais Sztamfater Groberman

___
## Contextualização



Doenças cardiovasculares são distúrbios do coração e de vasos sanguíneos. Esses incluem ateques cardíacos, derrames e insuficiência cardíaca, entre outras. Dessa forma, ao todo, doenças cardiovasculares representam cerca de 17 milhões de morte no mundo anualmente.

Nesse estudo, será considerado pacientes que possuem insuficiência cardíaca, ou seja, quando o coração não possui força suficiente para bombear todo sangue necessário para o corpo. Essa doença está geralmente atrelada à condições como anemia, dibetes, hipertensão, entre outras.

O dataset utilizado no projeto contém o prontuário de 299 pacientes e apresenta as seguintes informações:
- age: Idade do paciente (anos)
- anaemia: Ausência de glóbulos vermelhos ou hemoglobina
- high blood pressure: Paciente tem hipertensão
- creatinine phosphokinase (CPK): quantidade de enzima CPK no sangue (mcg/L)
- diabetes: Paciente tem diabetes
- ejection fraction: Porcentagem de sangue saindo do coração a cada sístole
- platelets: Quantidade de plaquetas no sangue (kiloplatelets/mL)
- sex: Mulher ou homem
- serum creatinine:  Quantidade de creatinina no sangue (mg/dL)
- serum sodium: Quantidade de sodio no sangue (mEq/L)
- smoking: Paciente fuma
- time: Tempo em que o paciente foi estudado (dias)
- death event: Paciente morreu durante o tempo em que participou do estudo

Analisando essas informações seria possível observar padrões e auxiliar os médicos a preverem se o paciente irá a óbito durante o tempo de estudo do paciente. Dessa forma, os features serão as informações do prontuário enquanto que o target será se o paciente faleceu.



___
## Lendo o Dataset

Importando as bibliotecas necessárias

In [26]:
%matplotlib inline
import pandas as pd
import os

Verificando o diretório em que o arquivo está

In [27]:
filename = 'heart_failure_clinical_records_dataset.xlsx'
if filename in os.listdir():
    print(f'Encontrei o arquivo {filename}!')
else:
    print(f'Não encontrei o arquivo {filename} aqui no diretório {os.getcwd()}, será que você não baixou o arquivo?')

Encontrei o arquivo heart_failure_clinical_records_dataset.xlsx!


Lendo o dataset

In [28]:
dados = pd.read_csv('heart_failure_clinical_records_dataset.csv')
dados

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.00,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.00,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.00,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.00,2.7,116,0,0,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62.0,0,61,1,38,1,155000.00,1.1,143,1,1,270,0
295,55.0,0,1820,0,38,0,270000.00,1.2,139,0,0,271,0
296,45.0,0,2060,1,60,0,742000.00,0.8,138,0,0,278,0
297,45.0,0,2413,0,38,0,140000.00,1.4,140,1,1,280,0


Sendo:
- age: Idade do paciente (anos)
- anaemia: Ausência de glóbulos vermelhos ou hemoglobina (0 = Não; 1 = Sim)
- high blood pressure: Paciente tem hipertensão (0 = Não; 1 = Sim)
- creatinine phosphokinase (CPK): quantidade de enzima CPK no sangue (mcg/L)
- diabetes: Paciente tem diabetes (0 = Não; 1 = Sim)
- ejection fraction: Porcentagem de sangue saindo do coração a cada sístole
- platelets: Quantidade de plaquetas no sangue (kiloplatelets/mL)
- sex: Mulher ou homem (0 = Mulher; 1 = Homem)
- serum creatinine:  Quantidade de creatinina no sangue (mg/dL)
- serum sodium: Quantidade de sodio no sangue (mEq/L)
- smoking: Paciente fuma (0 = Não; 1 = Sim)
- time: Tempo em que o paciente foi estudado (dias)
- death event: Paciente morreu durante o tempo em que participou do estudo (0 = Não; 1 = Sim)

In [29]:
#Definindo os tipos das variáveis de cada coluna
dados.age = dados.age.astype('int')
dados.anaemia = dados.anaemia.astype('category')
dados.creatinine_phosphokinase = dados.creatinine_phosphokinase.astype('int')
dados.diabetes = dados.diabetes.astype('category')
dados.ejection_fraction = dados.ejection_fraction.astype('int')
dados.high_blood_pressure = dados.high_blood_pressure.astype('category')
dados.platelets = dados.platelets.astype('float')
dados.serum_creatinine = dados.serum_creatinine.astype('float')
dados.serum_sodium = dados.serum_sodium.astype('int')
dados.sex = dados.sex.astype('category')
dados.smoking = dados.smoking.astype('category')
dados.time = dados.time.astype('int')
dados.DEATH_EVENT = dados.DEATH_EVENT.astype('category')

#Substrituindo os códigos numéricos por seus significados
dados.anaemia.cat.categories = (['Não', 'Sim'])
dados.diabetes.cat.categories  = (['Não', 'Sim'])
dados.high_blood_pressure.cat.categories  = (['Não', 'Sim'])
dados.sex.cat.categories  = (['Mulher', 'Homem'])
dados.smoking.cat.categories  = (['Não', 'Sim'])
dados.DEATH_EVENT.categories  = (['Não', 'Sim'])

dados.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75,Não,582,Não,20,Sim,265000.0,1.9,130,Homem,Não,4,1
1,55,Não,7861,Não,38,Não,263358.03,1.1,136,Homem,Não,6,1
2,65,Não,146,Não,20,Não,162000.0,1.3,129,Homem,Sim,7,1
3,50,Sim,111,Não,20,Não,210000.0,1.9,137,Homem,Não,7,1
4,65,Sim,160,Sim,20,Não,327000.0,2.7,116,Mulher,Não,8,1
