# Projeto 2 - Ciência dos Dados


Nome: Beatriz Bobrow Bozzo
    
Nome: Mariana Cézar

Nome: Rodrigo Nigri Griner

Nome: Thais Sztamfater Groberman

___
## Contextualização



Doenças cardiovasculares são distúrbios do coração e de vasos sanguíneos. Esses incluem ateques cardíacos, derrames e insuficiência cardíaca, entre outras. Dessa forma, ao todo, doenças cardiovasculares representam cerca de 17 milhões de morte no mundo anualmente.

Nesse estudo, será considerado pacientes que possuem insuficiência cardíaca, ou seja, quando o coração não possui força suficiente para bombear todo sangue necessário para o corpo. Essa doença está geralmente atrelada à condições como anemia, dibetes, hipertensão, entre outras.

O dataset utilizado no projeto contém o prontuário de 299 pacientes e apresenta as seguintes informações:
- age: Idade do paciente (anos)
- anaemia: Ausência de glóbulos vermelhos ou hemoglobina
- high blood pressure: Paciente tem hipertensão
- creatinine phosphokinase (CPK): quantidade de enzima CPK no sangue (mcg/L)
- diabetes: Paciente tem diabetes
- ejection fraction: Porcentagem de sangue saindo do coração a cada sístole
- platelets: Quantidade de plaquetas no sangue (kiloplatelets/mL)
- sex: Mulher ou homem
- serum creatinine:  Quantidade de creatinina no sangue (mg/dL)
- serum sodium: Quantidade de sodio no sangue (mEq/L)
- smoking: Paciente fuma
- time: Tempo em que o paciente foi estudado (dias)
- death event: Paciente morreu durante o tempo em que participou do estudo

Analisando essas informações seria possível observar padrões e auxiliar os médicos a preverem se o paciente irá a óbito durante o tempo de estudo do paciente. Dessa forma, os features serão as informações do prontuário enquanto que o target será se o paciente faleceu.

Como o target do nosso projeto é uma variável qualitativa, será utilizado o método de **Classificadores**.



___
## Lendo o Dataset

#### Importando as bibliotecas necessárias

In [2]:
%matplotlib inline
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from matplotlib import rc
import seaborn as sns
import numpy as np
import os

##### Verificando o diretório em que o arquivo está

In [3]:
filename = 'heart_failure_clinical_records_dataset.xlsx'
if filename in os.listdir():
    print(f'Encontrei o arquivo {filename}!')
else:
    print(f'Não encontrei o arquivo {filename} aqui no diretório {os.getcwd()}, será que você não baixou o arquivo?')

Encontrei o arquivo heart_failure_clinical_records_dataset.xlsx!


##### Lendo o dataset

In [4]:
dados = pd.read_excel(filename)
dados

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75,0,582,0,20,1,265000.00,1.9,130,1,0,4,1
1,55,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65,0,146,0,20,0,162000.00,1.3,129,1,1,7,1
3,50,1,111,0,20,0,210000.00,1.9,137,1,0,7,1
4,65,1,160,1,20,0,327000.00,2.7,116,0,0,8,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294,62,0,61,1,38,1,155000.00,1.1,143,1,1,270,0
295,55,0,1820,0,38,0,270000.00,1.2,139,0,0,271,0
296,45,0,2060,1,60,0,742000.00,0.8,138,0,0,278,0
297,45,0,2413,0,38,0,140000.00,1.4,140,1,1,280,0


Sendo:
- age: Idade do paciente (anos)
- anaemia: Ausência de glóbulos vermelhos ou hemoglobina (0 = Não; 1 = Sim)
- high blood pressure: Paciente tem hipertensão (0 = Não; 1 = Sim)
- creatinine phosphokinase (CPK): quantidade de enzima CPK no sangue (mcg/L)
- diabetes: Paciente tem diabetes (0 = Não; 1 = Sim)
- ejection fraction: Porcentagem de sangue saindo do coração a cada sístole
- platelets: Quantidade de plaquetas no sangue (kiloplatelets/mL)
- sex: Mulher ou homem (0 = Mulher; 1 = Homem)
- serum creatinine:  Quantidade de creatinina no sangue (mg/dL)
- serum sodium: Quantidade de sodio no sangue (mEq/L)
- smoking: Paciente fuma (0 = Não; 1 = Sim)
- time: Tempo em que o paciente foi estudado (dias)
- death event: Paciente morreu durante o tempo em que participou do estudo (0 = Não; 1 = Sim)

In [5]:
#Definindo os tipos das variáveis de cada coluna
dados.age = dados.age.astype('int')
dados.anaemia = dados.anaemia.astype('category')
dados.creatinine_phosphokinase = dados.creatinine_phosphokinase.astype('int')
dados.diabetes = dados.diabetes.astype('category')
dados.ejection_fraction = dados.ejection_fraction.astype('int')
dados.high_blood_pressure = dados.high_blood_pressure.astype('category')
dados.platelets = dados.platelets.astype('float')
dados.serum_creatinine = dados.serum_creatinine.astype('float')
dados.serum_sodium = dados.serum_sodium.astype('int')
dados.sex = dados.sex.astype('category')
dados.smoking = dados.smoking.astype('category')
dados.time = dados.time.astype('int')
dados.DEATH_EVENT = dados.DEATH_EVENT.astype('category')

#Substrituindo os códigos numéricos por seus significados
dados.anaemia.cat.categories = (['Não', 'Sim'])
dados.diabetes.cat.categories  = (['Não', 'Sim'])
dados.high_blood_pressure.cat.categories  = (['Não', 'Sim'])
dados.sex.cat.categories  = (['Mulher', 'Homem'])
dados.smoking.cat.categories  = (['Não', 'Sim'])
dados.DEATH_EVENT.cat.categories  = (['Não', 'Sim'])

dados.tail()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
294,62,Não,61,Sim,38,Sim,155000.0,1.1,143,Homem,Sim,270,Não
295,55,Não,1820,Não,38,Não,270000.0,1.2,139,Mulher,Não,271,Não
296,45,Não,2060,Sim,60,Não,742000.0,0.8,138,Mulher,Não,278,Não
297,45,Não,2413,Não,38,Não,140000.0,1.4,140,Homem,Sim,280,Não
298,50,Não,196,Não,45,Não,395000.0,1.6,136,Homem,Sim,285,Não


In [6]:
# Verificando se há colunas sem dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 13 columns):
age                         299 non-null int32
anaemia                     299 non-null category
creatinine_phosphokinase    299 non-null int32
diabetes                    299 non-null category
ejection_fraction           299 non-null int32
high_blood_pressure         299 non-null category
platelets                   299 non-null float64
serum_creatinine            299 non-null float64
serum_sodium                299 non-null int32
sex                         299 non-null category
smoking                     299 non-null category
time                        299 non-null int32
DEATH_EVENT                 299 non-null category
dtypes: category(6), float64(2), int32(5)
memory usage: 13.0 KB


##### Separando os dados em Treinamento e Teste

In [7]:
# Criando uma variável que contém as features
lista_colunas = list(dados.columns)
lista_colunas.remove('DEATH_EVENT')

X = dados.loc[:, lista_colunas]
X.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time
0,75,Não,582,Não,20,Sim,265000.0,1.9,130,Homem,Não,4
1,55,Não,7861,Não,38,Não,263358.03,1.1,136,Homem,Não,6
2,65,Não,146,Não,20,Não,162000.0,1.3,129,Homem,Sim,7
3,50,Sim,111,Não,20,Não,210000.0,1.9,137,Homem,Não,7
4,65,Sim,160,Sim,20,Não,327000.0,2.7,116,Mulher,Não,8


In [8]:
# Criando uma variável que contém o target
y = dados['DEATH_EVENT']
y.head()

0    Sim
1    Sim
2    Sim
3    Sim
4    Sim
Name: DEATH_EVENT, dtype: category
Categories (2, object): [Não, Sim]

In [17]:
# Separando aleatoriamente os dados do dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

*Treinamento*

In [18]:
X_train.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time
224,58,Não,582,Sim,25,Não,504000.0,1.0,138,Homem,Não,205
68,70,Não,161,Não,25,Não,244000.0,1.2,142,Mulher,Não,66
222,42,Sim,86,Não,35,Não,365000.0,1.1,139,Homem,Sim,201
37,82,Sim,855,Sim,50,Sim,321000.0,1.0,145,Mulher,Não,30
16,87,Sim,149,Não,38,Não,262000.0,0.9,140,Homem,Não,14


In [19]:
y_train.head()

224    Não
68     Sim
222    Não
37     Sim
16     Sim
Name: DEATH_EVENT, dtype: category
Categories (2, object): [Não, Sim]

In [20]:
# Juntando a tabela dos features e target para o Treinamento
train = X_train.join(y_train, how = 'inner')
train.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
224,58,Não,582,Sim,25,Não,504000.0,1.0,138,Homem,Não,205,Não
68,70,Não,161,Não,25,Não,244000.0,1.2,142,Mulher,Não,66,Sim
222,42,Sim,86,Não,35,Não,365000.0,1.1,139,Homem,Sim,201,Não
37,82,Sim,855,Sim,50,Sim,321000.0,1.0,145,Mulher,Não,30,Sim
16,87,Sim,149,Não,38,Não,262000.0,0.9,140,Homem,Não,14,Sim


*Teste*

In [21]:
X_test.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time
281,70,Não,582,Não,40,Não,51000.0,2.7,136,Homem,Sim,250
265,50,Sim,298,Não,35,Não,362000.0,0.9,140,Homem,Sim,240
164,45,Não,2442,Sim,30,Não,334000.0,1.1,139,Homem,Não,129
9,80,Sim,123,Não,35,Sim,388000.0,9.4,133,Homem,Sim,10
77,42,Não,102,Sim,40,Não,237000.0,1.2,140,Homem,Não,74


In [22]:
y_test.head()

281    Não
265    Não
164    Sim
9      Sim
77     Não
Name: DEATH_EVENT, dtype: category
Categories (2, object): [Não, Sim]

In [23]:
# Juntando a tabela dos features e target para o Treinamento
test = X_test.join(y_test, how = 'inner')
test.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
281,70,Não,582,Não,40,Não,51000.0,2.7,136,Homem,Sim,250,Não
265,50,Sim,298,Não,35,Não,362000.0,0.9,140,Homem,Sim,240,Não
164,45,Não,2442,Sim,30,Não,334000.0,1.1,139,Homem,Não,129,Sim
9,80,Sim,123,Não,35,Sim,388000.0,9.4,133,Homem,Sim,10,Sim
77,42,Não,102,Sim,40,Não,237000.0,1.2,140,Homem,Não,74,Não
