<a href="https://colab.research.google.com/github/rogercsampaio/PowerBI-DataScience/blob/master/projetoPOC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto: Prever Insuficiência Cardíaca baseado em fatores clínicos e comportamentais

A Insuficiência Cardíaca (causada por doenças cardiovasculares) é a principal
causa de morte de vidas todos os anos, representando um percentual de 31% de todas as mortes mundiais. Este conjunto de dados contém doze características divididas em fatores clínicos e comportamentais como, por exemplo, nível de plaquetas e sódio sérico no sangue, fumante ou não, hipertenso ou não e pode ser utilizado para prever a mortalidade por doenças cardiovasculares. Objetivo do trabalho é realizar uma análise exploratória sobre o conjunto de dados e descobrir uma série de insights para auxiliar a equipe médica para a tomada de ações preventivas.

In [None]:
# 1 - Instale o pacote 'squarify' caso não possua
!pip install squarify

# 2 - Importação de pacotes e bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import squarify 
import requests 

%matplotlib inline

In [None]:
link = 'https://raw.githubusercontent.com/rogercsampaio/projetos/master/ProjetoPOC/datasets/heart_failure_clinical_records_dataset.csv'
s = requests.get(link).text

In [None]:
# 2 - Importando os dados para o dataset
# heart_failure_clinical_records_dataset.csv
dadosClinicos = pd.read_csv(io.StringIO(s))

In [None]:
# Visualizando os primeiros registros e tipos de dados
dadosClinicos.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.0,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.0,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.0,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.0,2.7,116,0,0,8,1


In [None]:
print(type(dadosClinicos))

<class 'pandas.core.frame.DataFrame'>


In [None]:
dadosClinicos.dtypes

age                         float64
anaemia                       int64
creatinine_phosphokinase      int64
diabetes                      int64
ejection_fraction             int64
high_blood_pressure           int64
platelets                   float64
serum_creatinine            float64
serum_sodium                  int64
sex                           int64
smoking                       int64
time                          int64
DEATH_EVENT                   int64
dtype: object

In [None]:
dadosClinicos

Unnamed: 0,"age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT"
0,"75,0,582,0,20,1,265000,1.9,130,1,0,4,1"
1,"55,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1"
2,"65,0,146,0,20,0,162000,1.3,129,1,1,7,1"
3,"50,1,111,0,20,0,210000,1.9,137,1,0,7,1"
4,"65,1,160,1,20,0,327000,2.7,116,0,0,8,1"
...,...
294,"62,0,61,1,38,1,155000,1.1,143,1,1,270,0"
295,"55,0,1820,0,38,0,270000,1.2,139,0,0,271,0"
296,"45,0,2060,1,60,0,742000,0.8,138,0,0,278,0"
297,"45,0,2413,0,38,0,140000,1.4,140,1,1,280,0"


In [None]:
# Ajustando os tipos de dados, renomeando colunas.

In [None]:
dadosClinicos.age = dadosClinicos.age.astype(int)

In [None]:
dadosClinicos.anaemia = dadosClinicos.anaemia.astype(bool)

In [None]:
dadosClinicos.diabetes = dadosClinicos.diabetes.astype(bool)

In [None]:
dadosClinicos.high_blood_pressure = dadosClinicos.high_blood_pressure.astype(bool)

In [None]:
dadosClinicos['sex'] = dadosClinicos['sex'].replace(0, 'F')

In [None]:
dadosClinicos['sex'] = dadosClinicos['sex'].replace(1, 'M')

In [None]:
dadosClinicos.sex = dadosClinicos.sex.astype(str)

In [None]:
type(dadosClinicos.sex)

In [None]:
dadosClinicos.smoking = dadosClinicos.smoking.astype(bool)

In [None]:
# paciente falheceu ou não durante o evento
dadosClinicos.DEATH_EVENT = dadosClinicos.DEATH_EVENT.astype(bool) 

In [None]:
dadosClinicos = dadosClinicos.rename(columns = {'DEATH_EVENT':'dieOrNot'}, inplace = False)

In [None]:
dadosClinicos.columns

In [None]:
# Verificação de valores Null (para a modelagem preditiva)
dadosClinicos.isnull().values.any()

In [None]:
# 3 - Análise Exploratória
# Informações estatísticas gerais
# Para variáveis quantitativas (numéricas)
dadosClinicos.describe()

In [None]:
# Número de linhas, colunas, tipo de cada dado
dadosClinicos.info()

In [None]:
# Análise unilateral. Varíavel: age (quantitativa). Possível será CATEGÓRICA.
# Resumo estatístico básico
dadosClinicos.age.describe()

In [None]:
plt.boxplot(dadosClinicos.age)
plt.title('Boxplot de idades')

In [None]:
plt.hist(dadosClinicos.age)
plt.xlabel('Idades')
plt.ylabel('Frequência')
plt.title('Histograma de idades')

In [None]:
# Exploração da varíavel categórica anaemia
# Resumo estástico básico
dadosClinicos.anaemia.describe()

In [None]:
# Contagem de valores
dadosClinicos.anaemia.value_counts()

In [None]:
labelsNomesAnemia = "Não tem anemia","Tem anemia"
plt.pie(dadosClinicos.anaemia.value_counts(),labels = labelsNomesAnemia, autopct='%1.1f%%', shadow = True)
plt.title('Porcentagem de pacientes com anemia')

In [None]:
plt.bar(labelsNomesAnemia,dadosClinicos.anaemia.value_counts())
plt.ylabel('Quantidade')
plt.title('Quantidade de pacientes com e sem anemia')

In [None]:
# Exploração da varíavel creatinine_phosphokinase
# Resumo estástico básico
dadosClinicos.creatinine_phosphokinase.describe()

In [None]:
plt.boxplot(dadosClinicos.creatinine_phosphokinase)
plt.title('Boxplot de creatinine_phosphokinase')
# Note que há bastante outliers, necessário ajustar para o modelo preditivo

In [None]:
plt.hist(dadosClinicos.creatinine_phosphokinase,bins = 3)
plt.xlabel("Creatinine_phosphokinase")
plt.ylabel("Frequência")
plt.title("Histograma de creatinine_phosphokinase (CPK) no sangue")

In [None]:
# Exploração da variável diabetes (categórica)
# Contagem de valores
dadosClinicos.diabetes.value_counts()

In [None]:
labelsNomesDiabetes = "Não tem diabete","Tem diabete "
plt.pie(dadosClinicos.diabetes.value_counts(),labels = labelsNomesDiabetes, autopct='%1.1f%%', shadow = True)
plt.title('Porcentagem de pacientes com diabetes')

In [None]:
plt.bar(labelsNomesDiabetes,dadosClinicos.diabetes.value_counts())
plt.ylabel('Quantidade')
plt.title('Quantidade de pacientes sem e com diabete')

In [None]:
# Exploração da varíavel ejection_fraction
# Resumo estástico rápido
dadosClinicos.ejection_fraction.describe()

In [None]:
plt.boxplot(dadosClinicos.ejection_fraction)
plt.title('Boxplot de ejection_fraction')

In [None]:
plt.hist(dadosClinicos.ejection_fraction)
plt.xlabel("ejection_fraction")
plt.ylabel("Frequência")
plt.title("Histograma de 'ejection_fraction'")

In [None]:
# Exploração da variável 'high_blood_pressure' (categórica)

In [None]:
# Contagem de valores
dadosClinicos.high_blood_pressure.value_counts()

In [None]:
labelsNomesPressaoAlta = "Não tem pressão alta","Tem pressão alta "
plt.pie(dadosClinicos.high_blood_pressure.value_counts(),labels = labelsNomesPressaoAlta, autopct='%1.1f%%', shadow = True)
plt.title('Porcentagem de pacientes com pressão alta')

In [None]:
# Quantidade
plt.bar(labelsNomesPressaoAlta,dadosClinicos.high_blood_pressure.value_counts())
plt.ylabel('Quantidade')
plt.title('Quantidade de pacientes sem e com pressão alta')
# plt.hist(dadosClinicos.ejection_fraction, bins = 2) # não agrega muito

In [None]:
# Exploração da varíavel platelets (quantitativa)
# Resumo estátistico breve
dadosClinicos.platelets.describe()

In [None]:
plt.boxplot(dadosClinicos.platelets)
plt.title('Boxplot Plaquetas (mg/mL) no sangue')
# Note que há bastante outliers

In [None]:
plt.hist(dadosClinicos.platelets)
plt.title('Histograma Plaquetas (mg/mL) no sangue')
plt.ylabel('Frequência')

In [None]:
# Exploração variável quantitativa 'serum_creatinine' 
# Resumo estástico rápido
dadosClinicos.serum_creatinine.describe()

In [None]:
plt.boxplot(dadosClinicos.serum_creatinine)
plt.title('Boxplot - Nível de creatinina sérica no sangue (mg / dL)')
# Há bastante valores outliers

In [None]:
plt.hist(dadosClinicos.serum_creatinine)
plt.title('Histograma - Nível de creatinina sérica no sangue (mg / dL)')
plt.ylabel('Frequência')

In [None]:
# Exploração da varíavel serum_sodium (quantitativa)
# Resumo estástico rápido
dadosClinicos.serum_sodium.describe()

In [None]:
plt.boxplot(dadosClinicos.serum_sodium)
plt.title('Boxplot - Nível de sódio sérico no sangue (mEq / L)')

In [None]:
plt.hist(dadosClinicos.serum_sodium)
plt.title('Histograma - Nível de sódio sérico no sangue (mEq / L)')
plt.ylabel('Frequência')

In [None]:
# Exploração da varíavel sex (categórica)

In [None]:
# Contagem de valores
dadosClinicos.sex.value_counts()

In [None]:
labelsNomesSexo = "Masculino","Feminino"
plt.pie(dadosClinicos.sex.value_counts(),labels = labelsNomesSexo, autopct='%1.1f%%', shadow = True)
plt.title('Porcentagem de sexo')

In [None]:
# Quantidade
plt.bar(labelsNomesSexo,dadosClinicos.sex.value_counts())
plt.ylabel('Quantidade')
plt.title('Quantidade de sexo de pacientes')

In [None]:
# Exploração da varíavel smoking (categórica)

In [None]:
# Contagem de valores
dadosClinicos.smoking.value_counts()

In [None]:
labelsNomesFumantesOuNao = "Não fuma","Fuma"
plt.pie(dadosClinicos.smoking.value_counts(),labels = labelsNomesFumantesOuNao, autopct='%1.1f%%', shadow = True)
plt.title('Porcentagem de fumantes')

In [None]:
# Quantidade
plt.bar(labelsNomesFumantesOuNao,dadosClinicos.smoking.value_counts())
plt.ylabel('Quantidade')
plt.title('Quantidade de fumantes')

In [None]:
# Exploração da varíavel time representando número de dias (categórica)

In [None]:
# Contagem de valores
dadosClinicos.time.describe()

In [None]:
plt.boxplot(dadosClinicos.time)
plt.title('Boxplot - Período de acompanhamento em dias')

In [None]:
plt.hist(dadosClinicos.time)
plt.title('Período de acompanhamento em dias')
plt.ylabel('Frequência')

In [None]:
dadosClinicos.time

In [None]:
# Exploração varíavel categórica dieOrNot

In [None]:
dadosClinicos.dieOrNot.value_counts()

In [None]:
labelsNomesMorteOuNao = "Não morreu","Morreu"
plt.pie(dadosClinicos.dieOrNot.value_counts(),labels = labelsNomesMorteOuNao, autopct='%1.1f%%', shadow = True)
plt.title('Porcentagem de Mortes')

In [None]:
# Quantidade
plt.bar(labelsNomesMorteOuNao,dadosClinicos.dieOrNot.value_counts())
plt.ylabel('Quantidade')
plt.title('Quantidade de Mortes')

In [None]:
# Análise multivariada (duas ou mais varíaveis). 
# Correlação entre variáveis. 
# Correlação varia entre -1 (correlação negativa: uma diminui, outra aumenta) a 1 (correlação positiva, ambas
# variáveis vão no mesmo sentido). Correlação identifica o relacionamento linear entre variáveis, o que 
# não significa causalidade.
# corr() = a correlação de Pearson
dadosClinicos.corr()

In [None]:
# Gráfico de correlação
plt.figure(figsize=(10, 6))
sns.heatmap(dadosClinicos.corr(),
            annot = True,
            fmt = '.2f',
            cmap='Blues')
plt.title('Correlação entre variáveis do dataset de dadosClinicos')
plt.show()
# As correlação estão fracas, considere que boas seriam em torno de 70% ...

In [None]:
# Análise: idade e nível de creatinine_phosphokinase     

In [None]:
# Comprovando a correlação, por exemplo, entre age e creatinine_phosphokinase, que está muito fraca
plt.scatter(dadosClinicos.age,dadosClinicos.creatinine_phosphokinase)
plt.xlabel("Idade")
plt.ylabel("Nível creatinina sérica no sangue (mg / dL)")
plt.title('Relação Idade x Nível de creatinina sérica')

In [None]:
# Análise: idade x nível de ejection_fraction
# Comprovando a correlação, por exemplo, entre age e ejection_fraction, que está muito fraca
plt.scatter(dadosClinicos.age,dadosClinicos.ejection_fraction)
plt.xlabel("Idade")
plt.ylabel("Nível de sódio sérico no sangue (mEq / L)")
plt.title("Nível de sódio sérico no sangue (mEq / L)")

In [None]:
# Análise: idades x plaquetas
# Comprovando a correlação, por exemplo, entre age e plaquetas, que está muito fraca
plt.scatter(dadosClinicos.age,dadosClinicos.platelets)
plt.xlabel("Idade")
plt.ylabel("Plaquetas (mg/mL) no sangue)")
plt.title("Nível Plaquetas (mg/mL) no sangue por idade")

In [None]:
# Análise: idades x serum_creatinine
# Comprovando a correlação, por exemplo, entre age e serum_creatinine, que está muito fraca
plt.scatter(dadosClinicos.age,dadosClinicos.serum_creatinine)
plt.xlabel("Idade")
plt.ylabel("Plaquetas (mg/mL) no sangue)")
plt.title("Nível serum_creatinine'enzima CPK' (mg/mL)  por idade")

In [None]:
# Análise: idades x serum_sodium 
# Comprovando a correlação, por exemplo, entre age e serum_creatinine, que está muito fraca
plt.scatter(dadosClinicos.age,dadosClinicos.serum_sodium)
plt.xlabel("Idade")
plt.ylabel("Porcentagem de Serum_sodium no sangue")
plt.title("Nível serum_sodium por idade")

In [None]:
# Contar quantos tem anaemia categorizando por sexo
anaemia_map = {0: 'Não tem', 1: 'Tem'}
sns.factorplot('anaemia',data = dadosClinicos, kind='count',hue = 'sex').set_xticklabels(anaemia_map.values())
plt.ylabel('Quantidade')
plt.xlabel('Anaemia')
plt.title('Contagem de Pacientes Anémicos por Sexo')

In [None]:
# Contar quantos são diabéticos por sexo 
diabete_map = {0: 'Não tem', 1: 'Tem'}
sns.factorplot('diabetes',data = dadosClinicos, kind='count',hue = 'sex').set_xticklabels(diabete_map.values())
plt.ylabel('Quantidade')
plt.xlabel('Diabetes')
plt.title('Contagem de Pacientes Diabéticos por Sexo')

In [None]:
# Contagem de Pacientes Fumantes por Sexo
fumantes_map = {0: 'Não é fumante', 1: 'É fumante'}
sns.factorplot('smoking',data = dadosClinicos, kind='count',hue = 'sex').set_xticklabels(fumantes_map.values())
plt.ylabel('Quantidade')
plt.xlabel('Fumantes')
plt.title('Contagem de Pacientes Fumantes por Sexo')

In [None]:
# Contar quantos tem pressão alta por sexo
pressaoAltaouNao_map = {0: 'Não tem', 1: 'Tem pressão alta'}
sns.factorplot('high_blood_pressure',data = dadosClinicos, kind='count',hue = 'sex').set_xticklabels(pressaoAltaouNao_map.values())
plt.ylabel('Quantidade')
plt.xlabel('Pressão Alta')
plt.title('Contagem de Pacientes por Pressão Alta por Sexo')

In [None]:
# Contar quantos morreram baseado no sexo
morreramOuNao_map = {0: 'Não faleceu', 1: 'Faleceu'}
sns.factorplot('dieOrNot',data = dadosClinicos, kind='count',hue = 'sex').set_xticklabels(morreramOuNao_map.values())
plt.ylabel('Quantidade')
plt.xlabel('Falecimentos')
plt.title('Contagem de Órbitos por Sexo')

In [None]:
# Tempo médio de acompanhamento em dias por sexo (total)
tempoMediaAcompanhSexo = dadosClinicos.groupby(['sex']).mean()
squarify.plot(sizes=[tempoMediaAcompanhSexo.iloc[0].time,
                     tempoMediaAcompanhSexo.iloc[1].time], label=["Mulheres", "Homens"], 
              color=["red","green"], alpha=.2)
plt.title('Tempo Médio de Acompanhamento de Dias dos Pacientes')
plt.axis('off')
plt.show()
tempoMediaAcompanhSexo.time

In [None]:
# Tempo de acompanhamento em dias por faixa de idade
valorMin = dadosClinicos.age.min()
valorMax = dadosClinicos.age.max()
divParte = (valorMax - valorMin)/3
squarify.plot(sizes=[len(dadosClinicos[dadosClinicos['age'].between(valorMin,valorMin+divParte)]),
                     len(dadosClinicos[dadosClinicos['age'].between(valorMin+divParte,valorMin+(divParte*2))]),
                     len(dadosClinicos[dadosClinicos['age'].between(valorMin+(divParte*2),valorMax)])
                    ], 
              label=["Faixa etária 1 idade: %d a %d" %(valorMin,valorMin+divParte), 
                     "Faixa etária 2 idade: %d a %d" %(valorMin+divParte,valorMin+(divParte*2)),
                     "Faixa etária 3 idade: %d a %d" %(valorMin+(divParte*2),valorMax)], 
              color=["red","green","yellow"], alpha=.3)
plt.title('Tempo Médio de Acompanhamento de Dias dos Pacientes por Faixa Etária')
plt.axis('off')
plt.show()