# Data Science Aplicada à Área de Saúde

Análisando Dados de AVC

O Acidente Vascular Cerebral (AVC) acontece quando vasos que levam sangue ao cérebro entopem ou se rompem, provocando a paralisia da área cerebral que ficou sem circulação sanguínea. É uma doença que acomete mais os homens e é uma das principais causas de morte, incapacitação e internações em todo o mundo.

Quanto mais rápido for o diagnóstico e o tratamento do AVC, maiores serão as chances de recuperação completa. Desta forma, torna-se primordial ficar atento aos sinais e sintomas e procurar atendimento médico imediato.

Existem dois tipos de AVC, que ocorrem por motivos diferentes: AVC hemorrágico e AVC isquêmico.

O que é um AVC isquêmico

O AVC isquêmico ocorre quando há obstrução de uma artéria, impedindo a passagem de oxigênio para células cerebrais, que acabam morrendo. Essa obstrução pode acontecer devido a um trombo (trombose) ou a um êmbolo (embolia). O AVC isquêmico é o mais comum e representa 85% de todos os casos.

O que é um AVC hemorrágico

O AVC hemorrágico ocorre quando há rompimento de um vaso cerebral, provocando hemorragia. Esta hemorragia pode acontecer dentro do tecido cerebral ou na superfície entre o cérebro e a meninge. É responsável por 15% de todos os casos de AVC, mas pode causar a morte com mais frequência do que o AVC isquêmico.

Quais os principais fatores de risco para desenvolver um AVC?

Existem diversos fatores que aumentam a probabilidade de ocorrência de um AVC, seja ele hemorrágico ou isquêmico. Os principais fatores causais das doenças são:

- Hipertensão;
- Diabetes tipo 2;
- Colesterol alto;
- Sobrepeso;
- Obesidade;
- Tabagismo;
- Uso excessivo de álcool;
- Idade avançada;
- Sedentarismo;
- Uso de drogas ilícitas;
- Histórico familiar;
- Ser do sexo masculino.

O AVC está altamente relacionado à idade, hipertensão, nível médio de glicose, status de tabagismo e IMC, enquanto isso depende parcialmente do sexo, doença cardíaca, tipo de trabalho e tipo de residência.

### Carregando os Dados

In [2]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [3]:
# Carregando os dados
url = 'https://raw.githubusercontent.com/Py013/Open-Data-Day-2020/master/dataset-data-munging-01.csv'
dataset = pd.read_csv(url,index_col=0,parse_dates=[0])
#dataset = pd.read_csv('dataset-data-munging-01.csv')

In [4]:
# Formato dos dados
dataset.shape

(43400, 11)

In [None]:
# Visualizando os primeiros registros
dataset.head(5)

In [None]:
# Tipos dos dados
dataset.dtypes

In [None]:
dataset['avc'].value_counts()

### Identificando e Removendo Colunas Irrelevantes

O AVC está altamente relacionado à idade, hipertensão, nível médio de glicose, status de tabagismo e IMC, enquanto isso depende parcialmente do sexo, doença cardíaca, tipo de trabalho e tipo de residência.

In [None]:
# Excluímos a coluna id porque esse é apenas um número atribuído a cada paciente sem relevância 
# com acidente vascular cerebral.
del dataset['id']

In [None]:
# Excluímos a coluna "casado", já que não parece ser um bom identificador para prever um avc, 
# algumas pessoas gostam de se casar, outras não, o que pode resultar em hipertensão ou vida estressada.
del dataset['casado']

In [None]:
# Coletando estatísticas das colunas (Quantitativas)
dataset.describe()

In [None]:
# Extraindo variáveis do tipo categóricas
dfcatname = dataset.dtypes[dataset.dtypes == 'object'].index
dfcatname

In [None]:
# Extraindo variáveis do tipo numéricas contínuas
dfconname = [item for item in list(dataset.columns) if item not in list(dfcatname)]
dfconname

In [None]:
# Descrevendo as variáveis categóricas
dataset[dfcatname].describe()

### Tratamento de Valores Missing no IMC

In [None]:
# Coletando estatísticas das colunas
dataset.describe()

In [None]:
# Descrevendo a coluna IMC
dataset['imc'].describe()

In [None]:
# Checando por valores missing
dataset['imc'].isnull().sum() 

Uma maneira de tratar um valor ausente é simplesmente remover o registro completo, e em nosso exemplo teríamos que remover 1462/43400 o que é um número relativamente pequeno.

Outra solução quando trabalhamos com variáveis numéricas é imputar zero, valores centrais ou estatisticamente estimados, no lugar de NAN.

Para verificar se podemos atribuir valor central, vamos plotar o histograma.

In [None]:
dataset.hist(column = 'imc', figsize=(9,6), bins=20)

Vê-se no histograma que o valor de IMC entre 20 e 40 é o mais comum, portanto, não é totalmente irracional utilizá-lo no lugar de valores missing.

Vamos imputar a tendência central (média) no lugar de valores ausentes.

In [None]:
# Gera o novo imc
# Onde for nulo, preenche com a média, senão, mantemos o valor atual.
novo_imc = np.where(dataset['imc'].isnull(), dataset['imc'].mean(), dataset['imc'])

In [None]:
novo_imc

In [None]:
# Grava o novo valor do imc no dataset
dataset['imc'] = novo_imc

In [None]:
dataset['imc'].describe()

In [None]:
# Checando o histograma
dataset.hist(column = 'imc', figsize=(9,6), bins=20)

### Tratamento de Valores Missing no Status de Tabagismo

In [None]:
# Descrevendo as variáveis categóricas
dataset[dfcatname].describe()

In [None]:
dataset['status_tabagismo'].describe()

In [None]:
dataset['status_tabagismo'].isnull().sum() 

In [None]:
dataset['status_tabagismo'].value_counts().plot(kind='bar')

Vamos preencher os valores missing com uma nova categoria chamada "desconhecido".

In [None]:
novo_status_tabagismo = np.where(dataset['status_tabagismo'].isnull(), "desconhecido", dataset['status_tabagismo'])

In [None]:
dataset['status_tabagismo'] = novo_status_tabagismo

In [None]:
dataset['status_tabagismo'].value_counts().plot(kind='bar')

In [None]:
dataset.count()

### Tratamento de Outliers

In [None]:
dataset[dfconname].head(3)

In [None]:
#Variável Idade
dataset[dfconname[0]].describe()

In [None]:
#Variável Nivel de GLicose
dataset[dfconname[3]].describe()

In [None]:
#Variável IMC
dataset[dfconname[4]].describe()

### Box-plot 

Grafico que é utilizado para verificar a variação de dados observados de uma variável numérica

In [None]:
from IPython.core.display import Image, display
display(Image('box_plot1.png'))

In [None]:
# Verificando outliers para recursos numéricos em nosso conjunto de dados.
# Variável media_nivel_glicose
dataset[dfconname[3]].plot(kind="box", figsize=(9,9))

In [None]:
# Removendo outliers
index1 = np.where(dataset["media_nivel_glicose"] == max(dataset["media_nivel_glicose"]) )

In [None]:
dataset.loc[index1]

In [None]:
dataset = dataset.drop(index1[0])

In [None]:
# Verificando outliers para recursos numéricos em nosso conjunto de dados
dataset[dfconname[3]].plot(kind="box", figsize=(9,9))

In [None]:
# Verificando outliers para recursos numéricos em nosso conjunto de dados.
# Variável imc
dataset[dfconname[4]].plot(kind="box", figsize=(9,9))

In [None]:
index2 = np.where(dataset["imc"] == max(dataset["imc"]) )

In [None]:
dataset.loc[index2]

O valor do IMC pode chegar ao máximo de até 54, o que também é um caso muito raro, mas nosso conjunto de dados tem alguns valores maiores que 54, que também atuam apenas como outliers, eu prefiro removê-los mantendo a margem. Isso não afetará os dados, e os manterão realistas.

In [None]:
dataset = dataset[dataset['imc'] < 60]

In [None]:
# Verificando outliers para recursos numéricos em nosso conjunto de dados.
# Variável imc
dataset[dfconname[4]].plot(kind="box", figsize=(9,9))

In [None]:
dataset.count()

In [None]:
dataset.describe()

In [None]:
dataset.head()

In [None]:
dataset['avc'].value_counts()

In [None]:
##Análise das pessoas que tiveram AVC
#dataset_avc = dataset[dataset['avc'] == 1]
#dataset_avc.shape

##Por tipo de residência 
#print(dataset_avc['tipo_residencia'].value_counts())
#dataset_avc['tipo_residencia'].value_counts().plot(kind="bar")

##Por Sexo
#print(dataset_avc['sexo'].value_counts())
#dataset_avc['sexo'].value_counts().plot(kind="bar")

##Por Status Tabagismo
#print(dataset_avc['status_tabagismo'].value_counts())
#dataset_avc['status_tabagismo'].value_counts().plot(kind="bar")

##Por hipertensão 
#print(dataset_avc['hipertensao'].value_counts())
#dataset_avc['hipertensao'].value_counts().plot(kind="bar")

In [None]:
#Comparação da Glicose entre pessoas que tiveram e não tiveram AVC

plt.figure(figsize=(4,8))
sns.boxplot(x="avc", y="media_nivel_glicose", data=dataset, linewidth=2.5)
plt.show()

In [None]:
plt.figure(figsize=(4,8))
sns.boxplot(x="avc", y="imc", data=dataset, linewidth=2.5)
plt.show()

In [None]:
plt.figure(figsize=(4,8))
sns.boxplot(x="avc", y="idade", data=dataset, linewidth=2.5)
plt.show()

In [None]:
dataset.head(5)