# Diagnóstico de Doenças Cardiovasculares

Doença cardiovascular (DCV) é um termo genérico que designa todas as alterações patológicas que afetam o coração e/ou os vasos sanguíneos. No termo inclui-se a doença cardíaca coronária (doença que afeta os vasos sanguíneos que irrigam o coração), a hipertensão e a arteriosclerose. Um dos mais importantes fatores de risco de doença cardiovascular é a hipertensão (tensão arterial elevada).

Diversos fatores de risco estão associados ao desenvolvimento de DCV, os quais podem ser modificáveis ou não modificáveis. Os fatores modificáveis incluem hiperlipidemia, tabagismo, etilismo, obesidade, sedentarismo, má alimentação, etc; já os não modificáveis incluem fatores hereditários, idade, sexo e raça.

<center><img src="https://www.corporate.roche.pt/content/dam/rochexx/roche-pt/áreas-terapêuticas/imagens/Doenças%20cardiovasculares%20banners-8.png"></center>

### Uso de Machine Learning na Detecção de Doenças Cardiovasculares

Nos dias atuais, a implementação de técnicas computacionais na área da saúde tem se tornado cada vez mais intensa, com destaque para algoritmos de aprendizado de máquina e redes neurais artificiais. Fazendo-se uso de modelos matemáticos, é possível afirmar ou negar, a partir de um conjunto de dados clínicos, o grau de influência de determinados sintomas no desenvolvimento ou aparecimento de doenças.

Existem hoje várias pesquisas na área de Machine Learning visando a construção de modelos preditivos que ajudem os médicos a descobrirem doenças cardiovasculares em seus pacientes.

Estudos publicados na revista Nature Biomedical Engineering mostram que algoritmos de Deep Learning foram capazes de antecipar doenças cardíacas em até 5 anos.

Recentemente, cientistas da Google, em parceria com a Verily, usaram o Machine Learning para analisar um conjunto de dados com quase 300 mil pacientes, a fim de detectar doenças cardiovasculares analisando a parte de trás dos olhos. O algoritmo conseguiu 70% de acerto ao inferir quais pacientes haviam sofrido acidentes cardiovasculares, taxa essa apenas 2% menor em comparação aos métodos tradicionais que precisam de exames de sangue.




### Obtenção dos Dados

O conjunto principal de dados usado neste projeto foi coletado da ***Cleveland Clinic Foundation*** e se encontra disponível no conhecido [Repositório UCI *Machine Learning*](https://archive.ics.uci.edu/ml/datasets/heart+Disease). 

Com citado anteriormente, o conjunto de dados processado foi obtido através do Repositório UCI Machine Learning, ele contém dados de 303 pessoas divididos em 14 atributos.

### Importar os Dados

Em uma etapa inicial, importaremos o *dataset* associado ao estudo:

* Dados relacionados às doenças cardiovasculares (303 pessoas e 14 atributos);

In [1]:
# importar as bibliotecas necessárias

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [2]:
# url do dataset

data_uci = "heart_disease_uci.csv"

# importar dataset da UCI

df = pd.read_csv(data_uci)

### Informações sobre os atributos:

Abaixo, podemos visualizar as cinco primeiras linhas do dataset utilizado (head). E como isso verificar as informações dos atributos.


In [3]:
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0,0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0,2
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0,1
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0,0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0,0


* `age` - idade em anos
* `sex` - sexo do paciente
  * 0: mulher
  * 1: homem
* `cp` - tipo da dor torácica
  * 1: angina típica
  * 2: angina atípica
  * 3: dor não cardíaca
  * 4: assintomática
* `trestbps` - pressão arterial em repouso
* `chol` - colesterol sérico (*mg/dl*)
* `fbs` - açucar no sangue em jejum > 120*mg/dl*
  * 0: `False`
  * 1: `True`
* `restecg` - resultado do eletrocardiografia de repouso
  * 0: normal
  * 1: anormalidades de ST-T  (inversão da onda T e elevação ou depressão de > 0.05*mV*)
  * 2: hipertrofia ventricular esquerda provável ou definitiva (pelos critérios de Romhilt-Estes)
* `thalach` - frequência cardíaca máxima atingida
* `exang` - angina induzida pelo exercício
  * 0: não
  * 1: sim
* `oldpeak` - depessão do segmento ST induzida pelo exercício em relação ao repouso
* `slope` - inclinação do segmento ST no pico do exercício
* `ca` - número de vasos principais colorido por fluoroscopia
* `thal` - *thallium stress test*
  * 3: normal
  * 6: defeito fixo
  * 7: defeito reversível
* `num` - diagnóstico de doença cardíaca (diagnóstico angiográfico)
  * 0: não há doença cardíaca ( < 50% de estreitamento do diâmetro)
  * 1,2,3,4: há doença cardíaca ( > 50% de estreitamento do diâmetro)

Uma observação a ser considerada, olhando o atributo `num`, percebemos que os valores compreendidos entre 1-4 possui a mesma característica (há doença cardíaca). Desta forma iremos considerar apenas duas situações possíveis:

* **0** - não há doença cardíaca
* **1** - há doença cardíaca

Então, iremos igualar a 1 os valores compreendidos entre 1-4.

In [4]:
# variável alvo antes

df.num.value_counts()

0    164
1     55
2     36
3     35
4     13
Name: num, dtype: int64

In [5]:
# converter valores >= 1 em 1

df.loc[df.num != 0, 'num'] = 1

In [6]:
# variável alvo depois

df.num.value_counts()

0    164
1    139
Name: num, dtype: int64

### Análise Exploratória dos Dados

**Tamanho do df (shape), os tipos de variáveis que estamos trabalhando (dtypes) e analisar se não apresenta dados ausentes (NAN).**


In [7]:
df.shape

(303, 14)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    float64
 1   sex       303 non-null    float64
 2   cp        303 non-null    float64
 3   trestbps  303 non-null    float64
 4   chol      303 non-null    float64
 5   fbs       303 non-null    float64
 6   restecg   303 non-null    float64
 7   thalach   303 non-null    float64
 8   exang     303 non-null    float64
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    float64
 11  ca        303 non-null    float64
 12  thal      303 non-null    float64
 13  num       303 non-null    int64  
dtypes: float64(13), int64(1)
memory usage: 33.3 KB


Utilizando `df.shape` ou `df.info()` podemos ver 303 entradas e 14 colunas. De acordo com os dados não apresenta valores ausentes. Da coluna *0* á *12* são dados do tipo `float64` ou seja, números que apresentam casas decimais e a coluna *13* é do tipo `int64` ou seja, número inteiro.

In [9]:
# Valores ausentes

df.isnull().sum()

age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          0
thal        0
num         0
dtype: int64

Utilizando `df.isnull().sum()` podemos confirmar que todas as colunas não apresentam dados ausentes.

In [10]:
df.dtypes

age         float64
sex         float64
cp          float64
trestbps    float64
chol        float64
fbs         float64
restecg     float64
thalach     float64
exang       float64
oldpeak     float64
slope       float64
ca          float64
thal        float64
num           int64
dtype: object

Da mesma forma, para confirmação do tipos de dados que estamos trabalhando, através do `df.types` podemos verificar esta informação.

**Análise estatística geral do df (describe)**

In [11]:
df.describe()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,num
count,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0,303.0
mean,54.438944,0.679868,3.158416,131.689769,246.693069,0.148515,0.990099,149.607261,0.326733,1.039604,1.60066,0.663366,4.722772,0.458746
std,9.038662,0.467299,0.960126,17.599748,51.776918,0.356198,0.994971,22.875003,0.469794,1.161075,0.616226,0.934375,1.938383,0.49912
min,29.0,0.0,1.0,94.0,126.0,0.0,0.0,71.0,0.0,0.0,1.0,0.0,3.0,0.0
25%,48.0,0.0,3.0,120.0,211.0,0.0,0.0,133.5,0.0,0.0,1.0,0.0,3.0,0.0
50%,56.0,1.0,3.0,130.0,241.0,0.0,1.0,153.0,0.0,0.8,2.0,0.0,3.0,0.0
75%,61.0,1.0,4.0,140.0,275.0,0.0,2.0,166.0,1.0,1.6,2.0,1.0,7.0,1.0
max,77.0,1.0,4.0,200.0,564.0,1.0,2.0,202.0,1.0,6.2,3.0,3.0,7.0,1.0


**Quantificação dos valores "não há doença cardíaca" (0) e "há doença cardíaca" (1) existem no *dataset* (value_counts)**


In [12]:
df.value_counts(['num'])

num
0      164
1      139
dtype: int64

## Utilizando Machine Learning na previsão de Doenças Cardiovasculares

Para iniciar, precisamos dividir o DataFrame em *Features* que corresponde da coluna 0 `age` até a coluna 12 `thal` e *Target* que corresponde a coluna `num`. Para isso criamos duas variáveis X e y. 

In [13]:
X = df.drop(columns='num', axis=1)
y = df['num']

In [15]:
# DataFrame contendo somente as colunas features no qual servirá para prever doença cardiovasculares.
display(X)

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63.0,1.0,1.0,145.0,233.0,1.0,2.0,150.0,0.0,2.3,3.0,0.0,6.0
1,67.0,1.0,4.0,160.0,286.0,0.0,2.0,108.0,1.0,1.5,2.0,3.0,3.0
2,67.0,1.0,4.0,120.0,229.0,0.0,2.0,129.0,1.0,2.6,2.0,2.0,7.0
3,37.0,1.0,3.0,130.0,250.0,0.0,0.0,187.0,0.0,3.5,3.0,0.0,3.0
4,41.0,0.0,2.0,130.0,204.0,0.0,2.0,172.0,0.0,1.4,1.0,0.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,45.0,1.0,1.0,110.0,264.0,0.0,0.0,132.0,0.0,1.2,2.0,0.0,7.0
299,68.0,1.0,4.0,144.0,193.0,1.0,0.0,141.0,0.0,3.4,2.0,2.0,7.0
300,57.0,1.0,4.0,130.0,131.0,0.0,0.0,115.0,1.0,1.2,2.0,1.0,7.0
301,57.0,0.0,2.0,130.0,236.0,0.0,2.0,174.0,0.0,0.0,2.0,1.0,3.0


In [16]:
# Dataframe contendo a varíavel target no qual servirá de comparação para a previsão.
display(y)

0      0
1      1
2      1
3      0
4      0
      ..
298    1
299    1
300    1
301    1
302    0
Name: num, Length: 303, dtype: int64

In [17]:
# importar as bibliotecas necessárias para aplicação do modelo de Machine Learning

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

**Dados de treino e teste**

Quando separamos uma base de dados para modelagem, o primeiro passo é a divisão da base em *treino* e *teste*.

In [18]:
# Dividindo os dados: Training data & Test data

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=2)

In [25]:
# Visualizando quantidade de dados da divisão train_test
print(f'Total (100%): {X.shape} \nTreino (80%): {X_train.shape} \nTeste (20%): {X_test.shape}')

Total (100%): (303, 13) 
Treino (80%): (242, 13) 
Teste (20%): (61, 13)


**Modelo de Machine Learning**

Algoritmos de classificação, são análises supervisionada e referem-se a situações onde a variável-alvo é dividida em classes.

A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.

Variável categórica: 0 --> não ter doença cardiovascular e 1 --> ter doença cardiovascular

In [26]:
# Logistic Regression

model = LogisticRegression()

In [27]:
# Treinando o modelo de regressão logística com os dados de treinamento

model.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

Obs.: é importante que tenhamos dados suficientes para treinar o modelo.


**Avaliação do modelo**

Acurácia mede a porcentagem geral de acertos do modelo, independente da classe que foi previsto, no caso de uma
classificação binária pode ser sim ou não. Neste caso, o valor previsto será comparado com os valores originais, 

In [36]:
# Avaliação do modelo (accuracy on training data)

X_train_prediction = model.predict(X_train)
training_data_accuracy = accuracy_score(X_train_prediction, y_train)

In [37]:
print(f'Acurácia dos dados de treino: {training_data_accuracy*100:.2f}%')

Acurácia dos dados de treino: 85.54%


In [38]:
# Avaliação do modelo (accuracy on test data)

X_test_prediction = model.predict(X_test)
test_data_accuracy = accuracy_score(X_test_prediction, y_test)

In [39]:
print(f'Acurácia dos dados de teste: {test_data_accuracy*100:.2f}%')

Acurácia dos dados de teste: 83.61%


**Construção de um modelo preditivo**

Para a previsão de ter ou não doença Cardiovascular, através de uma variável `dados de entrada` colocamos todas as *features* para que o modelo treinado faça a verificação.

In [46]:
dado_entrada = (58.0,1.0,2.0,120.0,284.0,0.0,2.0,160.0,0.0,1.8,2.0,0.0,3.0,)

# Alterando os dados de entrada para formato numpy_array

dado_entrada_np = np.asarray(dado_entrada)

# Remodelando numpy_array, importante para que o modelo consiga prever as features de apenas um dado.

dado_entrada_np_r = dado_entrada_np.reshape(1,-1)

prediction = model.predict(dado_entrada_np_r)

if prediction[0] == 0:
    print("A pessoa não têm doença Cardiovascular.")
else:
    print("A pessoa têm doença Cardiovascular.")

A pessoa não têm doença Cardiovascular.


### Conclusão

De acordo com os estudos apresentados, existem algumas características fisiológicas com que a pessoa adquira problemas cardiovasculares. 

Inicialmente utilizando pacotes do `pandas`. Ele é quem determina funções para trabalhar com base de dados. Para importar a base para o projeto, fazer uma análise exploratória, conhecer a base de dados, feature engineering, etc. Ou seja, é um pacote muito robusto e o mais utilizado em Data Science.

Em um segundo momento do projeto, buscamos treinar um modelo para que utilizando estas informações como *features* faça uma previsão para os próximos dados inseridos. E de acordo com a acurácia: dados de treino: 85.54% e dados de teste: 83.61% é um valor aceitável para que possamos gerar o modelo preditivo. 

Provavelmente há espaço para melhorias adicionais visto que temos que ter o cuidado sobre dois termos importantes no *Machine Learning model* que é:
* Overfitting: captura de padrões espúrios que não se repetirão no futuro, levando a previsões menos precisas;

* Underfitting: falha em capturar padrões relevantes, novamente levando a previsões menos precisas;

No mais, espero que este projeto sirva de estudos e base para análises e construções futuras.

